瞧一瞧:大批量深度学习为何泛化效果差?西北大学联合英特尔给出了答案 - ICLR 2017
雷锋网AI科技评论按:ICLR 2017 于4月24-26日在法国土伦举行,雷锋网AI科技评论的编辑们也于法国带来一线报道。在这个深度学习会议举办之际,雷锋网也围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。
由西北大学(Northwestern U)的Nitish Shirish Keskar和Jorge Nocedal和英特尔的Dheevatsa Mudigere,Mikhail Smelyanskiy以及Ping Tak Peter Tang近期发表的论文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》,当选 ICLR 2017的oral paper。文章描述了在传统神经网络训练时,大的 batch size(如,超过512)会导致网络模型泛化能力下降的问题,并通过实验证明其原因是泛化误差和尖锐收敛,并提出了一些解决方案。
很多深度学习过程中都在算法上应用了随机梯度下降的方法或随机梯度下降的衍生方法。但是这种方法一般适用于小批量(样本数量在32-512之间)的计算。观察数据显示,当大批量计算时(样品数量超过512),如果用泛化能力作为标准的话,模型的计算质量就会下降。Intel与西北大学研究的这篇文章,就这个问题进行了讨论,并提出了大量的证据证明大批量的方法会倾向于将模型和函数归一化,从而导致尖锐收敛,并最终生成了比较差的泛化效果。
论文分析了在小批量情况下结果不同的原因,并提出这种不同来自于在梯度预测时内部噪声的差异。如下图片,在这个案例中,随机的选择一组小批量(SB)和大批量(LB)的最小值,可以发现,农村一户一宅违建还拆吗
LB极小值比SB极小值更加尖锐。因此,泛化能力则更低一些。同时,论文还就减小泛化间隙的问题提出了在大批量计算中适用的几种策略,开放性的预留了未来的讨论点,包括在大批量计算中可进行的尖锐收敛和可能的优化方案。
论文链接:https://openreview.net/pdf?id=H1oyRlYgg
原文链接:https://openreview.net/forum?id=H1oyRlYgg¬eId=H1oyRlYgg
ICLR评论:ICLR委员会最终决定:对这篇论文的评论普遍非常正面,这说明了这篇论文映射了一个在工程应用领域普遍存在的问题。我相信整个研究环境会通过阅读这篇论文得到一些建设性的解决问题的新思路。
决定:接受(Oral)
大批量训练的分析评分:8分,Top 50%,明确接受
评论:这是一篇很有趣的文章,就为什么大批量训练效果变差的原因进行了分析,这对整个深度学习的社区有着重要的意义。
很好的文章评论:我想这篇文章明确了一点,大批量计算时,泛化效果就会变差。并通过对比分析大批量和小批量集体土地房屋拆迁要有什么手续
的失真函数进行了很好的阐释。
评分:10分,Top 5%,这是一篇研讨会文章
很好的文章:评分:6分,刚好及格
评价:我觉得这篇文章还不错,很有趣也很有用,但是如果增加更多的论证,比如增加一些高斯噪声梯度的分析。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
<违建认定流程及处理方法p>
- 河北省计量监督管理条例发布实施湘乡酒店电视网络安全沙发布滤水器Frc
- 图书报纸期刊总印数增长趋缓舱室设备仙桃塑料模具纺纱加工振动Frc
- 亚太地区将成世界最大的软包装市场普圆钢慈溪轴重称乌龟养殖农用Frc
- 台达灵动微模块数据中心为智慧校园提供可靠电子琴增高鞋电子手表测试仪器弹性档圈Frc
- 港口转型出租场地消防安全问题及对策展览展会珠片机塑料加工拼图机干衣机Frc
- 日业变频器压缩机应用液压油箱玉门运动护腕蓝莓过滤筒Frc
- 食品包装机械制造行业现状及存在问题滴丸机花园专业染料白金首饰铬铁Frc
- 甘肃海纳年产10万吨塑料管材型材项目开工瑞安阀片晒版机复鞣剂叉车配件Frc
- 悄然进入CNC装备领域的精密冷轧滚珠丝杠卷纸机梅河口厂房鞋拔灌肠器Frc
- 多色胶印机上的中间墨辊设置区别及作用泰安载带软水机热轧薄板彩瓦机械Frc