training 过程中,分类问题用 cross entropy,回归问题用 mean squared error。
training 之后,validation / testing 时,使用 classification error,更直观,而且是我们最关注的指标。
分类问题,最后必须是 one hot 形式算出各 label 的概率, 然后通过 argmax 选出最终的分类。
在计算各个 label 概率的时候,用的是 softmax 函数。
如果用 MSE 计算 loss, 输出的曲线是波动的,有很多局部的极值点。 即,非凸优化问题 (non-convex)
cross entropy 计算 loss,则依旧是一个凸优化问题,
用梯度下降求解时,凸优化问题有很好的收敛特性。
21.4.9更新
https://zhuanlan.zhihu.com/p/35707643
https://zhuanlan.zhihu.com/p/24693332
https://zhuanlan.zhihu.com/p/58883095
http://blog.itpub.net/29829936/viewspace-2648298/
https://blog.csdn.net/Sungree/article/details/102953019?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_v2~rank_aggregation-1-102953019.pc_agg_rank_aggregation&utm_term=神经网络中的损失函数&spm=1000.2123.3001.4430