实验理论
共轭梯度法
共轭梯度法用于求解一类特殊但十分常见的线性方程组:
Ax=b
其中 A∈RN×N,x,b∈RN。A 是给定的对称正定(Symmetric Positive Definite,SPD)的实系数方阵,b 是已知的向量,x 是需要求解的向量。
共轭梯度法用于求解一类特殊但十分常见的线性方程组:
Ax=b
其中 A∈RN×N,x,b∈RN。A 是给定的对称正定(Symmetric Positive Definite,SPD)的实系数方阵,b 是已知的向量,x 是需要求解的向量。
毕业了终于有空来一个个地填博客的坑了。毕业论文无疑是决定能否毕业的关键,要是正好碰上比较水的老师,毕业论文可以说是唯一需要花时间的东西,老师根本不会在意你的实验结果。有一句话这么说,每年国内高校的毕业论文最大的作用是培养了一批了解基本的排版常识、熟悉日常办公软件(Word、Excel、PowerPoint)基本操作的「大学生」。由于我选择了使用 LATEX,在魔改现有模板的过程中,也极大地提高了我使用 LATEX 的能力。
注意:此页面已经严重过时,不适用于 PyTorch 0.4 及之后的版本,有待修改。
最近在复现一些比较新的 Paper,里面的神经网络模型都比较多样化,训练方式也千奇百怪。对于 Caffe 和 TensorFlow 这样的预编译框架,不灵活这一缺陷就变得十分明显了。
而这方面正是 PyTorch 的强项,它是一个非常 Pythonic 的深度学习框架,一切的操作(包括模型的定义、训练、测试)都十分地符合 Python 的简单的哲学,可以非常轻松快速地构建出一个十分怪异的模型,非常适合科研人员。
爱情观这种东西,大概是会随着时间的行进而呈现不同的形态的吧。所以我认为本文只是我这几个月的 checkpoint ,不能保证它的时效性。当然以上观点也是如此。
Architecture
图片的输入尺寸是 224×224×3 ,在预处理阶段,每个像素都要减去训练集中所有图片 RGB 值的均值。这样可以保证新的 RGB 值的均值为 0 。
卷积核的尺寸设置为 3×3 ,或者 1×1 。其中图片经过尺寸为 1×1 的卷积核可以看作是在做一个线性变换。
Stride 设置为 1 。Padding 的设置可以让图像经过卷积层之后尺寸不变,也就是说当卷积核尺寸是 3×3 的时候,Padding 设置为 1 。
池化操作采用的是 Max-Pooling,尺寸是 2×2 ,Stride 是 2 ,也就是说不像 AlexNet 那样是重叠的。
没有使用 LRN(Local Response Normalization),因为实验结果表明,LRN 没有改善深度神经网络的表现,反而增加了很多的计算量和计算时间。
f(x)=max(0,x)
考虑到梯度下降的效率问题,传统的 sigmoid 和 tanh 激活函数的计算比较费时,而且要是每一层不做正则化的话,随着层数的增加,神经元的输出会越来越大,而这两个激活函数又是饱和的,导致激活后的输出差距不大,没有区分度。
而 ReLU 则比较简单,并且效果更好,不是饱和的激活函数,所以本文中选用的是 ReLUs 作为激活函数。
刚过了冬至,一早一晚还是有雨。
2017 的进度条已经走到了 99% ,今年的年终我又多了一份期待,因为今年年中发现了一个大神的博客,博客的技术文章虽然越来越少,但是每年跨年肯定不会缺席的是博主的年终总结。我从没有想过在少量的可支配的大学时光中找到如此多的乐趣,直到我一篇篇地把博主的年终总结读完。每次读完都有一种把他的年终总结当作我下一年的待办事项清单的想法。想再次感叹一句:真正厉害的人在某一领域取得出色的成绩并不是他适合那个领域,而是他恰好选择了那个领域。年底了,虽然达到大神那样的高度不太可能,但一篇年终总结还是能做到的,正好今年注定也是我人生中很重要的一年。
回顾之前的优化问题
原始问题为:
minw,b12||w||2s.t.y(i)(wTx(i)+b)≥1
回顾 SVM
hw,b=g(wTx+b)g(z)={1z≥0−1z<0y∈{−1,1}ˆγ(i)=y(i)(wTx+b)γ(i)=y(i)(wT||w||x+b||w||)ˆγ=miniˆγ(i)γ=miniγ(i)
事件模型
事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 k 个词,训练集一共有 m 封邮件,第 i 封邮件的词的个数为 ni ,则 x(i)∈1,2,⋯,kni 。
此时模型的参数为:
判别学习方法的主要思想是假设属于不同 target 的样本,服从不同的分布。
例如 P(x|y=0)∼N(μ1,σ21) , P(x|y=1)∼N(μ2,σ22) 。
Gaussian Discriminant Analysis(高斯判别分析)
在这里还是讨论 y∈0,1 的二元分类问题, P(y)=ϕy(1−ϕ)1−y。
Newton’s Method
根据之前的讨论,在 Logistic Regression 中的一些符号有:
P(y=1|x;Θ)=hΘ(x)=11+e−ΘTxP(y|x;Θ)=[hΘ(x)]y[1−hΘ(x)]1−yl(Θ)=logL(Θ)=m∑ilogP(y(i)|x(i);Θ)=m∑iy(i)log[hΘ(x(i))]+(1−y(i))log[1−hΘ(x(i))]
For simplicity, LetA,B,C∈Rn×n.
Fact.1:If a∈R,tra=a