CS229 笔记 06

朴素贝叶斯

  • 事件模型

    事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 $k$ 个词,训练集一共有 $m$ 封邮件,第 $i$ 封邮件的词的个数为 $n_i$ ,则 $x^{(i)} \in {1,2,\cdots,k}^{n_i}$ 。

    此时模型的参数为:

    $$ \begin{eqnarray*} \phi_{k|y=0}&=&P(x_j=k|y=0)\\[1em] \phi_{k|y=1}&=&P(x_j=k|y=1)\\[1em] \phi_{y=0}&=&P(y=0)\\[1em] \phi_{y=1}&=&P(y=1)\\[1em] P(x,y)&=&\left(\prod_{j=1}^nP(x_j|y)\right)P(y) \end{eqnarray*} $$

神经网络

  • 简介

    这部分并没有详细讲。

支持向量机

  • 记号的声明

    $$ \begin{eqnarray*} x,W&\in&{\Bbb R}^n\\[1em] y&\in&\{-1,1\}\\[1em] b&\in&{\Bbb R}\\[1em] g(z)&=&\begin{cases}1&z\geq0\\[1em]-1&z<0\end{cases}\\[1em] h_{W,b}(x)&=&g(W^{\rm T}x+b) \end{eqnarray*} $$

    超平面 $(W,b)$ 与一个样本 $(x^{(i)},y^{(i)})$ 的 Functional Margin(函数间隔)$\hat{\gamma}^{(i)}$ 定义为:

    $$ \hat\gamma^{(i)}\xlongequal{def}y^{(i)}\left(W^{\rm T}x+b\right) $$

    超平面 $(W,b)$ 与整个训练集的函数间隔 $\hat{\gamma}$ 定义为:

    $$ \hat\gamma\xlongequal{def}\min_i\hat\gamma^{(i)} $$

    超平面 $(W,b)$ 与一个样本 $(x^{(i)},y^{(i)})$ 的 Geometric Margin(几何间隔)$\gamma^{(i)}$ 定义为样本 $(x^{(i)},y^{(i)})$ 与超平面 $(W,b)$ 之间的距离,则样本在超平面上的投影为:

    $$ x^{(i)}-\frac{W}{||W||}\gamma^{(i)} $$

    该点满足:

    $$ \begin{eqnarray*} W^{\rm T}\left(x^{(i)}-\frac{W}{||W||}\gamma^{(i)}\right)+b&=&0\\[1em] W^{\rm T}x^{(i)}+b&=&\frac{W^{\rm T}W}{||W||}\gamma^{(i)}\\[1em] W^{\rm T}x^{(i)}+b&=&||W||\gamma^{(i)}\\[1em] \gamma^{(i)}&=&\left(\frac{W}{||W||}\right)^{\rm T}x^{(i)}+\frac{b}{||W||}\\[1em] \end{eqnarray*} $$

    更一般地(为了考虑分类结果的正误),将几何间隔 $\hat\gamma^{(i)}$ 定义为:

    $$ \gamma^{(i)}\xlongequal{def}y^{(i)}\left[\left(\frac{W}{||W||}\right)^{\rm T}x^{(i)}+\frac{b}{||W||}\right] $$

    而一般会将参数 $||W||​$ 归一化使其等于 1,此时几何等于函数间隔:

    $$ \gamma^{(i)}\xlongequal{def}y^{(i)}\left(W^{\rm T}x+b\right) $$

    超平面 $(W,b)$ 与整个训练集的几何间隔 $\gamma$ 定义为:

    $$ \gamma\xlongequal{def}\min_i\gamma^{(i)} $$

    学习算法的目的就是最大化几何间隔。