1. 基本形式
给定由\(d\)个属性描述的示例\(\boldsymbol{x}=(x_1;x_2;…;x_d)\),其中\(x_i\)是\(\boldsymbol{x}\)在第\(i\)个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即
\[f(\boldsymbol{x})=w_1x_1+w_2x_2+…+w_dx_d+b \tag{3.1}\]
一般用向量形式写成
\[f(\boldsymbol{x})=\boldsymbol{w}^T\boldsymbol{x}+b \tag{3.2}\]
其中\(\boldsymbol{w}=(w_1;w_2;…;w_d)\)。\(\boldsymbol{w}\)和\(b\)学得之后,模型就得以确定
2. 线性回归
给定数据集\(D={(\boldsymbol{x}_1,y_1), (\boldsymbol{x}_2,y_2),…,(\boldsymbol{x}_m,y_m)}\),其中\(\boldsymbol{x}_i=(x_{i1}, x_{i2},…,x_{id}), y_i\in\mathbb{R}\),"线性回归"(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。
我们先考虑一种最简单的情形:输入属性的数目只有一个。为便于讨论,此时我们忽略关于属性的下标,即\(D=\{(x_i,y_i)\}_{i=1}^m\),其中\(x_i\in\mathbb{R}\),对于离散属性,若属性值之间存在"序"(order)的关系,可通过连续化将其转化为连续值;若属性值间不存在序关系,假定有\(k\)个属性值,则通常转化为\(k\)维向量。
线性回归试图学得
\[f(x_i)=wx_i+b,使得f(x_i)\simeq{y_i} \tag{3.3}\]
均方误差是回归任务中最常用的性能度量,因此我们可以试图让均方误差最小化,即
\[\begin{align} (w^*,b^*) &= \mathop{\arg\min}_{(w,b)}\sum\limits_{i=1}^m(f(x_i)-y_i)^2\\ &= \mathop{\arg\min}_{(w,b)}\sum\limits_{i=1}^m(y_i-wx_i-b)^2 \tag{3.4} \end{align}\]
均方误差有非常好的几何意义,它对应了常用的欧几里得距离或简称"欧氏距离"(Euclidean distance),基于均方误差最小化来进行模型求解的方法称为"最小二乘法"(least square method)。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线的欧氏距离之和最小。
求解\(w\)和\(b\)使\(E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2\)最小化的过程,称为线性回归模型的最小二乘"参数估计"(parameter estimation)。我们可将\(E_{(w,b)}\)分别对\(w\)和\(b\)求导,得到
\[\frac{\partial{E_{(w,b)}}}{\partial{w}}=2\Bigg(w\sum\limits_{i=1}^nx_i^2-\sum\limits_{i=1}^m(y_i-b)x_i\Bigg) \tag{3.5}\]
\[\frac{\partial{E_{(w,b)}}}{\partial{b}}=2\Bigg(mb-\sum\limits_{i=1}^m(y_i-wx_i)\Bigg) \tag{3.6}\]
然后令式\((3.5)\)和\((3.6)\)为0,得到\(w\)和\(b\)的最优解的闭式(closed-form)解
\[w=\frac{\sum\limits_{i=1}^my_i(x_i-\bar{x})}{\sum\limits_{i=1}^mx_i^2-\frac{1}{m}(\sum\limits_{i=1}^mx_i)^2} \tag{3.7}\]
\[b=\frac{1}{m}\sum\limits_{i=1}^m(y_i-wx_i) \tag{3.8}\]
其中\(\bar{x}=\frac{1}{m}\sum\limits_{i=1}^mx_i\)为\(x\)的均值。
更一般的情形是数据集\(D\)由\(d\)个属性描述,此时我们试图学得
\[f(\boldsymbol{x}_i)=\boldsymbol{w}^T\boldsymbol{x}_i+b,使得f(\boldsymbol{x}_i)\simeq{y}_i\]
这称为"多元线性回归"(multivariate linear regression)
类似的可以用最小二乘法对\(\boldsymbol{w}\)和\(b\)进行估计,为便于讨论,我们把\(w\)和\(b\)吸收入向量形式\(\hat{\boldsymbol{w}}=(\boldsymbol{w};b)\),相应的,把数据集\(D\)表示为一个\(m\times(d+1)\)大小的矩阵\(\boldsymbol{X}\),其中每行对应一个示例,该行前\(d\)个元素对应于示例的\(d\)个属性值,最后一个元素恒置为1,即
\[\begin{equation} \boldsymbol{X} =\begin{pmatrix} x_{11}&x_{12}&\cdots&x_{1d}&1\\ x_{21}&x_{22}&\cdots&x_{2d}&1\\ \vdots& \vdots&\ddots&\vdots&\vdots\\ x_{m1}&x_{m2}&\cdots&x_{md}&1 \end{pmatrix} =\begin{pmatrix} \boldsymbol{x}_1^T&1\\ \boldsymbol{x}_2^T&1\\ \vdots&\vdots\\ \boldsymbol{x}_m^T&1 \end{pmatrix} \end{equation}\]
再把标记也写成向量形式\(y=(y_1;y_2;…;y_m)\),类似式\((3.4)\),有
\[\hat{\boldsymbol{w}}^*=\mathop{\arg\min}_{\hat{\boldsymbol{w}}}(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})^T(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}}) \tag{3.9}\]
令\(E_{\hat{\boldsymbol{w}}}=(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})^T(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})\),展开
\[E_{\hat{\boldsymbol{w}}}=(\boldsymbol{y}^T-\hat{\boldsymbol{w}}^T\boldsymbol{X}^T)(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})=\boldsymbol{y}^T\boldsymbol{y}-\hat{\boldsymbol{w}}^T\boldsymbol{X}^T\boldsymbol{y}-\boldsymbol{y}^T\boldsymbol{X}\hat{\boldsymbol{w}}+\hat{\boldsymbol{w}}^T\boldsymbol{X}^T\boldsymbol{X}\hat{\boldsymbol{w}}\]
由于
\[\frac{\partial{\boldsymbol{x}^Ta}}{\partial\boldsymbol{x}} = a \tag{3.9.1}\]
\[\frac{\partial{\boldsymbol{u}^T}\boldsymbol{v}}{\partial{\boldsymbol{x}}}=\frac{\partial{\boldsymbol{u}}}{\partial{\boldsymbol{x}}}\boldsymbol{v}+\frac{\partial{\boldsymbol{v}}}{\partial{\boldsymbol{x}}}\boldsymbol{u} \tag{3.9.2}\]
对\(\hat{\boldsymbol{w}}\)求导得到
\[\frac{\partial{E_{\hat{\boldsymbol{w}}}}}{\partial\hat{\boldsymbol{w}}}=0-\boldsymbol{X}^T\boldsymbol{y}-\boldsymbol{X}^T\boldsymbol{y}+(\boldsymbol{X}^T\boldsymbol{X}\hat{\boldsymbol{w}}+\boldsymbol{X}^T\boldsymbol{X}\hat{\boldsymbol{w}})=2\boldsymbol{X}^T(\boldsymbol{X}\hat{\boldsymbol{w}}-\boldsymbol{y}) \tag{3.10}\]
令上式为0可得\(\hat{\boldsymbol{w}}\)最优解的闭式解
当
此处\((\boldsymbol{X}^T\boldsymbol{X})^{-1}\)是矩阵\((\boldsymbol{X}^T\boldsymbol{X})\)的逆矩阵。