0%

Machine-Learning-Note6

过拟合问题

线性回归、逻辑回归(分类):

欠拟合—有高偏差

过度拟合—具有高方差,变量太多,过度拟合数据而无法泛华

解决过拟合方法:

人工减少变量数量,或使用模型选择算法(自动),缺点:舍弃了一部分信息

选择正则化,减少量级,保留所有特征变量

####正则化

加入惩罚,扩大参数值的影响,参数会尽可能小,使模型简化。

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)} )^2+1000\theta_3^2+1000\theta_4^2$

在实际问题中很难判断哪些特征比较重要, 所以在正则化中,对每一个参数(除了第一个)参数进行惩罚, 将代价函数改为:

$J(\theta)=\frac{1}{2m}\left[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)} )^2+\lambda\sum_{i=1}^n\theta_j^2\right]$

$\lambda$叫做正则化参数(Regularization Parameter).$\lambda$的作用就是在”更好地拟合数据”和”防止过拟合”之间权衡。惩罚程度过大,会导致欠拟合。

正则化线性回归

梯度下降

$\theta=(X^TX+\lambda\begin{bmatrix} 0&0&0&0&…&0\ 0&1&0&0&…&0\ 0&0&1&0&…&0\ 0&0&0&1&…&0\ 0&0&0&0&…&0 \ 0&0&0&0&…&1 \end{bmatrix})^{-1}X^Ty$

对于正则化后的正规方程, 只要λ>0λ>0, 括号里的那一项总是可逆的。

改进梯度算法和高级算法,以应用到正则化逻辑回归中。