过拟合问题
线性回归、逻辑回归(分类):
欠拟合—有高偏差
过度拟合—具有高方差,变量太多,过度拟合数据而无法泛华
解决过拟合方法:
人工减少变量数量,或使用模型选择算法(自动),缺点:舍弃了一部分信息
选择正则化,减少量级,保留所有特征变量
####正则化
加入惩罚,扩大参数值的影响,参数会尽可能小,使模型简化。
$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)} )^2+1000\theta_3^2+1000\theta_4^2$
在实际问题中很难判断哪些特征比较重要, 所以在正则化中,对每一个参数(除了第一个)参数进行惩罚, 将代价函数改为:
$J(\theta)=\frac{1}{2m}\left[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)} )^2+\lambda\sum_{i=1}^n\theta_j^2\right]$
$\lambda$叫做正则化参数(Regularization Parameter).$\lambda$的作用就是在”更好地拟合数据”和”防止过拟合”之间权衡。惩罚程度过大,会导致欠拟合。
正则化线性回归
梯度下降
$\theta=(X^TX+\lambda\begin{bmatrix} 0&0&0&0&…&0\ 0&1&0&0&…&0\ 0&0&1&0&…&0\ 0&0&0&1&…&0\ 0&0&0&0&…&0 \ 0&0&0&0&…&1 \end{bmatrix})^{-1}X^Ty$
对于正则化后的正规方程, 只要λ>0λ>0, 括号里的那一项总是可逆的。
改进梯度算法和高级算法,以应用到正则化逻辑回归中。