第二章 模型评估与选择
重要概念
错误率(error rate):分类错误的样本数占样本总数的比例E=a/m
精度(accuracy):精度=1-错误率
训练误差(training error)或经验误差(empirical error):学习器在训练集上的误差
泛化误差(generalization error):在新样本上的误差
评估方法
对D进行适当的处理,使其产生训练集S和测试集T
- 留出法(hold-out)
将数据集D直接划分为互斥的两个集合一个为训练集合S一个为测试集合T
训练/测试集合的划分要尽可能保持数据的一致性
分层采样(stratified sampling):保留类别比例的采样
在使用留出发时:采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
缺点:S与T大小的划分造成的问题,理论上S越大和D越接近,但T小评估结果不稳定准确。常见做法S为2/3或4/5 - 交叉验证法(cross validation)
将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性。每次用k-1个子集的并集作为训练集。剩下的那个作为测试集,所以可以有k组训练/测试集,最后的结果是k次结果的平均值。
使用时:随机划分p次,计算p次k折交叉验证的平均值 - 自助法(bootstrappig)
给定数据集D,然后在D中选m个样本。抽到之后又放回D相当于每次都是从D中抽取一个,抽取m次。那么一个样本始终不被抽到的概率为(1-1/m)的m次方。取极限为1/e约等于0.368,则在D中有百分之36.8的样本未出现在采样数据集D飘中。改变了初始数据集的分布,会引入估计偏差。
概率密度函数:在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。 而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。 当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。
性能度量
1.错误率和精度
错误率和精度定义为:
$$
E(f ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)
$$
$$
\begin{aligned} \operatorname{acc}(f ; D) &=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right)=y_{i}\right) \\ &=1-E(f ; D) \end{aligned}
$$
$$
如果给出数据分布\mathcal{D}和概率密度函数p(\cdot),错误率和精度可以分别描述为
$$
$$
E(f ; \mathcal{D})=\int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}(f(\boldsymbol{x}) \neq y) p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x}
$$
$$
\begin{aligned} \operatorname{acc}(f ; \mathcal{D}) &=\int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}(f(\boldsymbol{x})=y) p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \\ &=1-E(f ; \mathcal{D}) \end{aligned}
$$
2.查准率(precision)、查全率(recall)与F1
分类结果混淆矩阵
查准率与查全率分别定义为:
$$
P=\frac{T P}{T P+F P}
$$
$$
R=\frac{T P}{T P+F N}
$$
P-R曲线如下:
如果一个学习器的P-R曲线完全被另一个包住,那么后者的性能强于前者,如A强于C,如果有交叉则不好判断,可用的方法是求面积,由于不太好估算,则可以根据平衡点(break-event point简称BEP)查准率等于查全率的值如图A优于B。由于BEP还是过于简单,有F1度量,其定义为:
$$
F 1=\frac{2 \times P \times R}{P+R}
$$
F1度量的一般形式为:
$$
F_{\beta}=\frac{\left(1+\beta^{2}\right) \times P \times R}{\left(\beta^{2} \times P\right)+R}
$$
$$
\beta>0度量了查全率对查准率的相对重要性\beta=1退化为标准的F1度量
$$
$$
\beta>1查全率有更大的影响,\beta<1查准率有更大的影响
$$
当进行多次实验则有多个混淆矩阵,在n个混淆矩阵上综合考察查准率和查全率。一种直接的做法是直接计算出各个矩阵的查全率和查准率
$$
\left(P_{1}, R_{1}\right),\left(P_{2}, R_{2}\right), \ldots,\left(P_{n}, R_{n}\right)
$$
再计算平均值。这样计算的就是宏查全率(macro-R),宏查准率(macro-P),以及宏F1(macro-F1):
$$
\operatorname{macro}-P=\frac{1}{n} \sum_{i=1}^{n} P_{i}
$$
$$
\operatorname{macro}-F 1=\frac{2 \times \operatorname{macr} 0-P \times \operatorname{macr} 0-R}{\operatorname{macro}-P+\operatorname{macr} 0-R}
$$
$$
\operatorname{macro}-R=\frac{1}{n} \sum_{i=1}^{n} R_{i}
$$
还可以对各混淆矩阵的对应元素进行平均,得到TP,FP,TN,FN的平均值,分别记为
$$
\overline{T P}, \overline{F P}, \overline{T N}, \overline{F N}
$$
再基于这些平均值计算出微查准率(micro-P),微查全率(micro-R),微F1(micro-F1)
$$
\operatorname{micro}-P=\frac{\overline{T P}}{\overline{T P}+\overline{F P}}
$$
$$
\operatorname{micro}-R=\frac{\overline{T P}}{\overline{T P}+\overline{F N}}
$$
$$
micro-F1 =\frac{2 \times \text { micro- } P \times \text { micro }-R}{\operatorname{micro}-P+\operatorname{micro}-R}
$$
3.ROC与AUC
ROC曲线:根据学习器的预测结果对样例进行排序,按此顺序逐个把样品作为正例进行预测,每次计算出两个重要的值,分别以他们为横纵坐标作图。所以ROC曲线的纵轴是真正确率(TPR),横轴是假正确率(FPR)。
在现实中,由于只能利用有限的测试样本来绘制ROC曲线,所以只能画出(b)图所示的近似曲线。AUC(Area Under ROC Curve)为ROC曲线的面积。面积大小可用来表示学习器的好坏。
假定ROC曲线是由坐标为:
$$
\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{m}, y_{m}\right)\right\}
$$
的点按序连接而形成,其中
$$
\left(x_{1}=0, x_{m}=1\right)
$$
则AUC可估算为:
$$
\mathrm{AUC}=\frac{1}{2} \sum_{i=1}^{m-1}\left(x_{i+1}-x_{i}\right) \cdot\left(y_{i}+y_{i+1}\right)
$$
排序loss为:
$$
\ell_{r a n k}=\frac{1}{m^{+} m^{-}} \sum_{x^{+} \in D^{+}} \sum_{x^{-} \in D^{-}}\left(\mathbb{I}\left(f\left(\boldsymbol{x}^{+}\right)<f\left(\boldsymbol{x}^{-}\right)\right)+\frac{1}{2} \mathbb{I}\left(f\left(\boldsymbol{x}^{+}\right)=f\left(\boldsymbol{x}^{-}\right)\right)\right)
$$
对应的是ROC曲线之上的面积