#机器学习笔记 1

1 关于概念

1、模型:泛指从数据中学得的结果。有的文献中特指全局性结果,用“模式”指局部性结果

2、样本:数据集中关于一个事件或对象的描述,又称“示例”

3、属性/特征:反映事件或对象在某方面的表现或性质的事项

4、属性值:属性上的取值

5、属性空间/样本空间/输入空间:属性张成的空间

6、学习/训练:从数据中学得模型的过程

7、训练数据:训练过程中使用的数据

8、训练样本:训练数据中的每个样本

9、假设:学得的模型对应的关于数据的某种潜在的规律

10、真相/真实:潜在规律自身

11、标记:关于示例结果的信息

12、样例:拥有了标记信息的示例

13、标记空间/输出空间:所有标记的集合

14、分类:欲预测的是离散值的学习任务

15、回归:欲预测的是连续值的学习任务

16、正类、反类:对“二分类”问题,称其中一个类为正类,另一个类为反类

17、测试:学得模型后,试用其进行预测的过程

18、测试样本:被预测的样本

19、聚类:将训练集中的数据分为若干组,每一组称为一个“簇”

20、监督学习、无监督学习:根据训练数据是否有标记信息将学习任务划分为两类,有标记的是监督学习,无标记的是无监督学习

21、泛化能力:学得模型适用于新样本的能力

22、假设空间:由所有假设组成的空间

23、版本空间:假设空间中与训练集一致的所有假设组成的集合

24、归纳偏好:机器学习算法在学习过程中对某种假设类型的偏好,简称“偏好”

2 主要内容

1、任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生学习的结果。如果在预测时随机抽选训练集上的等效假设,则模型给出的结果可能不唯一

2、“奥卡姆剃刀”原则:若有多个假设与观察一致,则选择最简单的那个。但是关于“简单”没有明确的定义,因此奥卡姆剃刀本身存在不同的诠释,使用奥卡姆剃刀原则不平凡

3、“没有免费的午餐”定理:总误差与学习用的算法无关,对于任意两个算法,期望性能都相同。对于一个学习算法  \mathfrak{L}_{a},若它在某些问题上比学习算法  \mathfrak{L}_{b} 好,则必然存在另一些问题,在那里  \mathfrak{L}_{b} \mathfrak{L}_{a} 好。为简单起见,假设样本空间  \mathcal{X} 和假设空间  \mathcal{H} 都是离散的,令  P(h|X,\mathfrak{L}_{a}) 代表算法  \mathfrak{L}_{a} 基于训练数据  X 产生假设  h 的概率,再令  f 代表我们希望学习的真实目标函数。  \mathfrak{L}_{a} 的“训练集外误差”,即  \mathfrak{L}_{a} 在训练集之外的所有样本上的误差为

    \[  E_{ote}(\mathfrak{L}_{a}|X,f)=\sum_{h} \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \, \mathbb{I}(h(\boldsymbol{x}) \ne f(\boldsymbol{x})) \, P(h|X, \mathfrak{L}_{a} ) \]

其中 \mathbb{I}(\cdot)是指示函数,若 \cdot 为真则取值1,否则取值0。考虑二分类问题,且真实目标函数可以是任何函数  \mathcal{X} \mapsto \{0,1\},函数空间为 \{0,1\}^{|\mathcal{X}|}。对所有可能的  f 按均匀分布对误差求和,有

    \[\]

    \[   \begin{aligned} \sum_{f} E_{ote}(\mathfrak{L}_{a}|X,f) &= \sum_{f} \sum_{h} \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \, \mathbb{I}(h(\boldsymbol{x}) \ne f(\boldsymbol{x})) \, P(h|X, \mathfrak{L}_{a} )\\ &= \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \sum_{h} P(h|X, \mathfrak{L}_{a} ) \sum_{f} \mathbb{I}(h(\boldsymbol{x}) \ne f(\boldsymbol{x}))\\ &= \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \sum_{h} P(h|X, \mathfrak{L}_{a} ) \frac{1}{2} 2^{|\mathcal{X}|}\\ &=  \frac{1}{2} 2^{|\mathcal{X}|} \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \sum_{h} P(h|X, \mathfrak{L}_{a} )\\ &= 2^{|\mathcal{X}|-1} \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \cdot 1\\ \end{aligned} \]

可见当所有“问题”出现的几率相等时,总误差与学习算法无关,所以我们在设计算法的时候,应该只关注自己正在试图解决的问题,使学习算法自身的归纳偏好与问题相配,若考虑所有潜在的问题,则所有算法的效果相同,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义

3、习题

留坑待填…

“#机器学习笔记 1”的一个回复

发表评论

邮箱地址不会被公开。 必填项已用*标注