《机器学习》第一章 绪论

引言

模型(model):从数据中取得的结果,全局/局部.

学习算法(learning algorithm):在计算机上从数据中产生“模型”的算法.

基本术语

数据集(data set):一组数据的集合.

示例(instance)/样本(simple)/特征向量(feature vector):关于一个事件或对象的描述.

属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项.

属性值(attribute value):属性上的取值.

属性空间(attribute space)/样本空间(simple space)/输入空间:属性张成的空间.

维数(dimensionality):一个样本属性的个数.

学习(learning)/训练(training):从数据中学得模型的过程.

训练数据(training data):训练中使用的数据.

训练样本(training simple)/训练示例(training instance):训练数据的每组样本.

训练集(training simple):训练样本的集合.

假设(hypothesis):学得的模型.

真相/真实(ground-truth):学得的模型对于的关于数据的某种潜在规律.

学习器(learner):学习算法在给定数据和参数空间的实例化.

预测(projection)

标记(label):训练样本的“结果”信息.

样例(simple):有标记信息的示例,如$(x_i, y_i)$

标记空间(label space)/输出空间:所有标记的集合.

分类(classification):预测离散值的学习任务.

回归(regression):预测连续值的学习任务.

二分类(binary classification):只涉及两个类别的分类,正类(positive class)/反类(negative class).

多分类(multi-class classification):涉及多个类别的分类.

预测任务是希望通过对训练集${(x_1, y_1), (x_2, y_2), …… , (x_m, y_m) } $进行学习,建立一个从输入空间Χ到输出空间Υ的映射 f:Χ→Υ, Υ的大小根据预测目标而定.

测试(testing):学得模型后,使用其进行预测的过程.

测试样本(testing simple):被预测的样本.

聚类(clustering):将训练集分为若干组.

簇(cluster):聚类分成的一个组.

监督学习(supervised learning):训练数据具有标记信息的学习任务,如分类、回归.

无监督学习(unsupervised learning):训练数据不具有标记信息的学习任务,如聚类.

泛化(generalization):学得模型适用于新样本的能力.

分布(distribution)

独立同分布(independent and identically distributed)

假设空间

归纳(induction):从特殊到一般的“泛化”(generalization)过程,从具体的事实归结出一般性规律.

演绎(deduction):从一般到特殊的“特化”(specialization)过程,从基础原理推演出具体状况.

归纳学习(inductive learning)

学习过程是在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设.

版本空间(version space);多个与训练集一致的假设构成的集合.

归纳偏好

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好.

特征选择(feature selection):对哪种特征更重视.

奥卡姆剃刀(Occam’s razor):若有多个假设与观察一致,则选最简单的那个.

没有免费的午餐(No Free Lunch Theorem/NFL):假设所有“问题”出现的机会相等,所有学习算法的期望性能相同。——脱离实际问题,空泛地谈论“什么学习算法更好毫无意义”.

发展历程

1950-1970:“推理期”,赋予机器逻辑推理能力.
1970s中期:“知识期”,知识工程,建立专家系统
1950s中后期出现:“连接主义”,包括感知机、adaline
1960-1970:“符号主义”(symbolism)学习,包括“决策树”(decision tree)和基于逻辑的学习(归纳逻辑程序设计Inductive Logic Programming,简称ILP).
1990中期之前:基于神经网络的“连接主义”(connectionism)学习,如BP算法.
1990:“统计学习”(statistical learning),如支持向量机(Support Vector Machine,简称SVM)以及更一般的“核方法”(kernal methods).
2000:连接主义卷土重来,“深度学习”,狭义地说就是“很多层”的神经网络。模型复杂度高,以至于只要下功夫调参,把参数调节好,性能往往就好.

应用现状

大数据时代的三大关键技术:机器学习提供数据分析能力,云计算提供数据处理能力,众包(crowdsourcing)提供数据标记能力.

数据挖掘(data mining):从海量数据中发掘知识,机器学习和数据库是其两大支撑.

阅读材料

重要会议及期刊

机器学习

国际机器学习会议(ICML)、国际神经信息处理会议系统会议(NIPS)和国际学习理论会议(COLT)

欧洲机器学习会议(ECML)和亚洲机器学习会议(ACML)

中国机器学习大会(CCML)以及每年举行的“机器学习及其应用”研讨会(MLA).

Journal of Machine Learning Research和Machine Learning

人工智能

IJCAI、AAAI

Artificial Intelligence、Journal of Artificial Intelligence Research

数据挖掘

KDD、ICDM

ACM Transsactions on Knowledge Discovery from Data、Data Mining and Knowledge Discovery

计算机视觉与模式识别

CVPR

IEEE Transactions on Pattern Analysis and Machine Intelligence

5.神经网络

Neural Computation、IEEE Transactions on Neural Networks and Learning Systems

P.S.统计学Annals of Statistic