顶[0] 分享评论[0] 编辑

机器学习

机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习

它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

概念定义编辑本段

机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。

机器学习有下面几种定义：

（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

（2）机器学习是对能通过经验自动改进的计算机算法的研究。

（3）机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

发展历程编辑本段

机器学习实际上已经存在了几十年或者也可以认为存在了几个世纪。追溯到17世纪，贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链，这些构成了机器学习广泛使用的工具和基础。1950年（艾伦.图灵提议建立一个学习机器）到2000年初（有深度学习的实际应用以及最近的进展，比如2012年的AlexNet），机器学习有了很大的进展。

从20世纪50年代研究机器学习以来，不同时期的研究途径和目标并不相同，可以划分为四个阶段。

第一阶段是20世纪50年代中叶到60年代中叶，这个时期主要研究“有无知识的学习”。这类方法主要是研究系统的执行能力。这个时期，主要通过对机器的环境及其相应性能参数的改变来检测系统所反馈的数据，就好比给系统一个程序，通过改变它们的自由空间作用，系统将会受到程序的影响而改变自身的组织，最后这个系统将会选择一个最优的环境生存。在这个时期最具有代表性的研究就是Samuet的下棋程序。但这种机器学习的方法还远远不能满足人类的需要。

第二阶段从20世纪60年代中叶到70年代中叶，这个时期主要研究将各个领域的知识植入到系统里，在本阶段的目的是通过机器模拟人类学习的过程。同时还采用了图结构及其逻辑结构方面的知识进行系统描述，在这一研究阶段，主要是用各种符号来表示机器语言，研究人员在进行实验时意识到学习是一个长期的过程，从这种系统环境中无法学到更加深入的知识，因此研究人员将各专家学者的知识加入到系统里，经过实践证明这种方法取得了一定的成效。在这一阶段具有代表性的工作有Hayes-Roth和Winson的对结构学习系统方法。

第三阶段从20世纪70年代中叶到80年代中叶，称为复兴时期。在此期间，人们从学习单个概念扩展到学习多个概念，探索不同的学习策略和学习方法，且在本阶段已开始把学习系统与各种应用结合起来，并取得很大的成功。同时，专家系统在知识获取方面的需求也极大地刺激了机器学习的研究和发展。在出现第一个专家学习系统之后，示例归纳学习系统成为研究的主流，自动知识获取成为机器学习应用的研究目标。1980年，在美国的卡内基梅隆（CMU）召开了第一届机器学习国际研讨会，标志着机器学习研究已在全世界兴起。此后，机器学习开始得到了大量的应用。1984年，Simon等20多位人工智能专家共同撰文编写的MachineLearning文集第二卷出版，国际性杂志Machine Learning创刊，更加显示出机器学习突飞猛进的发展趋势。这一阶段代表性的工作有Mostow的指导式学习、Lenat的数学概念发现程序、Langley的BACON程序及其改进程序。

第四阶段20世纪80年代中叶，是机器学习的最新阶段。这个时期的机器学习具有如下特点：

（1）机器学习已成为新的学科，它综合应用了心理学、生物学、神经生理学、数学、自动化和计算机科学等形成了机器学习理论基础。

（2）融合了各种学习方法，且形式多样的集成学习系统研究正在兴起。

（3）机器学习与人工智能各种基础问题的统一性观点正在形成。

（4）各种学习方法的应用范围不断扩大，部分应用研究成果已转化为产品。

（5）与机器学习有关的学术活动空前活跃。

研究现状编辑本段

机器学习是人工智能及模式识别领域的共同研究热点，其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。2010年的图灵奖获得者为哈佛大学的Leslie vlliant教授，其获奖工作之一是建立了概率近似正确（Probably Approximate Correct，PAC）学习理论；2011年的图灵奖获得者为加州大学洛杉矶分校的Judea Pearll教授，其主要贡献为建立了以概率统计为理论基础的人工智能方法。这些研究成果都促进了机器学习的发展和繁荣。

机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学，是人工智能中最具智能特征，最前沿的研究领域之一。自20世纪80年代以来，机器学习作为实现人工智能的途径，在人工智能界引起了广泛的兴趣，特别是近十几年来，机器学习领域的研究工作发展很快，它已成为人工智能的重要课题之一。机器学习不仅在基于知识的系统中得到应用，而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。一个系统是否具有学习能力已成为是否具有“智能”的一个标志。机器学习的研究主要分为两类研究方向：第一类是传统机器学习的研究，该类研究主要是研究学习机制，注重探索模拟人的学习机制；第二类是大数据环境下机器学习的研究，该类研究主要是研究如何有效利用信息，注重从巨量数据中获取隐藏的、有效的、可理解的知识。

机器学习历经70年的曲折发展，以深度学习为代表借鉴人脑的多分层结构、神经元的连接交互信息的逐层分析处理机制，自适应、自学习的强大并行信息处理能力，在很多方面收获了突破性进展，其中最有代表性的是图像识别领域。

传统机器学习的研究现状

机器学习

传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的研究。

决策树是机器学习常见的一种方法。20世纪末期，机器学习研究者J.Ross Quinlan将Shannon的信息论引入到了决策树算法中，提出了ID3算法。1984年I.Kononenko、E.Roskar和I.Bratko在ID3算法的基础上提出了AS-SISTANTAlgorithm，这种算法允许类别的取值之间有交集。同年，A.Hart提出了Chi-Squa统计算法，该算法采用了一种基于属性与类别关联程度的统计量。1984年L.Breiman、C.Ttone、R.Olshen和J.Freidman提出了决策树剪枝概念，极大地改善了决策树的性能。1993年，Quinlan在ID3算法的基础上提出了一种改进算法，即C4.5算法。C4.5算法克服了ID3算法属性偏向的问题增加了对连续属性的处理通过剪枝，在一定程度上避免了“过度适合”现象。但是该算法将连续属性离散化时，需要遍历该属性的所有值，降低了效率，并且要求训练样本集驻留在内存，不适合处理大规模数据集。2010年Xie提出一种CART算法，该算法是描述给定预测向量X条件分布变量Y的一个灵活方法，已经在许多领域得到了应用。CART算法可以处理无序的数据，采用基尼系数作为测试属性的选择标准。CART算法生成的决策树精确度较高，但是当其生成的决策树复杂度超过一定程度后，随着复杂度的提高，分类精确度会降低，所以该算法建立的决策树不宜太复杂。2007年房祥飞表述了一种叫SLIQ（决策树分类）算法，这种算法的分类精度与其他决策树算法不相上下，但其执行的速度比其他决策树算法快，它对训练样本集的样本数量以及属性的数量没有限制。SLIQ算法能够处理大规模的训练样本集，具有较好的伸缩性；执行速度快而且能生成较小的二叉决策树。SLIQ算法允许多个处理器同时处理属性表，从而实现了并行性。但是SLIQ算法依然不能摆脱主存容量的限制。2000年RajeevRaSto等提出了PUBLIC算法，该算法是对尚未完全生成的决策树进行剪枝，因而提高了效率。近几年模糊决策树也得到了蓬勃发展。研究者考虑到属性间的相关性提出了分层回归算法、约束分层归纳算法和功能树算法，这三种算法都是基于多分类器组合的决策树算法，它们对属性间可能存在的相关性进行了部分实验和研究，但是这些研究并没有从总体上阐述属性间的相关性是如何影响决策树性能。此外，还有很多其他的算法，如Zhang.J于2014年提出的一种基于粗糙集的优化算法、Wang.R在2015年提出的基于极端学习树的算法模型等。

随机森林（RF）作为机器学习重要算法之一，是一种利用多个树分类器进行分类和预测的方法。近年来，随机森林算法研究的发展十分迅速，已经在生物信息学、生态学、医学、遗传学、遥感地理学等多领域开展的应用性研究。

人工神经网络（Artificial Neural Networks，ANN）是一种具有非线性适应性信息处理能力的算法，可克服传统人工智能方法对于直觉，如模式、语音识别、非结构化信息处理方面的缺陷。早在20世纪40年代人工神经网络已经受到关注，并随后得到迅速发展。

贝叶斯学习是机器学习较早的研究方向，其方法最早起源于英国数学家托马斯，贝叶斯在1763年所证明的一个关于贝叶斯定理的一个特例。经过多位统计学家的共同努力，贝叶斯统计在20世纪50年代之后逐步建立起来，成为统计学中一个重要的组成部分。

大数据环境下机器学习的研究现状

大数据的价值体现主要集中在数据的转向以及数据的信息处理能力等等。在产业发展的今天，大数据时代的到来，对数据的转换，数据的处理数据的存储等带来了更好的技术支持，产业升级和新产业诞生形成了一种推动力量，让大数据能够针对可发现事物的程序进行自动规划，实现人类用户以计算机信息之间的协调。另外现有的许多机器学习方法是建立在内存理论基础上的。大数据还无法装载进计算机内存的情况下，是无法进行诸多算法的处理的，因此应提出新的机器学习算法，以适应大数据处理的需要。大数据环境下的机器学习算法，依据一定的性能标准，对学习结果的重要程度可以予以忽视。采用分布式和并行计算的方式进行分治策略的实施，可以规避掉噪音数据和冗余带来的干扰，降低存储耗费，同时提高学习算法的运行效率。

随着大数据时代各行业对数据分析需求的持续增加，通过机器学习高效地获取知识，已逐渐成为当今机器学习技术发展的主要推动力。大数据时代的机器学习更强调“学习本身是手段"机器学习成为一种支持和服务技术。如何基于机器学习对复杂多样的数据进行深层次的分析，更高效地利用信息成为当前大数据环境下机器学习研究的主要方向。所以，机器学习越来越朝着智能数据分析的方向发展，并已成为智能数据分析技术的一个重要源泉。另外，在大数据时代，随着数据产生速度的持续加快，数据的体量有了前所未有的增长，而需要分析的新的数据种类也在不断涌现，如文本的理解、文本情感的分析、图像的检索和理解、图形和网络数据的分析等。使得大数据机器学习和数据挖掘等智能计算技术在大数据智能化分析处理应用中具有极其重要的作用。在2014年12月中国计算机学会（CCF）大数据专家委员会上通过数百位大数据相关领域学者和技术专家投票推选出的“2015年大数据十大热点技术与发展趋势”中，结合机器学习等智能计算技术的大数据分析技术被推选为大数据领域第一大研究热点和发展趋势。

机器分类编辑本段

几十年来，研究发表的机器学习的方法种类很多，根据强调侧面的不同可以有多种分类方法。

基于学习策略的分类

（1）模拟人脑的机器学习

符号学习：模拟人脑的宏现心理级学习过程，以认知心理学原理为基础，以符号数据为输入，以符号运算为方法，用推理过程在图或状态空间中搜索，学习的目标为概念或规则等。符号学习的典型方法有记忆学习、示例学习、演绎学习.类比学习、解释学习等。

神经网络学习（或连接学习）：模拟人脑的微观生理级学习过程，以脑和神经科学原理为基础，以人工神经网络为函数结构模型，以数值数据为输人，以数值运算为方法，用迭代过程在系数向量空间中搜索，学习的目标为函数。典型的连接学习有权值修正学习、拓扑结构学习。

（2）直接采用数学方法的机器学习

主要有统计机器学习。

统计机器学习是基于对数据的初步认识以及学习目的的分析，选择合适的数学模型，拟定超参数，并输入样本数据，依据一定的策略，运用合适的学习算法对模型进行训练，最后运用训练好的模型对数据进行分析预测。

统计机器学习三个要素：

模型（model）：模型在未进行训练前，其可能的参数是多个甚至无穷的，故可能的模型也是多个甚至无穷的，这些模型构成的集合就是假设空间。

策略（strategy）：即从假设空间中挑选出参数最优的模型的准则。模型的分类或预测结果与实际情况的误差（损失函数）越小，模型就越好。那么策略就是误差最小。

算法（algorithm）：即从假设空间中挑选模型的方法（等同于求解最佳的模型参数）。机器学习的参数求解通常都会转化为最优化问题，故学习算法通常是最优化算法，例如最速梯度下降法、牛顿法以及拟牛顿法等。

基于学习方法的分类

（1）归纳学习

符号归纳学习：典型的符号归纳学习有示例学习、决策树学习。

函数归纳学习（发现学习）：典型的函数归纳学习有神经网络学习、示例学习、发现学习、统计学习。

（2）演绎学习

（3）类比学习：典型的类比学习有案例（范例）学习。

（4）分析学习：典型的分析学习有解释学习、宏操作学习。

基于学习方式的分类

（1）监督学习（有导师学习）：输入数据中有导师信号，以概率函数、代数函数或人工神经网络为基函数模型，采用迭代计算方法，学习结果为函数。

（2）无监督学习（无导师学习）：输入数据中无导师信号，采用聚类方法，学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。

（3）强化学习（增强学习）：以环境反馈（奖/惩信号）作为输入，以统计和动态规划技术为指导的一种学习方法。

基于数据形式的分类

（1）结构化学习：以结构化数据为输人，以数值计算或符号推演为方法。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。

（2）非结构化学习：以非结构化数据为输人，典型的非结构化学习有类比学习案例学习、解释学习、文本挖掘、图像挖掘、Web挖掘等。

基于学习目标的分类

（1）概念学习：学习的目标和结果为概念，或者说是为了获得概念的学习。典型的概念学习主要有示例学习。

（2）规则学习：学习的目标和结果为规则，或者为了获得规则的学习。典型规则学习主要有决策树学习。

（3）函数学习：学习的目标和结果为函数，或者说是为了获得函数的学习。典型函数学习主要有神经网络学习。

（4）类别学习：学习的目标和结果为对象类，或者说是为了获得类别的学习。典型类别学习主要有聚类分析。

（5）贝叶斯网络学习：学习的目标和结果是贝叶斯网络，或者说是为了获得贝叶斯网络的一种学习。其又可分为结构学习和多数学习。

常见算法编辑本段

决策树算法

决策树及其变种是一类将输入空间分成不同的区域，每个区域有独立参数的算法。决策树算法充分利用了树形模型，根节点到一个叶子节点是一条分类的路径规则，每个叶子节点象征一个判断类别。先将样本分成不同的子集，再进行分割递推，直至每个子集得到同类型的样本，从根节点开始测试，到子树再到叶子节点，即可得出预测类别。此方法的特点是结构简单、处理数据效率较高。

朴素贝叶斯算法

朴素贝叶斯算法是一种分类算法。它不是单一算法，而是一系列算法，它们都有一个共同的原则，即被分类的每个特征都与任何其他特征的值无关。朴素贝叶斯分类器认为这些“特征”中的每一个都独立地贡献概率，而不管特征之间的任何相关性。然而，特征并不总是独立的，这通常被视为朴素贝叶斯算法的缺点。简而言之，朴素贝叶斯算法允许我们使用概率给出一组特征来预测一个类。与其他常见的分类方法相比，朴素贝叶斯算法需要的训练很少。在进行预测之前必须完成的唯一工作是找到特征的个体概率分布的参数，这通常可以快速且确定地完成。这意味着即使对于高维数据点或大量数据点，朴素贝叶斯分类器也可以表现良好。

支持向量机算法

基本思想可概括如下：首先，要利用一种变换将空间高维化，当然这种变换是非线性的，然后，在新的复杂空间取最优线性分类表面[8]。由此种方式获得的分类函数在形式上类似于神经网络算法。支持向量机是统计学习领域中一个代表性算法，但它与传统方式的思维方法很不同，输入空间、提高维度从而将问题简短化，使问题归结为线性可分的经典解问题。支持向量机应用于垃圾邮件识别，人脸识别等多种分类问题。

随机森林算法

控制数据树生成的方式有多种，根据前人的经验，大多数时候更倾向选择分裂属性和剪枝，但这并不能解决所有问题，偶尔会遇到噪声或分裂属性过多的问题。基于这种情况，总结每次的结果可以得到袋外数据的估计误差，将它和测试样本的估计误差相结合可以评估组合树学习器的拟合及预测精度。此方法的优点有很多，可以产生高精度的分类器，并能够处理大量的变数，也可以平衡分类资料集之间的误差。

人工神经网络算法

人工神经网络与神经元组成的异常复杂的网络此大体相似，是个体单元互相连接而成，每个单元有数值量的输入和输出，形式可以为实数或线性组合函数。它先要以一种学习准则去学习，然后才能进行工作。当网络判断错误时，通过学习使其减少犯同样错误的可能性。此方法有很强的泛化能力和非线性映射能力，可以对信息量少的系统进行模型处理。从功能模拟角度看具有并行性，且传递信息速度极快。

Boosting与Bagging算法

Boosting是种通用的增强基础算法性能的回归分析算法。不需构造一个高精度的回归分析，只需一个粗糙的基础算法即可，再反复调整基础算法就可以得到较好的组合回归模型。它可以将弱学习算法提高为强学习算法，可以应用到其它基础回归算法，如线性回归、神经网络等，来提高精度。Bagging和前一种算法大体相似但又略有差别，主要想法是给出已知的弱学习算法和训练集，它需要经过多轮的计算，才可以得到预测函数列，最后采用投票方式对示例进行判别。

关联规则算法

关联规则是用规则去描述两个变量或多个变量之间的关系，是客观反映数据本身性质的方法。它是机器学习的一大类任务，可分为两个阶段，先从资料集中找到高频项目组，再去研究它们的关联规则。其得到的分析结果即是对变量间规律的总结。

EM（期望最大化）算法

在进行机器学习的过程中需要用到极大似然估计等参数估计方法，在有潜在变量的情况下，通常选择EM算法，不是直接对函数对象进行极大估计，而是添加一些数据进行简化计算，再进行极大化模拟。它是对本身受限制或比较难直接处理的数据的极大似然估计算法。

深度学习

深度学习（DL，Deep Learning）是机器学习（ML，Machine Learning）领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能（AI，Artificial Intelligence）。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

应用范围编辑本段

机器学习应用广泛，无论是在军事领域还是民用领域，都有机器学习算法施展的机会，主要包括以下几个方面。

数据分析与挖掘

“数据挖掘”和"数据分析”通常被相提并论，并在许多场合被认为是可以相互替代的术语。关于数据挖掘，已有多种文字不同但含义接近的定义，例如“识别出巨量数据中有效的.新颖的、潜在有用的最终可理解的模式的非平凡过程”，无论是数据分析还是数据挖掘，都是帮助人们收集、分析数据，使之成为信息，并做出判断，因此可以将这两项合称为数据分析与挖掘。

数据分析与挖掘技术是机器学习算法和数据存取技术的结合，利用机器学习提供的统计分析、知识发现等手段分析海量数据，同时利用数据存取机制实现数据的高效读写。机器学习在数据分析与挖掘领域中拥有无可取代的地位，2012年Hadoop进军机器学习领域就是一个很好的例子。

模式识别

模式识别起源于工程领域，而机器学习起源于计算机科学，这两个不同学科的结合带来了模式识别领域的调整和发展。模式识别研究主要集中在两个方面。

（1）研究生物体（包括人）是如何感知对象的，属于认识科学的范畴。

（2）在给定的任务下，如何用计算机实现模式识别的理论和方法，这些是机器学习的长项，也是机器学习研究的内容之一。

模式识别的应用领域广泛，包括计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等，而这些领域也正是机器学习大展身手的舞台，因此模式识别与机器学习的关系越来越密切。

在生物信息学上的应用

随着基因组和其他测序项目的不断发展，生物信息学研究的重点正逐步从积累数据转移到如何解释这些数据。在未来，生物学的新发现将极大地依赖于我们在多个维度和不同尺度下对多样化的数据进行组合和关联的分析能力，而不再仅仅依赖于对传统领域的继续关注。序列数据将与结构和功能数据基因表达数据、生化反应通路数据表现型和临床数据等一系列数据相互集成。如此大量的数据，在生物信息的存储、获取、处理、浏览及可视化等方面，都对理论算法和软件的发展提出了迫切的需求。另外，由于基因组数据本身的复杂性也对理论算法和软件的发展提出了迫切的需求。而机器学习方法例如神经网络、遗传算法、决策树和支持向量机等正适合于处理这种数据量大、含有噪声并且缺乏统一理论的领域。

更广阔的领域

国外的IT巨头正在深入研究和应用机器学习，他们把目标定位于全面模仿人类大脑，试图创造出拥有人类智慧的机器大脑。

2012年Google在人工智能领域发布了一个划时代的产品一人脑模拟软件，这个软件具备自我学习功能。模拟脑细胞的相互交流，可以通过看YouTube视频学习识别猫、人以及其他事物。当有数据被送达这个神经网络的时候，不同神经元之间的关系就会发生改变。而这也使得神经网络能够得到对某些特定数据的反应机制，据悉这个网络已经学到了一些东西，Google将有望在多个领域使用这一新技术，最先获益的可能是语音识别。

具体应用

（1）虚拟助手。Siri，Alexa，Google Now都是虚拟助手。顾名思义，当使用语音发出指令后，它们会协助查找信息。对于回答，虚拟助手会查找信息，回忆我们的相关查询，或向其他资源（如电话应用程序）发送命令以收集信息。我们甚至可以指导助手执行某些任务，例如“设置7点的闹钟”等。

（2）交通预测。生活中我们经常使用GPS导航服务。当我们这样做时，我们当前的位置和速度被保存在中央服务器上来进行流量管理。之后使用这些数据用于构建当前流量的映射。通过机器学习可以解决配备GPS的汽车数量较少的问题，在这种情况下的机器学习有助于根据估计找到拥挤的区域。

（3）过滤垃圾邮件和恶意软件。电子邮件客户端使用了许多垃圾邮件过滤方法。为了确保这些垃圾邮件过滤器能够不断更新，它们使用了机器学习技术。多层感知器和决策树归纳等是由机器学习提供支持的一些垃圾邮件过滤技术。每天检测到超过325000个恶意软件，每个代码与之前版本的90%～98%相似。由机器学习驱动的系统安全程序理解编码模式。因此，他们可以轻松检测到2%～10%变异的新恶意软件，并提供针对它们的保护。

研究意义编辑本段

学习是人类具有的一种重要智能行为，但究竟什么是学习，长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有其不同的看法。

比如，Langley（1996) 定义的机器学习是“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。（Machine learning is a science of the artificial. The field's main objects of study are artifacts, specifically algorithms that improve their performance with experience.'）

Tom Mitchell的机器学习(1997)对信息论中的一些概念有详细的解释，其中定义机器学习时提到，“机器学习是对能通过经验自动改进的计算机算法的研究”。（Machine Learning is the study of computer algorithms that improve automatically through experience.）

Alpaydin（2004）同时提出自己对机器学习的定义，“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”（Machine learning is programming computers to optimize a performance criterion using example data or past experience.）

尽管如此，为了便于进行讨论和估计学科的进展，有必要对机器学习给出定义，即使这种定义是不完全的和不充分的。顾名思义，机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。这里所说的“机器”，指的就是计算机，电子计算机，中子计算机、光子计算机或神经计算机等等。

机器能否象人类一样能具有学习能力呢？1959年美国的塞缪尔(Samuel)设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。4年后，这个程序战胜了设计者本人。又过了3年，这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力，提出了许多令人深思的社会问题与哲学问题。

机器的能力是否能超过人的，很多持否定意见的人的一个主要论据是：机器是人造的，其性能和动作完全是由设计者规定的，因此无论如何其能力也不会超过设计者本人。这种意见对不具备学习能力的机器来说的确是对的，可是对具备学习能力的机器就值得考虑了，因为这种机器的能力在应用中不断地提高，过一段时间之后，设计者本人也不知它的能力到了何种水平。

机器学习有下面几种定义： “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

机器学习已经有了十分广泛的应用，例如：数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

发展历史编辑本段

机器学习是人工智能研究较为年轻的分支，它的发展过程大体上可分为4个时期。

第一阶段是在20世纪50年代中叶到60年代中叶，属于热烈时期。

第二阶段是在20世纪60年代中叶至70年代中叶，被称为机器学习的冷静时期。

第三阶段是从20世纪70年代中叶至80年代中叶，称为复兴时期。

机器学习的最新阶段始于1986年。

机器学习进入新阶段的重要表现在下列诸方面：

(1)机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。

(2)结合各种学习方法，取长补短的多种形式的集成学习系统研究正在兴起。特别是连接学习符号学习的耦合可以更好地解决连续性信号处理中知识与技能的获取与求精问题而受到重视。

(3)机器学习与人工智能各种基础问题的统一性观点正在形成。例如学习与问题求解结合进行、知识表达便于学习的观点产生了通用智能系统SOAR的组块学习。类比学习与问题求解结合的基于案例方法已成为经验学习的重要方向。

(4)各种学习方法的应用范围不断扩大，一部分已形成商品。归纳学习的知识获取工具已在诊断分类型专家系统中广泛使用。连接学习在声图文识别中占优势。分析学习已用于设计综合型专家系统。遗传算法与强化学习在工程控制中有较好的应用前景。与符号系统耦合的神经网络连接学习将在企业的智能管理与智能机器人运动规划中发挥作用。

(5)与机器学习有关的学术活动空前活跃。国际上除每年一次的机器学习研讨会外，还有计算机学习理论会议以及遗传算法会议。

主要策略编辑本段

学习是一项复杂的智能活动，学习过程与推理过程是紧密相连的，按照学习中使用推理的多少，机器学习所采用的策略大体上可分为4种——机械学习、通过传授学习、类比学习和通过事例学习。学习中所用的推理越多，系统的能力越强。

基本结构编辑本段

表示学习系统的基本结构。环境向系统的学习部分提供某些信息，学习部分利用这些信息修改知识库，以增进系统执行部分完成任务的效能，执行部分根据知识库完成任务，同时把获得的信息反馈给学习部分。在具体的应用中，环境，知识库和执行部分决定了具体的工作内容，学习部分所需要解决的问题完全由上述3部分确定。下面我们分别叙述这3部分对设计学习系统的影响。

影响学习系统设计的最重要的因素是环境向系统提供的信息。或者更具体地说是信息的质量。知识库里存放的是指导执行部分动作的一般原则，但环境向学习系统提供的信息却是各种各样的。如果信息的质量比较高，与一般原则的差别比较小，则学习部分比较容易处理。如果向学习系统提供的是杂乱无章的指导执行具体动作的具体信息，则学习系统需要在获得足够数据之后，删除不必要的细节，进行总结推广，形成指导动作的一般原则，放入知识库，这样学习部分的任务就比较繁重，设计起来也较为困难。

因为学习系统获得的信息往往是不完全的，所以学习系统所进行的推理并不完全是可靠的，它总结出来的规则可能正确，也可能不正确。这要通过执行效果加以检验。正确的规则能使系统的效能提高，应予保留；不正确的规则应予修改或从数据库中删除。

知识库是影响学习系统设计的第二个因素。知识的表示有多种形式，比如特征向量、一阶逻辑语句、产生式规则、语义网络和框架等等。这些表示方式各有其特点，在选择表示方式时要兼顾以下4个方面：

(1)表达能力强。

(2)易于推理。

(3)容易修改知识库。

(4)知识表示易于扩展。

对于知识库最后需要说明的一个问题是学习系统不能在全然没有任何知识的情况下凭空获取知识，每一个学习系统都要求具有某些知识理解环境提供的信息，分析比较，做出假设，检验并修改这些假设。因此，更确切地说，学习系统是对现有知识的扩展和改进。

执行部分是整个学习系统的核心，因为执行部分的动作就是学习部分力求改进的动作。同执行部分有关的问题有3个：复杂性、反馈和透明性。

代码示例编辑本段

本程序将根据您的评价判断执行结果"1+1=2"

实际上仅用了最简单的if else for语句

这就是一个机器学习的例子，通过环境影响来进行学习。

通过本例我们不难看出，在人工错误的引导下，机器会给出错误的答案1+1不等于2。

所以此类学习方法，一定要在正确引导下实践，否则会得到最坏的结果。

学习完毕后，计算机会记录本次学习结果，存入数据库，下次执行相应任务时，再将结果调出执行。

学习分类编辑本段

基于学习策略的分类

学习策略是指学习过程中系统所采用的推理策略。一个学习系统总是由学习和环境两部分组成。由环境（如书本或教师）提供信息，学习部分则实现信息转换，用能够理解的形式记忆下来，并从中获取有用的信息。在学习过程中，学生（学习部分）使用的推理越少，他对教师（环境）的依赖就越大，教师的负担也就越重。学习策略的分类标准就是根据学生实现信息转换所需的推理多少和难易程度来分类的，依从简单到复杂，从少到多的次序分为以下六种基本类型：

1）机械学习 (Rote learning)

学习者无需任何推理或其它的知识转换，直接吸取环境所提供的信息。如塞缪尔的跳棋程序，纽厄尔和西蒙的LT系统。这类学习系统主要考虑的是如何索引存贮的知识并加以利用。系统的学习方法是直接通过事先编好、构造好的程序来学习，学习者不作任何工作，或者是通过直接接收既定的事实和数据进行学习，对输入信息不作任何的推理。

2）示教学习 (Learning from instruction或Learning by being told)

学生从环境（教师或其它信息源如教科书等）获取信息，把知识转换成内部可使用的表示形式，并将新的知识和原有知识有机地结合为一体。所以要求学生有一定程度的推理能力，但环境仍要做大量的工作。教师以某种形式提出和组织知识，以使学生拥有的知识可以不断地增加。这种学习方法和人类社会的学校教学方式相似，学习的任务就是建立一个系统，使它能接受教导和建议，并有效地存贮和应用学到的知识。不少专家系统在建立知识库时使用这种方法去实现知识获取。示教学习的一个典型应用例是FOO程序。

3）演绎学习 (Learning by deduction)

学生所用的推理形式为演绎推理。推理从公理出发，经过逻辑变换推导出结论。这种推理是"保真"变换和特化(specialization)的过程，使学生在推理过程中可以获取有用的知识。这种学习方法包含宏操作(macro-operation)学习、知识编辑和组块(Chunking)技术。演绎推理的逆过程是归纳推理。

4）类比学习 (Learning by analogy)

利用二个不同领域（源域、目标域）中的知识相似性，可以通过类比，从源域的知识（包括相似的特征和其它性质）推导出目标域的相应知识，从而实现学习。类比学习系统可以使一个已有的计算机应用系统转变为适应于新的领域，来完成原先没有设计的相类似的功能。

类比学习需要比上述三种学习方式更多的推理。它一般要求先从知识源（源域）中检索出可用的知识，再将其转换成新的形式，用到新的状况（目标域）中去。类比学习在人类科学技术发展史上起着重要作用，许多科学发现就是通过类比得到的。例如著名的卢瑟福类比就是通过将原子结构（目标域）同太阳系（源域）作类比，揭示了原子结构的奥秘。

5）基于解释的学习 (Explanation-based learning, EBL)

学生根据教师提供的目标概念、该概念的一个例子、领域理论及可操作准则，首先构造一个解释来说明为什么该例子满足目标概念，然后将解释推广为目标概念的一个满足可操作准则的充分条件。EBL已被广泛应用于知识库求精和改善系统的性能。

著名的EBL系统有迪乔恩（G.DeJong）的GENESIS,米切尔（T.Mitchell）的LEXII和LEAP, 以及明顿（S.Minton）等的PRODIGY。

6）归纳学习 (Learning from induction)

归纳学习是由教师或环境提供某概念的一些实例或反例，让学生通过归纳推理得出该概念的一般描述。这种学习的推理工作量远多于示教学习和演绎学习，因为环境并不提供一般性概念描述（如公理）。从某种程度上说，归纳学习的推理量也比类比学习大，因为没有一个类似的概念可以作为"源概念"加以取用。归纳学习是最基本的，发展也较为成熟的学习方法，在人工智能领域中已经得到广泛的研究和应用。

基于所获取知识的表示形式分类

学习系统获取的知识可能有：行为规则、物理对象的描述、问题求解策略、各种分类及其它用于任务实现的知识类型。

对于学习中获取的知识，主要有以下一些表示形式：

1）代数表达式参数

学习的目标是调节一个固定函数形式的代数表达式参数或系数来达到一个理想的性能。

2）决策树

用决策树来划分物体的类属，树中每一内部节点对应一个物体属性，而每一边对应于这些属性的可选值，树的叶节点则对应于物体的每个基本分类。

3）形式文法

在识别一个特定语言的学习中，通过对该语言的一系列表达式进行归纳，形成该语言的形式文法。

4）产生式规则

产生式规则表示为条件—动作对，已被极为广泛地使用。学习系统中的学习行为主要是：生成、泛化、特化（Specialization）或合成产生式规则。

5）形式逻辑表达式

形式逻辑表达式的基本成分是命题、谓词、变量、约束变量范围的语句，及嵌入的逻辑表达式。

6）图和网络

有的系统采用图匹配和图转换方案来有效地比较和索引知识。

7）框架和模式（schema）

每个框架包含一组槽，用于描述事物（概念和个体）的各个方面。

8）计算机程序和其它的过程编码

获取这种形式的知识，目的在于取得一种能实现特定过程的能力，而不是为了推断该过程的内部结构。

9）神经网络

这主要用在联接学习中。学习所获取的知识，最后归纳为一个神经网络。

10）多种表示形式的组合

有时一个学习系统中获取的知识需要综合应用上述几种知识表示形式。

根据表示的精细程度，可将知识表示形式分为两大类：泛化程度高的粗粒度符号表示、??泛化程度低的精粒度亚符号(sub-symbolic)表示。像决策树、形式文法、产生式规则、形式逻辑表达式、框架和模式等属于符号表示类；而代数表达式参数、图和网络、神经网络等则属亚符号表示类。

按应用领域分类

最主要的应用领域有：专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈等领域。

从机器学习的执行部分所反映的任务类型上看，大部分的应用研究领域基本上集中于以下两个范畴：分类和问题求解。

（1）分类任务要求系统依据已知的分类知识对输入的未知模式（该模式的描述）作分析，以确定输入模式的类属。相应的学习目标就是学习用于分类的准则（如分类规则）。

（2）问题求解任务要求对于给定的目标状态,??寻找一个将当前状态转换为目标状态的动作序列；机器学习在这一领域的研究工作大部分集中于通过学习来获取能提高问题求解效率的知识（如搜索控制知识，启发式知识等）。

综合分类编辑本段

综合考虑各种学习方法出现的历史渊源、知识表示、推理策略、结果评估的相似性、研究人员交流的相对集中性以及应用领域等诸因素。将机器学习方法区分为以下六类：

1）经验性归纳学习 (empirical inductive learning)

经验性归纳学习采用一些数据密集的经验方法（如版本空间法、ID3法，定律发现方法）对例子进行归纳学习。其例子和学习结果一般都采用属性、谓词、关系等符号表示。它相当于基于学习策略分类中的归纳学习，但扣除联接学习、遗传算法、加强学习的部分。

2）分析学习（analytic learning）

分析学习方法是从一个或少数几个实例出发，运用领域知识进行分析。其主要特征为：

·推理策略主要是演绎，而非归纳；

·使用过去的问题求解经验（实例）指导新的问题求解，或产生能更有效地运用领域知识的搜索控制规则。

分析学习的目标是改善系统的性能，而不是新的概念描述。分析学习包括应用解释学习、演绎学习、多级结构组块以及宏操作学习等技术。

3）类比学习

它相当于基于学习策略分类中的类比学习。在这一类型的学习中比较引人注目的研究是通过与过去经历的具体事例作类比来学习，称为基于范例的学习(case_based learning)，或简称范例学习。

4）遗传算法（genetic algorithm）

遗传算法模拟生物繁殖的突变、交换和达尔文的自然选择（在每一生态环境中适者生存）。它把问题可能的解编码为一个向量，称为个体，向量的每一个元素称为基因，并利用目标函数（相应于自然选择标准）对群体（个体的集合）中的每一个个体进行评价，根据评价值（适应度）对个体进行选择、交换、变异等遗传操作，从而得到新的群体。遗传算法适用于非常复杂和困难的环境，比如，带有大量噪声和无关数据、事物不断更新、问题目标不能明显和精确地定义，以及通过很长的执行过程才能确定当前行为的价值等。同神经网络一样，遗传算法的研究已经发展为人工智能的一个独立分支，其代表人物为霍勒德（J.H.Holland）。

5）联接学习

典型的联接模型实现为人工神经网络，其由称为神经元的一些简单计算单元以及单元间的加权联接组成。

6）增强学习（reinforcement learning）

增强学习的特点是通过与环境的试探性（trial and error）交互来确定和优化动作的选择，以实现所谓的序列决策任务。在这种任务中，学习机制通过选择并执行动作，导致系统状态的变化，并有可能得到某种强化信号（立即回报），从而实现与环境的交互。强化信号就是对系统行为的一种标量化的奖惩。系统学习的目标是寻找一个合适的动作选择策略，即在任一给定的状态下选择哪种动作的方法，使产生的动作序列可获得某种最优的结果（如累计立即回报最大）。

在综合分类中，经验归纳学习、遗传算法、联接学习和增强学习均属于归纳学习，其中经验归纳学习采用符号表示方式，而遗传算法、联接学习和加强学习则采用亚符号表示方式；分析学习属于演绎学习。

实际上，类比策略可看成是归纳和演绎策略的综合。因而最基本的学习策略只有归纳和演绎。

从学习内容的角度看，采用归纳策略的学习由于是对输入进行归纳，所学习的知识显然超过原有系统知识库所能蕴涵的范围，所学结果改变了系统的知识演绎闭包, 因而这种类型的学习又可称为知识级学习；而采用演绎策略的学习尽管所学的知识能提高系统的效率，但仍能被原有系统的知识库所蕴涵，即所学的知识未能改变系统的演绎闭包，因而这种类型的学习又被称为符号级学习。

学习形式编辑本段

1）监督学习(supervised learning)

监督学习，即在机械学习过程中提供对错指示。一般是在数据组中包含最终结果（0，1）。通过算法让机器自我减少误差。这一类学习主要应用于分类和预测 (regression & classify)。监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。

2）非监督学习(unsupervised learning)

非监督学习又称归纳性学习（clustering）利用K方式(Kmeans)，建立中心（centriole），通过循环和递减运算(iteration&descent)来减小误差，达到分类的目的。

研究领域编辑本段

机器学习领域的研究工作主要围绕以下三个方面进行：

（1）面向任务的研究

研究和分析改进一组预定任务的执行性能的学习系统。

（2）认知模型

研究人类学习过程并进行计算机模拟。

（3）理论分析

从理论上探索各种可能的学习方法和独立于应用领域的算法

机器学习是继专家系统之后人工智能应用的又一重要研究领域，也是人工智能和神经计算的核心研究课题之一。现有的计算机系统和人工智能系统没有什么学习能力，至多也只有非常有限的学习能力，因而不能满足科技和生产提出的新要求。对机器学习的讨论和机器学习研究的进展，必将促使人工智能和整个科学技术的进一步发展。

内容简介编辑本段

本书展示了机器学习中核心的算法和理论，并阐明了算法的运行过程。本书综合了许多的研究成果，例如统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等，并以此来理解问题的背景、算法和其中的隐含假定。本书可作为计算机专业

本科生、研究生教材，也可作为相关领域研究人员、教师的参考书。

图书特色编辑本段

TOM M.Mitchell是卡内基梅隆大学的教授，讲授“机器(AAA)的主席：美国《Machine Learning》杂志、国际机器学习年度会议（ICML）的创始人：多种技术杂志的撰稿人，曾发表过许多文章，出版过多本专著，是机器学习领域的著名学者。

图书前言编辑本段

机器学习这门学科所关注的问题是：计算机程序如何随着经验积累自动提高性能。机器学习已经被成功地应用于很多领域，从检测信用卡交易欺诈的数据挖掘程序，到获取户阅读兴趣的信息过滤系统，再到能在高速公路上自动行驶的汽车。同时，这个学科的基理论和算法也有了重大进展。

这本教材的目标是展现机器学习中核心的算法和理论。机器学习从很多学科吸收了成果和概念，包括统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制等。笔者相信，研究机器学习的最佳途径是从这些学科的观点看待机器学习，并且以此来理解问题的背景、算法以及其中隐含的假定。这些在以往很难做到，因为在这一领域缺少包容广泛的原始资料，本书的主要目的就是提供这样的一份资料。

由于素材的多学科性，本书不要求读者具有相应的知识背景，而是在必要时介绍其他一些学科的基本概念，如统计学、人工智能、信息论等。介绍的重点是与机器学习关系最密切甲那些概念。本书可以作为计算机科学与工程、统计学和社会科学等专业的大学生或研究生的教材，也可作为软件研究人员或从业人员的参考资料。

指导本书写作的两条原则为：第一，它是在校大学生可以理解的；第二，它应该包含我希望我自己的博士生在开始他们的器学习研究前要掌握的内容。

指导本书写作的第三条原则是：它应该体现理论和实践间的均衡。机器学习理论致力于回答这样的问题“学习性能是怎样随着给定的训练样例的数量而变化的?”和“对于各种同类型的学习任务：哪个学习算法最适合?”利用来自统计学、计算复杂性和贝叶斯分析的理论成果，这本书讨论了这一类理论问题。同时本书也涵盖很多实践方面的内容：介绍了这一领域的主要算法，阐明了算法的运行过程。

其中一些算法的实现和数据可以在因特网上通过网址http：//www．cs．cmu．edu/-tom/mlbook．html得到，包括用于人脸识别的神经网络的源代码和数据、用于信贷分析的决策树学习的源代码和数据及分析文本文档的贝叶分类器的源代码和数据。我很感谢那些帮助我创建这些在线资源的同事，他们是：Jason Rennie、Paul Hsiung、Jeff Shufelt、Matt Glickman、Scott Davies、Joseph O’Sullivan、Ken Lang\Andrew McCallum和Thorsten Joachims。

作品目录编辑本段

第1章引言

1．1学习问题的标准描述

1．2设计-个学习系统

1．2．1选择训练经验

1．2．2选择目标函数

1．2．3选择目标函数的表示

1. 2．4选择函数逼近算法

1．2．5最终设计

1．3机器学习的一些观点和问题

1．4如何阅读本书

1．5小结和补充读物

习题

第2章概念学习和一般到特殊序

2．1简介

2．2概念学习任务

2．2．1术语定义

2．2．2归纳学习假设

2．3作为搜索的概念学习

2．4FIND-S：寻找极大特殊假设

2．5变型空间和候选消除算法

2．5．1表示

2．5．2列表后消除算法

2．5．3变型空间的更简洁表示

2．5．4候选消除学习算法

2．5．5算法的举例

2．6关于变型空间和候选消除的说明

2．6．1候选消除算法是否会收敛到正确的假设

2．6．2下一步需要什么样的训练样例

2．6．3怎样使用不完全学习概念

2．7归纳偏置

2．7．1-个有偏的假设空间

2．7．2无偏的学习器

2．7．3无偏学习的无用性

2．8小始和补充读物

习题

第3章决策树学习

3．1简介

3．2决策树表示法

3．3决策树学习的适用问题

3．4基本的决策树学习算法

3．4．1哪个属性是最佳的分类属性

3．4．2举例

3．5决策树学习中的假设空间搜索

3．6决策树学习的归纳偏置

3．6．1限定偏置和优选偏置

3．6．2为什么短的假设优先

3．7决策树学习的常见问题

3．7．1避免过度拟合数据

3. 7．2合并连续值属性

3．7．3属性选择的其他度量标准

3．7．4处理缺少属性值的训练样例

3．7．5处理不同代价的属性

3．8小结和补充读物

习题

第4章人工神经网络

4．1简介

4．2神经网络表示

4．3适合神经网络学习的问题

4．4感知器

4．4．1感知器的表征能力

4. 4．2感知器训练法则

4．4．3梯度下降和delta法则

4．4．4小结

4．5多层网络和反向传播算法

4．5．1可微阈值单元

4．5．2反向传播算法

4．5．3反向传播法则的推导

4．6反向传播算法的说明

4．6．1收敛性和局部极小值

4．6．2前馈网络的表征能力

4．6．3假设空间搜索和归纳偏置

4．6．4隐藏层表示

4．6．5泛化、过度拟合和停止判据

4．7举例：人脸识别

4．7．1任务

4．7．2设计要素

4．7．3学习到的隐藏层表示

4．8人工神经网络的高级课题

4．8．1其他可选的误差函数

4．8．2其他可选的误差最小化过程

4．8．3递归网络

4．8．4动态修改网络结构

4．9小结和补充读物

习题

第5章评估假设

5．1动机

5．2估计假设精度

5．2．1样本错误率和真实错误率

5．2．2离散值假设的置信区间

5．3采样理论基础

5．3．1错误率估计和二项比例估计

5．3．2二项分布

5．3．3均值和方差

5．3．4估计量、偏差和方差

5．3．5置信区间

5．3．6双侧和单侧边界

5．4推导置信区间的一般方法

5．5两个假设错误率间的差异

5．6学习算法比较

5．6. 1配对t测试

5．6．2实际考虑

5．7小结和补充读物

习题

第6章贝叶斯学习

6．1简介

6．2贝叶斯法则

6．3贝叶斯法则和概念学习

6．3．1BRUTE-FORCE贝叶斯概念学习

6．3．2MAP假设和一致学习器

6．4极大似然和最小误差平方假设

6．5用于预测概率的极大似然假设

6．6最小描述长度准则

6．7贝叶斯最优分类器

6．8GIBBS算法

6．9朴素贝叶斯分类器

6．10举例：学习分类文本

6．11贝叶斯信念网

6．11．1条件独立性

6．11．2表示

6．11．3推理

6．11．4学习贝叶斯信念网

6．11．5贝叶斯网的梯度上升训练

6．11．6学习贝叶斯网的结构

6．12EM算法

6．12．1估计k个高斯分布的均值

6．12．2EM算法的一般表述

6．12．3k均值算法的推导

6．13小结和补充读物

习题

第7章计算学习理论

7．1简介

7．2可能学习近似正确假设

7．2．1问题框架

7．2．2假设的错误率

7．2．3PAC可学习性

7．3有限假设空间的样本复杂度

7．3．1不可知学习和不一致假设

7．3．2布尔文字的合取是PAC可学习的

7．3．3其他概念类别的PAC可学习性

7．4无限假设空间的样本复杂度

7．4．1打散一个实例集合

7．4．2Vapnik-Chervonenkis维度

7．4．3样本复杂度和VC维

7．4．4神经网络的VC维

7．5学习的出错界限模型

7．5．1FIND-S算法的出错界限

7．5．2HALVING算法的出错界限

7．5．3最优出错界限

7．5．4加权多数算法

7．6小结和补充读物

习题

第8章基于实例的学习

8．1简介

8．2k-近邻算法

8．2．1距离加权最近邻算法

8．2．2对k-近邻算法的说明

8．2．3术语注解

8．3局部加权回归

8．3．1局部加权线性回归

8．3．2局部加权回归的说明

8．4径向基函数

8．5基于案例的推理

8．6对消极学习和积极学习的评论

8．7小结和补充读物

习题

第9章遗传算法

9．1动机

9．2遗传算法

9．2．1表示假设

9．2．2遗传算子

9．2．3适应度函数和假设选择

9．3举例

9．4假设空间搜索

9．5遗传编程

9．5．1程序表示

9．5．2举例

9．5．3遗传编程说明

9．6进化和学习模型

9．6．1拉马克进化

9．6．2鲍德温效应

9．7并行遗传算法

9．8小结和补充读物

习题

第10章学习规则集合

10．1简介

10．2序列覆盖算法

10．2．1一般到特殊的柱状搜索

10．2．2几种变型

10．3学习规则集：小结

10．4学习一阶规则

10．4．1一阶Horn子句

10．4．2术语

10．5学习一阶规则集：FOIL

10．5．1FOIL中的候选特化式的生成

10．5．2引导FOIL的搜索

10．5．3学习递归规则集

10．5．4FOIL小结

10．6作为逆演绎的归纳

10．7逆归纳

10．7．1一阶归纳

10．7．2逆归纳：一阶情况

10．7．3逆归纳小结

10．7．4泛化、-包容和涵蕴

10．7．5PROGOL

10．8小结和补充读物

习题

第11章分析学习

11．1简介

11．2用完美的领域理论学习：PROLOG-EBG

11．3对基于解释的学习的说明

11．3．1发现新特征

11．3．2演绎学习

11．3．3基于解释的学习的归纳偏置

11．3．4知识级的学习

11．4搜索控制知识的基于解释的学习

11．5小结和补充读物

习题

第12章归纳和分析学习的结合

12．1动机

12．2学习的归纳-分析途径

12．2．1学习问题

12．2．2假设空间搜索

12．3使用先验知识得到初始假设

12．3．1KBANN算法

12．3．2举例

12．3．3说明

12．4使用先验知识改变搜索目标

12．4．1TANGENTPROP算法

12．4．2举例

12．4．3说明

12．4．4EBNN算法

12．4．5说明

12．5使用先验知识来扩展搜索算子

12．5．1FOCL算法

12．5．2说明

12．6研究现状

12．7小结和补充读物

习题

第13章增强学习

13．1简介

13．2学习任务

13．3Q学习

13．3．1Q函数

13．3．2一个学习Q的算法

13．3．3举例

13．3．4收敛性

13．3．5实验策略

13．3．6更新序列

13．4非确定性回报和动作

13．5时间差分学习

13．6从样例中泛化

13．7与动态规划的联乐

13．8小结和补充读物

习题

附录符号约定

内容简介编辑本段

这本书为机器学习技术提供了一些非常棒的案例研究。它并不想成为一本关于机器学习的工具书或者理论书籍，它注重的是一个学习的过程，因而对于任何有一些编程背景和定量思维的人来说，它都是不错的选择。

——Max Shron OkCupid

机器学习是计算机科学和人工智能中非常重要的一个研究领域，机器学习不但在计算机科学的众多领域中大显身手，而且成为一些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的方法和技术，不仅详细阐述了许多经典的学习方法，还讨论了一些有生命力的新理论、新方法。全书案例既有分类问题，也有回归问题；既包含监督学习，也涵盖无监督学习。本书讨论的案例从分类讲到回归，然后讨论了聚类、降维、最优化问题等。这些案例包括分类：垃圾邮件识别，排序：智能收件箱，回归模型：预测网页访问量，正则化：文本回归，最优化：密码破解，无监督学习：构建股票市场指数，空间相似度：用投票记录对美国参议员聚类，推荐系统：给用户推荐R语言包，社交网络分析：在Twitter上感兴趣的人，模型比较：给你的问题找到最佳算法。各章对原理的叙述力求概念清晰、表达准确，突出理论联系实际，富有启发性，易于理解。在探索这些案例的过程中用到的基本工具就是R统计编程语言。R语言非常适合用于机器学习的案例研究，因为它是一种用于数据分析的高水平、功能性脚本语言。

本书主要内容：

•开发一个朴素贝叶斯分类器，仅仅根据邮件的文本信息来判断这封邮件是否是垃圾邮件；

•使用线性回归来预测互联网排名前1000网站的PV；

•利用文本回归理解图书中词与词之间的关系；

•通过尝试破译一个简单的密码来学习优化技术；

•利用无监督学习构建股票市场指数，用于衡量整体市场行情的好坏；

•根据美国参议院的投票情况，从统计学的角度对美国参议员聚类；

•通过K近邻算法构建向用户推荐R语言包；

•利用Twitter数据来构建一个“你可能感兴趣的人”的推荐系统；

•模型比较：给你的问题找到最佳算法。

作者简介编辑本段

Drew Conway 机器学习专家，拥有丰富的数据分析与处理工作经验。主要利用数学、统计学和计算机技术研究国际关系、冲突和恐怖主义等。他曾作为研究员在美国情报和国防部门供职数年。他拥有纽约大学政治系博士学位，曾为多种杂志撰写文章，是机器学习领域的著名学者。

John Myles White 机器学习专家，拥有丰富的数据分析与处理工作经验。主要从理论和实验的角度来研究人类如何做出决定，同时还是几个流行的R语言程序包的主要维护者，包括ProjectTemplate和log4r。他拥有普林斯顿大学哲学系博士学位，曾为多家技术杂志撰稿，发表过许多关于机器学习的论文，并在众多国际会议上发表演讲。

译者简介编辑本段

罗森林

博士，教授，博导。现任北京理工大学信息系统及安全对抗实验中心主任、专业责任教授。国防科技工业局科学技术委员会成员；《中国医学影像技术杂志》、《中国介入影像与治疗学》编委会委员；全国大学生信息安全技术专题邀请赛专家组副组长；中国人工智能学会智能信息安全专业委员会委员等。主要研究方向为信息安全、数据挖掘、媒体计算、中文信息处理等。负责或参加完成国家自然科学基金、国家科技支撑计划、863计划、国家242计划等省部级以上项目40余项。已发表学术论文90余篇，出版著作8部，出版译著1部，获授权专利3项。

陈开江

新浪微博搜索部研发工程师，曾独立负责微博内容反垃圾系统、微博精选内容挖掘算法、自助客服系统（包括自动回复、主动挖掘、舆情监测）等项目，主要从事社交挖掘、推荐算法研究、机器学习、自然语言处理相关工作，研究兴趣是社交网络的个性化推荐。

刘逸哲

阿里巴巴，CBU基础平台部搜索与推荐团队核心技术与query分析方向负责人，机器学习技术领域及圈子负责人。曾任中国雅虎相关性团队、自然语言处理团队算法工程师；AvePoint.inc开发工程师，从事企业级搜索引擎开发。研究兴趣是机器学习、自然语言处理及个性化推荐等算法在大规模数据上的应用。

孟晓楠

一淘广告技术，阿里非搜索广告算法负责人，负责用户行为分析、建模与细分，RTB竞价算法，展示广告CTR预估与SEM优化。曾工作于网易杭州研究院，参与过分布式全文检索系统和网易博客产品的数据挖掘算法开发。研究兴趣是计算广告技术、机器学习、大数据技术、信息检索等。

词条内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

如果您认为本词条还有待完善，请编辑

作者：	（美）Tom Mitchell	语种：	简体中文
ISBN：	7-111-10993-7	开本：	16开
定价：	35.00元	原书名：	Machine Learning
页数：	280	属性分类：	教材
出版日期：	2003-01-01	所属丛书：	计算机类丛书
译者：	曾华军张银奎等	试用专业：	计算机
图书分类：	计算机>人工智能>综合	包含CD：	否
原出版社：	无	出版社：	机械工业出版社
绝版：	否

机器学习

概念定义编辑本段

发展历程编辑本段

研究现状编辑本段

机器分类编辑本段

常见算法编辑本段

应用范围编辑本段

模式识别

研究意义编辑本段

发展历史编辑本段

主要策略编辑本段

基本结构编辑本段

代码示例编辑本段

学习分类编辑本段

综合分类编辑本段

学习形式编辑本段

研究领域编辑本段

相关图书编辑本段

内容简介编辑本段

图书特色编辑本段

图书前言编辑本段

作品目录编辑本段

相关图书2

内容简介编辑本段

作者简介编辑本段

译者简介编辑本段

附件列表

标签

同义词

机器学习

概念定义 编辑本段

发展历程 编辑本段

研究现状 编辑本段

机器分类 编辑本段

常见算法 编辑本段

应用范围 编辑本段

模式识别

研究意义 编辑本段

发展历史 编辑本段

主要策略 编辑本段

基本结构 编辑本段

代码示例 编辑本段

学习分类 编辑本段

综合分类 编辑本段

学习形式 编辑本段

研究领域 编辑本段

相关图书 编辑本段

内容简介 编辑本段

图书特色 编辑本段

图书前言 编辑本段

作品目录 编辑本段

相关图书2

内容简介 编辑本段

作者简介 编辑本段

译者简介 编辑本段

附件列表

标签

同义词

概念定义编辑本段

发展历程编辑本段

研究现状编辑本段

机器分类编辑本段

常见算法编辑本段

应用范围编辑本段

研究意义编辑本段

发展历史编辑本段

主要策略编辑本段

基本结构编辑本段

代码示例编辑本段

学习分类编辑本段

综合分类编辑本段

学习形式编辑本段

研究领域编辑本段

相关图书编辑本段

内容简介编辑本段

图书特色编辑本段

图书前言编辑本段

作品目录编辑本段

内容简介编辑本段

作者简介编辑本段

译者简介编辑本段