基础术语
特征或属性
通常的做法是测量所有可测属性,然后挑选出重要部分
目标变量
目标变量是机器学习算法的预测结果。 训练样本集必须明确知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。
训练集
使用某个机器学习算法进行分类,首先需要做的是算法训练,即学习如何分类。通常我们为算法输入大量已经分类的数据作为算法的训练集。 训练集用于训练机器学习算法的数据样本集合。
训练数据和测试数据
为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。 机器学习程序开始运行时,使用训练样本集作为算法的输入。 训练完成之后输入测试样本。输入测试样本时,并不提供测试样本的目标变量,由程序决定样本属于那个类别。 比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精确度。
知识表示
知识表示可以采用规则集的形式,也可以采用概率分布的形式,甚至可以使训练样本集中的一个实例。
监督学习:分类和回归
分类:主要任务是将实例数据划分到合适的分类中。 回归:主要用于预测数值型数据。 之所以称为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。
对应用途:
算法 | 用途 | |
---|---|---|
k-近邻算法 | 线性回归 | |
朴素贝叶斯算法 | 局部加权线性回归 | |
支持向量机 | Ridge回归 | |
决策树 | Lasso最小回归系数估计 |
无监督学习
无监督学习:数据没有类别信息,也不会给定目标值。 无监督学习中,将数据集合分成由类似的独享组成的多个类的过程被称为聚类;讲寻找描述数据统计的过程称为密度估计。
机器学习的步骤:
1. 收集数据 2. 准备输入数据(某些算法要求特征值使用特定的格式) 3. 分析输入数据 (主要作用是确保数据集中没有垃圾数据) 4. 训练算法 (将得到的格式化数据输入到算法,从中抽取知识或信息。这里得到的知识需要存储为计算机可以处理的格式,方便后续步骤使用。如果使用无监督学习算法,由于不存在目标变量之,故而不需要训练算法,所有与算法相关的内容都集中在第五步) 5. 测试算法(为了苹果算法,必须测试算法的工作效果。对于监督学习,必须已知用户评估算法的目标变量值。无监督学习,也必须用其他的评测手段来检验算法的成功率) 6. 使用算法 (将机器学习算法转换为应用程序,执行实际任务。)
- python语言的特色与优缺点: 略