Skip to content

基础术语

基础术语

  1. 特征或属性

    1
    通常的做法是测量所有可测属性,然后挑选出重要部分
    
  2. 目标变量

    1
    2
    目标变量是机器学习算法的预测结果。
    训练样本集必须明确知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。
    
    1. 训练集

      使用某个机器学习算法进行分类,首先需要做的是算法训练,即学习如何分类。通常我们为算法输入大量已经分类的数据作为算法的训练集。 训练集用于训练机器学习算法的数据样本集合。

  3. 训练数据和测试数据

    1
    2
    3
    4
    为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。
    机器学习程序开始运行时,使用训练样本集作为算法的输入。
    训练完成之后输入测试样本。输入测试样本时,并不提供测试样本的目标变量,由程序决定样本属于那个类别。
    比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精确度。
    
    1. 知识表示

      知识表示可以采用规则集的形式,也可以采用概率分布的形式,甚至可以使训练样本集中的一个实例。 1. 监督学习:分类和回归

      分类:主要任务是将实例数据划分到合适的分类中。 回归:主要用于预测数值型数据。 之所以称为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。 对应用途:

算法 用途
k-近邻算法 线性回归
朴素贝叶斯算法 局部加权线性回归
支持向量机 Ridge回归
决策树 Lasso最小回归系数估计
  1. 无监督学习
    1
    2
    无监督学习:数据没有类别信息,也不会给定目标值。
    无监督学习中,将数据集合分成由类似的独享组成的多个类的过程被称为聚类;讲寻找描述数据统计的过程称为密度估计。
    
    1. 机器学习的步骤:

      1. 收集数据
      2. 准备输入数据(某些算法要求特征值使用特定的格式)
      3. 分析输入数据 (主要作用是确保数据集中没有垃圾数据)
      4. 训练算法 (将得到的格式化数据输入到算法,从中抽取知识或信息。这里得到的知识需要存储为计算机可以处理的格式,方便后续步骤使用。如果使用无监督学习算法,由于不存在目标变量之,故而不需要训练算法,所有与算法相关的内容都集中在第五步)
      5. 测试算法(为了苹果算法,必须测试算法的工作效果。对于监督学习,必须已知用户评估算法的目标变量值。无监督学习,也必须用其他的评测手段来检验算法的成功率)
      6. 使用算法 (将机器学习算法转换为应用程序,执行实际任务。)
      7. python语言的特色与优缺点: 略