基础术语

  1. 特征或属性

     通常的做法是测量所有可测属性,然后挑选出重要部分
    
  2. 目标变量

     目标变量是机器学习算法的预测结果。
     训练样本集必须明确知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。
    
  3. 训练集

     使用某个机器学习算法进行分类,首先需要做的是算法训练,即学习如何分类。通常我们为算法输入大量已经分类的数据作为算法的训练集。
     训练集用于训练机器学习算法的数据样本集合。            
    
  4. 训练数据和测试数据

     为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。
     机器学习程序开始运行时,使用训练样本集作为算法的输入。
     训练完成之后输入测试样本。输入测试样本时,并不提供测试样本的目标变量,由程序决定样本属于那个类别。
     比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精确度。
    
  5. 知识表示

     知识表示可以采用规则集的形式,也可以采用概率分布的形式,甚至可以使训练样本集中的一个实例。
    
  6. 监督学习:分类和回归

     分类:主要任务是将实例数据划分到合适的分类中。
     回归:主要用于预测数值型数据。
     之所以称为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。
    

    对应用途:

算法 用途
k-近邻算法 线性回归
朴素贝叶斯算法 局部加权线性回归
支持向量机 Ridge回归
决策树 Lasso最小回归系数估计
  1. 无监督学习

     无监督学习:数据没有类别信息,也不会给定目标值。
     无监督学习中,将数据集合分成由类似的独享组成的多个类的过程被称为聚类;讲寻找描述数据统计的过程称为密度估计。
    
  2. 机器学习的步骤:

     1. 收集数据
     2. 准备输入数据(某些算法要求特征值使用特定的格式)
     3. 分析输入数据 (主要作用是确保数据集中没有垃圾数据)
     4. 训练算法 (将得到的格式化数据输入到算法,从中抽取知识或信息。这里得到的知识需要存储为计算机可以处理的格式,方便后续步骤使用。如果使用无监督学习算法,由于不存在目标变量之,故而不需要训练算法,所有与算法相关的内容都集中在第五步)
     5. 测试算法(为了苹果算法,必须测试算法的工作效果。对于监督学习,必须已知用户评估算法的目标变量值。无监督学习,也必须用其他的评测手段来检验算法的成功率)
     6. 使用算法 (将机器学习算法转换为应用程序,执行实际任务。)
    
  3. python语言的特色与优缺点: 略

results matching ""

    No results matching ""