机器学习中特征提取和特征选择有什么区别(一文给你讲明白)

  机器学习中,特征提取和特征选择有什么区别?特征选择(feature selection)和特征提取(feature extraction)是特征工程中的两个重要问题。有句说法:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。

机器学习中特征提取和特征选择有什么区别

  在机器学习中,特征选择(feature selection) 也被称为变量选择、属性选择 或变量子集选择 。它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。使用特征选择技术有三个原因:

  简化模型,使之更易于被研究人员或用户理解

  缩短训练时间

机器学习中特征提取和特征选择有什么区别

  改善通用性、降低过拟合(即降低方差)

  要使用特征选择技术的关键假设是:训练数据包含许多冗余或无关的特征,因而移除这些特征并不会导致丢失信息。特征选择是指去掉无关特征,保留相关特征的过程,也可以认为是从所有的特征中选择一个最好的特征子集,本质上是一种降维的过程。

  特征提取(feature extraction)是指将机器学习算法不能识别的原始数据转化为算法可以识别的特征的过程。比如说,图片是由一系列像素点构(原始数据)成的,这些像素点本身无法被机器学习算法直接使用,但是如果将这些像素点转化成矩阵的形式(数值特征),那么机器学习算法就可以使用了。

机器学习中特征提取和特征选择有什么区别

  特征选择技术与特征提取有所不同。特征提取实际上是把原始数据转化为机器学习算法可以识别的数值特征,从原有特征的功能中创造新的特征,不存在降维的概念,不需要理会这些特征是否有用;而特征选择是在提取出来的特征中选择最优的一个特征子集,常常用于许多特征但样本(即数据点)相对较少的领域。特征选择应用的典型用例包括:解析书面文本和微阵列数据,这些场景下特征成千上万,但样本只有几十到几百个。

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发
头像
不要怕,这儿没有熟人,高低整两句吧
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容