从数据中提取有用特征

2024-05-15

1. 从数据中提取有用特征

 几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此,需要将原始数据转换为数值。
   当类别特征为原始形式时,其取值来自所有可能取值所构成的集合,而不是一个数字,故不能作为输入。   将类别特征表示为数字形式,常可借助k之1(1-of-k)编码方法进行。
   如果每个单词都是一种可能的取值,那么可能出现的单词组合几乎有无限种。这时模型几乎看不到有相同的特征出现两次,学习效果也不理想,因此需要将原始的文本转换为一种更便于机器学习的形式。
   另外还有一个特征抽取的神器: word2vec ,有兴趣可以参考这篇文章 《通俗理解word2vec》 

从数据中提取有用特征