本文共 558 字,大约阅读时间需要 1 分钟。
分类器是指通过物品特征来判断它应该属于哪个组或类别的程序!分类器程序会基于一组已经做过分类的物品进行学习,从而判断新物品的所属类别。
eg: 会先计算出与这个物品距离最近的物品,然后找到用户对这个最近物品的评价,以此作为新物品的预测值。
1.我们将这些数据集分为了两个部分,第一部分用来构造分类器,因此称为训练集;另一部分用来评估分类器的结果,因此称为测试集。(如何分两部分:十折交叉验证和留一法,)
2.数据特征值选取。
2.标准化。当不同特征的评分尺度不一致时,为了得到更准确的距离结果,就需要将这些特征进行标准化,使他们在同一个尺度内波动。
3.利用特征值建立向量。
4.通过向量来计算距离,到这里为止搭建了一个分类器(计算距离可以选择曼哈顿等的距离算法)
5.使用第二部分数据来评估分类器,如果ok就来预测(其中使用了混淆矩阵来记录结果,Kappa指标来评估分类器,)
6..预测新物品的类别。
knn(k近邻)算法:
ps:
1.KNN算法是分类算法,分类算法肯定是需要有学习语料,然后通过学习语料的学习之后的模板来匹配我们的测试语料集,将测试语料集合进行按照预先学习的语料模板来分类
2Kmeans算法是聚类算法,聚类算法与分类算法最大的区别是聚类算法没有学习语料集合。
转载地址:http://jwafb.baihongyu.com/