您现在的位置:主页 > 刘佰温三肖中特期期准 > 025期今晚2019年007期开什么特马大数据掘金——数据挖掘方法(分

025期今晚2019年007期开什么特马大数据掘金——数据挖掘方法(分

2019-03-24 12:33

分类法

分类法通过有监督的学习程序探究被测对象(独立变量)与其成员(输出变量)之间的函数,在这一学习程序中,所有的变量(输入变量与输出变量)都交由算法处理。两个常见步骤是模型建立/训练与模型实验/应用。模型建立阶段需要用到包括实际分类

简单拆分

简单拆分(也称为保留方法或测试样本估计)这一方法将数据分为两个互相独立的子集,分别称为训练集与测试集(或保留集),通常将三分之二的数据作为训练集,三分之一的数据作为测试集。建立模型者要用到训练集,而测试集要被用来测试建立的分类模型。由于这种方法只是简单的随机分配,对于向分类变量偏斜的现实数据集,这种假设并不正确。分层抽样可以解决这一问题,因为分层抽样中,层级变为输出变量。

K重交叉验证

在比较两种或两种以上预测方法精确性时,为了克服对训练数据与保留数据的随机抽样带来的缺陷,分析者可以运用称为K重交叉验证(K-Fold CrossValidation)的方法,也称为旋转估计。这一方法将整个数据集随机分成K个相互独立、大小相同的子集,分类模型要训练并测试K次,每次用K-1个训练集进行验证,用剩下1个测试集测试。然后交叉验证所得到的模型整体精确度用k次精确度量的平均值来表示。

其他评估方法

留一法

引导法

刀切法

ROC曲线下面积决策树

决策树的原理就是运用递归法,将某一训练集划分,使得每一分区全部或主要由某一类别中的实例组成。决策树的每一个非叶节点都包含一个分割点,这个分割点是对一个或多个属性的测试,并决定数据如何进一步划分。通常来说,决策树算法通过训练集数据建立一棵树,每个树叶节点都是纯数据,并且将整棵树不断修剪,以增加其普遍性与测试数据的预测精确性。

建立决策树的通用算法

建立根节点并分配所有的训练集数据;

选择最佳拆分属性;

为每个拆分值在根节点上增加一个树枝,将数据沿特定的树枝拆分为互相独立(互不重叠)的子集;

每个叶节点上重复步骤2与步骤3,直到找到最后的标准(节点由一个分类

推荐

打赏我吧