生成分类变量总结(4篇)

山崖发表网工作总结2023-12-31 11:12:1526

生成分类变量总结 第1篇

在结果解释之前,我们需要先看一下假设4的检验结果(平行线检验的结果)。

在Ordinal Regression: Output对话框中,选择Test of parallel lines后出现的结果如图14。本例中平行线检验χ2= ,P= ,说明平行性假设成立,即各回归方程相互平行,可以使用有序Logistic过程进行分析。

如果平行线假设不能满足,可以考虑以下两种方法进行处理:①进行无序多分类Logistic回归,而非有序Logistic回归,并能接受因变量失去有序的属性;② 用不同的分割点将因变量变为二分类变量,分别进行二项Logistic回归。

但是,当样本量过大时,平行线检验会过于敏感。即当比例优势存在时,也会显示P<。此时,可以尝试将因变量设置为哑变量,并拟合多个二分类Logistic回归模型,通过观察自变量对各哑变量的OR值是否近似来判断。

生成分类变量总结 第2篇

决策树的构建过程:

算法:在决策树各个节点上应用信息增益准则选择特征,每一次都选择是的信息增益最大的特征进行分裂,递归的构建决策树。

信息衡量标准–熵:表示随机变量不确定性的度量 H ( x ) = − ∑ p i ∗ l o g ( p i ) H(x) = -\sum p_i*log(p_i) H(x)=−∑pi​∗log(pi​) 熵形容的是物体内部得混乱程度。我们希望分类完之后,结果得不确定越小越好.信息增益就是表示特征X使类Y的不确定减少得程度。 按照如此,计算其他特征得信息增益。信息增益最大的特征最为分类依据。

不足

算法对ID3算法的不足进行了改进。用信息增益率来选择特征。信息增益率等于信息增益除以该属性本身得熵。 悲观剪枝:ID3构造决策树的时候,容易产生过拟合。在中,会在决策树构造之后采用悲观剪枝,以提升决策树的泛化能力。 悲观剪枝时候剪纸技术中的一种,通过递归估算每个内部结点的分类错误率,比较剪纸前后这个几点的分类错误率来决定是否对其进行剪枝。

离散化处理连续属性:连续值划分的阈值,根据信息增益比来划分,将连续值离散化

处理缺失值: 如果样本总量n,特征a缺失m个数据,去除缺失值后,计算 g a i n 0 gain_0 gain0​。最终, g a i n = n − m n g a i n 0 gain = \frac{n-m}{n}gain_0 gain=nn−m​gain0​。在计算gain_ratio。

总结

既可以做分类,也可以做回归。只能形成二叉树。

分类树 CART用Gini指数来决定如何分裂,表示总体内包含的类别杂乱程度。越乱Gini指数越大。

gini的计算 g i n i = 1 − ∑ ( p i ) 2 gini = 1 - \sum(p_i)^2 gini=1−∑(pi​)2 损失函数:同一层所有分支假设函数得基尼系数得平均 连续特征离散化 将特征值排序,选取基尼系数最小的点作为分类点,一分为二。当前节点为连续属性时,该属性后面还可以参与子节点的产生选择过程。CART分类树采用的是不停的二分,形成二叉树。

回归树 回归树采用最小方差作为分裂规则。 对于任意划分特征A,对应的任意划分点s两边划分成得数据集D1和D2,求出是D1和D2各自集合得均方差最小,同时D1和D2得均方差之和最小所对应的特征和特征值划分点。 其中,c1为D1数据集得样本输出均值,c2为D2数据集得样本输出均值 输出结果:最终叶子得均值或者中位数来预测输出结果 剪枝策略:后剪枝

优点

缺点

后剪枝比预剪枝保留了更多分支。一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能能往往优于预剪枝决策树。但后剪枝过程在生成完全决策树之后才能进行,并且要自底向上对数中的所有非叶子节点逐一计算,因此训练时间开销比未剪纸开销大。

1. 决策树为什么容易过拟合? 决策树的生成过程中,通过不断分支,将样本实例划分到合适的单元,当样本中存在噪声,即可能是特征值观测误差或者标签值观测误差,使在分支归节点的时候产生矛盾,这时决策树选择继续生成新的分支,来产生更加“完美”的叶子节点,这便是由于噪音数据带来的误生成的分支,使得训练变得更加优越,而泛化能力下降

2.决策树的深浅和对应的条件概率模型有何关系 每条路径后的叶子节点对应着特征空间的一个划分区域,而此区域内估计各类的概率,便是此路径下的条件概率,当决策树模型较浅时,对应的路径上的节点数也较少,从而概率路径上的特征也较少,这表示,通过较少的特征估计了所有特征组合里的众多可能的条件概率,因此,较浅的决策树对应着舍弃某些特征组合下的泛条件概率模型(参数复杂度低)

3.信息增益倾向于选择取值较多的特征,为何? 信息增益在计算的过程中,存在对某个特征的某取值时的数据集合内的各类概率估计,当该特征的取值较多时,分到每个值小面的样本数也会少一些,而这使得概率的估计的稳定性变差(或者说离大数定律的要求越远),使得估计出的概率容易出现非均匀的情况,从而造成条件熵下降,即信息增益变大的倾向,但不是所有情况下都是这样的,当数据集非常大,或者说那些取值多的特征并没有多到很夸张时,信息增益并没有多大偏向性。

4.信息增益比如何消除信息增益的倾向性? 通过将信息增益值与特征的内部熵值比较,消除因为特征取值较多带来的概率估计偏差的影响。其本质是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。这带来一个新的问题是,倾向于选择特征取值少的。

中的回归树在生成过程中,特征会重复出现吗?树生成的停止条件是啥? 特征会复用,停止的条件是基尼指数低于阈值,或者样本数太少没有分支的意义,再或者是没有特征可供选择。补充:ID3和的特征不会复用,且是多分叉的树。

6.决策树出现过拟合的原因

生成分类变量总结 第3篇

主要有两种:

l 归一化处理

主要通过把数据归一到一特定的区间范围,如[0,1],便于明确样本值在指标整体中的位置.

应用场景: 归一化处理基本上是所有分析计算之前必做的一个预处理.

l 标准化处理

主要是通过把数据标准到正态分布区间内,便于各FEATURE之间的计算,即考虑综合指标的之间的作用时.

应用场景: 标准化处理主要用在聚类分析中.

主要有四种常见的检验方式:

一) 连续型指标的检验

l T检验

应用场景: 判断二分类变量对一连续型指标的显著影响

前提条件: 没有,就是针对二分类变量的

原理: 判断不同水平间目标连续指标的均值是否相等

例子: 性别对某APP访问量的影响

l 单因素方差分析

应用场景: 判断多分类变量对一连续型指标的显著影响

前提条件:

1) 多分类变量

2) 各水平(分组)数据的特征:

a) 服从正态分布

b) 方差相等(方差齐次)

检验流程:

例子: 各年龄段对某APP访问量的影响

l 单因素协方差分析

应用场景: 在某一连续变量影响下,判断多分类变量对目标连续指标的显著影响

前提条件:

1) 另一连续变量对目标连续型指标有影响

2) 多分类变量

3) 各水平(分组)数据的特征:

a) 服从正态分布

b) 方差相等(方差齐次)

4) 连续变量与分类变量无交互作用

如何判断两者之间的交互作用:

1) 分别做它们与目标连续指标的回归分析, 观察斜率是否相同. 如果相同, 则无交互作用; 否则, 有交互作用

2) 直接根据AOV(Y ~ X1*X2)作回归分析, 观察综合因素X1*X2对应的概率P是否小于(默认). 即T检验对应斜率等于0的概率.如果小于, 则有交互作用; 否则, 无交互作用.

例子: 注册时间的影响下不同年龄段对某APP访问量的显著影响

二) 非连续型指标的检验

l 卡方检验

应用场景: 对比分类变量在不同水平下的转换率数据是否有显著差异

前提条件:

1) 目标变量为分类变量(例如: 网站用户数可分为下订单数与非下订单数)

原理: 判断目标分类变量在不同水平下差异. 这里具体的可以参考卡方公式

例子: 网站改版前后对订单的转换有无影响(订单的转换率的显著变化)

生成分类变量总结 第4篇

要理解“单元格”,就需要理解“协变量模式(covariate pattern)”的概念。协变量模式是指数据中自变量数值的组合,与因变量无关。比如,在本数据中,一个协变量模式是29岁(age),男性(gender)和药物2(treatment)。对于每种协变量模式,可能有多个研究对象。比如,如果有2个研究对象是29岁、男性和药物2,这代表一个协变量模式。需要理解的另一个概念是“单元格模式(cell pattern)”,它是指自变量和因变量数值的组合,与协变量模式相似,但加上了因变量。对于同一个协变量模式,如果协变量模式能对应因变量所有值,就没有“缺失”的单元格。但实际中,一个协变量模式对应的因变量可能只有一个值。假如,有1个29岁、男性和药物2研究对象的因变量是“满意”,但由于因变量共有4个水平,所以此时单元格“缺失”3个。因此,协变量模式与单元格模式之间的联系是:(1)所有可能的单元格总数是协变量模式个数乘以因变量的分组个数;(2)实际的单元格是指单元格模式中频率不为0的单元格。单元格频率为零的比率为(总单元格的个数-实际单元格的个数)÷总单元格的个数。

显示全文

注:本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即后台留言通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意

点击下载文档

文档为doc格式

发表评论

评论列表(7人评论 , 39人围观)

点击下载
本文文档