首页 > 卡方检验(Chi

卡方检验(Chi

互联网 2021-10-18 18:33:47

卡方检验属于非参数检验,由于非参检验不存在具体参数和总体正态分布的假设,所以有时被称为自由分布检验

参数和非参数检验最明显的区别是它们使用数据的类型

非参检验通常将被试分类,如民主党和共和党,这些分类涉及名义量表或顺序量表,无法计算平均数和方差。

卡方检验分为拟合度的卡方检验卡方独立性检验

我们用几个例子来区分这两种卡方检验:

对于可口可乐公司的两个领导品牌,大多数美国人喜欢哪一种?公司采用了新的网页页面B,相较于旧版页面A,网民更喜欢哪一种页面?

以上两个例子属于拟合度的卡方检验,原因在于它们都是有关总体比例的问题。我们只是将个体分类,并想知道每个类别中的总体比例。它检验的内容仅涉及一个因素多项分类计数资料,检验的是单一变量在多项分类中实际观察次数分布与某理论次数是否有显著差异。

拟合度的卡方检验定义

主要使用样本数据检验总体分布形态或比例的假说。测验决定所获得的的样本比例与虚无假设中的总体比例的拟合程度如何。

拟合度的卡方检验又叫最佳拟合度的卡方检验,为何取名“最佳拟合”?这是因为最佳拟合度的卡方检验的目的是比较数据(实际频数)与虚无假设。确定数据如何拟合虚无假设指定的分布,因此取名“最佳拟合”。

关于拟合度的卡方检验有一些翻译上的区别,其实表达的是一个意思:

拟合度的卡方检验=卡方拟合优度检验=最佳拟合度卡方检验

以下统称:卡方拟合优度检验

卡方统计的公式: 卡方=\chi^{2}=\Sigma\frac{\left( f_{o} -f_{e}\right)^{2}}{f_{e}}

公式中O代表observation,即实际频数;E代表Expectation,即期望频数。

为什么要在求和之前除以 f_{e} ?

原因: f_{o}f_{e} 的差距是相对较大还是较小,取决于期望频数的大小

举例:我们准备在周末举办一个派对,并预期有1000个客人。实际来参加派对的人数为1040人。当我们计划接待1000人时,比预期多40个人并不是什么大问题,大家可能仍然有足够的啤酒和薯片。另一种情况,假设我们预期派对有10人出席,而实际上来了50人。在这种情况下,多出来的40个客人将会导致大麻烦,因为实际人数是预期人数的5倍,我们可能并没有足够的食物提供。

因此,差异如何显著取决于你原先的预期。

拟合优度检验中自由度为:k-1,k代表分类变量数

当期望次数并不假定是均匀分布时,也可以采用拟合优度检验。

卡方拟合优度检验在R中的实现

我们用上面的一个例子来实践,假设有一个数据集包含60名被试对新旧版网页的喜好选择。是否网民更喜欢新网页的布局?

H_{0} :在一般总体中,网民对新旧网页没有特定的偏爱。

H_{1} :在一般总体中,网民更偏爱新网页的布局。

head(prefsAB)Subject Pref1 1B2 2B3 3B4 4B5 5B6 6Bsummary(prefsAB)Subject Pref 1: 1 A:14 2: 1 B:46 3: 1 4: 1 5: 1 6: 1 (Other):54

数据包含两列,第一列为被试,第二列为喜好(A为旧版页面,B为新版页面)

选择A的共有14人,选择B的共有46人。

用条形图查看,可以看出更多的被试偏爱新网页(B)的布局

plot(prefsAB$Pref)

采用xtabs生成频数表

prfs = xtabs( ~ Pref data=prefsAB)prfsPref AB 14 46

进行卡方拟合优度检验

chisq.test(prfs)Chi-squared test for given probabilitiesdata:prfsX-squared = 17.067 df = 1 p-value = 3.609e-05

p值小于0.05,拒绝原假设H0,被试对新网页有着显著的偏爱。

如何报告卡方值

APA为在科学杂志上报告卡方统计指定了具体的格式。

被试对新旧网页布局的喜好有着显著的不同,新网页更受到偏爱, \chi^{2}(1n=60)=17.067 p0.05

卡方符号后的括号中包含自由度以及样本大小n

卡方独立性检验

卡方独立性检验是用于两个或两个以上因素多项分类计数资料分析,即研究两类变量之间(以列联表形式呈现)的关联性和依存性,或相关性、独立性、交互作用性。

卡方独立性检验的虚无假设指所测量的两个变量之间是独立的,即对于每个个体,所得到的一个变量值与另一个变量的值是不相关的。

同样,我们通过例子来区分卡方独立性检验和卡方拟合优度检验

Example:研究人员正在研究学习成绩和自尊之间的关系。样本为n=150名10岁的儿童,每名被试均根据学习成绩和自尊水平分类。下表显示了该例中的频率分布和实际频数。

可以看出两种不同的卡方检验中,一种用于不同水平的单一分类变量,另一种用于不同水平的多类别变量。

在上例中,存在两个分类变量(学习成绩、自尊),每个变量含有不同水平(学习成绩有高低两个水平、自尊有高中低三个水平)。而在卡方拟合优度的例子中,我们只有一个分类变量(网页),该变量含有新旧两个水平。

卡方独立性检验的公式和卡方拟合优度相同,自由度为: df=(R-1)(C-1)

其中,R为行数row,C为列数column

卡方独立性检验在R中的实现

我们使用vcd包中的Arthritis数据集。该数据来自Kock & Edward (1988),是一项风湿关节炎新疗法的双盲临床实验结果。

library(vcd)head(Arthritis)ID TreatmentSex Age Improved1 57 Treated Male27 Some2 46 Treated Male29 None3 77 Treated Male30 None4 17 Treated Male32 Marked5 36 Treated Male46 Marked6 23 Treated Male58 Marked

数据中的变量包含:

被试号(ID)治疗情况(Treatment):安慰剂治疗(Placebo)、用药治疗(Treated)性别:男性(Male)、女性(Female)年龄(Age)改善情况:无改善(None)、一定程度的改善(Some)、显著改善(Marked)

2-4均为计数资料,在R语言中称为类别型因子(factor)

我们想知道治疗情况和改善情况是否相关或独立

生成列联表

mytable
免责声明:非本网注明原创的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件12小时内删除。