首页 > 4 描述性统计量和统计图

4 描述性统计量和统计图

互联网 2021-10-18 18:12:06

更多MATLAB数据分析视频请点击,或者在网易云课堂上搜索《MATLAB数据分析与统计》 http://study.163.com/course/courseMain.htm?courseId=1003615016

.描述性统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点炬、偏度、峰度、协方差和相关系数。

 统计图包括箱线图、直方图、经验分布函数图、正态概率图、P-P图和Q-Q图。

本章以下表中的数据示例,对其进行操作演示。

《4 描述性统计量和统计图》

1 .描述性统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点炬、偏度、峰度、协方差和相关系数。

  1.1 均值

    MATLAB中用mean函数来计算样本均值,样本均值描述了样本观测数据取值相对集中的中心位置。

    例:用mean函数计算工作表中的平均成绩(计算平均成绩的时候要去掉缺考的成绩,即成绩为0的)

  %读取文件1.xls中的第一个工作表中的总成绩的数据即G2:G52默认的就是读取第一个工作表中的数据,无需指定 %score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’Sheet1′’G2:G52′);   score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′);   score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩   score_mean=mean(score)     %调用mean函数计算平均值

  score_mean =

      79  有时候样本均值会掩盖很多信息,你和马云平均一下你也是亿万土豪,这说明了样本均值受异常值的影响比较大,有一定的不合理性。

 1.2 方差和标准差

  样本方差有如下两种形式的定义:

  《4 描述性统计量和统计图》

 

   样本标准差是样本方差的算术平方根,相应的它也有两种形式的定义:

 《4 描述性统计量和统计图》

  样本方差或标准差表述了样本观测数据变异程度的大小,MATLAB统计工具箱中提供了var和std函数,分别用来计算样本方差和标准差。

 调用格式

  var(x)=var(x,0):用公式1计算方差

  var(x,1)                  :用公式2计算方差

 std(x)=std(x,0):用公式3计算标准差

 std(x,1)                   :用公式4计算标准差

例:对上一列中的数据中的总成绩求方差和标准差

%读取文件1.xls中的第一个工作表中的总成绩的数据即G2:G52默认的就是读取第一个工作表中的数据,无需指定 %score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’Sheet1′’G2:G52′); score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′); score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

%计算方差和标准差 ss1=var(score)  %式1 ss1=var(score)  %式1 ss2=var(score1) %式2 s1=std(score)    %式3 s1=std(score0)   %式3 s2=std(score1)   %式4

ss1 =

   103

ss1 =

   103

ss2 =

  100.8980

s1 =

   10.1489

s1 =

   10.1489

s2 =

   10.0448

 1.3 最大值和最小值

 max函数用来计算样本最大值,min函数用来计算样本最小值

score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′); score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

score_max=max(score) score_min=min(score)

score_max =

    98

score_min =

    49

 1.4 极差

  range函数用来计算样本的极差(最大值-最小值),极差可以作为样本观测数据变异程度大小的一个简单度量

  score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′);   score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

  score_range=range(score)

score_range =

    49

1.5 中位数

 将样本观测值从小到大依次排列,位于中间的那个观测值,称为样本中位数,它描述了样本观测数据的中间位置。median函数用来计算样本的中位数

 score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′); score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩  score_meidan=median(score)

score_meidan =

    80

1.6 分位数

分位数就是先把一列数按从小到大排序如果一共有n个数那么四分之一分位数就是第n*0.25个数四分之三分位数就是第n*0.75个数以此类推p分位数就是第n*p个数.如果n*p不是整数则往最接近的较大的整数上归。样本的0.5分位数就是样本的中位数。

MATLAB统计工具箱中提供了quantile和prctilte,均可用来计算样本的分位数,一个用小数表示分位数,一个用百分数表示分位数

score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′); score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

score_m1=quantile(score[0.250.50.75])  %计算样本的0.25,0.50.75分位数  socre_m2=prctile(score[255075])  %计算样本的25%,50%,75%分位数

score_m1 =

   73.0000   80.0000   85.5000

socre_m2 =

   73.0000   80.0000   85.5000

1.7 众数

  众数描述了样本数据中出现次数最多的数。mode函数用来计算样本的众数

 score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′); score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

score_mode=mode(score)

score_mode =

    80

1.8 变异系数

 变异系数是衡量数据变异程度的(和方差标准差一样),当进行两个或多个变量变异程度的比较时,如果平均值相同,可以直接用标准差来比较。如果平均值不同,比较其变异程度就不能用标准差,而需要采用标准差与平均数的比值来比较。标准差与平均值的比值称为变异系数。MATLAB中没有专门计算变异系数的函数,需要利用std和mean函数的比值来计算

  score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′);   score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

  score_cvar=std(score)/mean(score)  %计算变异系数

 score_cvar =

    0.1285

1.9  原点矩

 定义样本的k阶元电矩为《4 描述性统计量和统计图》,(样本数据的k次长的均值),样本的1阶原点矩就是样本均值

  score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′);   score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

 A2=mean(score.^2)

A2 =

   6.3419e+03

1.10 中心矩

  定义样本的k阶中心矩为《4 描述性统计量和统计图》,(样本中个元素减去均值的k次方的均值),显然,样本的1阶中心矩为0,二阶中心矩为样本的方差。moment函数用来计算样本的k阶中心矩

  score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′);   score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

  B1=moment(score1)  %计算样本的1阶中心矩  B2=moment(score2)  %计算样本的2阶中心矩

B1 =

     0

B2 =

  100.8980

1.11 偏度

 样本偏度反映了总体分布的对称信息,偏度越接近0,说明分布越对称,否则分布越偏斜。若偏度为负,说明样本服从左偏分布(概率密度的左尾巴长,顶点偏向右边);若偏度为正,样本服从有偏分布(概率密度的右尾巴长,顶点偏向左边),MATLAB中的skewness函数用来计算样本的偏度,计算公式为

 《4 描述性统计量和统计图》

其中B2和B3分别为样本的2阶和3阶中心矩。

  score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′);   score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

 score_skewness=skewness(score)  %计算样本偏度

score_skewness =

   -0.7929

1.12 峰度

  样本峰度反映了总体分布密度曲线在其峰值附近的陡峭程度。正态分布的峰度为3,如果样本峰度大于3,说明总体分布密度曲线在其峰值附近比正态分布来得陡。反之,小于 3,说明总体分布密度曲线在其峰值附近比正态分布平缓。计算公式《4 描述性统计量和统计图》,B2,B4分别是样本的2阶和4阶中心矩,MATLAB中kurtosis函数用来计算样本峰度。

  score=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’G2:G52′);   score=score(score>0);  %只把成绩不为0的数据取出来,即去掉缺考成绩

  score_kurtosis=kurtosis(score)

 score_kurtosis =

    4.3324

1.13 协方差

  协方差是描述变量间相关程度的统计量。两随机向量XY之间的协方差定义为cov(XY)=E[(X-E(X))(Y-E(Y))],E表示数学期望,MATLAB中用cov函数用来计算变量间的协方差矩阵。

all函数:检测矩阵中是否全为非零元素 any函数:检测矩阵中是否有非零元素,如果有,则返回1,否则,返回0。用法和all一样

用法:

B=all(A)

B=all(A.dim); %dim=1或dim=2

B = all(A): 如果A是一个向量,如果所有的元素都是非零的,则返回1,如果有一个元素为零,则返回0。 如果A是一个矩阵,则返回一个行向量,用于检测每一列是否全为非零元素,如果某一列中有一个元素为零,则返回0,如果某一列中全为非零元素,则返回1,由此构成一个行向量。 B = all(A 1) 返回一个行向量,可以认为all(A 1)等价于all(A)

B = all(A 2)返回一个列向量,用于检测每一行是否全为非零元素,如果某一行中有一个元素为零,则返回0,如果某一行中全为非零元素,则返回1,由此构成一个列向量。

%计算平时成绩和期末成绩间的协方差(平时成绩与期末成绩的相关程度)  %需要读取平时成绩和期末成绩这两列  XY=xlsread(‘C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls’’E2:F52′);  XY=XY(all(XY2):);  conXY=cov(XY)

conXY =

    9.2245   19.8588    19.8588   54.0578

返回的conXY是一个2×2的对称矩阵,即平时成绩与期末成绩的协方差矩阵。其中,主对角线上的9.2245是平时成绩的方差,54.0578是期末成绩的方差。副对角线上的19.8588是平时成绩与期末成绩的协方差

1.14 相关系数

 在用协方差描述变量间的相关程度时会受到变量的量纲和数量级的影响,即使对于同样的一组变量,当变量的量纲和数量级发生变化时,协方差也会随之改%

免责声明:非本网注明原创的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件12小时内删除。