注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

我的大学生活

让我们放飞梦想,在真理和知识的天空自由翱翔

 
 
 

日志

 
 
 
 

Microsoft Excel “分析工具库"  

2009-03-02 04:56:08|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

Microsoft Excel 提供了一组数据分析工具,称为“分析工具库”,在建立复杂统计或工程分析时可节省步骤。只需为每一个分析工具提供必要的数据和参数,该工具就会使用适当的统计或工程宏函数,在输出表格中显示相应的结果。其中有些工具在生成输出表格时还能同时生成图表。

相关的工作表函数 Excel 还提供了许多其他统计、财务和工程工作表函数。某些统计函数是内置函数,而其他函数只有在安装了“分析工具库”之后才能使用。

访问数据分析工具 “分析工具库”包括下述工具。要使用这些工具,请单击“工具”菜单上的“数据分析”。如果没有显示“数据分析”命令,则需要加载“分析工具库”加载项 (加载项:为 Microsoft Office 提供自定义命令或自定义功能的补充程序。)程序。

方差分析

方差分析工具提供了几种方差分析工具。具体使用哪一种工具则根据因素的个数以及待检验样本总体中所含样本的个数而定。

方差分析:单因素 此工具可对两个或更多样本的数据执行简单的方差分析。此分析可提供一种假设测试,该假设的内容是:每个样本都取自相同基础概率分布,而不是对所有样本来说基础概率分布都不相同。如果只有两个样本,则工作表函数 TTEST 可被平等使用。如果有两个以上样本,则没有合适的 TTEST 归纳和“单因素方差分析”模型可被调用。

方差分析:包含重复的双因素 此分析工具可用于当数据按照二维进行分类时的情况。例如,在测量植物高度的实验中,植物可能使用不同品牌的化肥(例如 A、B 和 C),并且也可能放在不同温度的环境中(例如高和低)。对于这 6 对可能的组合 {化肥,温度},我们有相同数量的植物高度观察值。使用此方差分析工具,我们可检验:


使用不同品牌化肥的植物的高度是否取自相同的基础总体;在此分析中,温度可以被忽略。
不同温度下的植物的高度是否取自相同的基础总体;在此分析中,化肥可以被忽略。
是否考虑到在第 1 步中发现的不同品牌化肥之间的差异以及第 2 步中不同温度之间差异的影响,代表所有 {化肥,温度} 值的 6 个样本取自相同的样本总体。另一种假设是仅基于化肥或温度来说,这些差异会对特定的 {化肥,温度} 值有影响。



方差分析:无重复的双因素 此分析工具可用于当数据按照二维进行分类且包含重复的双因素的情况。但是,对于此工具,假设每一对值只有一个观察值(例如,在上面的示例中的 {化肥,温度} 值)。使用此工具我们可以应用方差分析的第 1 和 2 步检验:包含重复的双因素情况,但没有足够的数据应用第 3 步的数据。

相关系数

CORREL 和 PEARSON 工作表函数可计算两组不同测量值变量之间的相关系数,条件是当每种变量的测量值都是对 N 个对象进行观测所得到的。(任何对象的任何丢失的观测值都会引起在分析中忽略该对象。)系数分析工具特别适合于当 N 个对象中的每个对象都有多于两个测量值变量的情况。它可提供输出表和相关矩阵,并显示应用于每种可能的测量值变量对的 CORREL(或 PEARSON)值。

与协方差一样,相关系数是描述两个测量值变量之间的离散程度的指标。与协方差的不同之处在于,相关系数是成比例的,因此它的值独立于这两种测量值变量的表示单位。(例如,如果两个测量值变量为重量和高度,如果重量单位从磅换算成千克,则相关系数的值不改变)。任何相关系数的值必须介于 -1 和 +1 之间。

可以使用相关分析工具来检验每对测量值变量,以便确定两个测量值变量的变化是否相关,即,一个变量的较大值是否与另一个变量的较大值相关联(正相关);或者一个变量的较小值是否与另一个变量的较大值相关联(负相关);还是两个变量中的值互不关联(相关系数近似于零)。

协方差

“相关”和“协方差”工具可在相同设置下使用,当您对一组个体进行观测而获得了 N 个不同的测量值变量。“相关”和“协方差”工具都可返回一个输出表和一个矩阵,分别表示每对测量值变量之间的相关系数和协方差。不同之处在于相关系数的取值在 -1 和 +1 之间,而协方差没有限定的取值范围。相关系数和协方差都是描述两个变量离散程度的指标。

“协方差”工具为每对测量值变量计算工作表函数 COVAR 的值。(当只有两个测量值变量,即 N=2 时,可直接使用函数 COVAR,而不是协方差工具)在协方差工具的输出表中的第 i 行、第 j 列的对角线上的输入值就是第 i 个测量值变量与其自身的协方差;这就是用工作表函数 VARP 计算得出的变量的总体方差。

可以使用协方差工具来检验每对测量值变量,以便确定两个测量值变量的变化是否相关,即,一个变量的较大值是否与另一个变量的较大值相关联(正相关);或者一个变量的较小值是否与另一个变量的较大值相关联(负相关);还是两个变量中的值互不关联(协方差近似于零)。

描述统计

“描述统计”分析工具用于生成数据源区域中数据的单变量统计分析报表,提供有关数据趋中性和易变性的信息。

指数平滑

“指数平滑”分析工具基于前期预测值导出相应的新预测值,并修正前期预测值的误差。此工具将使用平滑常数 a,其大小决定了本次预测对前期预测误差的修正程度。

注释 0.2 到 0.3 之间的数值可作为合理的平滑常数。这些数值表明本次预测应将前期预测值的误差调整 20% 到 30%。大一些的常数导致快一些的响应但会生成不可靠的预测。小一些的常数会导致预测值长期的延迟。

F-检验双样本方差

“F-检验双样本方差”分析工具通过双样本 F-检验,对两个样本总体的方差进行比较。

例如,您可在一次游泳比赛中对每两个队的时间样本使用 F-检验工具。该工具提供空值假设的检验结果,该假设的内容是:这两个样本来自具有相同方差的分布,而不是方差在基础分布中不相等。

该工具计算 F-统计(或 F-比值)的 F 值。F 值接近于 1 说明基础总体方差是相等的。在输出表中,如果 F < 1,则当总体方差相等且根据所选择的显著水平“F 单尾临界值”返回小于 1 的临界值时,“P(F <= f) 单尾”返回 F-统计的观察值小于 F 的概率 Alpha。如果 F > 1,则当总体方差相等且根据所选择的显著水平,“F 单尾临界值”返回大于 1 的临界值时,“P(F <= f) 单尾”返回 F-统计的观察值大于 F 的概率 Alpha。

傅立叶分析

“傅立叶分析”分析工具可以解决线性系统问题,并能通过快速傅立叶变换 (FFT) 进行数据变换来分析周期性的数据。此工具也支持逆变换,即通过对变换后的数据的逆变换返回初始数据。



直方图

“直方图”分析工具可计算数据单元格区域和数据接收区间的单个和累积频率。此工具可用于统计数据集中某个数值出现的次数。

例如,在一个有 20 名学生的班里,可按字母评分的分类来确定成绩的分布情况。直方图表可给出字母评分的边界,以及在最低边界和当前边界之间分数出现的次数。出现频率最多的分数即为数据集中的众数。

移动平均

“移动平均”分析工具可以基于特定的过去某段时期中变量的平均值,对未来值进行预测。移动平均值提供了由所有历史数据的简单的平均值所代表的趋势信息。使用此工具可以预测销售量、库存或其他趋势。预测值的计算公式如下:



式中:

N 为进行移动平均计算的过去期间的个数
Aj 为期间 j 的实际值
Fj 为期间 j 的预测值
随机数发生器

“随机数发生器”分析工具可用几个分布中的一个产生的独立随机数来填充某个区域。可以通过概率分布来表示总体中的主体特征。

例如,可以使用正态分布来表示人体身高的总体特征,或者使用双值输出的伯努利分布来表示掷币实验结果的总体特征。

排位与百分比排位

“排位与百分比排位”分析工具可以产生一个数据表,在其中包含数据集中各个数值的顺序排位和百分比排位。该工具用来分析数据集中各数值间的相对位置关系。该工具使用工作表函数 RANK 和 PERCENTRANK。RANK 不考虑重复值。如果希望考虑重复值,请在使用工作表函数 RANK 的同时,使用帮助文件中所建议的函数 RANK 的修正因素。

回归分析

回归分析工具通过对一组观察值使用“最小二乘法”直线拟合来执行线性回归分析。本工具可用来分析单个因变量是如何受一个或几个自变量影响的。

例如,观察某个运动员的运动成绩与一系列统计因素的关系,如年龄、身高和体重等。可以基于一组已知的成绩统计数据,确定这三个因素分别在运动成绩测试中所占的比重,使用该结果对尚未进行过测试的运动员的表现作出预测。

回归工具使用工作表函数 LINEST。

抽样分析

抽样分析工具以数据源区域为总体,从而为其创建一个样本。当总体太大而不能进行处理或绘制时,可以选用具有代表性的样本。如果确认数据源区域中的数据是周期性的,还可以对一个周期中特定时间段中的数值进行采样。

例如,如果数据源区域包含季度销售量数据,则以四为周期进行取样,将在输出区域中生成与数据源区域中相同季度的数值。

t-检验

“双样本 t-检验”分析工具基于每个样本检验样本总体平均值是否相等。这三个工具分别使用不同的假设:样本总体方差相等;样本总体方差不相等;两个样本代表处理前后同一对象上的观察值。

对于以下所有三个工具,t-统计值 t 被计算并在输出表中显示为“t Stat”。数据决定了 t 是负值还是非负值。假设基于相等的基础总体平均值,如果 t < 0,则“P(T <= t) 单尾”返回 t-统计的观察值比 t 更趋向负值的概率。如果 t >=0,则“P(T <= t) 单尾”返回 t-统计的观察值比 t 更趋向正值的概率。“t 单尾临界值”返回截止值,这样,t-统计的观察值将大于或等于“t 单尾临界值”的概率就为 Alpha。

“P(T <= t) 双尾”返回将被观察的 t-统计的绝对值大于 t 的概率。“P 双尾临界值”返回截止值,这样,被观察的 t-统计的绝对值大于“P 双尾临界值”的概率就为 Alpha。

t-检验:双样本等方差假设 本分析工具可进行双样本学生 t-检验。此 t-检验窗体先假设两个数据集取自具有相同方差的分布,故也称作同方差 t-检验。可以使用此 t-检验来确定两个样本是否来自具有相同总体平均值的分布。

t-检验:双样本异方差假设 本分析工具可进行双样本学生 t-检验。此 t-检验窗体先假设两个数据集取自具有不同方差的分布,故也称作异方差 t-检验。如同上面的“等方差”情况,可以使用此 t-检验来确定两个样本是否来自具有相同总体平均值的分布。当两个样本中有截然不同的对象时,可使用此检验。当对于每个对象具有唯一一组对象以及代表每个对象在处理前后的测量值的两个样本时,则应使用下面所描述的成对检验。

用于确定统计值 t 的公式如下:



下列公式可用于计算自由度 df。因为计算结果一般不是整数,所以 df 的值被舍入为最接近的整数以便从 t 表中获得临界值。因为有可能为 TTEST 计算出一个带有非整数 df 的值,所以 Excel 工作表函数 TTEST 使用计算出的、未进行舍入的 df 值。由于这些决定自由度(TTEST 函数的结果)的不同方式,此 t-检验工具将与“异方差”情况中不同。



t-检验:成对双样本平均值 当样本中存在自然配对的观察值时(例如,对一个样本组在实验前后进行了两次检验),可以使用此成对检验。此分析工具及其公式可以进行成对双样本学生 t-检验,以确定取自处理前后的观察值是否来自具有相同总体平均值的分布。此 t-检验窗体并未假设两个总体的方差是相等的。

注释 由此工具生成的结果中包含有合并方差,亦即数据相对于平均值的离散值的累积测量值,可以由下面的公式得到:



z-检验

“z-检验:双样本平均值”分析工具可对具有已知方差的平均值进行双样本 z-检验。此工具用于检验两个总体平均值之间存在差异的空值假设,而不是单方或双方的其它假设。如果方差已知,则应该使用工作表函数 ZTEST。

当使用“z-检验”工具时,应该仔细理解输出。当总体平均值之间没有差别时,“P(Z <= z) 单尾”是 P(Z >= ABS(z)),即与 z 观察值沿着相同的方向远离 0 的 z 值的概率。当总体平均值之间没有差异时,“P(Z <= z) 双尾”是 P(Z >= ABS(z) 或 Z <= -ABS(z)),即沿着任何方向(而非与观察到的 z 值的方向一致)远离 0 的 z 值的概率。双尾结果只是单尾结果乘以 2。z-检验工具还可用于当两个总体平均值之间的差异具有特定的非零值的空值假设的情况。

例如,可以使用此检验来确定两种汽车之间的性能差异情况

 

 

 

Excel是美国微软公司开发的办公集成化软件包office97家族中的一员,它拥有良好的操作界面,特别是财务表格的处理,更能显示它的特长。同时,Excel还能输出漂亮的统计图形和各式统计表格。在操作向导的指引下,它可作出条图、面积图、折线图等,超过14种之多。如果输出的图形不满意,也很容易修改。特别值得一提的是,它带有上百个函数,而统计函数就有70多个,可完成多种统计任务。并且随时给出错误提示,帮你完成正确操作。Excel还附带有分析工具库,使用它能更好地完成数据处理(如果在“工具”菜单中没有“数据分析”选项,必须在 Microsoft Excel 中安装“分析工具库”)。下面仅就医学研究中所用的几种均值检验方法,作一简单的介绍。

一.T检验(TTEST函数的应用)

    TTEST函数调用的结果是返回与student’s- t 检验相关的概率。可以判断两个样本是否来自两个具有相同均值的总体。包括配对样本T检验和独立样本T检验。

1.函数调用:按插入→函数,打开粘贴函数对话框。在函数分类框中(左框)选取统计,再在函数名框中(右框)选取TTEST函数。这样在Excel的左上角出现TTEST对话框,你就可以输入信息了。(在函数调用之前要将数据输入表格中)

2.选项:

①Array1为第一个数据集。Array2为第二个数据集。数值输入方法是:1)选取第一个数据集(第一个样本):用鼠标在表格中选取数据后,所选取的区域周围出现闪动的虚线,在Array1中出现如A1:A8样式的数值选取范围(引用);2)选取第二个数据集(第二个样本)的方法同上。

②Tails指明分布曲线的尾数。如果 tails = 1,函数 TTEST 使用单尾分布。如果 tails = 2,函数 TTEST 使用双尾分布。

③Type为 t 检验的类型。1是配对T检验,2是方差齐的独立样本T检验,3是方差不齐的独立样本T检验。

3.说明:①如果 array1 和 array2 的数据点数目不同,且 type = 1(成对),函数 TTEST 返回错误值 #N/A。②如果 tails 或 type 为非数值型,函数 TTEST 返回错误值 #VALUE!。③如果 tails 不为 1 或 2,函数 TTEST 返回错误值 #NUM!。

4.应用举例:

    如果将3,4,5,8,9,1,2,4,5输入A1:A9表格中,把6,19,3,2,14,4,5,17,1输入B1:B9表格中后,再选取A10表格,调出TTEST函数对话框,在Array1中输入A1:A9或用鼠标在表格中选取,在Array 2中输入B1:B9或用鼠标在表格中选取。在Tails中输入2。在Type中输入1后即可见对话框的底部出现计算结果=0.196016 按确定按纽后在A10表格中出现0.196016的数值。

二.方差分析

    通过简单的方差分析(anova),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如 t-检验)的扩充。

1.函数调用:按工具→分析工具,调出分析工具菜单,点亮方差分析:单因素方差分析,按确定即可调出单因素方差分析对话框。

2.选项:

①输入区域 在此输入待分析数据区域的单元格引用。该引用必须由两个或两个以上按列或行组织的相邻数据区域组成。

②分组方式 如果需要指出输入区域中的数据是按行还是按列排列。

③标志位于第一行/列 如果输入区域的第一行中包含标志项,选 “标志位于第一行”复选框;如果输入区域的第一列中包含标志项,选 “标志位于第一列”复选框;如果输入区域没有标志项,则该复选框不会被选中,Microsoft Excel 将在输出表中生成适宜的数据标志(各列中第一个数)。

④Alpha 在此输入计算 F 统计临界值的检验水准。Alpha为 I 型错误发生概率的显著性水平(弃真的概率)。

⑤输出区域 在此输入对输出表左上角单元格的引用。当输出表将覆盖已有的数据,或是输出表越过了工作表的边界时,Microsoft Excel 会自动确定输出区域的大小并显示信息。

⑥新工作表 单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,请在右侧的编辑框中键入名称。

⑦新工作簿 单击此选项,可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。

3.应用举例

    以表一所示格式输入数据后,按上面所介绍的方法选取Anova对话框,在输入区域内或输入或选取A1:D11,分组方式为列,标志位于第一行,Alpha为0.05,输出选项为新工作表组。结果在新的sheet中显示出如表二、三。

表一 数据输入

CD3

CD4

CD8

CD4CD8

34

20

13

1.538

32

22

15

1.467

37

23

14

1.643

30

26

12

2.167

36

17

13

1.308

32

18

13

1.385

37

15

11

1.364

33

17

10

1.700

36

25

12

2.083

38

19

15

1.267

表二 统计描述结果

计数

求和

平均

方差

CD3

10

345

34.5

7.166667

CD4

10

202

20.2

13.51111

CD8

10

128

12.8

2.622222

CD4CD8

10

15.922

1.5922

0.098403

    随机区组的双因素方差分析(配对资料)与单因素方差分析大体相似,只不过要将配对编号作为一个列来进行分析。

三.线性回归

    线性回归是用来研究一非独立变量(因变量)与一组独立变量(自变量)间关系的方法之一。

表三 方差分析结果

差异源

SS

df

MS

F

P-value

F crit

组间

5712.321

3

1904.107

325.5106

3.96E-26

2.866265

组内

210.5856

36

5.849601

总计

5922.906

39

1.函数调用:按工具→分析工具,调出分析工具菜单,点亮“回归”,按确定可调出回归对话框。

2.选项:

①X、Y 值输入区域:在此分别输入对自变量和因变量数据区域的引用。该区域必须分别由单列数据组成。②标志:如果输入区域的第一行和第一列中包含标志项,请选中此复选框。③置信度:如果需要在汇总输出表中包含附加的置信度信息,请选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。如果为 95%,则可省略。④常数为零:强制回归线通过原点。⑤输出区域:在此输入对输出表左上角单元格的引用。⑥新工作表:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,请在可侧的编辑框中键入名称。⑦新工作簿:创建一新工作簿,并在新工作簿中的新工作表中粘贴计算结果。⑧残差:以残差输出表的形式查看残差。⑨标准残差:在残差输出表中包含标准残差。残差图:绘制每个自变量及其残差。线形拟合图:为预测值和观察值生成一个图表。正态概率图:绘制正态概率图。

3.说明:在数据分析结果中,Intercept是截距,Intercept下面的值是各自变量的回归系数(斜率)。残差图以0为中线,点的散布应无规律,而认为方差齐性、各项观测量是独立的、因变量服从正态分布、所得结果是线性函数。正态概率图中的点如果近似在一条直线上说明总体分服从正态。(由于篇幅有限,略去示例)

    利用Excel还可作出相关系数、协方差分析、进行描述统计、指数平滑、双样本方差齐性的F检验、傅利叶分析、直方图等。其基本操作与上述分析过程相似,只要数据输入格式正确,一般都可获得精确的结果。

 

 

  评论这张
 
阅读(1382)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018