统计基本知识

根据统计课本对基础知识进行大致整理,便于复习。

数据的概括性度量

  • 集中趋势的度量

众数:一组数据中出现次数最多的变量值。

中位数:一组数据排序后处于中间位置上的变量值。

平均数:简单平均数、加权平均数、几何平均数(见公式)。

G = \sqrt[n]{x_1\cdot x_2\cdot … \cdot x_n}

  • 离散程度的度量

极差:一组数据的最大值与最小值之差。

平均差:各变量值与其平均数离差绝对值的平均数(见公式)。

M_d = \frac{\Sigma_{i=1}^n|x_i-\bar{x}|}{n}

方差:各变量值与其平均数离差平方的平均数(见公式)。

s^2 = \frac{\Sigma_{i=1}^n(x_i-\bar{x})^2}{n-1}

为什么方差是除以n-1?

https://www.zhihu.com/question/20099757

在计算离差平方和\Sigma_{i=1}^n(x_i-\bar{x})^2的时候,必须先确定样本平均数\bar{x},这是附加给n个观测值的1个约束,那么n个样本的自由度为n-1,因此计算方差时只有(n-1)个独立的观测值。

概率与概率分布

  • 随机事件及其概率

事件:偶然事件、必然事件、不可能事件。

  • 离散型随机变量及其分布

期望 E(X) = \Sigma_{i=1}^n x_i p_i

方差 D(X) = E[X-E(X)]^2 = E(X^2) – [E(X)]^2

分布:均匀分布、二项分布、泊松分布。

二项分布 E(X) = np,\quad D(X) = np(1-p)

  • 连续型随机变量的概率分布

正态分布 f(x) = \frac{e^{-\frac{1}{2\sigma^2}(x-\mu)^2}}{\sigma\sqrt{2\pi}}

统计量及其抽样分布

  • 统计量

常用统计量:均值、样本方差、样本变异系数、样本k阶矩、样本k阶中心矩、样本偏度、样本峰度。

  • 由正态分布导出的几个重要分布

\chi^2 分布:设随机变量 X_1, X_2,…X_n 相互独立,且都服从标准正态分布,则它们的平方和 \Sigma_1^n X_i^2 服从自由度为n的 \chi^2 分布。

E(\chi^2) = n,\quad D(\chi^2) = 2n

可加性: \chi_1^2 + \chi_2^2 \sim \chi^2(n_1+n_2)

当n趋近于正无穷时, \chi^2 分布的极限分布是正态分布。

t 分布:设随机变量 X\sim N(0,1),\quad Y\sim\chi^2(n) ,且X、Y相互独立,则 t = \frac{X}{\sqrt{\frac{Y}{n}}} 为t分布,自由度为n,记为t \sim t(n)

F 分布:设随机变量 X\sim \chi^2(m),\quad Y\sim\chi^2(n) ,且X、Y相互独立,则 Z = \frac{\frac{X}{m}}{\frac{Y}{n}} 服从第一自由度为m,第二自由度为n的F分布,记为 Z \sim F(m,n)

  • 中心极限定理

设从均值为 \mu ,方差为\sigma^2 (有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值 \bar{X} 的抽样分布近似服从均值为 \mu ,方差为\frac{\sigma^2}{n} 的正态分布。

参数估计

点估计:用样本统计量 \hat{\theta} 的某个取值直接作为总体参数 \theta 的估计值。

区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。

假设检验

方差分析

You May Also Like

About the Author: 雪球

一个在读的工科研究生 一个努力追赶时代脚步的人 Github: https://github.com/xueqiwang0v0 LinkedIn: https://www.linkedin.com/in/xueqi-wang-0939b51a6/

发表评论

邮箱地址不会被公开。 必填项已用*标注