- 概率计算
- 概率密度的定义,性质
- 常见分布的性质
- 常见统计分布的定义和性质
概率相同的,相互独立的伯努利分布,可以加。
E[X]=np,Var[X]=np(1−p)
P(X)=k!e−λλk
E[X]=Var[X]=λ
可以用泰勒展开辅助记忆, 也就是
ex=∑∞k!xk
除过去就是泊松分布的概率和。满足归一性。
定义:前n−1次失败,最后一次成功的概率。 矿井逃生问题。具有无记忆性。
P(X)=(1−p)k−1p
在一个区间上等概率,也就是
fX(x)=b−a1
有
E[X]=2a+b,Var[X]=12(b−a)2
这个性质是很直观的,均匀分布的期望就呆在区间的正中间。
fX=λ⋅x−λx
FX(X)=∫fXdx=1−e−λx
所谓的稀有事件可以认为是服从指数分布的。比如电灯泡的寿命,(暴毙是稀有的),银行大厅来客人的时间等等。
E(X)=λ1,Var[X]=λ21
很重要的分布,式子是这样子的
fX(x)=2πσ1e−2σ2(x−μ)2
其中,σ是标准差,μ是平均值。
正态分布有很多重要的性质。
- 两个正态分布的和仍然是正态分布,而且有(如果两个变量独立)
C1N1(μ1,σ1)+C2N2(μ2,σ2)=N(C1μ1+C2μ2,C12σ12+C22σ22)
我们定义,偏度(衡量偏斜程度),也就是样本是否均匀分布在均值两侧。
=Var[X]23E[(X−E[X])3]
定义峰度是
=Var[X]24E[(X−E[X])4]
以上两个式子,分子均是随机变量的k阶中心距,分母是方差的2k次方,用来标准化值。(消除尺度对数值的影响)
协方差 Covariance
Cov(X,Y)=E[XY]−E[X]E[Y]
- 如果协方差为 0, 说明两个变量不相关。注意:不独立
我们定义相关系数r
r=σXσYCov(X,Y)
显然,协方差为 0 的时候这玩意也是零,于是不相关。
E[AX+BY]=AE[X]+BE[Y]
E[XY]=E[X]E[Y]
Var[aX+bY]=a2Var[X]+b2Var[Y]
所谓卡方分布,就是数个服从标准正态分布的随机变量加起来。用在符合正态分布的总体当中,也就是
X2(n)=∑nXi2
X∼N(0,1)
其中,n称为卡方分布的自由度。显然,卡方是可以加起来的。
X2(a)+X2(b)=X2(a+b)
如果里面的变量 iid.
t 分布看上去不是很好记。t 的分子是标准正态分布,分母有一个根号,根号里边是卡方分布除以它的自由度。
T=nYX=nX2(n)N(0,1)
为什么捏?
F 分布就是卡除卡
--框框老师
卡方除卡方。很简单,两个参数就是分子和分母卡方的自由度。
样本的统计性质和上面的定义差不多,但是有一点点区别。
样本均值 $\bar{X} = \frac{1}{n}\sum X_i $
样本方差 $S^2 = \frac{1}{n}\sum (X_i - \bar{X})^2 $
修正样本方差 $S^2 = \frac{1}{n-1}\sum (X_i - \bar{X})^2 $
其实常用的就这几个。
P(X≤ϕα(n))=α
用人话来讲,就是有 α 的概率,随机变量小于 ϕα(n)。其中,ϕ是一种特定的分布。
抽样分布基本定理
对于服从正态分布的样本,有
样本均值服从正态分布
Xˉ∼N(μ,nσ2)
样本方差是卡方分布的函数
σ2n⋅Sn2∼X2(n−1)
而且样本均值和样本方差相互独立。
这些性质说明正态分布其实非常特殊。
推论
Sn∗Xˉ−μn=SnXˉ−μn−1∼t(n−1)
以上就是做题要用到的内容辣。
虽然是重点但是考的不是很难好像)
大数定律指出的是,随着样本数量的增加,频率会收敛于概率。
而中心极限定理指出的是,一些随机变量之和,随着样本数量增加,和的分布会收敛于正态分布。
切比雪夫不等式
随机变量的波动幅度受方差控制,也就是
P(∣X−E[X]∣≥ϵ)≤ϵ2Var[X]
看个真题
例题
设随机变量ζ的数学期望E[ζ]=μ,方差Var[ζ]=σ2,求$P(|\zeta - \mu| \geq 3\sigma) \le $ ___
这个题目就是直接套用切比雪夫不等式即可,也就是代入ϵ=3σ,然后等式右侧变成
9σ2σ2=91
虽然大数定律有很多条,但是表达形式基本是一样的。
大数定律 I
设X1,X2,⋯,Xn是相互独立的随机变量,且具有相同的数学期望E[Xi]=μ,方差D[Xi]=σ2,则对于任意ϵ>0,有
n→∞limP(nX1+X2+⋯+Xn−μ≥ϵ)=0
切比雪夫弱大数定律和辛钦若大数定律采用这一形式。
以上两条大数定律要求的条件有一点差别,我在这里抄一下。
对于切比雪夫弱大数定律,要求
- 随机变量有相同的均值(不要求iid)
- 随机变量互相独立
- 随机变量的方差有公共上界
对于辛钦若大数定律,要求
马尔可夫大数定律
对于任意随机变量序列,只要满足
n→∞limn21Var[i=1∑nXi]=0
就满足弱大数定律。
矩法估计的核心思想:用样本的k阶原点矩估计总体的k阶原点矩。总体的分布有几个参数,我就从1算到几阶矩,搞到n条方程,就能把参数解出来。
使用矩法估计的步骤
I 将总体的参数表示为各阶原点矩的函数
II 用样本的k阶原点矩代替总体的k阶原点矩,得到参数的估计量θ^k.
III θ^k代替θ,得到总体的分布函数F(x;θ^k)
最大似然估计的核心思想:观测总体,得到一批样本。我们认为得到这一批样本是概率最大的结果。也就是此点概率最大(离散)或者概率密度函数在这里有最大值(连续)。
我们定义似然函数L(θ)为
离散样本
L(x;θ)=P(X1=x1,X2=x2,⋯,Xn=xn;θ)
连续样本
L(x;θ)=f(x1,x2,⋯,xn;θ)
最大似然估计的步骤
I 写出似然函数L(θ)
II 求出L(θ)的最大值点θ^,一般是求导.
我们认为,小概率事件在一次实验中基本不会发生。如果在一个假设(Hypothesis)下,发生了一个小概率事件,那么我们就认为这个假设是错误的。
我们只考参数假设检验:检验总体的参数是否满足某个假设。而且只靠双侧检验。
假设检验的步骤
提出假设 确定原假设H0和备选假设H1. 考试中,原假设一般在题目中给出. 然后假设原假设成立.
定义统计量 如果假设成立(一般是,某个参数值成立,比如μ=μ0),我们就可以根据样本的统计量和参数,来构造特定的统计量检验这个假设。注意,新构造变量的分布应当已知。这里就要用到第六章学到的几个分布。
根据要求的置信度,求出构造出统计量的分布,所对应的分位点,然后代入对应数值。观察是否落在拒绝域内。即可回答接受或拒绝假设。
对于双侧检验,我们需要确定Y的1−α/2分位点和1−α/2分位点,然后看Y是否落在这两个分位点之间。落在外面就拒绝。