讨教大学|一文搞懂“正态分布”所有重要知识点
今天,我尝试带着大家搞懂对于正态分布你需要知道的所有知识点。
01
正态分布的概念
正态分布,又称高斯分布(Gaussian distribution),是概率论和统计学中最重要的概率分布之一。它以其独特的钟形曲线图形而著称,具有许多重要特性。
02 为什么质量行业要研究正态分布 03 区间概率 04 均数和标准差
对照上图直观地看一下,图中黄色曲线为A,蓝色曲线为B,紫红色曲线为C。如图,我们可以看到均数的大小决定了曲线的位置,标准差的大小决定了曲线的胖瘦。A和B的均值一样,但标准差不同,所以形状不同,根据我们的描述,图形越瘦高,标准差越小,图形越扁平,标准差越大。确实如此,图中B的标准差是1/2,小于A的标准差1。
05
概率密度函数和累积分布函数
如果数学基础,有一定的统计学基础的,可以看看下面这张图片关于这2个数值的数学公式;
06 正态分布的应用
1、描述和总结数据:
计算数据集的均值和标准差,以描述数据的中心位置和分散程度。这对于初步了解数据的分布情况至关重要。
2、检验数据分布是否近似正态分布:
通过绘制直方图、概率密度函数图或 Q-Q 图,以直观方式观察数据分布是否近似正态分布。
3、参数估计和推断:
如果数据分布近似正态分布,可以通过样本数据估计正态分布的参数(如均值和标准差),从而对总体参数进行推断。
4、概率计算:
利用标准化将数据转换为标准正态分布,然后使用标准正态分布表或计算工具,查找概率、计算置信区间等。这对于计算特定概率或进行置信区间估计非常有用。
5、假设检验:
根据正态分布的性质,可以进行假设检验,以验证关于总体参数的假设,比如均值是否等于某个特定值。
6、模拟和预测:
基于历史数据的正态分布特征,可以进行模拟和预测未来事件的概率分布,用于决策制定和风险管理。
07 标准化与查表求概率
最后通过一个实例来讲解标准化和查表求概率:
所谓标准化,就是将一组实际正态分布的数据转为标准正态分布,方便我们使用标准正态分布表或计算工具,来查找概率、计算置信区间等。
怎么标准化呢?参考下图:
通过标准化,所有服从一般正态分布的随机变量都变成了服从均数为0,标准差为1的标准正态分布。对于服从标准正态分布的随机变量,专门用z表示。因此,求P(30 < X < 45),就转换成了求P(-0.77 < Z < 0.54),标准化的具体计算为:
标准化后,我们就可以通过利用标准正态分布表,找到对应的概率值。这就是所谓的查表求概率;