统计学入门:平均数、中位数与模式在数据分析中的作用 (Year 9-11 必修概念)

统计学 (Statistics) 是 HSC 数学 Advanced 课程的重要组成部分,也是现代数据驱动世界的基础。从新闻报道到商业决策,数据无处不在。

掌握统计学的第一步,就是理解如何用集中趋势的度量 (Measures of Central Tendency) 来描述一组数据的“典型”值。这三大核心工具就是:平均数、中位数和众数(模式)

在 Oziter (www.oziter.com),我们教你不仅仅是计算它们,更要理解在不同的数据情景下,应该选择哪一个作为最佳代表。

1. 平均数 (Mean) – 传统的“平衡点”

  • 定义: 将所有数值相加,然后除以数值的总个数。
  • 优点: 使用了数据集中的所有数据点,提供了最全面的信息。
  • 缺点与陷阱:异常值 (Outliers) 极度敏感。一个极高或极低的数值会严重拉高或拉低平均数,使其失去代表性。
  • 适用情景: 当数据集分布均匀,没有极端异常值时,平均数是最好的代表。

2. 中位数 (Median) – 数据的“中间值”

  • 定义: 将数据集按顺序排列后,位于最中间的那个数值。如果数据点为偶数,则取中间两个数的平均值。
  • 优点: 对异常值不敏感。它只关注数据的分布位置,是描述有极端值数据集(例如:收入、房价)的理想工具。
  • 适用情景: 当数据集存在明显的偏斜(Skewness)或包含极端异常值时,中位数能更真实地代表典型值。

3. 众数/模式 (Mode) – 最常见的值

  • 定义: 数据集中出现频率最高的数值。
  • 优点: 是唯一适用于分类数据(Categorical Data,如颜色、最喜欢的运动)的集中趋势度量。计算简单。
  • 缺点: 一个数据集可能有多个众数,或者没有众数,代表性可能较差。
  • 适用情景: 当你需要知道最受欢迎最常见的选项时。

4. Oziter 总结:选择正确的度量工具

集中趋势度量优势劣势适用场景
平均数 (Mean)利用所有数据信息容易受极端值影响数据分布均匀,无异常值
中位数 (Median)不受极端值影响忽略了部分数值的大小数据存在偏斜或极端值
众数 (Mode)适用于分类数据可能不存在或不唯一寻找最常见或最受欢迎的选项

掌握这三大概念,您不仅能应对 HSC 考试,还能成为一个更有批判性的数据使用者。