關鍵信息
現在您已經收集了原始數據,并且您獲得了多次實驗試驗的結果。您如何從成堆的原始數據轉到可幫助您分析數據并支持結論的摘要?
幸運的是,您的數據的數學摘要只需幾個數字即可傳達大量信息。這些摘要稱為描述性統計。以下討論簡要介紹了通常最有用的兩種描述性統計:
計算數據“中間”或“平均”的摘要; 這些被稱為集中趨勢的衡量標準,并且
總結表明原始測量值在平均值附近的“擴散”,稱為分散度量。
中心趨勢的衡量標準:均值,中位數和模式
在大多數情況下,您想要了解的關于一組測量的第一件事是“平均值”。但究竟什么是“平均值”?它是我們測量的數學平均值嗎?它是我們數據集中的一種中間點嗎?這是最常發生的結果嗎?實際上,這三種措施中的任何一種都可以用來傳達數據的集中趨勢。大多數情況下,使用數據的數學平均值或平均值,但有時也會使用其他兩個度量,即中位數和模式。
我們將以植物生長實驗為例。假設該實驗是為了測試在添加了堆肥的土壤中生長的植物是否比在沒有堆肥的相同土壤中生長的植物生長得更快。讓我們假設我們為每種情況使用了六個獨立的盆,每盆一株。(在許多情況下,您的項目將進行六次以上的試驗。我們使用較少的試驗來簡化說明。)選擇的增長措施之一是每株植物的葉數。假設獲得以下結果:
沒有堆肥的植物生長 (葉子/植物的數量) | 堆肥植物生長 (葉子/植物數量) |
6 | 五 |
4 | 9 |
五 | 9 |
4 | 11 |
8 | 8 |
3 | 6 |
意義
的平均價值就是我們通常所說的“平均”。您可以通過將一組中的所有測量值相加然后除以測量值來計算平均值。對于“無堆肥”情況,平均值為5,如圖所示。

對于“with compost”情況,均值為8.使用上述表格中的數字為自己進行計算,以確認這是正確的。
中位數和模式
找到中位數和模式的最簡單方法是首先按照從最小到最大的順序對每組測量進行排序。以下是按順序排序的值:
沒有堆肥的植物生長 (葉子/植物的數量) | 堆肥植物生長 (葉子/植物數量) |
3 | 五 |
4 | 6 |
4 | 8 |
五 | 9 |
6 | 9 |
8 | 11 |
中位數是該組中點的值。更明確地說,該組中恰好有一半的值小于中位數,而該組中另一半的值大于中位數。如果存在奇數個測量值,則當值按升序排列時,中值簡單地等于組的中間值。如果存在偶數個測量值(如此處),則中值等于兩個中間值的平均值(同樣,當值按升序排列時)。對于“無堆肥”基團,中值等于3的值的平均值RD和4 個值,這正好是4和5:
“無堆肥”組的中位數=(4 + 5)/ 2 = 4.5。
請注意,根據定義,三個值(3,4和4)小于中位數,其他三個值(5,6和8)大于中位數。“與堆肥”組的中位數是多少
模式是在測量組中最常出現的值。對于“無堆肥”組,模式為4,因為該值重復兩次,而所有其他值僅表示一次。“堆肥”組的模式是什么?
一組數據完全可能根本沒有模式,或者它有多個模式。如果所有值以相同的頻率出現(例如,如果所有值僅出現一次),則該組沒有模式。如果在最高頻率處出現多個值,則這些值中的每一個都是模式。以下是一組具有兩種模式的原始數據示例:
16,26,26,28,29,32,34,36,38,39,40,41,41,43,44,50。
此數據集的兩種模式分別為26和41,因為每個值都出現兩次,而所有其他值只出現一次。具有兩種模式的數據集有時被稱為“雙模態”。多模態數據集也是可能的。
平均值,中位數或模式:我應該使用哪種方法?
這些措施有什么區別?你何時會選擇優先使用另一個?下圖顯示了圖表上“無堆肥”數據樣本的均值,中位數和模式。在X軸表示單株葉片數。每個酒吧的高度(y-axis)顯示具有一定數量葉子的植物數量。(將圖表與表格中的數據進行比較,您將看到所有原始數據值都顯示在圖表中。)此圖表顯示為什么均值,中位數和模式都被稱為集中趨勢的度量。數據值分布在圖表的水平軸上,但均值,中位數和模式都朝向中心聚類。每一個都是對實驗中“平均”發生的情況略有不同的衡量標準。模式(4)顯示每株植物的葉數最常出現。中位數(4.5)顯示將數據點分成兩半的值; 一半的值較低,一半的值高于中位數。均值(5)是所有數據點的算術平均值。

通常,均值是最常用于描述一組測量的集中趨勢的描述性統計量。在這三個指標中,它是最敏感的指標,因為它的值始終反映了該組中每個數據值的貢獻。中位數和模式對一組極端情況下的“異常值” - 數據值不太敏感。想象一下,對于“無堆肥”組,葉子數量最多的植物有11片葉子,而不是8片。中位數和模式都保持不變。(檢查自己并確認這是真的。)然而,平均值現在是5.5而不是5.0。
另一方面,有時候,對數據極端變化不太敏感的集中趨勢度量是有利的。例如,如果您的數據集在一個極端包含少量異常值,則中位數可能是比平均值更好地衡量數據集中趨勢的指標。
如果您的結果涉及類別而不是連續數字,那么集中趨勢的最佳衡量標準可能是最常見的結果(模式)。例如,假設您對最有效的戒煙方式進行了調查。根據您的調查確定,對結果集中趨勢的合理衡量標準是最常用的方法。
重要的是要考慮使用描述性統計數據來實現的目標,而不是盲目地使用它們。如果您的數據包含多個模式,那么使用簡單的中心趨勢度量(如均值或中位數)對它們進行匯總將會模糊這一事實。表1是一個快速指南,可幫助您確定與數據一起使用的集中趨勢度量。
首先,你想描述什么? | 其次,您的數據是什么樣的? | 那么,集中趨勢的最佳衡量標準是...... |
群體或事物類別。調查結果通常屬于這一類,例如,“最有效的戒煙方式是什么?” 或“課后活動中的性別差異” | 
| 模式。在這些組成的調查結果中,“冷火雞”是最常見的反應。 |
排名等級,例如:電影,書籍或餐館的1-5星級 | 
| 中位數。本次調查的中位數電影排名為2.3星。 |
線性尺度的測量(例如,電壓,質量,高度,金錢等) | 
| 平均。該數據的形狀在圖的左側和右側大致相同,因此我們稱之為對稱數據。對于對稱數據,均值是集中趨勢的最佳度量。在這種情況下,平均體重為178克。 |

| 中位數。請注意此圖中的數據是如何非對稱的。數據的峰值不居中,峰值左側的體質值比右側更大幅度地下降。當峰值像這樣移動到一側或另一側時,我們將其稱為偏斜數據。對于偏斜數據,中位數是衡量集中趨勢的最佳選擇。該偏斜人群的中位體重為185克。 |

| 請注意此圖表有兩個峰值。我們將數據稱為兩個突出的峰值雙峰數據。在雙峰分布的情況下,您可能有兩個群體,每個群體都有自己獨立的集中趨勢。這里一組的平均體重為147克,另一組的平均體重為178克。 |

| 沒有。請注意此圖形如何在峰的尾部之間具有三個峰和大量重疊。我們稱之為多模式數據。沒有單一的集中趨勢。通過參考圖表來描述這樣的數據是最容易的。在這種情況下,不要使用集中趨勢的衡量標準,這會產生誤導。 |

| 沒有。在這種情況下,數據遍布整個地方。在某些情況下,這可能表示您需要收集更多數據。在這種情況下,沒有集中趨勢。 |
分散度量:范圍,方差和標準偏差
集中趨勢的度量描述了數據集的“平均值”。衡量的另一個重要質量是數據集的“傳播”。例如,這兩個數據集都具有相同的均值(5):
數據集1:3,4,4,5,6,8
數據集2:1,2,4,5,7,11。
雖然兩個數據集具有相同的均值,但很明顯數據集2中的值比數據集1中的值更加分散(參見下圖)。對于哪個數據集,使用“5”的平均描述會感覺更舒服?用另一種方法來描述數據集的“傳播”會很好。這樣的措施可以讓我們一眼就知道數據集中的值是否通常接近或遠離均值。


測量散射質量的描述性統計稱為分散度量。當添加到先前討論的集中趨勢度量時,分散度量給出了更完整的數據集圖。我們將討論三種這樣的測量:范圍,方差和標準偏差。
范圍
數據集的范圍是三個度量中最簡單的。范圍由集合中的最小和最大數據值定義。數據集1的范圍是3-8。數據集2的范圍是多少?
通過定義兩個極端,該范圍僅提供關于數據傳播的最小信息。它沒有說明數據如何在這兩個端點之間分配。另外兩個相關的色散度量,方差和標準差,提供了數據分散程度的數字匯總。
有關更高級的材料,請參閱方差和標準偏差。