方差與標準差
具有以下屬性的散布度量將是有用的:
度量應該與數(shù)據(jù)的分散成比例(當數(shù)據(jù)聚集在一起時很小,當數(shù)據(jù)廣泛分散時很大)。
該度量應該與數(shù)據(jù)集中的值的數(shù)量無關(guān)(否則,僅通過進行更多測量,即使測量的散布沒有增加,該值也會增加)。
該措施應該與平均值無關(guān)(因為現(xiàn)在我們只對數(shù)據(jù)的傳播感興趣,而不是其中心趨勢)。
兩個方差和標準偏差滿足這三個標準正態(tài)分布的(對稱的,“鐘形曲線”)的數(shù)據(jù)集。
方差(σ 2)是在數(shù)據(jù)組中的每個值相差多少的平均值的度量。以下是它的定義方式:
從數(shù)據(jù)中的每個值中減去均值。這可以衡量每個值與平均值的距離。
對這些距離中的每一個進行平方(以便它們都是正值),并將所有正方形加在一起。
將平方和除以數(shù)據(jù)集中的值數(shù)。
標準差(σ)只是方差的(正)平方根。
求和運算符
為了編寫定義方差的方程,最簡單的方法是使用求和運算符 Σ。求和運算符只是一種簡寫的寫法,“取一組數(shù)字的總和。” 作為一個例子,我們將展示如何使用求和運算符來編寫用于計算數(shù)據(jù)集1的平均值的等式。我們首先將每個數(shù)字分配給變量X 1 - X 6,如下所示:
數(shù)據(jù)集1 | |
---|---|
變量 | 值 |
X 1 | 3 |
X 2 | 4 |
X 3 | 4 |
X 4 | 五 |
X 5 | 6 |
X 6 | 8 |
將變量(X)視為每個植物的實驗樣葉數(shù)的測量數(shù)量 - 并將下標視為指示試驗數(shù)(1-6)。為了計算每株植物的平均葉數(shù),我們首先必須將六個試驗中的每一個的值相加。使用求和運算符,我們這樣寫:
這相當于:
要么:
顯然,使用求和運算符寫入的總和要緊湊得多。下面是計算平均方程,μ X,采用求和運營商設定我們的數(shù)據(jù):
計算一組數(shù)字X 1 - X N的平均值μ的一般公式如下:
有時候,為了簡單起見,下面省略了下標,正如我們在右邊所做的那樣。取消下標會使方程式變得更加混亂,但仍然可以理解,您正在將X的所有值相加。
方程定義方差
現(xiàn)在您已了解求和運算符的工作原理,您可以了解定義總體方差的等式(請參閱本頁末尾有關(guān)總體方差和樣本方差之間的差異,以及您應該將哪一個用于科學項目) :
方差(σ 2),被定義為每一個項的平方距離的在從所述平均值(分布的總和μ),通過在分布(項數(shù)除以?)。
有一種更有效的方法來計算一組數(shù)字的標準偏差,如下式所示:
您可以獲取分布中術(shù)語的平方和,并除以分布中的項數(shù)(N)。從此,你減去平均值(平方μ 2)。以這種方式計算標準偏差的工作要少得多。
很容易向自己證明這兩個方程是等價的。從方差的定義開始(下面的等式1)。展開表達式,以便將平均值與平均值的距離進行平方(下面的公式2)。
現(xiàn)在將方程的各個項分開(求和運算符分配括號中的項,參見上面的公式3)。在最后的術(shù)語,總和μ 2 / ?,采取?次,只是Nμ 2 / ?。
接下來,我們可以簡化公式3.在第二個任期的第二項和第三項,你可以看到,Σ X / ?是寫作的只是另一種方式μ,術(shù)語的平均水平。所以第二項簡化為-2 μ 2(比較等式3和4,上圖)。在第三項,? / ?等于1,所以第三項簡化為μ 2(比較等式3和4,上圖)。
最后,根據(jù)公式4,您可以看到第二項和第三項可以組合,為我們提供了我們試圖在公式5中證明的結(jié)果。
作為一個例子,讓我們回到我們開始討論的兩個發(fā)行版:
數(shù)據(jù)集1:3,4,4,5,6,8
數(shù)據(jù)集2:1,2,4,5,7,11。
每個數(shù)據(jù)集的方差和標準差是多少?
我們將構(gòu)造一個表來計算值。您可以使用類似的表格來查找實驗結(jié)果的方差和標準差。
數(shù)據(jù)集 | ? | Σ X | Σ X 2 | μ | μ 2 | σ 2 | σ |
---|---|---|---|---|---|---|---|
1 | 6 | 三十 | 166 | 五 | 25 | 2.67 | 1.63 |
2 | 6 | 三十 | 216 | 五 | 25 | 11.00 | 3.32 |
雖然這兩個數(shù)據(jù)集具有相同的平均值(μ = 5),方差(σ 2)所述第二數(shù)據(jù)集,11.00的,是略多于4倍所述第一數(shù)據(jù)集,2.67的方差。標準差(σ)是方差的平方根,因此第二個數(shù)據(jù)集的標準差3.32,剛好超過第一個數(shù)據(jù)集的標準偏差的兩倍,即1.63。
方差和標準偏差給出了數(shù)據(jù)集散點的數(shù)值測量。這些度量對于在數(shù)據(jù)集之間進行比較非常有用,這些數(shù)據(jù)集超出了簡單的視覺印象。
種群方差與樣本方差
上面給出的等式向您展示了如何計算整個總體的方差。但是,在進行科學項目時,您幾乎永遠無法訪問整個人口的數(shù)據(jù)。例如,您可以測量教室中每個人的身高,但無法衡量地球上每個人的身高。如果你用彈射器發(fā)射一個乒乓球并測量它的行進距離,理論上你可以無限次地發(fā)射球。在任何一種情況下,您的數(shù)據(jù)只是整個人口的樣本。這意味著您必須使用稍微不同的公式來計算方差,在分母中使用N-1項而不是N:
這被稱為貝塞爾的修正。