當前位置: 華文問答 > 科學

怎樣用通俗易懂的文字解釋正態分布及其意義?

2019-04-14科學

正態分布別去想神馬數學公式,本質上它是一種商業模式。

先從這個問題說去:為什麽你很努力的上班,卻還是當不了公司高管?

1. 什麽是正態分布個人商業模式?

假設你老媽挺操心你單身狗的生活,怕你孤獨而死。為了給你尋找優質的相親物件,就把你的照片放到了相親網站上。艾瑪,這可好一下子吸引來200多個人留言,要與你「私定終身」。

老媽可謂是王母娘娘下凡,為了提高篩選效率,於是乎就建了一個微信群,讓所有人報一下自己準確的身高。

幸虧老媽當年幹過些簡單的數據統計工作。她以5厘米為單位,數一數每一段5厘米各有多少人。接著用身高為橫軸,人數為縱軸,畫了下面這張圖。

仔細看這張圖,你和老媽發現一個驚人的秘密:

這張圖形狀是中間高,兩邊低,長得像一只倒扣的鐘。

這種數據分布就是正態分布:

正態分布像一只倒扣的鐘。兩頭低,中間高,左右對稱。大部份數據集中在平均值,小部份在兩端。

實際上人的身高就是符合正態分布的。2017年中國18歲及以上成年男性平均身高167.1cm。那麽根據身高是正態分布,我們就可以快速的知道大部份男性的身高是集中在平均值,有小部份人的身高要麽比平均值身高略高,要麽略低(例如王祖藍)。

神奇的地方在於,不管是人的身高,手臂長度,肺活量,還是他們的考試成績,都符合正態分布。

2. 正態分布是怎麽來的呢?

為什麽叫正態,而不叫「正點」呢?(小姐,你好正哦 )

這要從發明這個東東的人說起。

維多利亞時期的學者Francis Galton對數據分布很著迷,他制造了一台可以產生「數據分布」的裝置。他發現這種形狀適用於用於很多數據,他將其命名為「正態分布」(The Normal Distribution)。

正態的英文單詞是「normal」,意思是「常見的,典型的」, 主要是因為這種分布能恰當代表多種多樣的數據型別。

3.還有哪些商業現象,符合正態分布呢?

1)員工績效

大部份員工的業績,都是一般的,做得特別好的非常少,做得特別差的也不多見。這就是為什麽績效管理領域,會用「活力曲線」來考核業績。

什麽是「活力曲線」呢?

員工流失率太高顯然不好。據計算,招聘的過程花費,大概是這名員工年薪的50%。過高的員工流失率,意味著失控的招聘成本。離職的業績損失,大概是這名員工年薪的30%-400%。過高的員工流失率,更意味著巨大的業績損失。

員工流失率太低也不好。極低的員工流失率,通常來自對低績效的容忍。允許績效差的員工留在團隊,損失的不僅是薪資,而是本應獲得的業績。另外,績效差的員工通常更不願離開,因為他可能找不到另一份工作。為了安全,他會想辦法擠走績效好的人,你的團隊會越來越沒有戰鬥力。

奇異前CEO傑克·韋爾奇認為,大家很容易認識到員工流失率太高的問題,卻很難認識到流失率太低的危害,所以,他提出了著名的「末位淘汰制」(也叫「活力曲線」),他把員工分為:

20%的優秀員工,70%的中等員工,和10%的末位員工。 末位員工必須提升自己,或者轉崗,或者面臨淘汰。

這個制度,被認為是給奇異帶來無限活力的法寶之一。

所以,以後上班別偷懶,小心被老板裁掉。害怕吧?

2)產品品質

大部份產品的品質,都是平庸的,真正的好產品非常少,但爛到骨子裏的產品也不多見。這就是為什麽品質管理領域,會用6個標準差(關於標準差在之前的【如何看懂數據】裏有講過)來排除掉不合格的產品。

3)快速找到停車位

根據【華爾街日報】的報道,美國人甚至連在購物商場停車都呈現出正態分布,正對著商場入口的地方停車數量最多,也就是正態曲線的「峰值」,在入口左右兩側的停車數量逐漸變少,即曲線兩端下滑的「尾巴」。

你知道這個規律後,下次停車直接選擇上次入口兩端車少的地方進入,找到停車位的機率就很多了。

4)智商

大部份人的智商是正常的,只有少數像愛伊史坦老爺子這樣的才會智商發飆。

5) 預測數據的位置

正態分布的一個神奇的地方:可以大概估算出數據的位置。

我們先從一個例子開始。假如你選對了個人商業模式,成功開了一家公司,員工有幾百早上做地鐵去公司上班。

你公司可以看做下面圖中的中間位置。有的人坐3站地鐵可以到公司,有的人坐2站可以到公司,還有很多人住的比較近,坐1站地鐵就到公司了。這裏的幾站地就是表示你離公司還有多遠的距離。

上面這個圖其實就是下面的正態分布圖

中間的那條線代表平均值(例子中公司的位置)。之前我有講過標準差是表示數據的波動大小。1個標準差表示距離平均值1個標準差的位置(例子中距離公司1站地),同樣的,2個標準差,3個表示距離平均值2個標準差的位置,3個標準表示距離平均值3個標準差的位置。

知道這3個標準差於平均值的距離,有什麽用呢?

這個用處可大了去了。正態分布的「美」好比麥可·喬丹在球場上的力量、靈巧和優雅,它來自於一個事實,那就是我們透過上面這個圖就能夠清楚地知道:

有68.2%數值位於平均值1個標準差的範圍之內

有95.4%的數值位於2個標準差的範圍以內

還有99.7%的數值位於3個標準差的範圍以內

這聽上去似乎挺傻的,但事實上這就是統計學的基礎之一。這也是正態分布最厲害的「殺手鐧」,正是這個特點才有了統計機率裏的武器」中央極限定理「(這個我會在」猴子統計機率思維「課程裏聊到)。

一個典型的例子就是,每一次SAT考試(被稱為美國高考)都是經過精心設計,以得到一個平均分為500分、標準差為100的成績的正態分布。這樣就會保證公平性,讓大部份人可以透過考試,而少部份人通不過考試。

參考學習資料:人人都能看懂的統計分析(Python實作)

我們回到一開始提出的問題:

為什麽你很努力的上班,卻還是當不了公司高管?

正態分布是商業界最常見的一種分布。當影響結果(或者成功)的因素特別多,沒有哪個因素可以完全左右結果時,這個結果通常就呈現正態分布。

很多事物,都可以用正態分布曲線表示,或者輔助思考,比如,科技創新接受度,基本上就符合正態分布……

人群中的個體若是按能力劃分的話,分布大致應該符合正態分布曲線的樣子:

其中有一個「鴻溝」,是想說明有很多人能力增長到一定程度,就會遇到無法跨越的鴻溝。比如,對中國程式設計師來說最普遍的鴻溝是英文。沒有英文能力,最新的技術學起來就是落後他人。

你去公司上班打工的商業模式,也是符合正態分布的。

即大部份是處於中間平均位置的,既不能大富大貴,也不會窮到淪落街頭。而成為公司高管是少數人可以做到的事情。因為你的 「邊際成本」不為零。

什麽叫「邊際成本」?

邊際成本,它指的是企業生產產品時,每多生產一個,需要額外產生的成本。

你可以簡單理解為,邊際成本就是:

你做一件事,每多一份產出,需要多付出的代價。

所以去公司上班並不是一個邊際成本為零的收入。你每多賺一塊錢的薪資收入,你就得多付出相應的勞動。薪資收入不僅邊際成本不為零,很多時候,它的邊際成本是增加的。

邊際成本增加的意思就是,你得沒日沒夜的加班,你得犧牲很多和家人朋友相處的時間,你才可能實作薪資收入的增長,比如拿到年終獎。

我們常說企業要轉型,傳統企業要升級,要增加高新科技企業的數量。升級和轉型的根本,其實就是要把成本結構從遞增,改成更有效率的遞減,甚至接近於零。

「邊際成本」越高的行業,越是分散市場,符合正態分布:賺大錢的人少,虧大錢的也少,大部份人都趨向賺取平均利潤。

回到一開始提出的問題上來:為什麽你很努力的上班,卻還是當不了公司高管?

答案就很簡單了,因為你選擇的上班領薪資是正態分布的個人商業模式, 大部份 人不可能成為高管。

所以,你選擇的上班領薪資是正態分布的個人商業模式,大部份人不可能成為高管。

註意,我這裏說的是「大部份」,意外著是從總體的角度來看問題。

如果你說身邊的某某就是高管,不好意思,你是從特殊樣本來看問題。

總體代表機率,特殊樣本代表思維偏見,而統計機率給我們的智慧就是對大機率事件下註,如果不明白這一點思考問題的正確方式,可以補一下我之前的課程【投資賺錢與機率】。

那麽問題來了,有沒有辦法改變你的個人商業模式,從而實作財務自由呢?

那就是冪律分布,具體可以看這個視訊裏有系統講:

參考學習資料:人人都能看懂的統計分析(Python實作)


參考資料:科普中國專家猴子作品合集

【Excel數據分析和數據思維】視訊

【Power BI數據分析】視訊

【SQL從入門到進階】視訊

【Python數據分析從入門到進階】視訊