ジップの法則

（インプレス社発行の「インターネット・マガジン」６月号に載っていた記事なので、お読みになった方もいるかもしれないが‥‥）

　昔、ジップという人が、英単語の出現率を調べたのだそうだ。ジェームズ・ジョイスの有名な「ユリシーズ」という長い小説に使われた260,430個の英単語と、いくつかの新聞記事の43,989個の英単語を洗い出し、その出現頻度を調べたのだという。

　すると次のような順位になったのだそうだ。

　（１）　ｔｈｅ
　（２）　ｏｆ
　（３）　ａｎｄ
　（４）　ｔｏ

　さらに興味深いことには、第１位のｔｈｅは全体の出現数の約１０％を占め、第２位のｏｆは５％、第３位のａｎｄは３．３％という結果になったのだという。

　この数値を分析したジップは、ある法則性を見つけた。それを式で書くと、次のようになる。

　これが「ジップの法則」と言われるものなのだそうだ（けっこう知られたものなのかもしれないが、私は初めて知った）

　この法則は英単語だけでなく、いろいろなものに適用できるのだという。

　「インターネット・マガジン」1999年６月号、310ページの「後藤滋樹の『新・社会楽』第53回『不思議な法則』」（後藤滋樹氏は早稲田大学理工学部情報学科の先生）では、様々な例をあげている。（後藤氏も、J.R.ピアース著「記号・シグナル・ノイズ」白揚社1988等を引用している）

　「多くの国の都市の人口とその大きさの順位」とか、「インターネットのドメイン別のホスト数」とか、「人気Webのアクセス頻度の順位とそのヒット数」などが、きれいにジップの法則にあてはまるのだそうだ。

　卑近な例としては、映画の観客動員数もそうだという。具体例として、1998年12月23日の京都エリアでの映画館の情報をあげている。結果は次の通りだ。

　第１位　　アルマゲドン　　　　　　　　　４，３００人
　第２位　　ジョー・ブラックをよろしく　　２，７００人
　第３位　　６デイズ／７ナイツ　　　　　　１，５００人

　第２位が第１位の約半分の人数、第３位が１／３となるのは、ジップの法則にほかならないのだそうだ。

　私は「なるほどー！」と感心したのだが、本当にそうなっているのだろうか？

　自分で確かめてみないと気がすまないたちの私は、さっそく、実際の例で確かめてみた。

　私が登録している「ReadME」という読み物（テキスト）中心のホームページのランキングがある。（こちら「[ReadMe!] Daily Report」をクリックすると、そのページにつながる）

　↑をクリックすると表示されるデータは日替わりなので、毎日同じではないが、ここで表示されたデータをプリントアウトし、それを表計算ソフトに入力して分析してみたら、上位の方で少し違った傾向はあるものの、全体としてみると確かにジップの法則にあてはまるようだ。

　完全にジップの法則に従った場合の数値を１として、各順位の数値を分析してみると、上位１０位より下のあたりにくれば、その誤差は0.2以内の範囲に収まる。

　私のＨＰは、このランキングでは、だいたい３００位台を上下しているので、出現率としては「１０÷３００」ということになり、0.03％程度ということになる。これも実際の数値を入れて計算してみるとあてはまっているようだ。

　これが世の中全ての現象にあてはまるということはありえないだろうが、ある程度データ数が大きくなった場合は、ジップの法則に近い結果になるのかもしれない。

　学校や会社などで扱うデータで試してみるのも面白いかもしれない。

ホームページに戻る

うんちく目次へ