Khôn Ngoan Không Lại Với Giời
Chương 8: Thứ tự trong hỗn loạn
Giữa những năm 1960, Jeanne Calment, một phụ nữ Pháp 90 tuổi đang rất cần tiền để duy trì cuộc sống, thỏa thuận bán cho một luật sư 47 tuổi căn hộ của mình để đổi lại một nguồn thu nhập đủ sống hàng tháng đến khi bà chết. Khi bà chết, người luật sư đó có quyền sở hữu hoàn toàn căn hộ. Người luật sư cũng biết rằng tuổi của bà Calment lúc đó đã cao hơn tuổi thọ trung bình của người Pháp tới trên 10 năm. Có thể ông không biết tới học thuyết của Bayes, cũng như không biết rõ vấn đề như liệu có nên trông đợi bà ấy sẽ chết trong vòng dưới 10 năm nữa hay không. Sự thực là bà đã sống đến 90 tuổi, và do đó, so với mức tuổi trung bình, cùng lắm thì bà cũng chỉ sống thêm được sáu năm nữa. Vì thế, vị luật sư rất tin tưởng rằng một người phụ nữ từng gặp Vincent van Gogh trong cửa hiệu của cha mình khi còn là thiếu nữ thì cũng sẽ nhanh chóng tới gặp Van Gogh ở chốn thiên đường. (Calment nói rằng vị họa sỹ này “bẩn thỉu, ăn mặc tồi tàn, và tính tình cáu bẳn”.)
Mười năm sau, vị luật sư đã phải tìm một nơi ở khác, bởi Jeanne Calment chào đón sinh nhật thứ 100 của mình khỏe mạnh. Mặc dù lẽ ra tuổi thọ của bà sẽ chỉ vào khoảng thêm 2 năm nữa, nhưng cuối cùng bà đón sinh nhật thứ 110 của mình và vẫn sống bằng tiền của vị luật sư nọ. Lúc đó, ông này đã 67 tuổi. Nhưng phải mất thêm một thập kỷ nữa thì cuộc chờ đợi dài dằng dặc của vị luật sư mới kết thúc, nhưng không phải theo hướng mà ông mong đợi. Năm 1995, vị luật sư qua đời khi Jeanne Calment vẫn đang sống. Bà qua đời ngày 4 tháng 8 năm 1997, thọ 122 tuổi. Tuổi thọ của bà vượt xa tuổi thọ người luật sư những 45 năm.
Tuổi thọ và cuộc sống của mỗi người là thứ không thể dự đoán được, nhưng khi chúng ta thu thập và phân tích các dữ liệu, các quy tắc chung sẽ xuất hiện. Giả sử bạn không gặp một tai nạn nào trong vòng 20 năm lái xe. Rồi một buổi chiều khi bạn đang trong kỳ nghỉ ở Quebec với gia đình vợ/chồng, mẹ vợ/chồng bạn hét lên “Cẩn thận con nai đó”, và bạn mất lái, đâm vào một biển báo nói đúng điều bạn vừa nghe. Với bạn, tai nạn đó là một sự kiện kỳ quặc và đặc biệt. Nhưng vì nhu cầu cần phải có chiếc biển báo ở đó, trong hàng nghìn người lái xe có một số được dự tính là sẽ gặp phải một con nai. Trên thực tế, số liệu thống kê cho thấy nhóm người hành động ngẫu nhiên cũng có những hành vi phù hợp và có thể dự đoán như nhóm người theo đuổi một mục tiêu cụ thể. Nhà triết học Immanuel Kant đã viết vào năm 1784, “Dựa theo xu hướng cá nhân, mỗi cá thể thường theo đuổi mục tiêu của riêng mình theo cách đối lập với những người khác; tuy nhiên mỗi cá nhân và nhóm, như được định sẵn, lại hướng tới một mục tiêu rất tự nhiên mà chính họ cũng mơ hồ; mọi người làm việc để thúc đẩy nó, mặc dù họ sẽ đánh giá thấp nó nếu biết nó là gì.”
Theo Ban Quản Lý Đường Bộ Liên Bang (Federal Highway Administration), có khoảng 200 triệu lái xe trên toàn nước Mỹ. Và theo Ban Quản Lý An Toàn Giao Thông Quốc gia (National Highway Traffic Safety Administration), các lái xe đó đã đi tổng cộng 2,86 nghìn tỷ dặm trong một năm gần đây, tức trung bình khoảng mỗi lái xe đi được 14.300 dặm. Giả sử tất cả đều đồng ý đi đúng số dặm đó vào năm sau. Ta cùng so sánh hai phương pháp thực hiện mục tiêu này. Trong phương pháp thứ nhất, chính phủ thiết lập một hệ thống phân phối sử dụng một trung tâm siêu máy tính của Cơ quan Khoa học Quốc gia (National Science Foundation) để phân bổ chỉ tiêu đi lại cá nhân phù hợp với nhu cầu đi lại của 200 triệu lái xe, đồng thời duy trì mức trung bình cả năm là 14.300 dặm. Trong phương pháp thứ hai, chúng ta yêu cầu các lái xe không cần quá căng thẳng mà cứ đi tùy ý bất kể quãng đường họ đi được vào năm trước là bao nhiêu. Nếu bác Billy Bob đã từng đi bộ tới nơi làm việc tại cửa hàng rượu nhưng giờ bác quyết định di chuyển 100.000 dặm như một người bán súng trường ở Tây Texas, thì cũng không sao. Hay nếu dì Jane ở Manhattan năm ngoái khai báo rằng phần lớn quãng đường dì đi là quanh khu nhà vào những ngày dọn dẹp đường phố để tìm một chỗ để xe nhưng năm nay dì cưới chồng và chuyển đến New Jersey, thì chúng ta cũng không bận tâm. Phương pháp nào sẽ đạt được mục tiêu 14.300 dặm một lái xe? Phương pháp thứ nhất không thể kiểm tra được, và hiểu biết hạn chế của ta về phân phối xăng dầu chỉ rõ rằng phương pháp này không hiệu quả. Mặt khác, phương pháp thứ hai đã được áp dụng trong thực tế – lái xe có thể lái tùy ý họ vào năm tiếp theo mà không cần phải đạt một chỉ tiêu nào. Nhưng họ đã làm như thế nào? Theo như Ban Quản lý An toàn Giao thông Quốc gia (National Highway Traffic Safety Administration), trong năm đó các lái xe trên toàn nước Mỹ đi được 2,88 nghìn tỷ dặm, tức 14.400 dặm một lái xe, chỉ hơn mục tiêu đề ra 100 dặm. Hơn nữa, 200 triệu lái xe ấy cũng gặp cùng số vụ tai nạn trong hai năm đó với chênh lệch dưới 200 vụ (42.815 và 42.643).
Chúng ta liên hệ tính ngẫu nhiên với sự hỗn loạn. Tuy cuộc sống của 200 triệu lái xe thay đổi không thể đoán trước được, nhưng xét trên tổng thể hành vi của họ đã cho thấy một trật tự. Ta có thể nhận thấy xu hướng tương đồng nếu nghiên cứu cách mọi người bầu cử, mua cổ phiếu, lập gia đình, bị chỉ đường sai, những lá thư lạc địa chỉ, hay ngồi trên xe đi tới cuộc họp mà họ không muốn đến – hay khi đo đạc độ dài của chân, kích cỡ của bàn chân, bề ngang của mông hay độ rộng của bụng. Khi các nhà khoa học của thế kỷ XIX nghiên cứu những dữ liệu xã hội mới nhất, với dữ liệu nào họ cũng thấy sự hỗn loạn của cuộc sống dường như dẫn đến các quy luật có thể định lượng và dự đoán được. Nhưng không chỉ các xu hướng thông thường làm họ bất ngờ. Mà đó là bản chất của sự biến đổi. Họ khám phá ra rằng, các dữ liệu xã hội thường tuân theo những xu hướng phân loại chuẩn.
Sự biến đổi của tính cách và hành vi của con người được phân phối giống như sai số trong việc ngắm bắn của cung thủ, điều này khiến một số nhà khoa học thế kỷ XIX nghiên cứu những mục tiêu mà cuộc sống của con người hướng tới. Quan trọng hơn cả, họ tìm cách hiểu các nguyên nhân xã hội và tự nhiên đôi khi làm ta chệch mục tiêu. Vì vậy, nhằm giúp các nhà khoa học phân tích dữ liệu, ngành toán học thống kê đã phát triển mạnh mẽ một lĩnh vực hoàn toàn khác: nghiên cứu về bản chất của xã hội.
CÁC NHÀ THỐNG KÊ đã phân tích dữ liệu cuộc sống ngay từ thế kỷ XI, khi mà William Đệ nhất tiến hành cuộc tổng điều tra dân số đầu tiên. William bắt đầu trị vì từ năm 1305 khi mới 7 tuổi, lúc đó ông kế vị tước hiệu công tước vùng Normandy từ cha mình. Như biệt danh của mình, công tước William II thích chinh phục, năm 1066 ông xâm lược nước Anh và lên ngôi vua đúng dịp Giáng Sinh. Chiến thắng nhanh chóng của William khiến ông phải đối mặt với một vấn đề: ông đã chinh phục được ai, và quan trọng hơn, ông có thể đánh thuế thần dân mới bao nhiêu? Để trả lời câu hỏi đó, ông phái các cận thần tới khắp các miền của nước Anh để ghi lại diện tích, chủ sở hữu, cũng như tài nguyên của từng vùng đất. Và để đảm bảo thông tin chính xác, ông thậm chí còn cử một nhóm cận thần thứ hai thực hiện lại công việc của nhóm thứ nhất. Vì việc đánh thuế không dựa vào dân số mà theo diện tích đất đai và cách thức sử dụng chúng, nên những thanh tra này đã rất nỗ lực để đếm từng con trâu, bò và lợn nhưng không thu thập nhiều dữ liệu về những người dọn phân. Kể cả khi dữ liệu về dân số là thích hợp, thì trong thời trung cổ một cuộc điều tra về những số liệu quan trọng nhất với con người – tuổi thọ và bệnh tật – cũng sẽ bị coi là không phù hợp với quan niệm truyền thống của Cơ-đốc Giáo về cái chết. Theo quan niệm này, việc nghiên cứu cái chết là sai trái và gần như là báng bổ nếu tìm kiếm các quy luật chi phối nó. Với một người chết vì bệnh lao phổi, một cơn đau bụng, hay bị một tảng đá đập quá sức chịu đựng của hộp sọ, nguyên nhân thật sự của cái chết chỉ đơn giản là do ý nguyện của Chúa. Qua thời gian, quan niệm về số mệnh dần biến mất và chuyển sang một cách nhìn khác: nghiên cứu các quy luật của tự nhiên và xã hội không phải là sự thách thức quyền lực của Chúa, mà ngược lại, nhằm học hỏi con đường của Ngài.
Sự thay đổi quan điểm chứng kiến một bước ngoặt lớn diễn ra vào thế kỷ XVI, khi thị trưởng London yêu cầu các viên chức nhà thờ biên soạn “danh sách tử vong” hàng tuần để ghi chép các lễ rửa tội và đám ma. Trong hàng thập kỷ, danh sách này được biên soạn không thường xuyên, nhưng vào năm 1603, một trong những năm mà dịch bệnh bùng phát trầm trọng nhất, thành phố tiến hành kiểm kê hàng tuần. Các nhà lý luận châu Âu coi các giấy chứng tử đầy đủ thông tin như thứ tiếng Anh kỳ quặc và không có giá trị. Nhưng với John Graunt, một chủ cửa hiệu tại Anh, các bản kiểm kê lại đem đến một câu chuyện hấp dẫn.
Graunt và bạn của mình là William Petty được coi là cha đẻ của thống kê. Những học giả toán học thuần túy đôi khi coi nhẹ ngành toán này vì họ cho rằng nó chỉ tập trung vào các vấn đề mang tính thực dụng; do đó Graunt dường như là người tiên phong phù hợp. Không giống những người không chuyên khác–bác sĩ Cardano, luật gia Fermat hay giáo sĩ Bayes – Graunt là người bán đồ may vá: cúc áo, chỉ, kim, và những thứ lặt vặt khác trong nhà. Nhưng Graunt không chỉ bán cúc áo, ông là một người bán cúc áo giàu có, và tài sản cho phép ông dành thời gian theo đuổi những thú vui không liên quan đến may vá. Nó còn giúp ông kết giao với nhiều trí thức nổi tiếng đương thời, trong đó có Petty.
Một kết luận mà Graunt thu được từ danh sách tử vong liên quan tới số người chết vì đói. Vào năm 1.665 con số này là 45, chỉ khoảng gấp đôi số người chết vì tử hình. Ngược lại, theo báo cáo thì có 4.808 người chết vì bệnh lao phổi, 1.929 người do “sốt phát ban và sốt xuất huyết”, 2.614 người do “bệnh liên quan đến răng và ký sinh trùng”, và 68.596 người do dịch bệnh. Tại sao, khi thủ đô London “lúc nhúc những kẻ ăn xin”, lại có ít người chết đói đến vậy? Graunt kết luận rằng dân chúng đang phải nuôi ăn những kẻ này. Vì vậy, ông đề nghị rằng thành phố phải cung cấp thức ăn để dân chúng tiết kiệm một khoản chi phí cũng như dọn sạch những kẻ ăn xin, hành khất ra khỏi các con phố của London thế kỷ XVII. Graunt cũng cân nhắc hai giả thiết về nguyên nhân của sự lan truyền dịch bệnh. Một giả thuyết cho rằng căn bệnh được truyền đi bởi không khí ô nhiễm, giả thuyết khác dự đoán dịch bệnh truyền từ người này sang người khác. Graunt xem xét kỹ những ghi chép về các ca tử vong và tiến tới kết luận những số liệu dao động quá lớn không thể do ngẫu nhiên, vì ông nghĩ đến khả năng nếu có dịch bệnh lây lan từ người sang người. Ngược lại, do thời tiết thay đổi bất thường theo từng tuần, nên ông cho rằng sự dao động trong dữ liệu phù hợp với giả thiết về không khí ô nhiễm. Thành ra, London vẫn chưa sẵn sàng với món súp gà, và người dân London sẽ sống tốt hơn nếu họ tránh xa chuột thay vì không khí ô nhiễm, nhưng khám phá vĩ đại của Graunt không phải ở kết luận của ông. Nó nằm trong sự nhận thức rằng thống kê có thể cho ta sự hiểu biết sâu sắc về hệ thống mà trong đó các con số thống kê được sử dụng.
Nghiên cứu của Petty đôi khi được coi là tiền đề cho kinh tế học cổ điển. Ông tin rằng sức mạnh của chính quyền phụ thuộc và được phản ánh bởi số lượng và đặc điểm của đối tượng, vì thế Petty thuê những nhà thống kê phân tích các vấn đề của quốc gia. Đặc trưng trong phân tích của Petty là ông nhìn mọi thứ dưới góc độ của người đứng đầu, và đối xử với các thành viên trong xã hội như những đồ vật có thể điều khiển được. Còn đối với vấn đề bệnh dịch, ông chỉ ra rằng nên dành tiền vào việc phòng chống bệnh, bởi vì, để bảo đảm mạng sống, khoản đầu tư xã hội này đóng góp một phần đáng kể để nuôi dưỡng những đứa trẻ đến khi trưởng thành, và mang lại hiệu quả cao hơn so với các cách đầu tư sinh lời khác. Với người Ailen, ông không mấy nhân nhượng. Ví dụ, Petty cho rằng giá trị kinh kế của một người Anh lớn hơn một người Ailen, vì vậy, vương quốc này sẽ ngày càng thịnh vượng nếu tất cả những người Ailen trừ một số người chăn bò bị buộc di dời đến Anh. Khi điều đó xảy ra, Petty đã làm giàu cho mình từ chính những người Ailen đó: với tư cách là một bác sĩ của quân xâm lược Anh vào những năm 1650, ông được giao nhiệm vụ định giá các chiến lợi phẩm. Và dĩ nhiên ông đã định giá khả năng cuỗm một phần để tư lợi.
Nếu phạm vi và sự gia tăng dân số phản ánh chất lượng của của hệ thống chính quyền, như Petty nghĩ, thì sự thiếu hụt một phương pháp ước lượng phạm vi dân số sẽ gây khó khăn cho việc đánh giá chính quyền nơi đó. Công trình toán học nổi tiếng nhất của Graunt đã làm rõ vấn đề đó – tính dân số thành phố London. Từ danh sách tử vong, Graunt biết được tỷ lệ sinh. Và nhờ tỷ lệ sinh này, Graunt có thể suy ra được số phụ nữ đang trong độ tuổi sinh đẻ. Từ những dữ liệu này, ông suy ra được số hộ gia đình, và bằng sự quan sát về quy mô trung bình của mỗi gia đình ở London, ông tính được dân số của thành phố. Kết quả của ông là 384.000 người, trong khi trước đó thành phố này được cho là có hai triệu người. Graunt cũng gây ngạc nhiên khi chỉ ra sự bùng nổ dân số thành phố là do dân di cư đến từ các vùng lân cận, không phải là do phương pháp sinh đẻ có kế hoạch của thành phố còn hạn chế, và mặc dù dịch bệnh thảm khốc, nhưng mức độ suy giảm dân số do dịch bệnh tồi tệ nhất luôn được bù đắp chỉ trong vòng hai năm. Ngoài ra, Graunt cũng được công nhận là người công bố “bảng cuộc sống” đầu tiên, một sự sắp xếp dữ liệu có hệ thống về tuổi thọ trung bình mà hiện nay được nhiều tổ chức từ công ty bảo hiểm nhân thọ đến Tổ chức Y tế Thế giới (World Health Organization) sử dụng rộng rãi. Một bảng cuộc sống cho biết số lượng người trong một nhóm 100 người có thể sống đến một độ tuổi nào đó. Bên cạnh số liệu của Graunt (cột London 1662), chúng tôi đã bổ sung thêm cột dữ liệu của một số quốc gia hiện nay.
Bảng cuộc sống của Graunt (mở rộng)
Năm 1662, Graunt công bố những phân tích của mình trong cuốn Natural and Political Observations…Upon the Bills of Mortality (Tạm dịch: Những quan sát tự nhiên và chính trị… dựa trên danh sách tử vong). Cuốn sách nhận được rất nhiều lời khen ngợi. Một năm sau, Graunt được bầu vào Hiệp Hội Khoa Học Hoàng Gia. Và năm 1666, Vụ Cháy Lớn ở London (Great Fire of London) đã thiêu rụi phần lớn thành phố và phá hủy hoàn toàn cơ ngơi của ông. Ông còn bị buộc tội gián tiếp tạo nên thảm kịch này khi yêu cầu tạm dừng việc cấp nước của thành phố trước khi vụ hỏa hoạn diễn ra. Thực tế, ông không có mối liên hệ nào với công ty cấp thoát nước trước vụ cháy. Tuy vậy, sau sự kiện này, tên của Graunt biến mất khỏi Hiệp Hội Khoa Học Hoàng Gia. Graunt chết vì bệnh vàng da một vài năm sau đó.
Do đóng góp của Graunt, năm 1667 chính phủ Pháp đã thỏa hiệp với chính phủ Anh và chỉnh sửa luật cho phép tiến hành những cuộc điều tra giống như danh sách tử vong. Sau đó các nước châu Âu khác cũng làm theo. Cho tới thế kỷ XIX, các nhà thống kê trên khắp châu Âu đã hoàn thành những dữ liệu về điều tra dân số trong hồ sơ của chính phủ – “một trận mưa số liệu”. Trong công trình của mình, Graunt kết luận rằng khi nghiên cứu kĩ lưỡng một mẫu dữ liệu giới hạn thì có thể suy ra tổng dân số. Mặc dù Graunt và các cộng sự đã rất nỗ lực để tìm hiểu những dữ liệu bằng các cách suy luận logic, nhưng phần lớn những bí mật của các con số phải chờ đến khi công trình của Gauss, Laplace, và các nhà khoa học khác ở thế kỷ XIX và đầu thế kỷ XX ra đời mới được phát hiện.
THUẬT NGỮ “statistics” (thống kê) trong tiếng Anh có nguồn gốc từ tiếng Đức Statistik, thông qua một cuốn sách biên dịch năm 1770 – Beilfield’s Elementary Universal Education (Giáo dục phổ thông cơ bản của Biefield) – đã định nghĩa rằng “thống kê là bộ môn khoa học hướng dẫn chúng ta cách tổ chức chính trị của các quốc gia hiện đại trên thế giới”. Cho tới năm 1828, bộ môn này đã phát triển tới mức bộ American Dictionary (Từ điển Anh – Mỹ) của Noah Webster đã định nghĩa thống kê là “sự tổng hợp các dữ liệu phản ánh tình trạng của một cộng đồng, điều kiện sống của con người trong một quốc gia hoặc vùng lãnh thổ, sức khỏe, tuổi thọ, nền kinh tế trong nước, nghệ thuật, tiềm lực của cải và chính trị, tình trạng đất nước của họ…”. Lĩnh vực đã bao trùm các phương pháp của Laplace, người đã tìm cách mở rộng các phân tích toán học của mình từ các hành tinh và sao đến những vấn đề hàng ngày.
Phân phối chuẩn mô tả cách thức các hiện tượng xoay quanh một giá trị trung tâm đại diện cho khả năng khả thi nhất; trong cuốn Esai philosophique sur les probabilitié (Tham luận triết học về xác suất), Laplace biện luận rằng cách tính toán mới này có thể sử dụng để đánh giá chứng cứ pháp luật, dự đoán tỷ lệ lập gia đình, tính toán chi phí bảo hiểm. Nhưng tới phần cuối của tác phẩm, Laplace đã 60 tuổi, và do đó cần một người trẻ tuổi hơn thay ông tiếp tục nghiên cứu. Đó là Adolphe Quételet, sinh ngày 22 tháng Hai năm 1796 ở Ghent, Flanders.
Quételet không nghiên cứu do niềm đam mê các vấn đề xã hội. Luận án đem lại cho ông học vị tiến sĩ đầu tiên trong lĩnh vực khoa học ở một trường đại học tại Ghent năm 1819 là về lý thuyết mặt cắt hình nón, thuộc lĩnh vực Hình học. Sự say mê của ông sau đó chuyển sang thiên văn học, và khoảng năm 1820, Quételet năng nổ tham gia vận động gây quỹ xây dựng một đài quan sát mới ở Brussels, nơi ông là một thành viên. Là một người tham vọng, Quételet coi đài quan sát như một bước đệm nhằm xây dựng một đế chế khoa học. Đó là một bước đi rất táo bạo, chí ít bởi ông gần như không biết gì về thiên văn học cũng như cách vận hành một đài quan sát. Tuy nhiên, ông hẳn đã thuyết phục được mọi người, bởi ông không chỉ gây quỹ được cho đài quan sát, mà còn có cơ hội tới Paris trong một vài tháng để bồi dưỡng thêm kiến thức. Đây thực sự là một khoản đầu tư thỏa đáng, bởi đài quan sát Hoàng gia Quételet (Quételet’s Royal Observatory) tại Vương quốc Bỉ vẫn còn tồn tại đến ngày nay.
Tại Paris, Quételet bị phân tâm bởi sự mất trật tự trong cuộc sống, và điều này đã dẫn ông theo một hướng hoàn toàn khác. Tình yêu với thống kê bắt đầu từ khi ông kết thân với một số nhà toán học Pháp nổi tiếng, trong đó có Laplace và Joseph Fourier, và sau đó ông đã nghiên cứu về thống kê và xác suất cùng với Fourier. Cho dù cuối cùng ông cũng học được cách vận hành một đài quan sát, nhưng ông lại say mê theo đuổi mục tiêu khác: áp dụng những công cụ toán học của thiên văn học vào việc tổng hợp dữ liệu xã hội.
Khi trở về Brussels, Quételet bắt đầu thu thập và phân tích những dữ liệu trong ngành nhân khẩu học, sau đó tập trung vào những báo cáo về các hoạt động tội phạm được chính phủ Pháp công bố năm 1827. Trong cuốn Sur l’homme et le développement de ses facultés (Về con người và sự khởi phát năng lực của họ), một bộ sách gồm hai cuốn được xuất bản vào năm 1835, Quételet đưa ra bảng thống kê số vụ ám sát hàng năm tại Pháp từ năm 1826 đến năm 1831. Số lượng các vụ ám sát, theo ghi chú của ông, hầu như không đổi, cũng như tỷ lệ giữa các vụ án sử dụng súng, kiếm, dao, gậy, đá, công cụ cắt và đâm, đấm và đá, bóp cổ, dìm chết và lửa. Quételet cũng phân tích những cái chết liên quan đến tuổi tác, địa lý, mùa và nghề nghiệp, cũng như trong bệnh viện và trong tù. Ông nghiên cứu số liệu thống kê về chứng nghiện rượu, bệnh mất trí và tội phạm. Và ông phát hiện ra các quy tắc thống kê về các vụ treo cổ tự tử ở Paris và số lượng đám cưới giữa phụ nữ trên 60 tuổi và nam giới ngoài 20 tuổi ở Bỉ.
Các nhà thống kê đã tiến hành những nghiên cứu như vậy trước đó, nhưng Quételet đã làm nhiều hơn thế với dữ liệu thu thập được: ông không chỉ tính giá trị trung bình, mà còn nghiên cứu cẩn thận nguyên nhân dữ liệu đi lệch khỏi giá trị trung bình. Trong bất kỳ trường hợp nào, Quételet cũng tìm thấy một phân phối chuẩnphân phối chuẩn: trong các xu hướng về tội phạm, kết hôn, và tự sát cũng như trong chiều cao của những người da đỏ gốc Mỹ và số đo vòng ngực của những người lính Scotlen (ông tìm thấy mẫu của 5.738 số đo vòng ngực trong cuốn sách cũ tựa Edinburgh Medical and Surgical Journal – (Những ghi chép hàng ngày về y tế và ngoại khoa ở Edinburgh). Những số đo chiều cao của 100.000 chàng trai trẻ Pháp đã giúp ông tìm thấy ý nghĩa của độ lệch nằm ngoài sự phân phối chuẩn. Trong bảng dữ liệu đó, khi dựng biểu đồ về số lượng người nhập ngũ cùng với chiều cao của họ, thì đường cong của đồ thị hình chuông đã bị biến dạng: quá ít người cao hơn 1m58 và một số lại cao vượt ngưỡng. Quételet khẳng định rằng sự chênh lệch – có thêm khoảng 2.200 “người lùn” – là do gian lận, hoặc có thể gọi là sai lệch một cách có chủ ý, bởi những người cao dưới 1m58 được miễn nghĩa vụ quân sự.
Một vài thập kỷ sau nhà toán học vĩ đại người Pháp Jules-Henri Poincaré sử dụng phương pháp của Quételet để tóm cổ một người bán bánh mì lừa đảo khách hàng. Có thói quen mua một ổ bánh mì mỗi ngày, ban đầu Poincaré nhận thấy bánh của ông cân nặng trung bình 950 gam thay vì 1.000 gam như được quảng cáo. Ông phàn nàn với nhà chức trách và sau đó nhận được ổ bánh mì to hơn mỗi ngày. Nhưng ông vẫn có linh cảm rằng chiếc bánh mì ông nhận được chưa thỏa đáng. Và với sự kiên trì mà chỉ một học giả nổi tiếng, hay thực thụ, mới có, ông cẩn thận cân các ổ bánh mì của mình hàng ngày trong năm kế tiếp. Mặc dù những chiếc bánh của ông bây giờ cân nặng trung bình gần hơn với mức 1.000 gam, nếu người bán bánh thật thà đưa ông các ổ bánh ngẫu nhiên, số ổ bánh nặng hơn và nhẹ hơn mức trung bình phải – như đã nói ở chương 7 – bù trừ nhau theo biểu đồ hình chuông của quy luật sai số. Thực tế, Poincaré thấy rằng có quá ít ổ bánh mì nhẹ và dư thừa ổ bánh mì nặng. Ông kết luận người bán bánh không ngừng việc bán bánh thiếu cân mà thay vào đó tìm cách xoa dịu ông bằng cách đưa ông ổ bánh to nhất mà ông ta có. Cảnh sát một lần nữa thăm viếng người bán hàng dối trá, ông ta đã kinh ngạc vô cùng, và đã đồng ý thay đổi cách làm ăn.
Quételet tình cờ tìm ra một công cụ vô cùng hữu dụng: các quy tắc của sự ngẫu nhiên đáng tin cậy đến mức trong một số dữ liệu xã hội, sự gián đoạn của chúng có thể là bằng chứng cho các hành động phạm pháp. Hiện nay, các phân tích này được áp dụng trong các trường hợp có dữ liệu quá lớn, không thể phân tích vào thời đại của Quételet. Một vài năm trở lại đây, trên thực tế, việc dò la các dữ liệu thống kê như vậy đã trở nên phổ biến và tạo nên một lĩnh vực mới, gọi là kinh tế học pháp y. Ví dụ điển hình nhất chính là nghiên cứu thống kê cho biết các công ty có lùi ngày cho phép quyền chọn cổ phiếu không. Nội dung rất đơn giản: các công ty cho phép quyền chọn cổ phiếu – tức quyền được mua cổ phiếu muộn hơn với giá ấn định vào ngày lựa chọn – như là một sự ưu đãi dành cho ban quản trị để làm tăng giá cổ phiếu của công ty. Nếu như thời điểm cho phép được lùi về thời điểm giá cổ phiếu rất thấp, kéo theo lợi nhuận của ban quản trị sẽ rất cao. Một ý tưởng tuyệt vời, nhưng khi được tiến hành bí mật, việc làm này là vi phạm pháp luật. Dấu vết thống kê mà nó để lại đã dẫn tới cuộc điều tra về thực trạng này trên mười hai công ty lớn. Trong một ví dụ ít được công chúng biết đến, Justin Wolfers, một chuyên gia kinh tế của trường Wharton, tìm thấy chứng cứ gian lận trong kết quả của khoảng 70.000 trận đấu bóng rổ trường đại học.
Wolfers tìm thấy sự bất thường khi so sánh điểm số cá cược tại Las Vegas với tỷ số thực của trận đấu. Khi một đội chơi hay hơn, nhà cái sử dụng khoảng cách chênh lệch điểm số để thu hút số người đặt cược ở cả hai đội. Ví dụ, giả sử đội bóng rổ trường Caltech (Đại học công nghệ California được đánh giá chơi hay hơn đội UCLA (Đại học Calilornia), (đối với những người yêu thích bóng rổ đại học, thì vào những năm 1950 điều này là chính xác). Thay vì đưa ra phần cược nghiêng về một đội, nhà cái có thể đưa ra lựa chọn cân bằng cho cả hai đội nhưng chỉ thắng khi đặt cho Caltech nếu đội này hơn UCLA 13 điểm hoặc hơn.
Mặc dù khoảng cách điểm chấp được thiết lập nên bởi nhà cái, nhưng chúng lại được ấn định bởi phần lớn những người đặt cược, do nhà cái điều chỉnh khoảng điểm để cân bằng nhu cầu. (Nhà cái kiếm tiền dựa trên tiền phí và tìm cách có số tiền đặt cược cân bằng ở hai đội để dù đội nào thắng, họ cũng kiếm được tiền). Để tính toán cách mà người chơi đánh giá hai đội, nhà kinh tế học sử dụng một số gọi là sai số dự báo, tính bằng sự chênh lệch giữa số dư điểm của đội thắng và khoảng điểm quyết định bởi những người đặt cược. Không hề ngạc nhiên rằng, sai số dự báo, là một loại sai số, được phân bố tuân theo phân phối chuẩn. Wolfers phát hiện ra rằng, giá trị trung bình của sai số dự báo là 0, nghĩa là khoảng điểm chấp không có xu hướng đánh giá quá cao hay quá thấp các đội, và độ lệch chuẩn của nó là 10,9 điểm, cho thấy 2/3 số trận khoảng điểm nằm trong phạm vi 10,9 điểm số dư của đội thắng. (Trong một nghiên cứu về bóng bầu dục chuyên nghiệp, người ta cũng tìm ra kết quả tương tự, với giá trị trung bình là 0 và độ lệch chuẩn là 13,9 điểm).
Khi Wolfers nghiên cứu các trận đấu mà phần thắng nghiêng hẳn về một đội, ông tìm thấy một thực tế rất thú vị: có rất ít các trận đấu mà đội được yêu thích thắng với điểm số cao hơn một chút so với khoảng điểm chấp, mà phần lớn các trận đội có lợi thế thắng với điểm số sát nút khoảng điểm. Một lần nữa, chúng ta lại thấy sự bất thường mà Quétele phát hiện ra. Wolfers kết luận, giống như Quétele và Poincaré, đây là lừa đảo. Phân tích của ông chỉ ra như sau: rất khó để một cầu thủ hàng đầu đảm bảo đội của họ sẽ thắng số điểm chấp, nhưng nếu đội của họ là đội có lợi thế hơn, một cầu thủ, không hề phải lo ngại về cơ hội thắng của đội mình, có thể chơi vừa tầm để chắc chắn đội họ không thắng vượt khoảng điểm chấp. Và nếu những kẻ cá cược cẩu thả muốn sắp đặt trận đấu mà không cần làm đội chơi có nguy cơ thua cuộc, kết quả sẽ lộ ra sự bất thường mà Wolfers phát hiện ra. Có phải những nghiên cứu của Wolfers chứng minh rằng một tỷ lệ trong những trận đấu bóng rổ giữa các trường, cầu thủ đang nhận hối lộ để bán độ trận đấu? Câu trả lời là Không, nhưng như Wolfers nói, “Không nên để những gì đang diễn ra ở sân bóng phản ánh những gì đang diễn ra ở Las Vegas.” Và một điều thú vị nữa là trong các nghiên cứu gần đây của Hiệp hội Điền kinh Các Trường Đại học Và Trung học Quốc Gia (National Collegiate Athletic Association), 1,5% vận động viên thú nhận rằng họ biết đồng đội của mình “nhận tiền để chơi kém”.
QUÉTELET KHÔNG THEO ĐUỔI những ứng dụng về mặt pháp lý của những ý tưởng này. Ông có một kế hoạch lớn hơn: sử dụng phân phối chuẩn để giải thích bản chất con người và xã hội. Trong 1.000 bản sao của một bức tượng, ông viết, các bản sao ấy sẽ khác nhau do sai lệch trong đo đạc và người chế tác, và sự sai khác ấy bị ảnh hưởng bởi quy luật sai số. Nếu sự đa dạng trong đặc điểm thể chất của con người tuân theo quy luật tương tự, thì cũng chỉ vì chúng ta là các bản sao không hoàn hảo từ một nguyên mẫu. Quételet gọi nguyên mẫu ấy là l’homme moyen, người trung bình. Ông cảm thấy rằng khuôn mẫu cũng tồn tại trong các hành vi của con người. Quản lý của một cửa hàng bách hóa lớn có thể không biết liệu nhân viên thu ngân mới có đút túi lọ nước hoa nhỏ hiệu Chanel Allure cô ta đang ngửi hay không, nhưng ông có thể tin tưởng vào sự dự báo rằng trong việc kinh doanh bán lẻ, hàng hóa hao hụt hàng năm ổn định ở con số 1,6%, trong đó 45% đến 48% nguyên nhân là do người làm công lấy trộm. Tội phạm, như Quételet viết, “giống như một ngân sách được chi trả với một quy luật đáng sợ”.
Quételet nhận thấy mỗi nền văn có l’homme moyen khác nhau và có thể thay đổi với sự thay đổi điều kiện sống. Trong thực tế, việc nghiên cứu những thay đổi và nguyên nhân của nó là tham vọng lớn nhất của Quételet. “Con người được sinh ra, lớn lên, và chết đi tuân theo những quy luật nhất định,” ông viết, và những quy luật ấy “chưa bao giờ được nghiên cứu”. Newton trở thành cha đẻ của vật lý học hiện đại bằng cách tìm ra và phát biểu các quy luật của vũ trụ. Học tập theo Newton, Quételet mong muốn tạo ra một ngành “vật lý xã hội”, diễn tả quy luật trong hành vi của con người. Trong các phân tích của Quételet, cũng giống như một vật thể: nếu không bị tác động, sẽ tiếp tục trạng thái chuyển động đang có, đa số hành vi của con người sẽ tiếp tục giữ nguyên, nếu điều kiện xã hội không thay đổi. Và như Newton mô tả cách lực cơ học tác động khiến vật thể chệch khỏi con đường ban đầu, Quételet tìm kiếm quy luật trong hành vi con người diễn tả cách mà động lực xã hội biến đổi đặc điểm của cộng đồng. Ví dụ, Quételet nghĩ rằng sự bất bình đẳng về của cải và sự dao động bất thường trong giá cả là nguyên nhân dẫn đến tội phạm và sự bất ổn của xã hội và rằng mức độ tội phạm không đổi cho thấy trạng thái cân bằng, và nó sẽ chỉ thay đổi khi những nguyên nhân cơ bản thay đổi. Một minh họa sinh động về thay đổi trạng thái cân bằng của xã hội xảy ra trong những tháng sau sự kiện 11 tháng 9 năm 2001, khi du khách lo ngại về việc đi máy bay, và đột ngột chuyển hết sang sử dụng ô tô. Sự sợ hãi này của họ gây ra thêm 1.000 vụ tai nạn đường bộ so với cùng thời điểm năm trước – những thiệt hại vô hình của sự kiện 11 tháng 9.
Tuy nhiên, tin vào sự tồn tại của vật lý xã hội là một chuyện, và định nghĩa được nó lại là chuyện khác. Trong một môn khoa học đích thực, Quételet nhận ra rằng lý thuyết có thể được đúc rút bằng cách đặt con người vào trong nhiều tình huống thực nghiệm khác nhau và ghi lại những hành vi của họ. Tuy nhiên, vì điều này là không thể, ông kết luận rằng khoa học xã hội gần với thiên văn học hơn là vật lý, khi mà sự hiểu biết chỉ thu được bằng cách quan sát gián tiếp. Và vì thế, để tìm kiếm con đường dẫn tới quy luật của vật lý xã hội, ông nghiên cứu sự biến thiên về thời gian và văn hóa trong l’homme moyen.
Ý tưởng của Quételet được đón nhận một cách nồng nhiệt, đặc biệt tại Pháp và Anh. Một nhà tâm lý học thậm chí còn thu thập mẫu nước tiểu từ một nhà ga xe lửa nơi thường xuyên có nhiều người đến từ nhiều quốc gia qua lại để phân tích các đặc tính của “Nước tiểu tiêu chuẩn của người châu Âu”. Tại Anh, học trò nhiệt tình nhất của Quételet, Henry Thomas Buckle, là một cờ thủ và nhà sử học có tiếng, được biết đến nhiều nhất với bộ sách đầy tham vọng History of Civilization in England (Lịch sử nền văn minh Anh). Không may, vào năm 1861, khi mới 40 tuổi, Buckle bị sốt rét khi đi qua vùng Damascus. Mặc dù được một bác sỹ địa phương đề nghị chữa trị, nhưng ông từ chối bởi vì vị bác sỹ ấy là người Pháp, và vì vậy ông đã qua đời. Buckle chưa kịp hoàn thành luận thuyết của mình. Nhưng ông đã hoàn tất hai cuốn đầu tiên về lịch sử dưới góc nhìn của một nhà thống kê. Cuốn sách dựa trên công trình của Quételet và đã giành được thành công tức thì. Chúng được người dân châu Âu đón đọc và được dịch ra tiếng Pháp, Đức và Nga. Darwin đọc nó; Alfred Russel Wallace đọc nó, Dostoyevsky cũng đọc nó hai lần.
Mặc dù cuốn sách giành được nhiều sự chú ý, nhưng lịch sử đã cho thấy mặt toán học của Quételet hợp lý hơn bộ môn vật lý xã hội của ông. Vì một điều rằng không phải tất cả những gì xảy ra trong xã hội, đặc biệt trong lĩnh vực kinh tế, cũng đều tuân theo quy luật phân phối chuẩn. Ví dụ, nếu doanh thu điện ảnh được phân bố bình thường, phần lớn các bộ phim sẽ có doanh thu gần với giá trị trung bình, và 2/3 doanh thu các phim sẽ nằm trong khoảng độ lệch chuẩn của giá trị đó. Tuy nhiên, trong kinh doanh phim ảnh, 20% các bộ phim đem về 80% lợi nhuận. Trong một ngành công nghiệp phụ thuộc vào các cú hích và hoàn toàn không thể dự đoán trước như vậy, nó tuân theo một quy luật phân phối hoàn toàn khác, và các khái niệm về giá trị trung bình và độ lệch chuẩn trở thành vô nghĩa, bởi vì không có một buổi diễn “mang tính đặc thù” nào, và các sự kiện bom tấn nổi bật, khi mà chỉ diễn ra một lần trong hàng thế kỷ ở các ngành công nghiệp khác, thì xảy ra hàng năm trong công nghiệp điện ảnh.
Quan trọng hơn việc ông bỏ qua những cách phân phối xác suất khác chính là việc Quételet không thể tìm ra quy luật và các tác lực như ông mong muốn. Vì vậy, dù ảnh hưởng trực tiếp của ông lên ngành khoa học xã hội còn khá khiêm tốn, nhưng di sản ông để lại là không thể phủ nhận và có ảnh hưởng sâu rộng. Nó không nằm trong khoa học xã hội, nhưng nằm trong các ngành khoa học “khó” khác, nơi phương pháp tìm hiểu quy luật trong một số lượng lớn những sự kiện ngẫu nhiên của ông đã tạo cảm hứng cho nhiều học giả và dẫn tới các nghiên cứu mang tính cách mạng làm thay đổi tư duy trong ngành vật lý và sinh học.
NGƯỜI ANH EM HỌ CỦA CHARLES DARWIN chính là người đưa tư duy thống kê đến với ngành sinh học. Francis Galton học tại trường Trinity, Cambridge vào năm 1840. Ban đầu, ông học y học, nhưng sau nghe theo lời khuyên của Darwin ông chuyển sang lĩnh vực toán học. Cha ông qua đời khi ông mới 22 tuổi, để lại cho ông một khoản thừa kế khổng lồ. Nhờ khối tài sản của cha mình, Galton không cần phải kiếm sống, và ông trở thành một nhà khoa học nghiệp dư. Ông bị ám ảnh bởi những phép đo. Ông đo kích cỡ đầu, mũi, và các chi của người, số lần bồn chồn của người nghe diễn thuyết, và mật độ các cô nàng hấp dẫn mà ông gặp trên đường (Phụ nữ London có điểm số cao nhất; Aberdeen thấp nhất). Ông đo đạc đặc điểm dấu vân tay người, một nỗ lực dẫn đến việc Sở cảnh sát London công nhận khả năng nhận diện vân tay vào năm 1901. Ông thậm chí còn đo tuổi thọ của nhà chức trách và giới tăng lữ, những người này có tuổi thọ tương đương những người làm những ngành nghề khác, từ đó ông kết luận rằng việc cầu nguyện không mang lại lợi ích gì cả.
Trong cuốn sách viết vào năm 1869, Hereditary Genius (Tài năng di truyền), Galton viết rằng một phần dân số với chiều cao bất kỳ cũng gần như đồng bộ theo thời gian và sự phân phối chuẩn áp dụng không chỉ đối với chiều cao mà còn đối với tất cả các đặc điểm thể chất khác: chu vi đầu, kích thước bộ não, lượng chất xám, số dây thần kinh,… Nhưng Galton không dừng lại ở đó. Ông tin rằng đặc tính của con người cũng được quyết định bởi tính di truyền và, tuân theo một số đặc điểm của phân phối chuẩn giống như đặc điểm thể chất của con người. Và vì vậy, như Galton nói, con người không phải “có cùng giá trị, như những phần tử trong xã hội, có quyền bầu cử cũng như mọi thứ khác như nhau”. Trái lại, ông khẳng định rằng trong 1 triệu đàn ông có 250 người được thừa hưởng những khả năng khác thường và trở nên xuất chúng trong lĩnh vực của họ. (Trong thời kỳ của ông, phụ nữ thông thườngkhông ra ngoài làm việc và vì vậy ông không nghiên cứu về họ). Galton sáng lập một ngành nghiên cứu mới dựa trên những ý tưởng đó và gọi nó là thuyết ưu sinh (eugenics), bắt nguồn từ tiếng Hy Lạp eu (tốt) và genos (ra đời). Qua nhiều năm, thuyết ưu sinh có ý nghĩa to lớn với nhiều người. Thuật ngữ và các ý tưởng của ông được kế thừa bởi Đức Quốc Xã, nhưng không có chứng cứ nào chứng tỏ Galton tán thành kế hoạch tàn sát của những người Đức này. Ngược lại, ông mong muốn tìm cách cải thiện điều kiện của con người thông qua việc nhân giống có lựa chọn.
Trong Chương 9, chúng ta sẽ hiểu lý do tại sao cách giải thích đơn giản của Galton về quan hệ nhân quả của sự thành công lại hấp dẫn đến vậy. Chúng ta cũng sẽ thấy trong Chương 10: do vô số các trở ngại ngẫu nhiên và thấy trước phải vượt qua để hoàn thành một công việc bất kỳ, mối liên hệ giữa khả năng và kết quả hầu như không có liên hệ trực tiếp với những điều có thể giải thích bằng ý tưởng của Galton. Trên thực tế, một vài năm trở lại đây các nhà tâm lý học đã phát hiện ra rằng khả năng chống chọi với các trở ngại cũng quan trọng không kém nhân tố năng lực trên con đường tới thành công. Vì vậy, các chuyên gia thường nhắc tới “quy luật 10 năm”, nghĩa là phải mất 10 năm lao động gian khổ, luyện tập, và đấu tranh để gặt hái thành công rực rỡ. Chúng ta có thể cảm thấy nản chí khi nghĩ rằng nỗ lực và cơ hội, cũng như tài năng bẩm sinh, đóng góp một phần không thể thiếu trên con đường thành công. Nhưng tôi lại thấy đó là một động lực thúc đẩy, bởi chúng ta không thể kiểm soát được tài năng bẩm sinh, nhưng mức độ nỗ lực phụ thuộc vào chính chúng ta. Và những ảnh hưởng của sự tình cờ cũng có thể kiểm soát ở một mức độ nào đó, bằng cách ép mình nỗ lực nhiều lần để tăng tỷ lệ thành công.
Dù ưu điểm và nhược điểm của thuyết ưu sinh là gì đi chăng nữa, các nghiên cứu của Galton về sự thừa kế cũng dẫn tới hai khái niệm toán học mà sau này trở thành “xương sống” của thống kê hiện đại. Ông phát hiện ra khái niệm thứ nhất vào năm 1875 sau khi phân phát những túi hạt đậu ngọt cho bảy người bạn. Mỗi người bạn nhận được các hạt giống với cùng kích thước và cân nặng, sau đó họ đưa lại cho Galton hạt thu được từ thế hệ sau. Khi đo đạc chúng, Galton thấy rằng các hạt có đường kính trung bình lớn cho ra các hạt nhỏ hơn, và các hạt có đường kính trung bình nhỏ lại cho hạt lớn hơn. Sau đó, qua những dữ liệu ông thu được từ một phòng thí nghiệm đặt tại London, Galton nhận thấy điều tương tự trong chiều cao của con người. Ông đặt tên cho hiện tượng – trong các đo đạc liên quan, nếu một giá trị đo đạc khác xa giá trị trung bình, các giá trị khác sẽ gần hơn với giá trị trung bình – hồi quy giá trị trung bình.
Galton sớm nhận ra các quy trình không tuân theo hồi quy giá trị trung bình sẽ sớm vượt khỏi vòng kiểm soát. Ví dụ, giả sử những người con trai của một người cha cao lớn có chiều cao trung bình bằng cha mình. Vì chiều cao dao động, nên một số người con sẽ cao hơn. Đến thế hệ tiếp theo, giả sử những người con trai của người con cao hơn ấy (cháu của người cha ban đầu) cũng có chiều cao trung bình bằng cha mình. Trong số đó cũng sẽ có một số cao hơn cha. Cứ thế, thế hệ nối tiếp nhau, người cao nhất thế giới sẽ liên tục thay đổi. Bởi vì hồi quy giá trị trung bình, điều này sẽ không xảy ra. Và vì thế, những phụ huynh cao lớn không nên mong chờ con mình cao như họ, những thiên tài không nên mong con mình cũng thông minh như vậy, và những Picasso hay Tiger Woods cũng không nên mong có thế hệ tiếp theo thành công được như họ. Mặt khác, những người thấp sẽ có nhiều hy vọng có con cao hơn họ, và những người không thông minh hay không có năng khiếu mỹ thuật có thể trông chờ sự thiếu hụt của mình được bù đắp vào thế hệ sau.
Tại phòng thí nghiệm của mình, Galton thu hút những người tham gia thí nghiệm thông qua quảng cáo, và sau đó tiến hành đo đạc các số liệu khác nhau: cân nặng, chiều cao, thậm chí là kích cỡ của xương… Mục tiêu của ông là tìm ra phương pháp dự đoán kích thước con của họ dựa trên những số đo của bố mẹ họ. Một biểu đồ của Galton cho thấy tỷ lệ chiều cao giữa đứa con và cha mẹ chúng. Nếu chiều cao luôn luôn bằng nhau, đồ thị sẽ là một đường thẳng góc 45 độ. Nếu mối quan hệ chiều cao ở mức trung bình nhưng dữ liệu các cá thể là khác nhau, biểu đồ sẽ cho thấy các điểm nằm trên và nằm dưới đường thẳng đó. Biểu đồ của Galton không chỉ cho thấy mối quan hệ giữa chiều cao của cha mẹ và con cái nói chung mà còn cho thấy mức độ của mối quan hệ đó. Đó chính là đóng góp to lớn khác của Galton cho thống kê học: sử dụng đồ thị toán học để phân tích tính chất của mối quan hệ như vậy. Ông gọi nó là hệ số tương quan.
Hệ số tương quan là một số nằm trong khoảng -1 đến 1; nếu nó ở gần ±1, đó là dấu hiệu cho thấy hai biến số quan hệ mật thiết với nhau, hệ số bằng 0 cho thấy không có mối liên quan nào cả. Ví dụ, nếu dữ liệu cho thấy khi ăn một bữa McDonald 1.000 đơn vị calo mỗi lần một tuần, người ăn sẽ tăng 10 pound (gần 5 kg) 1 năm, 2 lần 1 tuần tăng 20 pound (gần 10kg) 1 năm và cứ như vậy, hệ số tương quan sẽ là 1. Nếu vì một lý do nào đó người ăn không tăng mà giảm lượng cân đó, hệ số sẽ là -1. Còn nếu tăng và giảm không phụ thuộc vào chế độ ăn, hệ số sẽ là 0. Hiện nay, hệ số tương quan là một trong các lĩnh vực được áp dụng rộng rãi nhất trong thống kê học. Nó được sử dụng để phân tích các mối quan hệ như số lượng thuốc lá được hút và số ca viêm phổi, khoảng cách giữa các chòm sao với Trái đất và tốc độ chúng di chuyển ra xa hành tinh chúng ta, cũng như điểm số học sinh giành được trong các kỳ thi tiêu chuẩn và thu nhập của gia đình học sinh đó.
Các nghiên cứu của Galton không chỉ nổi bật bởi những ảnh hưởng trực tiếp của nó mà còn bởi nó tạo cảm hứng cho phần lớn những công trình nghiên cứu về thống kê ở các thập kỷ kế tiếp, thời kỳ mà thống kê phát triển mạnh mẽ và hoàn thiện. Một trong những bước tiến quan trọng ấy được thực hiện bởi Karl Pearson, học trò của Galton. Trong phần đầu chương, tôi có đề cập đến những loại dữ liệu tuân theo sự phân phối chuẩn. Nhưng với một khoảng dữ liệu hạn chế, sự tuân theo không bao giờ hoàn hảo. Trong thời kỳ đầu của thống kê, các nhà khoa học đôi khi xác định các dữ liệu được phân phối chuẩn đơn giản chỉ bằng cách đưa nó lên đồ thị và quan sát đường cong thu được. Nhưng làm thế nào để xác định độ chính xác? Pearson đã sáng tạo ra một phương pháp, gọi là kiểm tra chi bình phương (chi-square test), nhờ nó ta thấy dữ liệu có phù hợp với sự phân bố mà ta mong đợi không. Ông trình bày phương pháp kiểm tra của mình tại Monte Carlo vào tháng 7 năm 1892, lặp lại chính xác việc Jagger đã làm. Trong kiểm tra của Pearson, cũng như của Jagger, các con số thu được trên bàn chơi cò quay không tuân theo sự phân bố đáng lẽ nó phải thu được nếu bánh xe cho ra các kết quả ngẫu nhiên. Trong một thí nghiệm khác, Pearson nghiên cứu số lần mặt 5 và 6 xuất hiện trong 26.305 lần tung 12 xúc xắc. Ông nhận thấy sự phân bố không như những gì ta thấy trong một thí nghiệm với một con xúc xắc hoàn hảo – khả năng thu được mặt 5 hoặc 6 trong một lần xúc là 1 trên 3, hay 0,3333. Nhưng kết quả thu được lại là 0,3377 – cảm tưởng như con xúc xắc bị lệch. Trong trường hợp bàn quay Rulet, có thể có sự gian lận, tuy nhiên con xúc xắc chắc chắn bị lệch do sự biến đổi trong quá trình sản xuất, cái mà một người bạn của tôi, Moshe, khẳng định là luôn tồn tại.
Kiểm tra chi bình phương hiện nay được sử dụng rộng rãi. Lấy một ví dụ, thay vì thử xúc xắc, chúng ta thử ba hộp bột ngũ cốc thể theo yêu cầu của khách hàng. Nếu người mua không có sự thiên vị nào, ta có thể kỷ vọng 1/ 3 số lần chọn sẽ rơi vào một hộp. Nhưng như chúng ta thấy, kết quả thực tế gần như không bao giờ phân bố đều như vậy. Từ bài kiểm tra này, ta có thể thấy được chiếc hộp được chọn nhiều hơn là do sở thích của khách hàng, không đơn thuần chỉ là sự ngẫu nhiên. Tương tự, các nhà nghiên cứu ở một công ty dược phẩm muốn tiến hành một thí nghiệm trong đó họ thử nghiệm 2 phương pháp ngăn ngừa đào thải mô cấy ghép. Họ có thể sử dụng thí nghiệm chi bình phương để quyết định có hay không sự khác biệt lớn về mặt thống kê giữa hai phương pháp này. Hay giả sử trước khi mở một chi nhánh, CFO (giám đốc tài chính) của một công ty chuyên cho thuê xe nghĩ rằng 25% khách hàng sẽ lựa chọn xe ô tô cỡ rất nhỏ, 50% lựa chọn xe cỡ nhỏ, 12,5% chọn xe cỡ vừa và còn lại cho các loại xe khác. Khi dữ liệu bắt đầu được thu thập, kiểm tra chi bình phương có thể giúp CFO quyết định nhanh chóng dự đoán của mình là chính xác hay không để công ty có những giải pháp phù hợp.
Nhờ Galton, công trình nghiên cứu của Quételet thấm đẫm lý thuyết sinh học. Nhưng Quételet cũng giúp khơi dậy những bước ngoặt lớn trong vật lý học: James Clerk Maxwell và Lugwig Boltzmann, hai nhà sáng lập của bộ môn vật lý thống kê, lấy cảm hứng từ lý thuyết của Quételet. (Giống như Darwin và Dostoyevsky, họ đọc về chúng trong sách của Buckle). Sau cùng, nếu cỡ ngực của 5.738 lính Scotland tuân theo sự phân phối chuẩn một cách hoàn hảo và quãng đường trung bình mà 200 triệu lái xe đi có thể thay đổi thêm chỉ 100 dặm mỗi năm, sẽ không cần đến một Einstein để đoán rằng 1043 phân tử trong 1 lít khí ga cũng có một quy luật thú vị. Nhưng rồi cũng phải cần đến Einstein để thuyết phục giới khoa học về sự cần thiết của thống kê đối với vật lý. Albert Einstein tiến hành công trình này vào năm 1905, trong cùng năm ấy ông xuất bản nghiên cứu đầu tiên về Thuyết tương đối. Mặc dù công chúng ít biết đến, nhưng công trình của Einstein năm 1905 về vật lý thống kê thực sự là một bước tiến lớn. Trong giới khoa học, trên thực tế, nó là tác phẩm được đánh giá cao nhất của ông.
CÔNG TRÌNH CỦA EINSTEIN NĂM 1905 về vật lý thống kê tập trung giải thích một hiện tượng gọi là sự chuyển động của Brown. Hiện tượng này được đặt tên theo Robert Brown, nhà thực vật học, chuyên gia hàng đầu trong việc sử dụng kính hiển vi, và được coi là người đầu tiên đưa ra mô tả rõ ràng về nhân tế bào. Mục tiêu không ngừng nghỉ của Brown là qua quan sát khám phá ra khởi nguồn của sự sống, cái mà trong thời kỳ của ông được tin là một quyền lực bí ẩn cho phép sự sống trong mọi vật. Trên con đường theo đuổi mục tiêu đó, Brown thất bại thảm hại, nhưng một ngày tháng 6 năm 1827, ông nghĩ mình đã thành công.
Qua kính hiển vi, Brown nhật thấy các hạt phấn nhỏ ông quan sát dường như chuyển động. Mặc dù là khởi nguồn cho sự sống nhưng các hạt phấn hoa không phải là những sinh vật sống. Brown quan sát thấy các chuyển động không ngừng nghỉ, các hạt phấn có một nguồn năng lượng kỳ lạ. Đây không phải là chuyển động có mục đích; dường như nó chuyển động một cách ngẫu nhiên. Trong sự sung sướng tột độ, Brown kết luận ông đã tìm ra cái mà ông theo đuổi, năng lượng này là gì nếu không phải là năng lượng tạo nên sự sống?
Trong một loạt các thí nghiệm được tiến hành sau đó, Brown nhận thấy những chuyển động tương tự trong môi trường nước, rượu và một loạt các chất hữu cơ ông có: thịt bê đang phân hủy, mạng nhện “đen đặc bụi của London”, thậm chí cả nước bọt của ông. Rồi một cú sốc lớn đập tan hy vọng giải thích được hiện tượng của Brown. Đó là khi ông nhận thấy những chuyển động tương tự khi quan sát những nguyên tử vô cơ – amiăng, đồng, bitmut, antimon, và mangan, ông hiểu rằng các chuyển động này không liên quan đến sự sống. Nguyên nhân thực sự của chuyển động Brown thực chất giống với nguyên nhân thúc đẩy tính quy luật trong hành vi của con người mà Quételet đã tìm ra – không phải nội lực mà là ngoại lực, từ khuôn mẫu của sự ngẫu nhiên. Không may, Brown không sống đến lúc để nghe thấy những giải thích về hiện tượng mà ông quan sát được.
Cơ sở cho việc tìm hiểu chuyển động Brown bắt đầu một vài thập kỷ sau đó, với sự đóng góp của Boltzmann, Maxwell, và một vài nhà khoa học khác. Lấy cảm hứng từ Quételet, họ tạo ra một lĩnh vực của vật lý thống kê, sử dụng các kiến thức về xác suất và thống kê trong toán học để giải thích cách các đặc tính của chất lỏng tạo nên từ sự chuyển động của các nguyên tử (trong giả thuyết) tạo nên nó. Tuy nhiên, ý tưởng của họ không gây được sự chú ý cho tới một vài thập kỷ sau. Một vài nhà khoa học gặp vấn đề toán học với lý thuyết này. Số khác phản đối bởi ở thời kỳ đó không ai thực sự nhìn thấy các nguyên tử và họ tin trong tương lai cũng vậy. Nhưng phần lớn các nhà vật lý học lại thực tế, và vì vậy cản trở lớn nhất khiến các nhà khoa học thời kỳ này khó chấp nhận là mặc dù lý thuyết này giải thích một số quy luật có sẵn nhưng nó không giúp hình thành các liên tưởng biện chứng. Chỉ tới năm 1905, vấn đề mới được giải quyết, rất lâu sau cái chết của Maxwell và ngay trước khi sự chán nản khiến Boltzmann tự sát. Einstein sử dụng lý thuyết mới để giải thích một cách cặn kẽ và chính xác chuyển động Brown. Từ đó, sự cần thiết của thống kê đối với vật lý học là không thể phủ nhận, và ý tưởng vật chất được cấu tạo từ các nguyên tử và phân tử trở thành nền tảng cho phần lớn các công nghệ hiện đại và một trong những tư tưởng quan trọng nhất trong lịch sử vật lý.
Sự chuyển động ngẫu nhiên của phân tử trong chất lỏng có thể được xem như phép ẩn dụ về con đường của chúng ta trong cuộc đời (vấn đề sẽ được bàn kĩ hơn trong chương 10), vì vậy chúng ta nên dành thời gian tìm hiểu kĩ hơn công trình của Einstein. Theo mô hình nguyên tử, chuyển động chủ yếu của phân tử nước rất hỗn loạn. Phân tử chuyển động thẳng theo hướng của nó ban đầu, cho đến khi bị chệch hướng do va chạm với một phân tử khác. Như đã nói ở Phần mở đầu, chuyển động như vậy – ở nhiều thời điểm chuyển hướng một cách ngẫu nhiên – gọi là bước đi của kẻ say (Drunkard’s Walk), vì một lý do hiển nhiên đối với những người đã từng uống quá nhiều rượu Martin (những nhà khoa học không say rượu đôi khi gọi nó là bước đi ngẫu nhiên). Nếu một hạt nổi trên mặt chất lỏng, như thuyết nguyên tử dự đoán, liên tục và ngẫu nhiên va đập bởi những phân tử chất lỏng, có thể thấy nó sẽ chuyển động qua lại theo sự va đập. Nhưng có hai vấn đề với chuyển động Brown: thứ nhất, các phân tử quá nhẹ để làm chuyển động một hạt có thể nhìn thấy được; thứ hai, sự va đập giữa các phân tử xảy ra thường xuyên hơn nhiều sự va đập quan sát được. Tài năng của Einstein chính là nhận ra hai vấn đề ấy giải thích cho nhau: mặc dù sự va đập các phân tử là thường xuyên, bởi vì các phân tử quá nhẹ, nên các va đập riêng biệt ấy không thể quan sát được. Chỉ khi may mắn có các tác động vượt trội từ một phía, chúng ta mới nhìn thấy một chuyển động qua lại. Khi Einstein sử dụng toán học, ông nhận thấy mặc dù sự hỗn loạn xảy ra ở cấp độ hiển vi, vẫn tồn tại một mối quan hệ có thể dự đoán trước giữa các yếu tố như kích cỡ, số lượng, tốc độ của phân tử, và mật độ, cường độ của chuyển động va đập. Einstein lần đầu tiên liên kết các hệ quả mới này với vật lý thống kê. Đó dường như là một thành tựu lớn về chuyên môn, nhưng ngược lại, nó đại diện cho thắng lợi của một nguyên lý vĩ đại: nhiều quy luật chúng ta quan sát được trong tự nhiên ẩn chứa một sự mất trật tự ở bên trong và chỉ có thể hiểu được thông qua quy luật của sự ngẫu nhiên. Như Einstein đã viết, “Cảm giác thật tuyệt vời khi nhận ra tính thống nhất trong một hiện tượng phức tạp khác xa với thực tế hiển hiện trước mắt.”
Trong phân tích toán học của Einstein, phân phối chuẩn một lần nữa đóng vai trò cốt lõi, dẫn tới thời kỳ hoàng kim mới trong lịch sử khoa học. Bước đi của kẻ say cũng trở thành một trong những quá trình thiết yếu nhất, và được nghiên cứu nhiều nhất trong tự nhiên. Khi các nhà khoa học ở mọi lĩnh vực bắt đầu công nhận thống kê như một công cụ chính đáng, họ nhận ra dấu vết bước đi của kẻ say trong hầu hết các lĩnh vực nghiên cứu – trong việc muỗi tàn phá các rừng rậm châu Phi, trong ngành hóa chất ni lông, trong cấu tạo của nhựa, trong sự chuyển động của các hạt lượng tử tự do, trong biến động của giá chứng khoán, thậm chí trong sự tiến bộ của trí tuệ qua các thời đại. Chúng ta sẽ tìm hiểu tác động của sự ngẫu nhiên trong đường đi của chính chúng ta trong cuộc sống chương 10. Nhưng chúng ta cũng thấy, mặc dù trong sự đa dạng ngẫu nhiên tồn tại tính thứ tự, các tính chất không phải bao giờ cũng có ý nghĩa. Việc không tự rút ra ý nghĩa khi nó không tồn tại cũng quan trọng như việc nhận ra ý nghĩa khi nó tồn tại. Tránh được những ý nghĩa ảo tưởng trong tính ngẫu nhiên là một công việc khó khăn. Chương sau chúng ta sẽ đề cập đến vấn đề này.
Bạn có thể dùng phím mũi tên để lùi/sang chương. Các phím WASD cũng có chức năng tương tự như các phím mũi tên.