Khôn Ngoan Không Lại Với Giời
Chương 6: Những sự thật sai và các ngụy biện xác thực
Vào những năm 1970, một giáo sư tâm lý học tại Harvard có một sinh viên trung tuổi kỳ lạ theo học. Sau vài buổi học đầu tiên, sinh viên này tới gặp giáo sư để giải thích tại sao anh ta đi học. Theo kinh nghiệm giảng dạy của mình, mặc dù tôi từng gặp một số sinh viên lịch sự đi giải thích với tôi tại sao họ tham dự lớp học, nhưng tôi chưa bao giờ gặp một sinh viên cảm thấy cần phải giải thích tại sao anh ta lại đăng ký học. Đó có lẽ là lý do tại sao tôi không thể bật cười khi tưởng tượng ra cảnh khi tôi hỏi tại sao thì sinh viên này sẽ trả lời “bởi vì em bị mê hoặc bởi đề tài này, và thầy là một giảng viên giỏi.” Nhưng anh chàng này lại có những lý do khác. Anh ta nói anh ta cần được giúp đỡ bởi vì một số điều lạ lùng đã xảy đến với anh ta: vợ anh ta luôn bắt thóp được anh ta, và bây giờ cô ấy đang đâm đơn ra tòa ly dị; một đồng nghiệp tình cờ đề cập đến việc giảm biên chế trong lúc ngà ngà say, và hai ngày sau anh chàng này mất việc. Cuối cùng, anh ta khẳng định rằng, mình đã trải qua hàng tá những điều bất hạnh và đó là những điều anh ta coi là sự trùng hợp ngẫu nhiên đáng ghét.
Lúc đầu, những gì xảy ra làm anh ta bối rối. Sau đó, theo bản năng, anh ta vẽ một sơ đồ tưởng tưởng để liên kết các sự việc theo cách mà anh ta tin thế giới đang vận hành. Tuy nhiên lý thuyết anh ta đưa ra không giống bất kỳ thứ gì mà chúng ta có thể sắp đặt: anh ta là đề tài của một thí nghiệm khoa học bí mật và phức tạp. Anh ta tin thí nghiệm được tiến hành bởi một nhóm gồm nhiều giám sát viên do nhà tâm lý học nổi tiếng B.F. Skinner đứng đầu. Anh ta cũng tin rằng khi thí nghiệm kết thúc, anh ta sẽ nổi tiếng và có thể sẽ được chọn vào một cơ quan chính phủ cấp cao. Anh ta nói vậy và đó cũng là lý do anh ta tham gia khóa học. Anh ta muốn học để kiểm chứng những giả thuyết của mình dựa trên nhiều ví dụ về chứng cớ mà anh ta thu thập được.
Vài tháng sau khi khóa học kết thúc, sinh viên này lại gọi cho vị giáo sư. Thí nghiệm vẫn đang được tiến hành, anh ta thông báo, và bây giờ anh ta đang thỉnh giáo ông chủ cũ, ông này đã dùng một chuyên gia tâm thần học để xác nhận rằng anh ta đang bị bệnh hoang tưởng.
Một trong những ảo giác của bệnh hoang tưởng mà chuyên gia tâm thần học của ông chủ kia chỉ ra là anh sinh viên đã huyễn hoặc mình bằng một phát hiện của một mục sư thế kỷ XVIII tưởng tượng. Cụ thể, chuyên gia tâm thần học kia giễu cợt những giả thuyết của anh sinh viên rằng vị mục sư này là một nhà toán học không chuyên, đã nghĩ ra một lý thuyết kỳ lạ về xác suất trong thời gian rảnh rỗi. Lý thuyết đó mô tả cách thức đánh giá khả năng một số sự kiện xảy ra nếu một sự kiện nào khác cũng đồng thời xảy ra. Đâu là khả năng mà sinh viên đó là đối tượng giám sát trong nghiên cứu bí mật của các nhà tâm lý học? Phải thừa nhận rằng khả năng đó không lớn. Nhưng chuyện gì sẽ xảy ra nếu vợ ai đó đoán trước được suy nghĩ của người chồng trước khi anh ta kịp thốt ra lời và một đồng nghiệp tiên liệu được số phận nghề nghiệp của bạn bên chén rượu trong một cuộc nói chuyện tình cờ? Sinh viên này khẳng định lý thuyết của Bayes chỉ cho cách bạn nên thay đổi đánh giá ban đầu dựa trên bằng chứng mới đó. Anh ta trình bày trước tòa công thức và các phép tính tượng trưng liên quan tới giả thuyết, và cũng kết luận rằng chứng cứ bổ sung nghĩa đồng nghĩa với 999.999/1.000.000 khả năng anh ta đúng về âm mưu theo dõi. Nhà tâm thần học có quan điểm đối lập khẳng định rằng bằng những tưởng tượng tâm thần kỳ cục của mình, anh chàng sinh viên nọ đã tự bịa đặt ra vị mục sư – nhà toán học này và lý thuyết của ông ta.
Anh chàng sinh viên đã nhờ vị giáo sư giúp anh ta bác lại lý lẽ trên. Vị giáo sư đồng ý. Anh ta có lý do chính đáng, vì Thomas Bayes, sinh tại London vào năm 1701, thực sự là một mục sư, tại xứ đạo Tunbridge Wells. Ông ta mất năm 1761 và được mai táng trong một công viên ở London tên là Bunhil Fields, trong cùng hầm mộ như cha mình, Joshua, cũng là một mục sư. Ông ta thực sự đã tạo ra một lý thuyết về “xác suất có điều kiện” để chỉ ra cách mở rộng lý thuyết xác suất từ các sự kiện độc lập này tới sự kiện có kết quả liên quan mật thiết đến nhau. Ví dụ, xác suất một người được chọn ngẫu nhiên bị bệnh thần kinh và xác suất một người được chọn ngẫu nhiên tin bạn đời của mình có thể đọc ý nghĩ của mình, đều rất thấp, nhưng xác suất một người mắc bệnh tâm thần nếu anh ta tin vợ mình đọc được ý nghĩ của mình lại cao hơn, cũng như xác suất một người tin vợ mình có thể đọc ý nghĩ của mình nếu anh ta bị bệnh tâm thần. Tất cả những xác suất này có quan hệ như thế nào? Đó là câu hỏi của đề tài về xác suất có điều kiện.
Vị giáo sư cung cấp lời khai chứng minh sự tồn tại của Bayes và lý thuyết của ông, mặc dù không giúp gì cho các tính toán mơ hồ và khác biệt mà cựu sinh viên của ông đã khẳng định chứng minh sự minh mẫn của mình. Phần đáng buồn của câu chuyện này không chỉ dừng lại ở bản thân người bị tâm thần phân liệt trung tuổi, mà cả ở nhân viên pháp luật và y tế nữa. Thật không may một số người bị mắc chứng tâm thần phân liệt, nhưng thậm chí họ dùng thuốc để cắt cơn bệnh, thì họ cũng không thể đấu tranh với sự ngu dốt. Và việc không biết đến các tư tưởng của Bayes, như chúng ta sẽ thấy, trở thành tâm điểm của những sai lầm nghiêm trọng cả trong những chuẩn đoán y học và phán xét của tòa án. Việc hiếm khi đề cập đến lý thuyết này trong quá trình đào tạo luật sư hoặc bác sỹ chuyên nghiệp, thực sự là một sự dốt nát.
Chúng ta cũng đưa ra những đánh giá Bayes trong đời sống hàng ngày. Một bộ phim về một luật sư, một người thành đạt, có một cô vợ quyến rũ, và một gia đình tuyệt vời. Anh ta yêu vợ và con gái nhưng anh ta vẫn cảm thấy thiếu thiếu một cái gì đó trong cuộc sống của mình. Một đêm, khi anh ta về nhà bằng tàu hỏa, anh ta thấy một phụ nữ xinh đẹp rất trầm ngâm qua cửa sổ của một lớp dạy nhảy. Anh ta lại nhìn thấy cô lần nữa vào đêm sau, rồi đêm sau đó. Mỗi đêm khi con tàu đi qua lớp dạy nhảy, anh ta dường như bị trúng bùa của cô ả. Cuối cùng, vào một đêm, anh ta quyết xuống tàu, đăng ký học nhảy, với hy vọng sẽ gặp cô gái. Anh nhận thấy vẻ hấp dẫn ám ảnh của cô nàng đã từng làm anh bối rối từ xa nhường chỗ cho các cuộc gặp trực tiếp. Anh ta đã thực sự yêu, tuy nhiên, không phải yêu cô gái mà là yêu môn khiêu vũ.
Anh ta giữ bí mật niềm đam mê mới này với gia đình, đồng nghiệp, đưa ra hàng vạn lý do để vắng nhà hàng đêm. Cuối cùng, vợ anh ta đã phát hiện ra anh ta không làm việc muộn thường xuyên như anh ta nói. Cô tính xác suất anh chồng nói dối về việc phải làm thêm giờ vì anh ta có quan hệ tình ái là rất cao, và cô một lần nữa khẳng định phán đoán của mình. Nhưng người vợ mắc sai lầm không những chỉ trong kết luận của mình mà trong cả lý lẽ: cô ta nhầm lẫn xác suất chồng cô sẽ quanh co chối tội nếu anh ta đang ngoại tình với xác suất anh ta ngoại tình nếu anh ta quanh co chối tội.
Đó là sai lầm thường gặp. Giả sử sếp bạn mất nhiều thời gian hơn thường lệ để trả lời thư điện tử của bạn. Nhiều người sẽ cho đó là dấu hiệu sự tín nhiệm giành cho bạn giảm đi bởi vì nếu sự tín nhiệm giảm đồng nghĩa với nhiều khả năng sếp trả lời thư của bạn lâu hơn trước kia. Nhưng sự chậm trễ đó có thể là do sếp bạn đang bận đột xuất hoặc mẹ cô ấy đang ốm. Và do vậy, xác suất sự tín nhiệm giảm nếu sếp mất nhiều thời gian để trả lời thấp hơn nhiều xác suất sếp trả lời muộn vì ghét bạn. Sự hấp dẫn của nhiều lý thuyết âm mưu phụ thuộc vào sự hiểu sai logic. Nghĩa là, điều này phụ thuộc vào sự nhầm lẫn xác suất rằng khả năng một chuỗi sự kiện sẽ diễn ra nếu nó là hậu quả của một sự nghi ngờ lớn với xác suất sự nghi ngờ tồn tại nếu một chuỗi sự kiện xảy ra.
Lý thuyết Bayes viết về tác động tới xác suất rằng một sự kiện xảy ra nếu một sự kiện khác xảy ra đồng thời. Để biết chi tiết về lý thuyết này, chúng ta sẽ chuyển sang một bài toán khác, liên quan tới bài toán “hai con gái” mà chúng ta đã gặp trong Chương 3. Chúng ta sẽ giả sử một người họ hàng xa có hai đứa con. Nhớ lại bài toán “hai con gái” bạn biết rằng một hoặc cả hai đều là gái, và bạn đang cố nhớ là như thế nào – một hay cả hai? Trong một gia đình có hai con, hãy tính xác suất nếu một trong hai đứa trẻ là gái, thì có khả năng cả hai đứa đều là gái? Chúng ta đã không bàn tới câu hỏi về những xác suất đó trong Chương 3 nữa, nhưng mệnh đề if sẽ nảy sinh ra một vấn đề trong xác suất có điều kiện. Nếu mệnh đề if đó không có thực, khả năng cả hai đứa trẻ là gái là 1/4, và 4 khả năng theo thứ tự sinh là (trai, trai), (trai, gái), (gái, trai) và (gái, gái). Nhưng với thông tin thêm rằng gia đình có một con gái, thì xác suất là 1/3. Bởi vì, nếu một trong hai đứa trẻ là gái, thì chỉ còn 3 khả năng có thể xảy ra – (trai, gái), (gái, trai) và (gái, gái) – và chính xác 1/3 là xác suất cả hai đứa trẻ là gái. Đó có lẽ là cách đơn giản nhất để nghiên cứu quan điểm của Bayes – đó chỉ là vấn đề về tính toán. Đầu tiên hãy xác định mẫu – nghĩa là, danh sách tất cả các khả năng – cùng với xác suất nếu chúng không bằng nhau (phân tích bất cứ vấn đề xác suất rắc rối nào cũng thực sự rất hay). Tiếp đó, loại bỏ những xác suất mà điều kiện giới hạn (trong trường hợp này, “ít nhất một con gái). Còn lại là những xác suất cũ và những xác suất liên quan tới chúng.
Dường như tất cả đều rõ ràng. Với cảm giác tự mãn, bạn nghĩ mình có thể tìm ra đáp án mà không cần có Reverend Bayes kính mến và thề sẽ chụp lấy cuốn sách khác để đọc khi bạn vào bồn tắm. Do vậy, trước khi tiến hành, hãy thử một biến thể hơi khác một chút của bài toán hai con gái, bài toán này có thể có lời giải đáng kinh ngạc hơn.
Trường hợp khác: trong một gia đình với hai đứa con, hãy tính xác suất nếu một bé gái tên Florida, thì cả hai đứa trẻ sẽ là gái? Vâng, tôi đã nói rằng một cô bé tên là Florida. Cái tên cũng có vẻ ngẫu nhiên, nhưng không phải vậy, ngoài việc đó là tên của một bang nổi tiếng có nhiều người dân Cuba nhập cư, cam và những người lớn tuổi, họ bán những căn nhà lớn ở phía Bắc để tìm về hưởng lạc nơi những đồi cọ và hội chơi Bingo, thì nó còn là một cái tên thực. Thực tế, Florida nằm trong danh sách 1.000 tên nữ phổ biến nhất nước Mỹ trong 30 năm đầu thế kỷ trước. Tôi đã lựa rất cẩn thận, bởi vì một phần của bài toán đố là câu hỏi cái tên Florida có tác động gì tới xác suất trong bất cứ trường hợp nào? Nhưng tôi đang vượt lên chính mình. Trước khi chúng ta đi tiếp, xin mời nghiên cứu câu hỏi: trong bài toán bé gái tên Florida, liệu xác suất có hai con gái vẫn là 1/3 (vì vẫn là bài toán hai con gái)?
Tôi sẽ trả lời ngắn gọn: câu trả lời là không. Thực tế một trong hai con gái là Florida làm thay đổi xác suất thành 1/2: đừng lo nếu điều này khó tưởng tượng. Điểm cốt lõi để hiểu tính ngẫu nhiên và tất cả các thuật toán là không thể dùng trực giác để đưa ra các đáp án cho mỗi bài toán ngay mà chỉ khi có các công cụ thì ta mới tìm được lời giải.
NHỮNG AI NGHI NGỜ sự tồn tại của Bayes đúng ở một điểm: ông ta chưa bao giờ xuất bản một công trình khoa học nào cả. Chúng ta biết rất ít về cuộc đời ông, nhưng có lẽ ông theo đuổi nghiên cứu vì niềm vui và cảm thấy không cần thiết phải công bố nó. Và theo khía cạnh này hoặc một số khía cạnh khác, ông và Jakob Bernoulli có quan điểm trái ngược nhau. Vì Bernoulli phản đối lý thuyết, còn Bayes đi theo nó. Bernoulli tìm kiếm danh tiếng, còn Bayes thì không. Cuối cùng, định luật Bernoulli quan tâm đến việc cần bao nhiêu mặt ngửa nếu bạn định tiến hành nhiều lần tung một đồng xu hoàn hảo, còn Bayes nghiên cứu mục tiêu ban đầu của Bernoulli, bạn chắc chắn đến mức nào về một đồng xu hoàn hảo nếu bạn quan sát được số lần ngửa xác định.
Lý thuyết khiến Bayes nổi tiếng tận ngày nay ra đời vào ngày 23 tháng 12 năm 1763, khi một nhà toán học và giáo sỹ khác, Richard Price, đọc một tài liệu trước Hiệp hội khoa học hoàng gia (Royal Society), tại học viện Khoa học Hoàng gia Anh. Tài liệu của Bayes mang tựa “Phương pháp giải bài toán về học thuyết xác suất” và được đăng trên tờ Kỷ yếu Triết học của Hiệp hội Hoàng gia năm 1764. Bayes đã để lại bài báo này cho Price trong di chúc của mình, cùng với 100 bảng. Theo lời Price, “tôi cần một thuyết giả tại Newington Green,” Bayes mất bốn tháng sau khi viết di chúc.
Cho dù được Bayes lựa chọn ngẫu nhiên, Richard Price không phải là một thuyết giảng tầm trung. Ông nổi tiếng là một người ủng hộ tự do và tín ngưỡng, bạn của Benjamin Franklin, được Adam Smith tin cậy nhờ phê bình một số phần trong bản thảo Sự giàu có của các quốc gia (The Weath of Nations), và là một nhà toán học nổi tiếng. Ông cũng là người đặt nền móng cho khoa học định giá, một lĩnh vực ông phát triển khi ba người từ một công ty bảo hiểm Equitable Society nhờ ông giúp vào năm 1765. Sau năm sau khi tham gia, ông xuất bản cuốn sách Những quan sát về thanh toán bồi thường (Observations on Reversionary Payments). Mặc dù cuốn sách được coi là kinh thánh cho hoạt động định phí bảo hiểm trong thế kỷ XIX, nhưng do tài liệu và các phương pháp đánh giá nghèo nàn, dường như ông vẫn đánh giá được mức sống một cách thỏa đáng. Các khoản phí bảo hiểm nhân thọ tăng lên từ đó làm giàu cho các bạn của ông tại Equitable Society. Mặt khác, chính phủ Anh không may lại dựa vào những khoản thanh toán tiền trợ cấp hàng năm trên các bảng của Price và chi trả khi người được hưởng lương hưu không tiếp tục phản ứng với tỷ lệ đã dự đoán.
Như tôi đã đề cập, Bayes xây dựng lý thuyết xác suất có điều kiện để trả lời cho cùng câu hỏi đã thôi thúc Bernoulli: Làm sao chúng ta có thể suy ra xác suất cơ bản từ việc quan sát? Nếu một viên thuốc chỉ cứu được 45/60 bệnh nhân trong một thí nghiệm y học, điều gì nói với bạn về khả năng viên thuốc sẽ có tác dụng với bệnh nhân tiếp theo? Nếu viên thuốc công hiệu với 600,000/1,000,000 bệnh nhân, thì đương nhiên tỷ lệ xác suất công hiệu của thuốc là khoảng 60%. Nhưng bạn kết luận gì từ một thí nghiệm quy mô nhỏ hơn? Bayes cũng hỏi câu hỏi khác: nếu, trước khi thí nghiệm, bạn có lý do để tin rằng viên thuốc chỉ hiệu quả 50%, thì thông tin mới này có ảnh hưởng như thế nào tới đánh giá tương lai của bạn? Thông thường, chúng ta quan sát một mẫu tương đối nhỏ các kết quả, từ đó chúng ta suy ra thông tin và đánh giá về chất lượng từ các kết quả đó. Chúng ta nên thực hiện các suy luận như thế nào?
Bayes tiếp cận bài toán bằng một phép ẩn dụ. Hãy tưởng tượng ta có một chiếc bàn vuông và hai quả bóng. Ta lăn quả bóng đầu tiên trên bàn sao cho quả bóng có thể dừng ở bất cứ điểm nào với xác suất như nhau. Việc của ta là xác định, mà không nhìn, nơi quả bóng dừng lại dọc theo trục trái – phải. Công cụ của ta trong bài toán này là quả bóng thứ hai, ta có thể lăn đi lăn lại quả bóng này trên bàn theo cách thức giống quả bóng đầu. Với mỗi lần lăn bóng một cộng tác sẽ ghi lại diểm dừng của quả bóng ở bên trái hay bên phải vị trí mà quả bóng đầu đã dừng lại. Cuối cùng, anh ta thông báo cho ta tổng số lần quả bóng thứ hai dừng tại một trong hai vị trí thông thường. Quả bóng đầu tiên đại diện cho điều không biết mà chúng ta mong có thông tin về nó, và quả bóng thứ hai đại diện cho bằng chứng ta đang cố gắng có. Nếu quả bóng thứ hai kiên định dừng ở bên phải quả thứ nhất, ta có thể khá tự tin kết luận quả bóng thứ nhất dừng ở hướng cạnh bên trái phía xa của chiếc bàn. Nếu nó không thường dừng ở bên phải, ta sẽ không chắc về kết luận đó, tức là ta có thể đoán quả bóng đầu nằm ở phía bên phải. Bayes chỉ ra cách để xác định, dựa trên dữ liệu của quả bóng thứ hai, xác suất chính xác rằng quả bóng thứ nhất nằm ở bất kỳ điểm nào đó trên cạnh trái hoặc phải. Và ông cũng chỉ ra cách ta kiểm tra đánh giá ban đầu, với dữ liệu bổ sung. Theo thuật ngữ của Bayes những đánh giá ban đầu được gọi là các xác suất tiên nghiệm và những đánh giá mới được gọi là các xác suất hậu nghiệm.
Bayes dựng lên trò chơi này bởi vì nó mô hình hóa rất nhiều các quyết định chúng ta có trong cuộc sống. Trong ví dụ về thử thuốc, vị trí của của quả bóng đầu tiên tượng trưng cho hiệu quả thực của viên thuốc, và các ghi chép về quả bóng thứ hai tượng trưng cho dữ liệu về bệnh nhân. Vị trí của quả bóng đầu tiên cũng thể hiện cho sức hấp dẫn của một bộ phim, chất lượng sản phẩm, kỹ năng lái xe, làm việc chăm chỉ, sự ngang bướng, tài năng, khả năng, hoặc bất cứ thứ gì xác định sự thành công và thất bại của một đối tượng nào đó. Những ghi chép về quả bóng thứ hai sẽ tượng trưng cho những quan sát của ta hoặc dữ liệu ta thu thập được. Lý thuyết Bayes chỉ ra cách đưa ra đánh giá và sau đó đánh giá chúng nhờ vào các dữ liệu mới.
Ngày nay, các phân tích Bayes được áp dụng rộng rãi trong khoa học và ngành công nghiệp. Ví dụ, các mô hình sử dụng để xác định tỷ lệ bảo hiểm ô tô bao gồm một công thức toán học mô tả xác suất bạn gặp 0, một hoặc nhiều tai nạn trên mỗi đơn vị thời gian lái xe. Giả sử, một mô hình đơn giản hóa phân loại mọi người thành hai nhóm: nhóm nguy cơ rủi ro cao, gồm những tài xế gặp trung bình một tai nạn một năm, và nguy cơ rủi ro thấp, gồm những tài xế gặp trung bình ít hơn một tại nạn một năm. Khi bạn áp dụng lý thuyết này vào bảo hiểm nếu bạn có nhật ký lái xe thể hiện 20 năm không gặp tai nạn hoặc trong vòng 20 năm gặp 37 tai nạn, thì công ty bảo hiểm sẽ chắc chắn bạn sẽ nằm trong nhóm nào. Nhưng nếu bạn là một tài xế mới, thì nên xếp bạn vào nhóm có nguy cơ rủi ro thấp (một đứa trẻ tuân thủ giới hạn tốc độ và tình nguyện làm tài xế chỉ định) hay nguy cơ rủi ro cao (một đứa trẻ đua xe trên đường cái, đồng thời nốc ừng ựng từ chai rượu táo Boone nổi tiếng giá 2 đô-la đã cạn nửa)? Do công ty không có dữ liệu về bạn – như không có ý niệm về “vị trí của quả bóng thứ nhất” – nên bạn có xác suất tiên nghiệm bằng nhau với bất cứ loại nào, tức công ty có thể sử dụng thông tin về số đông các tài xế mới và phân loại bạn bằng cách đoán khả năng bạn ở trong nhóm nguy cơ rủi ro cao, giả sử là 1/3. Trong trường hợp này công ty sẽ coi bạn là trường hợp trung lập – 1/3 nguy cơ rủi ro cao và 2/3 nguy cơ rủi ro thấp – và bán bảo hiểm cho bạn với 1/3 giá bán cho những tài xế nguy cơ rủi ro cao cộng với 2/3 giá bán cho các tài xế nguy cơ rủi ro thấp. Sau một năm quan sát – nghĩa là sau khi ném quả bóng Bayes thứ hai – công ty có thể sử dụng một luận cứ để đánh giá lại khung mẫu của mình, điều chỉnh tỷ lệ 1/3 và 2/3 như đã quy cho trước đây, và tính toán lại mức giá. Nếu bạn không gặp tai nạn nào, tỷ lệ của nguy cơ rủi ro thấp và giá công ty gán cho bạn sẽ tăng thêm; nếu bạn bị 2 tai nạn, tỷ lệ sẽ giảm đi. Mức độ chính xác của sự điều chỉnh được xác định bằng lý thuyết Bayes. Tương tự, công ty bảo hiểm có thể điều chỉnh định kỳ các mức giá ấn định của mình trong những năm sau đó để phản ánh đúng sự thực rằng bạn không bị tai nạn hay gặp tai nạn hai lần khi đang lái xe ngược đường một chiều, tay trái đang cầm điện thoại và tay phải cầm bánh rán. Đó là lý do tại sao các công ty bảo hiểu dừng mức giá “tài xế tốt”: sự vắng mặt của các tai nạn làm tăng xác suất hậu nghiệm rằng tài xế đó thuộc nhóm nguy cơ tai nạn thấp.
Rõ ràng rất nhiều chi tiết trong lý thuyết Bayes khá phức tạp. Nhưng như tôi đã nói khi tôi phân tích bài toán hai con gái, cốt lõi trong phương pháp của ông là sử dụng thông tin mới để lược bớt không gian mẫu và điều chỉnh xác suất từ đó. Trong bài toán hai con gái, không gian mẫu ban đầu là (trai, trai), (trai, gái), (gái, trai) và (gái, gái) và sau giảm còn (trai, gái), (gái, trai) và (gái, gái) nếu bạn biết một trong hai đứa trẻ là con gái, từ đó xác suất gia đình có hai cô con gái là 1/3. Hãy áp dụng cách thức đơn giản này để thấy điều gì xảy ra nếu bạn biết một trong hai đứa bé là con gái tên Florida.
Trong bài toán cô bé tên Florida, dữ liệu không chỉ cho ta biết giới tính của đứa trẻ, mà còn cả tên của chúng. Do không gian mẫu ban đầu nên liệt kê tất cả các khả năng, trong trường hợp này, đó là danh sách gồm cả giới tính và tên. Để biểu thị “cô bé tên Florida” ta dùng cô bé-F và biểu thị “bé gái không mang tên Florida” ta dùng “cô bé-NF. Ta viết được không gian mẫu bao gồm: (trai, trai), (trai, cô bé-F), (trai, cô bé-NF), (cô bé-F, trai), (cô bé-NF, trai), (cô bé-F, cô-bé-NF), (cô bé-NF, cô bé-F), (cô bé-F, cô bé-F) và (cô bé-NF, cô bé-NF).
Bây giờ, hãy lược bớt một số trường hợp. Do ta biết một trong hai đứa trẻ là con gái, tên Florida, ta có thể giảm không gian mẫu xuống còn (trai, cô bé-F), (cô bé-F, trai), (cô bé-F, cô bé-NF), (cô bé-NF, cô bé-F), và (cô bé-F, cô bé-F). Điều này cho chúng ta câu trả lời khác với bài toán hai con gái. Ở đây, do xác suất cô bé có tên Florida hay không mang tên Florida không bằng nhau, nên tất cả các phần tử trong không gian mẫu không có xác suất như nhau.
Vào năm 1935, năm cuối cùng Cục Quản lý An ninh Xã hội cung cấp các thống kê về tên, khoảng 1/30.000 trẻ gái được đặt tên là Florida. Do cái tên này đã lỗi thời, nên trong luận điểm này ta giả sử ngày nay xác suất một cô gái mang tên Florida là 1/1.000.000.000. Điều đó nghĩa là nếu ta biết một cô gái đích xác không mang tên Florida, thì không thành vấn đề, nhưng nếu ta biết một cô gái đích xác mang tên Florida, nghĩa là ta đã trúng lớn. Xác suất cả hai cô gái đều mang tên Florida (thậm chí nếu ta lờ đi sự thật rằng bậc phụ huynh ngại đặt tên giống nhau cho bọn trẻ) nhỏ đến nỗi ta điều chỉnh bằng cách lờ đi khả năng này. Do đó chỉ còn (trai, cô bé-F), (cô bé-F, trai), (cô bé-F, cô bé-NF), (cô bé-NF, cô bé-F) là những xác suất tương đối bằng nhau.
Do 2/4, tức một nửa, số các phần tử trong không gian mẫu xuất hiện hai cô bé, nên đáp án không phải là 1/3 – như trong bài toán hai con gái – mà là 1/2. Dữ liệu bổ sung – bạn biết tên một cô bé – đã tạo ra sự khác biệt.
Nếu lời giải vẫn rắc rối thì có một cách để hiểu, đó là tưởng tượng ta tập hợp 75 triệu gia đình có hai con và ít nhất một trong số chúng là con gái vào một căn phòng rất lớn. Như bài toán hai con gái cho biết, sẽ có khoảng 25 triệu gia đình có hai con gái và 50 triệu gia đình có một con gái đang trong căn phòng đó (25 triệu trong đó bé gái lớn tuổi hơn có xác suất bằng với trường hợp bé gái nhỏ tuổi hơn). Tiếp theo ta sẽ lược bớt: ta yêu cầu chỉ những gia đình có con gái tên tên Florida ở lại. Do Florida là cái tên có tỷ lệ 1/1triệu, nên 50/50 triệu gia đình có một con gái ở lại. Và trong 25 triệu gia đình có hai con gái, 50 trong số họ sẽ ở lại, 25 gia đình ở lại do con gái đầu của họ mang tên Florida và 25 gia đình khác ở lại do con gái thứ của họ mang tên đó. Như thể các cô bé này trúng xổ số, và những cô gái mang tên Florida là những tấm xổ số thắng cuộc. Mặc dù số gia đình có một con gái nhiều gấp hai lần số gia đình có hai con gái, nhưng mỗi gia đình có hai con gái có hai tấm xổ số, do đó trong số những người thắng cuộc thì gia đình có một con gái và gia đình có hai con gái bằng nhau.
Tôi đã trình bày bài toán cô gái tên Florida với chi tiết phiền hà, loại chi tiết này đôi khi khiến tôi nằm trong danh sách “không mời” trong các bữa tiệc của hàng xóm. Tôi làm vậy vì nội dung rất đơn giản, và những lý lẽ như vậy sẽ mang lại sự rõ ràng cho nhiều tình huống mà ta thực sự gặp trong cuộc sống. Và bây giờ, hãy cùng kể về một số tình huống đó.
CUỘC CHẠM TRÁN ĐÁNG NHỚ NHẤT trong cuộc đời tôi là khi Reverend Bayes đến vào một buổi chiều thứ Sáu năm 1989, khi bác sỹ gọi điện cho tôi và nói rằng xác suất là 999/1000, mười năm nữa, tôi sẽ chết. Vị bác sỹ cũng nói thêm rằng, “tôi thực sự rất tiếc,” với giọng vô cùng miễn cưỡng và cảm thông. Sau đó ông ta trả lời vài câu hỏi về giai đoạn bệnh và cúp máy, đoán chừng có hẹn với một bệnh nhân chiều thứ Sáu khác. Thật khó để mô tả hay nhớ chính xác tôi đã trải qua cuối tuần đó như thế nào, nhưng cứ cho rằng tôi đã không tới Disneyland. Với bản án tử hình đó, tại sao tôi vẫn còn ở đây lúc này, và có thể viết về nó?
Cuộc phiêu lưu bắt đầu khi vợ tôi và tôi mua bảo hiểm nhân thọ. Quy trình hồ sơ bao gồm một lần thử máu. Một hoặc hai tuần sau đó chúng tôi bị từ chối. Công ty bảo hiểm tiết kiệm gửi thông báo trong hai lá thư ngắn gọn giống hệt nhau, ngoại trừ có thêm đúng một từ khác trong thư gửi cho vợ tôi. Bức thư của tôi có nội dung rằng công ty từ chối cấp bảo hiểm cho tôi vì “các kết quả thử máu của ông”. Nội dung thư của vợ tôi là công ty từ chối cấp bảo hiểm cho cô ấy vì “các kết quả thử máu của chồng bà.” Từ chồng chính là bằng chứng mở rộng manh mối mà công ty bảo hiểm tốt bụng đó đã vui lòng thông báo không thể bảo hiểm cho chúng tôi, vì thế mà tôi quyết định tới gặp bác sỹ với mối hồ nghi trong lòng và thử xét nghiệm HIV. Kết quả dương tính. Mặc dù lúc đầu tôi quá bang hoàng đến nỗi gặng hỏi bác sỹ về những chỉ số mà ông ta đưa ra, nhưng sau này tôi biết ông ta đã suy ra xác suất 1/1000 sức khỏe của tôi từ những thông số sau: xét nghiệm HIV cho kết quả dương tính khi máu không bị nhiễm virus HIV chỉ có xác suất 1/1000 mẫu thử máu. Nghe có vẻ giống thông điệp mà ông ta đã nói, nhưng không phải vậy. Bác sỹ của tôi đã bối rối giữa khả năng kết quả HIV dương tính nếu tôi không bị nhiễm HIV với khả năng tôi không bị HIV nếu kết quả thử máu là dương tính.
Để hiểu rõ sự nhầm lẫn của bác sỹ, hãy sử dụng phương pháp Bayes. Đầu tiên hãy xác định không gian mẫu. Ta có thể tính những người đã từng làm xét nghiệm HIV, nhưng ta sẽ có kết quả chính xác hơn nếu ta sử dụng một ít thông tin liên quan phụ trợ về tôi và chỉ xem xét những người đàn ông da trắng không lạm dụng thuốc kích thích và thích quan hệ khác giới đã từng xét nghiệm. (Sau này ta sẽ biết điều này tạo ra khác biệt như thế nào).
Bây giờ chúng ta biết ai sẽ nằm trong không gian mẫu, hãy phân loại các thành viên trong không gian này. Thay vì con trai hay con gái, ở đây các nhóm liên quan là những người xét nghiệm dương tính nhưng không nhiễm bệnh (dương tính giả), những người xét nghiệm dương tính và đúng là HIV-dương tính (dương tính thật), những người xét nghiệm âm tính và HIV-âm tính (âm tính thật), và những người xét nghiệm âm tính nhưng HIV-dương tính (âm tính giả).
Cuối cùng, ta hỏi có bao nhiêu người trong mỗi nhóm? Giả sử ta đang điều tra tổng số ban đầu là 10.000 người. Bằng các thống kê từ Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh, ta có thể ước tính, trong năm 1989 có khoảng 1/10.000 người Mỹ da trắng không lạm dụng thuốc kích thích và thích quan hệ khác giới từng xét nghiệm và bị nhiễm HIV. Giả sử tỷ lệ âm tính giả gần bằng 0, nghĩa là khoảng 1/10.000 người xét nghiệm có kết quả dương tính do bị nhiễm bệnh. Thêm nữa, do tỷ lệ của các dương tính giả là 1/1000, như vị bác sỹ của tôi nêu ra, nên sẽ có khoảng 10 người không bị nhiễm HIV nhưng kết quả xét nghiệm vẫn là dương tính. Còn 9.989/10.000 người trong không gian mẫu sẽ có kết quả xét nghiệm âm tính.
Bây giờ, hãy lược bớt không gian mẫu, chỉ để lại những người có kết quả xét nghiệm dương tính. Ta có 10 người có kết quả dương tính sai và một người có kết quả dương tính đúng. Nói cách khác, chỉ 1/11 người có kết quả xét nghiệm dương tính mới thực sự bị nhiễm HIV. Bác sỹ nói với tôi xác suất xét nghiệm sai – và tôi hoàn toàn khỏe mạnh – là 1/1000. Ông ấy nên nói rằng,:”Đừng lo, xác suất nhiều hơn 10/11 rằng anh không bị nhiễm bệnh.” Trong trường hợp của tôi, kết quả xét nghiệm rõ ràng đã bị đánh lừa bởi chỉ số nào đó có trong máu của tôi cho dù vi rút có trong kết quả xét nghiệm không tồn tại.
Rõ ràng, tỷ lệ dương tính giả rất quan trọng khi đánh giá bất kỳ một xét nghiệm chẩn đoán nào. Ví dụ, một xét nghiệm chỉ ra 99% trong tổng số các u ác tính nghe có vẻ rất ấn tượng, nhưng tôi dễ dàng bày ra một xét nghiệm xác định 100% các u. Tất cả những gì tôi phải làm là nói rằng tất cả những người tôi đã từng kiểm tra đều bị u bướu. Thống kê quan trọng khiến xét nghiệm của tôi khác biệt so với những xét nghiệm hữu ích khác chính là xét nghiệm của tôi sẽ có tỷ lệ dương tính giả cao. Nhưng sự việc không cung cấp đủ những thông tin về dương tính giả nhằm xác định tính hữu dụng của một xét nghiệm – bạn phải biết cách so sánh tỷ lệ dương tính giả với sự phổ biến thực sự của căn bệnh. Nếu căn bệnh đó hiếm gặp, thậm chí tỷ lệ dương tính giả thấp thì cho dù kết quả xét nghiệm dương tính cũng không thể khẳng định rằng bạn bị bệnh. Nếu căn bệnh phổ biến, thì kết quả xét nghiệm dương tính có khả năng chính xác cao. Để biết sự phổ biến thực sự tác động đến kết luận của một xét nghiệm dương tính như thế nào, hãy cùng giả sử rằng tôi là người quan hệ đồng giới và có kết quả xét nghiệm dương tính. Giả sử trong cộng đồng đồng tính nam, khả năng bị nhiễm bệnh của những người đã từng xét nghiệm năm 1989 là 1%. Nghĩa là trong 10.000 xét nghiệm, ta sẽ tìm ra không phải là một (như trước kia), mà là 100 trường hợp dương tính thật so với 10 trường hợp dương tính giả. Do vậy trong trường hợp này, xác suất kết quả xét nghiệm dương tính đồng nghĩa với việc tôi bị nhiễm bệnh là 10/11. Đó là lý do tại sao, khi đánh giá kết quả xét nghiệm, ta nên biết người đó có nằm trong nhóm có nguy cơ cao hay không.
LÝ THUYẾT BAYES chỉ ra: xác suất rằng A xảy ra nếu B xảy ra khác với xác suất B sẽ xảy ra nếu A xảy ra. Đây là sai lầm thường gặp trong nghề y. Ví dụ, trong những nghiên cứu tại Đức và Mỹ, các nhà nghiên cứu yêu cầu các bác sỹ điều trị tính xác suất một phụ nữ khoảng 40-50 tuổi, không có triệu chứng bệnh, có kết quả chụp X quang u ngực dương tính thực sự bị ung thư ngực nếu 7% kết quả chụp X quang u ngực thể hiện bệnh nhưng bệnh nhân không bị. Thêm nữa, các bác sỹ được cho biết tỷ lệ mắc bệnh thực tế là 0,8 % và tỷ lệ âm tính giả là khoảng 10%. Tổng hợp tất cả các thông tin, ta có thể sử dụng phương pháp Bayes để xác định một kết quả chụp X quang dương tính do bị ung thư chỉ khoảng 9% các trường hợp. Tuy nhiên, trong nhóm người Đức, 1/3 các bác sỹ kết luận rằng xác suất là 90%, và con số trung bình là 70%. Trong nhóm người Mỹ, 95/100 bác sỹ tính xác suất vào khoảng 75%.
Những vấn đề tương tự cũng xảy ra trong xét nghiệm thuốc kích thích ở các vận động viên. Một lần nữa, các số liệu liên quan được nêu ra không trực tiếp ám chỉ tỷ lệ dương tính giả. Điều này gây ra một quan điểm méo mó về xác suất một vận động viên có tội. Ví dụ, Mary Decker Slaney, một vận động viên chạy đua đẳng cấp quốc tế, và là nhà vô địch thế giới năm 1983 ở cự ly 1.500m và 3.000m, đã thử trở lại cuộc đua tìm kiếm vận động viên Olympic nước Mỹ tại Atlanta năm 1996. Ở đây, cô bị kết tội lạm dụng chất kích thích do sử dụng chất kích thích tố sinh dục nam. Sau rất nhiều tranh cãi, IAAF (chính thức được biết đến với tư cách Hiệp hội Quốc tế các Liên đoàn Điền kinh từ năm 2001) kết luận rằng Slaney “đã sử dụng chất kích thích,” và đặt một dấu chấm hết cho sự nghiệp của cô. Theo một số chứng cớ trong vụ Slaney, tỷ lệ dương tính giả đối với xét nghiệm nước tiểu vào khoảng 1%. Điều này khiến nhiều người đồng tình rằng khả năng có tội của cô ta là 99%, nhưng như chúng ta đã thấy điều đó không đúng. Giả sử, 1.000 vận động viên điền kinh được xét nghiệm, 1/10 có tội, và xét nghiệm, với một vận động viên có tội, có 50% khả năng phát hiện ra chất kích thích. Do đó trong mỗi 1.000 vận động viên được xét nghiệm, kết quả xét nghiệm chỉ ra 50/100 vận động viên có tội. Nghĩa là, trong 900 vận động viên vô tội, xét nghiệm chỉ ra 9 người có chất kích thích trong cơ thể. Do vậy, ý nghĩa của xét nghiệm chất kích thích dương tính không phải là xác suất cô ta có lỗi là 99% mà là 50/59 = 84.7%. Nói theo cách khác, bạn vẫn nên tin vào khả năng Slaney có tội dựa vào chứng cứ như khi với kết quả đầu khi tôi chưa công bố. Điều này khiến nảy sinh những mâu thuẫn tự nhiên và quan trọng hơn là chỉ ra rằng để tiến hành được các xét nghiệm hàng loạt (90.000 vận động viên thử nước tiểu hàng năm) và đưa ra những đánh giá dựa trên quy trình như vậy sẽ có khả năng kết tội một lượng lớn người vô tội.
Trong phạm vi pháp luật, lỗi đảo ngược đôi khi được gọi là ngụy biện của công tố viên bởi vì công tố viên thường sử dụng loại lý lẽ sai lầm để điều khiển phiên tòa nhằm kết án bị can với những bằng chứng yếu. Ví dụ, hãy xét đến trường hợp của Sally Clark tại Anh. Đứa con đầu của Clark chết khi 11 tuần tuổi. Nguyên nhân cái chết được xác định là do hội chứng chết đột ngột ở trẻ sơ sinh, tức SIDS, người ta chẩn đoán rằng cái chết của đứa bé quá bất ngờ và quá trình khám nghiệm tử thi không phát hiện ra được nguyên nhân cái chết. Clark mang thai lần nữa, và lần này đứa bé chết khi được 8 tuần tuổi, lại một lần nữa người ta thông báo rằng cái chết là do SIDS. Lần này, cô bị bắt và bị kết tội làm chết ngạt cả hai đứa trẻ. Tại phiên tòa, công tố viên triệu tập một chuyên gia khoa nhi, ngài Roy Meadow, để chứng thực rằng dựa trên sự hiếm gặp của hội chứng SIDS, tỷ lệ hai đứa trẻ đều chết vì nguyên nhân SIDS là 1/73 triệu. Công tố viên không đưa ra bằng chứng có thực nào khác chống lại cô. Đã đủ để kết án? Bồi thẩm đoàn nghĩ là đủ, và tháng 11 năm 1999, bà Clark phải vào tù.
Ngài Meadow đã tính rằng tỷ lệ một đứa trẻ chết vì SIDS là 1/8.543. Ông ta tính con số ước đoán 1/73 triệu bằng cách nhân hai hệ số này, mỗi hệ số là của một đứa trẻ. Nhưng phép tính này quy rằng ca tử vong là độc lập, nghĩa là không có tác động môi trường hay di truyền nào là nguyên nhân làm tăng rủi ro gây ra cái chết của đứa trẻ thứ hai khi mà anh/chị nó đã tử vong vì SIDS. Trên thực tế, trong bài xã luận của tờ British Medical Journal đăng một vài tuần sau khi phiên toà diễn ra, khả năng cả hai đứa trẻ đều chết vì SIDS là 1/2.75 triệu. Đó vẫn là một tỷ lệ thấp.
Điểm mấu chốt giải thích tại sao Sally Clark bị vào tù oan một lần nữa chính là việc tìm hiểu sai lầm ngược: chúng ta không tìm kiếm xác suất hai đứa trẻ chết vì SIDS mà là xác suất hai đứa trẻ đã chết và chết vì SIDS. Hai năm sau khi Clark bị đi tù, Hiệp hội thống kê Hoàng gia (Royal Statistical Society) phân tích lại đề tài này trong một ấn phẩm, tuyên bố rằng quyết định của bồi thẩm đoàn dựa trên “một sai lầm nghiêm trọng về lôgic được gọi là Ngụy biện của Công tố viên. Bồi thẩm đoàn cần xem xét hai lời giải thích khác nhau về cái chết của hai đứa trẻ: SIDS hay bị sát hại. Hai cái chết vì SIDS hoặc hai vụ sát hại không hề giống nhau, nhưng một trong hai trường hợp đã xảy ra trong trường hợp này. Vấn đề chính là khả năng chắc chắn tương đối xảy ra cái chết…, chứ không chỉ là không chắc chắn như thế nào… [lời giải thích về SIDS].” Sau đó một nhà toán học tính khả năng chắc chắn tương đối của một gia đình mất hai đứa trẻ do SIDS hay do bị sát hại. Anh ta kết luận, dựa trên số liệu đã có, hai đứa trẻ sơ sinh có khả năng là nạn nhân của hội chứng SIDS cao gấp 9 lần so với khả năng là nạn nhân của vụ sát hại.
Gia đình Clark kháng án, và thuê những nhà thống kê để làm nhân chứng cho mình. Họ thua trong vụ kháng án, nhưng họ tiếp tục tìm kiếm những lời giải y học về cái chết và trong quá trình đó đã phát hiện ra nhà bệnh học làm việc cho công tố viên đã giấu giếm sự thật rằng đứa trẻ thứ hai bị nhiễm khuẩn tại thời điểm tử vong, và chính sự nhiễm trùng là nguyên nhân cái chết của đứa trẻ. Dựa trên phát hiện trên, tòa án hủy bỏ hiệu lực của bản án, và sau gần 3 năm rưỡi, Sally Clark được ra tù.
Luật sư có tiếng và là một giáo sư trường luật của Harvard – Alan Dershowitz cũng sử dụng thành công ngụy biện của công tố viên – để biện hộ O.J. Simpson trong phiên tòa kết tội anh này sát tại vợ cũ của mình, Nicole Brown Simpson, và tình nhân. Phiên tòa xử Simpson, một cựu ngôi sao bóng đá, là một trong những sự kiện truyền thông lớn nhất những năm 1994 – 1995. Cảnh sát có nhiều bằng chứng chống lại anh ta. Họ tìm thấy một chiếc găng tay dính máu trong khu đất của anh ta. Chiếc găng này có vẻ cùng một đôi với chiếc được tìm thấy tại hiện trường vụ sát hại. Vết máu tìm thấy trên đôi găng tay đúng là máu của Nicole, trong chiếc Ford Bronco màu trắng của anh ta, trên đôi tất của anh ta trong phòng ngủ và trên đường lái xe và ở cả trong nhà. Hơn nữa, các mẫu ADN từ vết máu trong hiện trường vụ án mạng cũng phù hợp với mẫu của O.J. Luật sư của anh ta hầu như không làm được gì ngoài việc lên án Cục Cảnh sát Los Angeles vì chủ nghĩa phân biệt chủng tộc – O.J là người Mỹ gốc Phi – và phê phán sự cứng nhắc của cảnh sát và tính xác thực của những chứng cứ.
Bên công tố ra quyết định tập trung vào phần đầu của vụ án về xu hướng bạo lực của O.J đối với Nicole. Công tố viên mất 10 ngày đầu tiên của phiên tòa để trình chứng cứ về những hành động O.J hành hạ cô vợ cũ trong quá khứ và khẳng định chỉ riêng những chứng cứ đó thôi cũng đủ lý do để nghi ngờ anh ta đã sát hại cô. Họ kết luận rằng, “một cái tát cũng có thể khơi mào cho hành động giết người.” Trong khi đó các luật sư bào chữa sử dụng chiến lược này làm bệ phóng cho sự kết tội ăn ở hai lòng, thì lại lý luận rằng bên công tố mất 2 tuần nhằm nhằm đánh lạc hướng bồi thẩm đoàn lạc hướng và rằng những chứng O.J ngược đãi Nicole trong quá khứ chẳng có nghĩa gì cả. Đây là lý do của Dershowitz: 4 triệu phụ nữ bị chồng hoặc bạn trai của mình ngược đãi hàng năm tại Mỹ, tuy nhiên trong năm 1992, theo báo cáo của Cục Điều tra Tội phạm FBI, có tổng số 1.432, tức 1/2.500, phụ nữ bị chồng hoặc bạn trai giết. Do đó, phía luật sư phản bác rằng, hiếm đàn ông tát hoặc đánh người bạn đời của mình và đi đến việc sát hại họ. Đúng không? Đúng. Thuyết phục không? Có? Có liên quan không? Không. Con số có liên quan không phải là xác suất một người đàn ông ngược đãi vợ sẽ giết cô ta (1/2,500) mà là xác suất một người vợ bị sát hại thì bị sát hại bởi chính kẻ đã ngược đãi cô ta. Theo báo cáo của Cục Điều tra Tội phạm FBI dành cho nước Mỹ và các vùng lãnh thổ năm 1993, xác suất mà Dershowitz (hoặc công tố viên) nên đưa ra là: trong số tất cả phụ nữ bị ngược đãi bị sát hại tại Mỹ năm 1993, khoảng 90% bị giết bởi kẻ ngược đãi. Thống kê này không được nêu ra trước tòa.
Khi giờ khắc tuyên án tới, số lượng các cuộc gọi đường dài giảm còn một nửa, lượng giao dịch tại Thị trường chứng khoán New York giảm 40%, và ước tính 100 triệu người bật TV và đài phát thanh để nghe tuyên án: vô tội. Dershowitz có đủ lý do để làm sai lệch phán quyết của bồi thẩm đoàn, vì, theo lời của ông, “lời tuyên thệ – ‘chỉ nói sự thật, toàn bộ sự thật và không gì ngoài sự thật’ – chỉ áp dụng cho các nhân chứng. Luật sư bào chữa, công tố viên và các vị quan tòa không phải tuyên thệ … thực vậy công bằng mà nói hệ thống luật pháp Mỹ được xây dựng trên nền tảng không nói toàn bộ sự thật”.
MẶC DÙ XÁC SUẤT CÓ ĐIỀU KIỆN đại diện cho một cuộc cách mạng trong tư tưởng về sự ngẫu nhiên. Thomas Bayes không phải là nhà cách mạng, và công trình nghiên cứu của ông phai nhạt dần và không được mọi người chú ý mặc dù nó được đăng trong cuốn Philosophical Transactions (Kỷ yếu triết học) danh tiếng năm 1764. Và do vậy, một người đàn ông khác, một nhà toán học và khoa học người Pháp Pierre – Simon de Laplace đã mang các tư tưởng của Bayes, biến nó trở thành mối quan tâm của các nhà khoa học và vén bức màn khai sáng, đem thế giới đến với xác suất nền tảng, chỉ ra rằng các tình huống trong thế giới thực có thể suy ra từ các kết quả mà ta quan sát được.
Bạn có thể vẫn nhớ rằng Định luật vàng Bernoulli sẽ chỉ cho bạn biết mức độ chắc chắn của bạn trước khi bạn tiến hành tung đồng xu nhiều lần. Nếu đồng xu hoàn hảo, thì bạn nên quan sát một số kết quả đã cho. Còn nếu định luật không đưa ra khả năng đồng xu là một đồng xu hoàn hảo thì nó sẽ chỉ ra mức độ chắc chắn sau khi bạn đã tung đồng xu nhiều lần. Tương tự, nếu bạn biết xác suất một người 85 tuổi sẽ sống tới 90 tuổi là 50/50, định luật vàng sẽ chỉ ra xác suất một nửa những người 85 tuổi trong nhóm gồm 1.000 người sẽ chết trong vòng 5 năm tới, nhưng nếu một nửa số người trong nhóm đó chết trong vòng 5 năm sau sinh nhật lần thứ 85, định luật này sẽ không khẳng định mức độ chắc chắn rằng xác suất cơ bản về sự sống sót của những người trong nhóm đó là 50/50. Hoặc nếu Ford biết rằng 1/100 ô tô của hãng này có bộ truyền động bị lỗi, định luật vàng sẽ chỉ ra xác suất trong một mẻ 1000 chiếc ô tô, có nhiều hơn 10 chiếc có bộ truyền động bị lỗi. Nhưng nếu Ford tìm ra 10 bộ truyền động bị lỗi trong mẫu gồm 1.000 chiếc ô tô, thì không có nghĩa là nhà sản xuất chắc chắn tỷ lệ bộ truyền động bị lỗi trung bình là 1/100. Trong những trường hợp này kịch bản sau thường hữu ích trong cuộc sống hơn: ngoài các tình huống liên quan đến cờ bạc, chúng ta không hay đưa ra những hiểu biết sáo mòn về các tỷ lệ mà thường phải đánh giá chúng sau khi quan sát một loạt. Các nhà khoa học cũng nhận thấy mình phản chiếu trong trường hợp này: với giá trị đã cho của một đại lượng vật lý, họ không thường cố gắng tìm hiểu,xác suất rằng chỉ số đo sẽ xuất hiện theo cách này hay cách khác, thay vào đó họ cố nhận thức giá trị thực của đại lượng vật lý, với một tập hợp số đo đã có.
Tôi nhấn mạnh sự phân biệt này vì nó rất quan trọng. Nó xác định sự khác biệt cơ bản giữa xác suất và thống kê: xác suất liên quan tới sự đoán trước dựa trên các khả năng đã có; còn thống kê liên quan tới việc tìm kiếm các khả năng này dựa trên dữ liệu quan sát được.
Phần sau của vấn đề đã được Laplace giải đáp. Ông không biết lý thuyết của Bayes và do đó phải sáng tạo lại nó. Khi ông phác thảo nó, thì nảy sinh vấn đề: với một chuỗi các số đo, bạn có thể đoán đúng giá trị thực của một lượng đã tính tới đâu, và xác suất tiên đoán đó “gần” với giá trị thực là bao nhiêu, tuy nhiên điều này phụ thuộc vào việc bạn định nghĩa từ “gần”?
Phân tích của Laplace bắt nguồn từ một công trình năm 1774 nhưng kéo dài suốt bốn thế kỷ. Là một người đàn ông tài năng và đôi khi rất rộng lượng, ông thậm chí đã vay mượn mà không trích dẫn từ các công trình của người khác, và là một người có chí tiến thủ không mệt mỏi. Quan trọng nhất, Laplace là một “cây sậy linh hoạt có thể cong cùng gió”, một tính cách cho phép ông tiếp tục công trình đột phá của mình mà hầu như không bị các sự kiện bất thường diễn ra quay ông quấy rầy. Trước khi xảy ra cuộc Cách mạng Pháp, Laplace giữ vị trí chủ chốt là người chấm thi quân pháp binh hoàng gia, trong đó ông có may mắn được kiểm tra một ứng viên 16 tuổi có triển vọng tên Napoléon Bonaparte. Khi cuộc cách mạng xảy ra, năm 1789, ông bị liệt vào hạng nghi ngờ nhưng không giống nhiều người bình yên vô sự khác, ông tuyên bố “lòng căm thù không thể dập tắt đối với hoàng gia” và cuối cùng tôn vinh chiến thắng dành cho nền cộng hòa. Sau đó khi người quen cũ của ông, Napoléon, tự xưng vương năm 1804, ông lập tức tung hô chủ nghĩa cộng hòa và năm 1806 được phong tước hiệu bá tước. Sau khi quân phản động (Bourbons) trở lại, Laplace đả kích Napoléon trong ấn phẩm chuyên luận năm 1814, Théorie analytique des probabilities (Lý thuyết phân tích xác xuất), ông viết rằng “bất cứ ai biết đến phép tính xác suất đều có thể đoán trước được sự thất bại của các đế chế với khả năng rất cao.” Trong khi đó vào năm 1812 ông cho ra đời ấn phẩm tôn vinh “Napoléon Vĩ đại.”
Sự khéo léo trong chính trị của Laplace đi liền với sự may mắn của toán học, vì cuối cùng phân tích của ông phong phú và hoàn thiện hơn của Bayes. Với nền tảng từ công trình của Laplace, trong chương tiếp theo chúng ta sẽ rời khỏi thánh địa của xác suất và đi tiếp vào tìm hiểu thánh địa của thống kê. Đường kết nối giữa hai thánh địa này là một trong những đường cong quan trọng trong tất cả lĩnh vực toán học và khoa học, mặc khác, đường cong hình chuông này được biết đến như là sự phân phối chuẩn. Và đó là chủ đề cả chương tiếp theo, kèm theo một lý thuyết về phương thức đo lường mới.
Bạn có thể dùng phím mũi tên để lùi/sang chương. Các phím WASD cũng có chức năng tương tự như các phím mũi tên.