Khôn Ngoan Không Lại Với Giời

Chương 7: Đo lường và quy luật sai số



Vào một ngày cách đây không lâu, con trai tôi, Alexei, về nhà và thông báo điểm của bài luận mới nhất môn Tiếng Anh. Nó được 93 điểm. Thường thì tôi sẽ chúc mừng con trai đã đạt điểm A. Và bởi vì đây là một điểm A trừ, và tôi biết nó có thể làm được tốt hơn thế, nên tôi nói thêm rằng điểm số này là bằng chứng cho thấy nếu lần sau con cố gắng hơn chút nữa, con có thể đạt điểm số cao hơn. Nhưng những điều này không xảy ra trong một bối cảnh thông thường, và trong trường hợp này, tôi cảm thấy điểm số 93 khá bất ngờ, dưới mức dự tính về chất lượng của bài luận. Về điểm này bạn có thể cho rằng những câu nói ở trên nói về tôi chứ không phải Alexei. Nếu đoán được như vậy thì bạn đã đúng rồi. Thực ra, toàn bộ những lời nói trên là nói về tôi, bởi vì tôi là người viết bài luận của Alexei.

Đúng vậy, thật xấu hổ cho tôi. Để biện hộ, tôi sẽ cho rằng tôi thường thà chết chứ không viết luận cho nó. Nhưng Alexei đã nhờ tôi nhận xét bài viết của nó, như thường lệ, vào lúc đêm khuya trước ngày hết hạn nộp bài. Tôi bảo nó rằng tôi sẽ xem nó. Khi đọc bài viết trên máy tính, đầu tiên, tôi chỉ sửa một vài lỗi nhỏ, không có gì đáng sửa cả. Sau đó, biến thành một người sửa văn nghiêm khắc, tôi dần dần thấy mình bị hút vào, sắp xếp lại chỗ này, diễn đạt lại chỗ kia, và trước khi kết thúc, không những thằng bé đã ngủ thiếp đi, mà tôi đã tự mình viết một bài văn mới. Sáng hôm sau, phải thừa nhận là tôi đã cẩu thả đến mức nhấn lệnh “lưu” trên bản gốc, mà tôi đã bảo thằng bé cứ in ra và nộp bản của tôi. 

Thằng bé đưa cho tôi bài viết đã được chấm điểm với một vài lời phê động viên. Nó nói “Không tồi.” “Điểm 93 là thừa điểm A- hơn điểm A, nhưng do lúc đó đã muộn rồi, và con chắc rằng nếu bố tỉnh táo hơn, bố đã làm tốt hơn.” Tôi không vui. Trước tiên, chẳng lấy gì làm thoải mái khi một thằng bé 15 tuổi nói chính những lời đó với bạn, những lời mà trước kia bạn từng nói với nó, và hơn nữa, bạn cảm thấy những điều nó nói không có chút cảm xúc nào. Nhưng xa hơn là, là làm sao mà bài luận của tôi – công trình của một người mà ít nhất là mẹ tôi từng nghĩ là sẽ trở thành một nhà văn chuyên nghiệp – không đạt điểm cao ở lớp học trung học? Rõ ràng trường hợp của tôi không phải là duy nhất. Sau đó, tôi đã được nghe chuyện một nhà văn khác, trong một trường hợp tương tự, đã nhận được điểm B. Rõ ràng là một nhà văn, với bằng Tiến sỹ Tiếng Anh, viết bài cho các tạp chí nổi tiếng như Rolling Stone, Esquire, hay New York Times, lại không đạt yêu cầu của Tiếng Anh 101. Alexei cũng cố gắng an ủi tôi bằng một câu chuyện khác: nó nói rằng một lần hai người bạn của nó nộp hai bài văn giống hệt nhau. Thằng bé cho rằng điều đó thật ngu ngốc và cả hai sẽ bị cảnh cáo, nhưng rồi không những giáo viên không phát hiện ra, mà bà đã cho một bài được 90 điểm (điểm A), và bài kia được 79 (điểm C). (Nghe thật kỳ quặc, trừ phi, giống như tôi, bạn từng kinh qua việc thức trắng đêm, vừa chấm một đống bài luận, vừa xem đi xem lại bộ phim Star Trek để đỡ chán.)

Dường như các con số luôn luôn mang một sức mạnh của quyền lực. Ít nhất là trong tiềm thức, tư duy sẽ theo lối: nếu một giáo viên chấm điểm trên thang điểm 100, thì một số ít học sinh xuất sắc thực sự phải có ý nghĩa gì đó. Nhưng nếu mười nhà xuất bản đánh giá bản thảo cuốn Harry Potter không đáng được xuất bản, làm sao tác giả Finnegan đáng thương (không phải là tên thật của bà) được phân biệt rõ giữa các bài luận, để cho một bài điểm 92 và bài còn lại điểm 93. Nếu chúng ta chấp nhận rằng chất lượng của bài luận là một cái gì đó có thể xác định được, chúng ta vẫn phải thừa nhận rằng một điểm số không phản ánh mức độ chất lượng của bài luận, mà chỉ là một thước đo dành cho nó, và một trong những cách phổ biến nhất ngẫu nhiên tác động đến cuộc sống của chúng ta là thông qua tác động của nó đến đo lường. Trong trường hợp bài luận, bộ máy đo lường là giáo viên, và sự đánh giá của một giáo viên, giống như bất kỳ thước đo nào khác, dễ bị ảnh hưởng bởi dao động ngẫu nhiên và sai số.

Bầu cử cũng là một loại đo lường. Trong trường hợp này chúng ta không chỉ đo số lượng người ủng hộ mỗi ứng cử viên trong ngày diễn ra bầu cử, mà còn đo số lượng người quan tâm để đi bỏ phiếu. Có rất nhiều loại sai số ngẫu nhiên trong việc đo lường này. Một vài cử tri hợp pháp sẽ không thấy tên của mình trong các danh sách cử tri được đăng ký. Một số khác lại bỏ phiếu nhầm cho ứng cử viên mà họ không dự định ủng hộ. Và tất nhiên có cả những sai số trong việc kiểm phiếu. Một vài lá phiếu được đếm hay bị bỏ qua, một số không đúng quy định, hay một số khác đơn giản là bị mất. Trong hầu hết các cuộc bầu cử, tổng số các tác nhân trên không được tính cao đến mức đủ tác động đến kết quả. Nhưng trong trường hợp kết quả bầu cử ít cách biệt thì có thể. Thông thường chúng ta hay tiến hành một hay nhiều lần đếm lại phiếu, giả định như lần kiểm phiếu thứ hai hay thứ ba sẽ ít bị tác động bởi sai số ngẫu nhiên hơn lần đầu tiên. 

Chẳng hạn như, trong cuộc chạy đua vào chính phủ của chính quyền bang Washington năm 2004, cuối cùng người được tuyên bộ thắng cử là ứng cử viên Đảng Dân chủ, mặc dù kết quả ban đầu là ứng viên Đảng Cộng hòa với 261 trong số 3 triệu phiếu bầu. Vì kết quả kiểm phiếu ban đầu khá sát giữa các ứng cử viên, theo luật, yêu cầu kiểm phiếu lại. Trong lần kiểm này, Đảng Cộng hòa lại thắng, nhưng chỉ với 42 phiếu bầu. Không biết có ai cho rằng đây là một tín hiệu xấu hay không, khi mà khác biệt giữa hai lần kiểm phiếu, thứ nhất và thứ hai, lên đến 219 phiếu, cao hơn gấp vài lần so với mức chênh lệch thắng thua, nhưng rút cục, dẫn đến lần kiểm phiếu thứ ba. Lần này, phiếu được kiểm hoàn toàn “bằng tay”. Chiến thắng 42 phiếu tương đương với lợi thế một phiếu trên 70.000, do đó, việc đếm phiếu bằng tay có thể được so sánh với việc yêu cầu 42 người đếm từ 1 đến 70.000 và sau đó, hy vọng mỗi người trong đó mắc trung bình dưới một lỗi sai. Không ngạc nhiên rằng, kết quả lại có sự thay đổi. Lần này lợi thế nghiêng về phe Dân chủ, với 10 phiếu bầu. Con số này sau đó đổi thành 129 phiếu, khi phát hiện ra và tính thêm 700 phiếu “bị mất”.

Cả hai quá trình kiểm phiếu và bỏ phiếu đều không hoàn hảo. Chẳng hạn như, nếu vì lỗi của bưu điện, 1 trong số 100 cử tri không nhận được thư thông báo về địa điểm bỏ phiếu và do đó, 1 trong số 100 người đó không bỏ phiếu, cuộc bầu cử của bang Washington sẽ có đến 300 cử tri đáng lẽ đã tham gia bầu cử, nhưng lại không tham gia, vì lỗi của chính phủ. Bầu cử, cũng giống như tất cả các thước đo khác, là không chính xác, và tương tự như vậy, việc kiểm lại phiếu cũng thế. Do đó, nếu kết quả bầu cử với số phiếu của các ứng cử viên rất sát nhau, thì có lẽ, chúng ta nên chấp nhận kết quả đó như trường hợp tung đồng xu, hơn là việc tiến hành kiểm đi kiểm lại số phiếu.

Tính không chính xác của đo lường đã trở thành một vấn đề quan trọng vào khoảng giữa thế kỷ XVIII. Lúc đó, một trong những công việc cơ bản của các nhà vật lý và toán học thiên văn là vấn đề giải quyết những bất đồng giữa quy luật Newton và những khám phá mới về vận động của Mặt trăng và các hành tinh. Một cách để lấy ra một số đơn từ một bộ thang đo trái ngược nhau là lấy trung bình, hay trung vị. Trong nghiên cứu quang học của mình, dường như chàng trai trẻ Newton là người đầu tiên sử dụng số trung bình hay trung vị cho mục đích này. Nhưng cũng giống như trong nhiều việc, Newton là một người không bình thường. Hầu hết các nhà khoa học trong thời đại của Newton, và trong thế kỷ tiếp sau đó, đều không sử dụng trung vị. Thay vào đó, họ chọn “con số vàng” trong số các đơn vị đo của mình – con số mà họ lựa chọn chủ yếu dựa vào linh cảm ước lượng kết quả tin cậy nhất mà họ có. Đó là bởi vì họ cho rằng sự biến thiên trong thang đo không phải là sản phẩm phụ tất yếu của quá trình đo lường, mà là bằng chứng của sự thất bại. Thậm chí, ở thời điểm đó, những bằng chứng này còn có hậu quả về đạo đức. Thực tế, hiếm khi các nhà khoa học thời đó công bố các kết quả khác nhau của cùng một đại lượng, cảm giác như điều đó có nghĩa là sự thừa nhận một quá trình làm hỏng và đặt ra vấn đề tin cậy. Nhưng đến giữa thế kỷ XVIII, xu hướng bắt đầu thay đổi. Tính tổng quá trình di chuyển của các thiên thể, hàng loạt các hình e líp gần chuẩn, là một phép tính đơn giản mà các học sinh trung học thông minh ngày nay có thể vừa nghe nhạc vừa tính toán. Nhưng việc mô tả chuyển động của các hành tinh ở những điểm chi tiết, không chỉ xét đến lực hút của mặt trời, mà tính cả các hành tinh khác và độ lệch của các hành tinh so với Mặt trăng, nếu xét Mặt trăng là một khối cầu hoàn hảo, thì cho đến nay điều này vẫn là một bài toán khó. Để thực hiện mục tiêu này, toán phức hợp và toán tương đối phải hòa giải bằng những khảo sát và những phép đo không hoàn hảo. 

Còn một lý do khác dẫn đến đòi hỏi phải ra đời lý thuyết toán học về đo lường vào cuối thế kỷ XVIII: bắt đầu những năm 1780, ở Pháp bắt đầu xuất hiện mô hình vật lý thực nghiệm mới rất chặt chẽ. Trước đó, vật lý bao gồm hai trường phái tách biệt. Trường phái thứ nhất, các nhà toán học khảo sát kết quả chính xác của những lý thuyết của Newton về sự chuyển động và trọng lượng. Trường phái thứ hai, một nhóm các nhà khoa học thường được mô tả như những nhà nghiên cứu thực nghiệm, thực hiện các điều tra thực nghiệm về điện, từ trường, ánh sáng, và nhiệt. So với các nhà nghiên cứu định hướng toán học, các nhà nghiên cứu thực nghiệm – thường là nghiệp dư – ít tập trung đến phương pháp luận chặt chẽ, nghiêm ngặt của khoa học, từ đó nảy sinh một phong trào cải cách và toán học hóa các thí nghiệm vật lý. Trong phong trào này, lại một lần nữa Pierre-Simon de Laplace đóng một vai trò chủ chốt.

Laplace đã bắt đầu yêu thích khoa học vật lý từ công trình nghiên cứu của người đồng nghiệp cùng gốc Pháp với ông là Antoine-Laurent Lavoisier, người được xem là cha đẻ của hóa học hiện đại. Laplace và Lavoisier đã cùng nhau làm việc trong nhiều năm, nhưng Lavoisier đã không chứng minh cặn kẽ như Laplace về phương pháp xác định những thời điểm hỗn loạn. Để kiếm tiền trang trải rất nhiều thí nghiệm khoa học của mình, ông đã trở thành hội viên của hiệp hội tư nhân đặc quyền về thu thuế do nhà nước bảo trợ. Có lẽ trong lịch sử chưa bao giờ một người ở vị trí đó lại được người khác mời vào nhà dùng một tách trà nóng hay một ly cappuccino hấp dẫn, nhưng khi diễn ra cuộc Cách mạng pháp, điều đó chứng tỏ một sự tín nhiệm vô cùng đặc biệt. Năm 1794, Lavoisier cùng với toàn bộ nhân viên trong hiệp hội của ông bị bắt giữ và nhanh chóng bị kết án tử hình. Tận tâm cống hiến cho khoa học, ông đã yêu cầu có thêm thời gian để hoàn thành một vài nghiên cứu của mình với mong muốn để lại kết quả cho hậu thế. Trước yêu cầu đó, quan tòa chủ trì đã đưa ra một hồi đáp nổi tiếng “Công chúng không cần đến các nhà khoa học”. Vị cha đẻ của hóa học hiện đại đã nhanh chóng bị chặt đầu. Thi thể của ông bị ném ở mồ chôn tập thể. Ông đã cố gắng hết sức để truyền đạt cho trợ lý của mình những nghiên cứu mà ông đã nỗ lực để đưa nó đến với công chúng.

Công trình của Laplace và Lavoisier, cùng với công trình của một vài nhà nghiên cứu khác, đặc biệt là nhà vật lý người Pháp, Charles – Augustin de Coulomb, người đã thí nghiệm trên điện và từ trường, đã chuyển thành vật lý thực nghiệm. Vào những năm 1790, các công trình của họ cũng đóng góp cho sự phát triển của một hệ thống lý luận mới về đơn vị, hệ thống tiêu chuẩn đo lường, thay thế các hệ thống tạp nham trước kia. Các hệ thống cũ đã cản trở khoa học và là một nguyên nhân phổ biến gây ra tranh cãi giữa các thương gia. Được phát triển từ một nhóm do Vua Louis XVI chỉ định, hệ thống tiêu chuẩn đo lường được chính quyền cách mạng áp dụng sau khi Louis thất thế. Trớ trêu thay, Lavoisier lại là một trong những thành viên của nhóm phát triển này. 

Nhu cầu về cả thiên văn học và vật lý thực nghiệm cho thấy một nhiệm vụ quan trọng của các nhà toán học ở cuối thế kỷ XVIII, đầu thế kỷ XIX là hiểu và lượng hóa sai số ngẫu nhiên. Những nỗ lực đó đã dẫn đến một lĩnh vực mới, toán học thống kê, một bộ môn cung cấp bộ các phương tiện để diễn giải các số liệu thu được từ điều tra và thực nghiệm. Đôi khi các nhà thống kê nhìn nhận sự phát triển của khoa học hiện đại như là xoay quanh sự sáng tạo của lý thuyết về đo lường. Nhưng các nhà thông kê cũng cung cấp các phương tiện để tiếp cận các vấn đề của thực tiễn, ví dụ như hiệu quả của thuốc hay mức độ được công chúng biết đến của các nhà chính trị, do đó sự hiểu biết hợp lý về các nguyên nhân thống kê rất hữu ích trong đời sống hàng ngày cũng như trong khoa học. 

Một trong những nghịch lý của cuộc sống là mặc dù đo lường luôn chứa đựng sự bất định, nhưng sự bất định trong đo lường ít khi được bàn luận khi người ta nói về các thước đo. Nếu như một cảnh sát giao thông khó tính nói với quan tòa rằng súng bắn tốc độ của cô ấy phát hiện bạn đi ba mươi chín dặm một giờ trong khu vực có tốc độ cho phép là ba mươi lăm dặm một giờ, chắc chắn là bạn sẽ bị phạt, mặc dù thực tế là súng bắn tốc độ thường chênh lệch vài dặm tính trên mỗi giờ. Và mặc dù rất nhiều học sinh (cùng với phụ huynh của họ) sẵn sàng nhảy từ trên mái xuống nếu nhờ đó mà điểm thi môn toán trong bài SAT của họ tăng từ 598 lên 625, hầu như không có giáo viên nào bàn luận về nghiên cứu chỉ ra rằng, nếu bạn muốn tăng thêm 30 điểm, cơ hội để đạt được điều đó đơn thuần bạn chỉ cần tăng số lần kiểm tra lên gấp đôi. Đôi khi sự xuất sắc vô nghĩa cũng trở thành một sự kiện. Vào tháng tám vừa mới đây, Ủy ban Thống kê Lao động báo cáo rằng tỷ lệ thất nghiệp giữ ở mức 4,7%. Vào tháng bảy Ủy ban này vừa thông báo rằng tỷ lệ thất nghiệp là 4,8%. Sự thay đổi này là chủ đề dẫn đến tiêu đề bài báo như sau trên tạp chí New York Times: “Việc làm và lương có mức tăng khiêm tốn trong tháng vừa qua.” Nhưng như Gene Epstein, Biên tập viên kinh tế của tờ Barron lý giải “Chỉ là con số đã thay đổi, không có nghĩa là bản chất sự vật đã thay đổi. Ví dụ như, ở bất kỳ thời điểm nào thì tỷ lệ thất nghiệp dao động một phần mười của một phần trăm đơn vị… nghĩa là một mức thay đổi rất rất nhỏ, không có cách nào để diễn đạt được liệu thực sự có sự thay đổi hay không.” Nói cách khác, nếu Ủy ban Thống kê Lao động ước tính được tỷ lệ thất nghiệp vào tháng Tám và sau đó một tiếng, lặp lại thao tác đo lường, chỉ riêng do sai số ngẫu nhiên, đã có thể dẫn đến kết quả tính lần thứ hai sẽ khác với kết quả của lần thứ nhất ít nhất là một phần mười của một phần trăm. Như vậy thì tạp chí New York Times có đưa tin “Việc làm và thu nhập tăng ở mức khiêm tốn vào lúc 2 giờ chiều” hay không?

Tính bất định trong đo lường càng trở thành một vấn đề cần được xét đến khi việc đo lường mang tính chủ quan như trường hợp bài luận trên lớp của Alexei. Chẳng hạn như, một nhóm các nhà nghiên cứu ở Đại học Clarion, Pennsylvania đã thu thập 120 bài kiểm tra học kỳ và xem xét lại các bài này. Bạn sẽ chắc chắn rằng bài làm của con mình chẳng bao giờ lại có kết quả như vậy: mỗi bài được chấm độc lập bởi tám giáo viên trong khoa. Kết quả, trong thang điểm từ A đến F, thường biến thiên từ một đến hai bậc. Trung bình mức khác biệt là gần một bậc. Vì tương lai của người học thường dựa vào những kết quả đánh giá kiểu này, tính không chính xác là một sự bất hạnh. Vì thế mà, có thể hiểu được, tại sao các giáo sư ở bất kỳ khoa nào của các trường đại học, thường sử dụng toàn bộ các phương pháp tiếp cận và triết lý từ Karl Marx cho đến Groucho Marx. Nhưng điều gì sẽ xảy ra nếu chúng ta có thể kiểm soát nó – có nghĩa là nếu như cung cấp và hướng dẫn cho người chấm một biểu điểm ấn định trước? Một nhà nghiên cứu ở Đại học bang Iowa đã chọn khoảng 100 bài luận của sinh viên, đưa cho một nhóm nghiên cứu sinh về tu từ học và giao tiếp chuyên nghiệp, những người đã được đào tạo chuyên sâu về những biểu điểm này. Hai người thẩm định độc lập cho điểm mỗi bài ở một mức từ 1 đến 4. Khi điểm được đối chiếu với nhau, những người thẩm định chỉ chấm giống nhau ở một nửa số bài chấm. Kết quả tương tự cũng được thấy ở nghiên cứu của Đại học Texas, tìm hiểu về thang điểm của mình cho các bài luận ở đầu vào đại học. Khi sử dụng hệ thống hai người đánh giá, ngay cả ban lãnh đạo đáng kính của Nhà trường cũng chỉ hy vọng rằng “92% các bài được chấm điểm sẽ được cho điểm trong phạm vi chệnh lệch ±1 điểm trên thang điểm 6 của bài luận SAT.”

Một thước đo chủ quan khác được đo bằng niềm tin nhiều hơn là sự chứng thực, đấy là đánh giá rượu. Trở lại những năm 1970, ngành rượu lúc đó là một ngành buồn tẻ, có tăng nhưng chủ yếu do sự tăng doanh thu của những bình rượu chất lượng thấp. Sau đó, đến năm 1978, xuất hiện một hoạt động thường gắn với sự tăng trưởng nhanh của ngành công nghiệp này: một luật sư trở thành một nhà phê bình rượu tự xưng, Robert M. Parker (cha) quyết định rằng, cùng với những đánh giá của bản thân mình, ông sẽ lấy nhiều ý kiến đánh giá các loại rượu dựa trên thang điểm 100. Trong nhiều năm, hầu hết các rượu mới ra đời khác đều tuân theo chiêu thức này. Ngày nay doanh thu rượu hàng năm ở Hoa Kỳ vượt trên mức 20 tỷ đô-la Mỹ, và hàng triệu người đam mê rượu sẽ không bỏ tiền vào những quầy rượu mà không xem xếp hạng của rượu để đưa ra lựa chọn của mình. Vì thế, khi mà giải loại Rượu được yêu thích được trao cho loại rượu vang trắng Valentin Bianchi 2004 của Argentina, phải nói rằng điểm số 90, chỉ hơn điểm 89 có một điểm, nhưng đã tạo ra một sự khác biệt vô cùng lớn về doanh thu của Valentin Bianchi. Thực tế, nếu như đi vào một cửa hàng rượu của địa phương, bạn sẽ thấy rằng việc mua bán và sự quan tâm giành cho các loại rượu là ít hấp dẫn hơn, thường là những loại được đánh giá cao trên 80 điểm. Nhưng điều gì đã tạo nên cơ hội cho rượu vang trắng Valentin Bianchi 2004 nhận được 90 điểm, mà có thể chỉ được 89 điểm nếu quá trình đánh giá được lặp lại sau đó một tiếng? 

William James, trong một cuốn sách xuất bản năm 1890 của mình lấy tên là Những nguyên tắc của tâm lý, giải thích rằng các chuyên gia thưởng thức rượu có thể luyện tập đến mức phát hiện mẫu rượu Madeira  được rót từ khi chai rượu còn đầy hay đã cạn đáy. Tôi đã từng tham gia một lần thi thử rượu nhiều năm trước đây. Lần đó, tôi phát hiện ra rằng nếu một người đàn ông râu quai nón phía bên trái tôi thì thầm “mùi vị rất tuyệt” (rượu ngửi rất hấp dẫn), thì chắc chắn những người khác cũng sẽ phụ họa tán đồng. Nhưng nếu bố trí những người thử rượu nhận xét độc lập, không để mọi người thảo luận, thì ta sẽ thấy người đàn ông có râu quai nón sẽ nhận xét “mùi hấp dẫn”, trong khi một chàng chai hói đầu nguệch ngoạc “không có mùi”, và một phụ nữ tóc vàng hoe uốn xoăn sẽ viết “mùi hấp dẫn với hương mùi tây và mùi da vừa mới thuộc.”

Từ phương diện lý thuyết, có rất nhiều lý do để nghi vấn về tầm quan trọng của việc xếp hạng rượu. Thứ nhất, cản nhậm về vị rượu phụ thuộc vào một loạt những tương tác phức tạp giữa vị giác và kích thích khứu giác. Nói đúng ra, cảm nhận về vị xuất phát từ năm loại tế bào vị giác riêng biệt trên lưỡi: mặn, ngọt, chua, đắng, và vị ngọt thịt. Vị ngọt thịt tương ứng với một vài hỗn hợp axit amino cụ thể (ví dụ như loại axit có trong sốt đậu nành). Nhưng nếu tất cả chỉ phụ thuộc vào khả năng cảm nhận vị thì chúng ta có thể làm giả mọi thứ từ những món thịt bò bít tết yêu thích, khoai tây nướng, bánh nhân táo, hay mì Ý sốt thịt bò bằm (Bolognese) – bằng cách sử dụng các nguyên liệu cơ bản: muối, đường, giấm, chất tạo mùi (quinine) và bột ngọt. May mắn thay, ẩm thực không chỉ có thế, và vì vậy chúng ta cần đến khứu giác. Cảm nhận về mùi vị giải thích tại sao trong trường hợp nếu bạn lấy hai lượng nước đường giống hệt nhau, rồi cho một chút vị dâu tây (không đường) vào một trong hai phần nước đường, thì phần nước đường đó sẽ ngọt hơn phần còn lại. Cảm nhận vị rượu xuất phát từ tác động kết hợp của từ 600 đến 800 hợp chất hữu cơ dễ bay hơi ở lưỡi và ở mũi. Vấn đề là ở chỗ, các nghiên cứu đã chỉ ra rằng ngay cả những nhà chuyên môn được đào tạo về mùi vị cũng hiếm khi nhận diện được nhiều hơn ba đến bốn thành phần trong cùng một hỗn hợp. 

Kỳ vọng cũng ảnh hưởng đến nhận thức về hương vị. Năm 1963, ba nhà nghiên cứu đã bí mật bổ sung thêm một chút màu thực phẩm đỏ vào rượu vang trắng để tạo ra màu sắc bề mặt ánh hồng. Sau đó, họ yêu cầu một nhóm các chuyên gia đánh giá vị ngọt của loại rượu đó so với loại rượu vang tương ứng không được phủ màu. Theo kỳ vọng của họ, các chuyên gia đã cảm nhận loại vang hồng giả ngọt hơn vang trắng. Một nhóm nghiên cứu viên khác đã đưa cho một nhóm sinh viên bản thể học hai mẫu rượu. Cả hai mẫu có chứa loại rượu trắng giống nhau, trong đó, một mẫu đã được bổ sung một loại phụ gia màu nho không vị, làm cho mẫu rượu trắng đó trông giống rượu vang đỏ. Dựa vào kỳ vọng của mình, các sinh viên cũng cảm nhận sự khác biệt giữa mẫu rượu trắng và mẫu rượu đỏ. Và trong một nghiên cứu được tiến hành năm 2008, một nhóm tình nguyện viên đã đánh giá năm mẫu rượu được đựng trong các chai có giá 90 đô-la cao hơn các mẫu rượu trong các chai có giá 10 đô-la, mặc dù các nhà nghiên cứu đã bí mật cho cùng một loại rượu vào các chai có nhãn khác nhau. Hơn nữa, thí nghiệm này được tiến hành khi các đối tượng có đeo máy quét cộng hưởng từ chụp hình ảnh của não bộ. Hình ảnh chụp được cho thấy khu vực của não bộ mã hóa cảm nhận niềm vui hoạt động tích cực hơn khi các đối tượng uống rượu vang mà họ tin là đắt tiền hơn. Nhưng trước khi chúng ta phê phán các nhà thẩm định rượu, hãy xem xét ví dụ này: một nhà nghiên cứu đã hỏi 30 người uống co-la rằng họ thích Co-ca-co-la hay Pepsi hơn, và sau đó yêu cầu họ khẳng định quan điểm của mình bằng việc thử cả hai mẫu đồ uống cùng một lúc. 21 trong số 30 người tham gia thử nghiệm đã khẳng định quan điểm của mình sau khi uống thử, mặc dù nghiên cứu viên đã bí mật đổ Co-ca-co-la vào chai Pepsi và ngược lại. Khi chúng ta tiến hành việc thẩm định hay đo lường, não của chúng ta không chỉ dựa vào những cảm nhận trực tiếp từ đầu vào, mà còn tích hợp các nguồn thông tin khác – ví dụ như những kỳ vọng của chúng ta.

Các nhà thẩm định rượu cũng thường bị lừa bởi mặt trái của việc quá dựa vào kỳ vọng: thiếu ngữ cảnh. Để một đoạn cây cải ngựa trước mũi, bạn sẽ không thể nhầm mùi này với mùi cây tỏi, và cũng không nhầm lẫn mùi cây tỏi với những mùi khác, ví dụ như mùi giày của bạn. Nhưng nếu bạn ngửi mùi của các mẫu thử chất lỏng mà không có thông tin, thì những dự đoán của bạn chẳng có gì là chắc chắn cả. Trong trường hợp thiếu thông tin về mẫu thử, có khả năng chúng ta sẽ bị lẫn lộn các mùi hương. Ít nhất đó là điều sẽ xảy ra khi hai nhà nghiên cứu trình bày với các chuyên gia thử mùi về một loạt mười sáu loại mùi bất kỳ: cứ bốn mùi được thử thì các chuyên gia bị nhầm một mùi.

Trước những lý do đáng ngại trên, các nhà khoa học đã thiết kế các cách để đo lường trực tiếp sự phân biệt mùi vị của các chuyên gia thẩm định rượu. Một phương pháp là sử dụng tam giác rượu. Đó không phải là một hình tam giác vật lý mà là một phép ẩn dụ: mỗi chuyên gia được cung cấp ba loại rượu, trong đó có hai loại giống hệt nhau. Nhiệm vụ của các chuyên gia này là chọn ra mẫu rượu khác biệt. 

Trong một nghiên cứu được tiến hành năm 1990, các chuyên gia đã nhận diện đúng mẫu rượu khác biệt với tần suất hai trên ba lần thử. Điều đó có nghĩa là trong số ba lần thử thì có một lần các chuyên gia dày dặn kinh nghiệm về rượu không thể phân biệt giữa loại rượu Pinot Noir “một loại rượu kết hợp mùi vị giữa dâu tây dại, quả mâm xôi loại ngon, và dâu rừng” với “hương vị mận chát đặc biệt, anh đào vàng, và quả lý hồng”. Trong một nghiên cứu tương tự, một nhóm chuyên gia được yêu cầu xếp hạng một loạt rượu dựa trên 12 tiêu chí, ví dụ như nồng độ cồn, tỷ lệ tannin, vị ngọt, và vị trái cây… Các chuyên gia đã bất đồng nghiêm trọng về 9 trong số 12 tiêu chí. Cuối cùng, khi được yêu cầu gắn các mẫu rượu này với những mô tả có sẵn, tỷ lệ đúng chỉ đạt 70%. 

Các nhà phê bình rượu lường được tất cả những khó khăn này. “Ở nhiều mức độ … [hệ thống xếp hạng] là vô nghĩa” theo biên tập viên tạp chí Wine and Spirits. Còn một cựu biên tập viên của tạp chí Wine Enthusiast, thì cho rằng “càng tìm hiểu về lĩnh vực này, bạn càng nhận thấy nhầm lẫn và sai định hướng”. Tuy vậy, hệ thống đánhh giá vẫn phát triển mạnh. Tại sao lại như vậy? Các nhà phê bình đã phát hiện ra rằng khi họ cố gắng gói gọn chất lượng rượu trong một hệ thống sao hay những mô tả đơn giản như tốt, xấu, hay thậm chí là tồi tệ, thì ý kiến của các nhà phê bình này có vẻ không thuyết phục. Nhưng khi họ sử dụng các con số, thì các cửa hàng lại có vẻ đề cao ý kiến của họ. Xếp hạng số, tuy không rõ ràng, nhưng giúp người mua tự tin rằng họ có thể chọn cây kim vàng (hay bạc, phụ thuộc vào túi tiền của mình) giữa hàng loạt những loại rượu khác nhau, từ loại nguyên liệu, nhà sản xuất, đến tuổi rượu. 

Nếu có thể xác định chính xác chất lượng của một loại rượu, hay một bài luận, chỉ bằng một con số, thì lý thuyết về đo lường cần phải giải quyết hai vấn đề chính: Làm sao để xác định một con số trong hàng loạt các thước đo khác nhau? Và trước một bộ cho trước hạn chế về các thước đo, làm sao chúng ta có thể thẩm định xác suất lựa chọn của chúng ta là chính xác? Đứng trước những vấn đề này, dù cho nguồn thông tin là chủ quan hay khách quan, câu trả lời cho hai câu hỏi trên chính là mục tiêu của lý thuyết về đo lường. 

Để hiểu được đo lường quan trọng là chúng ta phải hiểu bản chất của sự biến thiên trong dữ liệu xảy ra do sai số ngẫu nhiên. Giả sử chúng ta đưa cho mười lăm nhà phê bình mỗi người một loại rượu hoặc chúng ta đưa những mẫu rượu này cho một nhà thẩm định lặp đi lặp lại trong những ngày khác nhau, hoặc chúng ta làm cả hai thao tác trên. Chúng ta có thể tóm tắt kết quả đánh giá bằng việc sử dụng hệ số trung bình, hay trung vị của các lần xếp hạng. Nhưng vấn đề không nằm ở hệ số trung bình: nếu tất cả mười lăm nhà phê bình đồng ý rằng mẫu rượu được 90 điểm, kết quả này là một chuyện; còn nếu họ đưa ra các điểm số 80, 81, 82, 87, 89, 89, 90, 90, 90, 91, 91, 94, 97, 99, và 100 thì kết quả này lại là một chuyện khác. Cả hai kết quả trên đều có cùng một giá trị trung bình nhưng chúng lại khác nhau về cách tính giá trị trung bình đó. Do đó, các nhà toán học đã sáng tạo ra một đại lượng đo lường sự biến thiên để mô tả yếu tố này. Đại lượng này được gọi là lệch chuẩn mẫu. Các nhà toán học cũng đo lường dộ dao động bằng bình phương độ biến thiên, được gọi là biến thiên mẫu. 

Độ lệch chuẩn mẫu mô tả độ gần đến trung vị của một bộ tổ hợp dữ liệu, hay nói cách khác, chỉ độ bất định của dữ liệu. Nếu độ lệch chuẩn mẫu thấp, dữ liệu rơi vào miền gần trung vị. Ví dụ, với bộ dữ liệu là tất cả các nhà thẩm định đều cho điểm 90, độ lệch chuẩn mẫu là 0, cho thấy tất cả các dữ liệu trùng với trung vị. Mặt khác, khi độ lệch chuẩn mẫu cao, có nghĩa là dữ liệu không tập hợp quanh trung vị. Ví dụ như với bộ dữ liệu chấm điểm rượu từ 80 đến 100 đã nói ở trên, độ lệch chuẩn mẫu là 6, có nghĩa là theo kinh nghiệm, thì hầu hết các giá trị rơi trong phạm vi 6 điểm xung quanh trung vị. Trong trường hợp này, điều duy nhất có thể kết luận về loại rượu này là bậc của nó có thể rơi trong khoảng giữa 84 và 96. 

Để đánh giá ý nghĩa của các thước đo, các nhà khoa học ở thế kỷ XVIII và XIX phải đối mặt với những vấn đề tương tự như các nhà chuyên gia thẩm định rượu. Nếu như một nhóm nghiên cứu thực hiện hàng loạt các thử nghiệm, thì kết quả hầu như sẽ luôn luôn có sự khác biệt. Một nhà du hành vũ trụ có thể phải chịu sự thay đổi về điều kiện áp suất; một người khác bị thổi bởi một làn gió, còn người thứ ba có thể vừa mới trở về một cuộc thi thử rượu Madeira cùng với William James. Năm 1838, nhà toán học và thiên văn học F.W. Bessel đã phân loại mười một nhóm sai số ngẫu nhiên xuất hiện trong mọi quan sát về thiên văn học. Thậm chí ngay cả khi một nhà thiên văn học đo đi đo lại thì những nhân tố khác nhau như thị lực không chuẩn, hay tác động của nhiệt độ đến thiết bị đo, cũng sẽ ảnh hưởng đến các quan sát làm thay đổi kết quả. Vì thế, các nhà thiên văn học cần hiểu làm cách nào xác định chính xác vị trí của thực thể với các cách thức đo lường khác nhau cho sẵn. Nhưng khi các nhà thẩm định rượu và các nhà khoa học cùng gặp một vấn đề, thì điều đó không có nghĩa là họ có thể chia sẻ cùng một giải pháp. Liệu chúng ta có thể chỉ ra được những đặc điểm chung của sai số ngẫu nhiên, hay đặc điểm của sai số ngẫu nhiên có phụ thuộc vào từng bối cảnh không? 

Một trong những người đầu tiên cho rằng các bộ thang đo khác nhau có những đặc điểm chung giống nhau là Daniel, cháu trai của Jakob Bernoulli. Năm 1777, ông này đã so sánh sai số ngẫu nhiên trong quan sát thiên văn với độ lệch trong đường bay của mũi tên do một cung thủ bắn ra. Ông lý giải, trong cả hai trường hợp, mục tiêu – giá trị thực của số lượng đo lường, hay hồng tâm – nằm ở đâu đó xung quanh trung tâm, và các kết quả quan sát phải tập trung quanh giá trị đó, càng các vòng tròn phía trong thì càng có nhiều giá trị và ngược lại. Ông đề xuất quy luật về phân phối. Quy luật này không được chứng minh là đúng, nhưng điều quan trọng là bản chất của nó, nói lên rằng phân phối của các sai số của một tay cung có thể phản ánh phân phối của sai số trong các quan sát thiên văn học.

Theo quan niệm thì phân phối của sai số tuân theo một quy luật phổ quát nào đó, đôi khi được gọi là quy luật sai số, là cơ sở tiền đề của lý thuyết về đo lường. Ý nghĩa quan trọng của nó là, khi những điều kiện chung nào đó được thỏa mãn, có thể xác định bất kỳ một giá trị thực nào dựa trên những giá trị đo lường bằng cách sử dụng một phân tích toán học đơn lẻ. Khi quy luật phổ quát này được áp dụng, vấn đề xác định vị trí thực của một thực thể chủ yếu dựa vào bộ thang đo của các nhà thiên văn học, cũng giống như việc xác định vị trí của hồng tâm khi chỉ cho biết vòng ngoài cùng của đĩa bắn tên, hay việc xác định “chất lượng” của một loại rượu khi cho biết một loạt các xếp hạng. Đó là lý do tại sao thống kê toán là một môn học rõ ràng chứ không chỉ là một loạt các thủ thuật: cho dù bạn có thực hiện các phép đo đi đo lại nhằm xác định vị trí của Sao Kim tại thời điểm 4 giờ sáng ngày Giáng sinh, tính trọng lượng của một ổ bánh mì nho khô mới ra lò, hay sự phân phối của các sai số, cũng giống như nhau.

Điều đó không có nghĩa là sai số ngẫu nhiên là loại sai số duy nhất có thể ảnh hưởng đến đo lường. Nếu một nửa nhóm thẩm định rượu chỉ thích rượu vang đỏ, và nửa còn lại chỉ thích rượu vang trắng, nhưng mặt khác thì tất cả họ đều hoàn toàn thống nhất (và hoàn toàn đồng thuận), thì kết quả đánh giá một loại rượu xác định sẽ không tuân theo quy luật sai số, mà thay vào đó sẽ bao gồm hai đỉnh nhọn: một là của nhóm người thích vang đỏ, và một là của nhóm người thích vang trắng. Nhưng ngay cả trong các trường hợp mà việc áp dụng quy luật là không rõ ràng, thì quy luật sai số vẫn được áp dụng trong những trường hợp từ việc phân bố những điểm trong trò chơi bóng đá đẳng cấp cao, đến điểm đánh giá IQ. Nhiều năm trước, tôi đảm nhận nhiệm vụ quản lý khoảng một nghìn thẻ đăng ký của chương trình phần mềm khách hàng, được một người bạn của tôi thiết kế giành cho trẻ em từ tám đến chín tuổi. Phần mềm này không bán chạy như kỳ vọng. Ai sẽ mua phần mềm này? Bảng liệt kê cho thấy đa số người sử dụng là bảy tuổi, nhóm tuổi không được chào mừng nhưng cũng không phải là sự kết hợp ngoài kỳ vọng. Nhưng điều đáng ngạc nhiên là khi vẽ biểu đồ cột về số lượng người mua cho thấy tuổi của khách hàng lệch khỏi trung vị là bảy, tôi nhận thấy biểu đồ có hình dạng rất quen thuộc – là hình dạng của quy luật sai số.

Điều này chỉ ra rằng các cung thủ, các nhà thiên văn học, các nhà hóa học, và các nhà nghiên cứu thị trường, đều gặp cùng một quy luật sai số; đó là một cách khác để khám phá một thể thức đặc thù của quy luật này. Xuất phát từ nhu cầu phân tích dữ liệu thiên văn học, các nhà khoa học như Daniel Bernoulli và Laplace mặc nhiên công nhận một loạt nghiên cứu còn nhiều thiếu sót của cuối thế kỷ XVIII. Hóa ra là, công thức toán học đúng mô tả quy luật sai số – đường cong hình chuông – đã có sẵn trong suốt thời gian đó mà họ không biết. Nó đã được phát hiện ra ở London trong một bối cảnh khác nhiều thế kỷ trước đó.

TRONG SỐ BA NGƯỜI có đóng góp lớn đối với việc phát hiện ra tầm quan trọng của đường cong hình chuông, người phát hiện ra điều đó là lại là người nhận được ít sự tán tụng nhất. Phát kiến của Abraham De Moivre ra đời năm 1733, khi ông mười sáu tuổi, và không được công bố cho đến khi cuốn sách của ông The Doctrine of Chances (Học thuyết về sự ngẫu nhiên) được tái bản lần thứ hai năm năm sau đó. De Moivre đã phát hiện ra đường cong khi ông tìm kiếm mức xấp xỉ của các con số thuộc miền trong của tam giác Pascal phía xa dưới những điểm mà tôi cắt ngắn, gồm hàng trăm hoặc hàng nghìn các đường dóng xuống. Để chứng minh tầm nhìn của ông về luật số lớn, Jakob Bernoulli đã tiến hành nghiên cứu với giá trị của các số xuất hiện trong các đường này. Các con số có thể rất lớn, ví dụ như một hệ số trong dòng thứ 200 của tam giác Pascal có thể có đến 59 chữ số. Vào thời đại của Bernoulli, và thực tế là vào thời đại trước khi xuất hiện máy tính điện tử, rõ ràng là rất khó để tính toán các con số này. Đó là lý do tại sao tôi nói rằng Bernoulli đã chứng minh luật số lớn của mình bằng việc sử dụng hàng loạt các xấp xỉ khác nhau, điều đó làm giảm tính ứng dụng thực tế trong các kết quả nghiên cứu của ông. Với đường cong của mình, De Moivre đã có thể đưa ra những xấp xỉ tốt hơn nhiều và do đó, phát triển hơn nữa những ước đoán của Bernoulli. 

Con số xấp xỉ mà De Moivre đưa ra sẽ có căn cứ nếu biểu diễn các con số trong một hàng của tam giác theo đường cao của các cột hay một biểu đồ cột, giống như cách mà tôi đã làm với các thẻ đăng ký. Ví dụ, ba số ở hàng thứ ba của tam giác là 1, 2, 1. Trong biểu đồ cột, cột đầu tiên cao một đơn vị; cột thứ hai cao gấp đôi; và cột thứ ba lại là một đơn vị. Bây giờ nhìn vào năm con số ở hàng thứ năm: 1, 4, 6, 4, 1. Biểu đồ sẽ gồm năm cột, lại bắt đầu từ thấp, tăng lên đến đỉnh ở chính giữa, và giảm xuống đối xứng. Các hệ số chạy xa trên cạnh đáy của tam giác khiến cho biểu đồ cột có rất nhiều cột, và các cột này có cùng đặc điểm. Các biểu đồ cột trong trường hợp của các đường thứ 10, 100 và 1000 của tam giác Pascal được trình bày trong hình vẽ dưới đây. 

Nếu vẽ một đường cong nối các đỉnh của tất cả các cột trong mỗi biểu đồ cột, sẽ được hình dạng đặc trưng, giống hình một chiếc chuông. Và nếu làm mềm đường cong này chút ít, có thể viết được đường biểu diễn toán học của nó. Đường cong hình chuông được làm mềm này không chỉ là hình ảnh hóa các con số trong tam giác Pascal; mà nó còn là một phương tiện để đạt đến con số chính xác, và dễ dàng ước lượng được các số sẽ xuất hiện trong tam giác ở các đường thấp hơn. Đó là phát hiện của De Moivre. 

Ngày nay, đường cong hình chuông thường được gọi là phân phối chuẩn, và đôi khi được gọi là phân phối Gaussian (trong phần sau chúng ta sẽ tìm hiểu nguồn gốc của thuật ngữ này). Thực tế, phân phối chuẩn không phải là một đường cố định, mà là một tập hợp các đường, trong đó vị trí và hình dáng của mỗi đường phụ thuộc vào hai tham số. Tham số thứ nhất xác định vị trí của đỉnh, tương ứng với các điểm 5, 50, 500 trong các hình ở trang sau. Tham số thứ hai xác định số lượng điểm trên đường cong. Mặc dù cho đến trước năm 1894, phương pháp đo lường này chưa được gọi tên như ngày nay nhưng nó đã được gọi là độ lệch chuẩn. Về mặt lý thuyết, khái niệm tương ứng với nó như tôi đã trình bày ở trên, chính là độ lệch chuẩn mẫu. Nói một cách gần chính xác thì nó là một nửa độ dày của đường cong tại điểm đường cong đạt khoảng 60% độ cao tối đa. Ngày nay, tầm quan trọng của phân phối chuẩn đã vượt xa khỏi việc sử dụng trong tính xấp xỉ các con số của tam giác Pascal. Thực tế, nó là một phương pháp phổ biến để tính cách phân phối của dữ liệu.

Các cột trong các biểu đồ trên đây thể hiện độ lớn của các số ở các hàng thứ 10, 100, và 1000 của tam giác Pascal (xem trang ….). Các số dọc nằm trên trục hoành chỉ các con số tương ứng của cột. Theo thông lệ, dãy số này bắt đầu từ 0 chứ không bắt đầu từ 1 (các đồ thị ở giữa và cuối cùng đã được rút gọn để cho các cột có chiều cao gần nhau không được thể hiện trên hình vẽ). 

Khi được áp dụng vào việc mô tả tính phân phối của dữ liệu, đường cong hình chuông mô tả hầu hết các kết quả rơi vào điểm xung quanh trung vị, được biểu diễn bằng đỉnh của đường cong. Hơn nữa, do có hình dạng dốc xuống đối xứng về hai phía, đường cong này mô tả số lượng các quan sát giảm đều trên và dưới trung vị, ban đầu giảm mạnh và sau đó giảm dần. Trong bộ dữ liệu tuân theo phân phối chuẩn, khoảng 68% (gần 2/3) các quan sát sẽ rơi vào 1 đơn vị lệch chuẩn của trung vị, khoảng 95% rơi vào 2 đơn vị lệch chuẩn và 99,7% rơi vào 3 đơn vị. 

Để hình ảnh hóa kết quả này, xem hình ở phía dưới. Trong bảng này dữ liệu được đánh dấu hình vuông, thể hiện phán đoán của 300 sinh viên, mỗi người quan sát một loạt 10 lần tung đồng xu. Trục hoành biểu diễn số các phán đoán đúng, từ 0 đến 10. Trục tung biểu diễn số sinh viên đạt được số lượng lần đoán đúng tương ứng. Đường cong có dạng hình chuông, trung điểm là 5 lần đoán đúng, tại điểm này có chiều cao tương ứng là 75 sinh viên. Đường cong rơi vào khoảng 2/3 độ cao tối đa, tương ứng với 51 sinh viên, phía bên trái tương ứng mức từ 3 đến 4 lần đoán trúng, và phía bên phải tương ứng với 6 đến 7 lần đoán đúng. Đường cong hình chuông với độ lệch chuẩn như vậy là điển hình của một quá trình ngẫu nhiên như quá trình dự đoán kết quả của việc tung đồng xu. 

Biểu đồ tương tự cũng thể hiện một bộ số liệu khác, được đánh dấu hình tròn. Bộ dữ liệu này mô tả hoạt động của các nhà quản lý quỹ tương hỗ. Trong trường hợp này, trục hoành không mô tả những phán đoán sai về hai mặt đồng xu, mà biểu diễn số năm công tác của người quản lý vượt trên mức trung bình của nhóm (số năm này chạy trong khoảng 10). Các lưu ý cũng tương tự. Chúng ta sẽ quay trở lại ví dụ này trong chương 9.

Một cách tốt để cảm nhận mối liên hệ giữa phân phối chuẩn và sai số ngẫu nhiên là xem xét quá trình bầu cử hoặc lấy mẫu. Có thể xem xét lại việc bầu cử đã trình bày trong chương 5 của thị trưởng Basel. Tại thành phố này một số lượng nhỏ các cử tri ủng hộ thị trưởng, và một phần khác thì không. Để đơn giản hóa, chúng ta sẽ giả sử mỗi bên là 50%. Như chúng ta thấy, những người tham gia bỏ phiếu sẽ không phản ánh đúng tỷ lệ 50/50. Thực tế, nếu N cử tri được hỏi, sẽ có xác suất số lượng người ủng hộ thị trưởng trùng với tỷ lệ những con số trong dòng N của tam giác Pascal. Và do đó, theo như công trình của De Moivre, nếu những người tổ chức bầu cử thu hút được một lượng lớn cử tri, xác suất các kết quả bầu cử khác nhau có thể được mô tả bởi phân phối chuẩn. Nói cách khác, khoảng 95% số lần tiến hành sẽ rơi vào khoảng 2 đơn vị lệch chuẩn so với tỷ lệ chính xác là 50%. Các nhà tổ chức bầu cử sử dụng thuật ngữ giới hạn sai số để mô tả phần bất định này. Khi những người tổ chức bầu cử thông báo với giới truyền thông rằng giới hạn sai số của cuộc bầu cử là cộng trừ 5%, điều đó có nghĩa là nếu họ lặp lại cuộc bầu cử nhiều lần, thì 19 trong số 20 lần đó (tương ứng với khoảng 95%) kết quả sẽ rơi vào khoảng 5% kết quả chuẩn. (Mặc dù các nhà tổ chức bầu cử hiếm khi đưa ra kết quả này, nhưng điều đó cũng có nghĩa rằng, trong số 20 lần tiến hành sẽ có 1 lần kết quả cực kỳ không chính xác). Theo kinh nghiệm, cỡ mẫu 100 sẽ có giới hạn sai số quá lớn đối với hầu hết mọi mục đích. Mặc khác, cỡ mẫu 1.000 thường đạt giới hạn sai số khoảng 3%, mức phù hợp cho hầu hết các mục đích. 

Khi đánh giá bất cứ cuộc khảo sát hay bầu cử nào, việc nhận thấy sự sai số đó khi nó được thực hiện thực hiện lại là rất quan trọng, và lúc đó chúng ta nên mong các kết quả sẽ thay đổi. Ví dụ, nếu trên thực tế 40% các cử tri đã đăng ký chấp thuận cách điều hành công việc của tổng thống, thì dường như trong sáu cuộc khảo sát độc lập, các số sẽ là 37, 39, 39, 40, 42 và 42, chứ không phải là sáu cuộc khảo sát đều đưa ra kết quả như nhau là 40% ủng hộ tổng thống. (Trên thực tế,sáu con số trên là kết quả của sáu cuộc bỏ phiếu bầu cử độc lập về việc phê duyệt công việc của tổng thống trong hai tuần đầu của tháng Chín năm 2006). Đó là lý do tại sao, giống như nguyên tắc ngón tay cái khác, bất kỳ sự biến thiên nào trong giới hạn sai số nào cũng có thể được bỏ qua. Mặc dù tạp chí New York Times không chạy tít “Việc làm và Lương tăng khiếm tốn vào lúc 2 giờ chiều”, nhưng những tít báo tương tự cũng khá phổ biến trong các báo cáo về bầu cử chính trị. Ví dụ, sau hội nghị toàn quốc đảng Cộng hòa năm 2004, CNN chạy tít “Rõ ràng Bush tăng điểm rất khiêm tốn”. Các chuyên gia của CNN giải thích rằng “Việc vận động của Bush tăng lên được 2% số điểm… Tỷ lệ những cử tri có khả năng sẽ chọn tổng thống từ 50 ngay trước khi cuộc họp diễn ra tăng lên 52 ngay sau đó.” Chỉ sau đó nhà báo mới chú thích rằng giới hạn sai số của cuộc bầu cử là cộng trừ 3,5% số điểm, nghĩa là tin tức được đưa thực chất là vô nghĩa. Rõ ràng là từ rõ ràng trong phóng sự của CNN có nghĩa là “rõ ràng là không khiêm tốn”.

Với rất nhiều cuộc bầu cử, giới hạn sai số ở mức trên 5% được xem là không thể chấp nhận được, tuy vậy, trong đời sống hàng ngày, chúng ta đưa ra đánh giá dựa trên bộ dữ liệu nhỏ hơn như vậy rất nhiều. Con người không có được 100 năm để chơi bóng chuyền chuyên nghiệp, đầu tư vào 100 khu căn hộ, hay khởi động 100 công ty sản xuất bánh kẹo. Và vì thế khi chúng ta đánh giá thành công của những việc làm này, chúng ta đánh giá chỉ dựa trên một vài điểm dữ liệu. Một đội bóng bầu dục có nên đầu tư 50 nghìn đô-la để mua một cầu thủ chỉ để có một năm tỏa sáng? Khả năng một người môi giới chứng khoán muốn rút tiền từ ví của bạn lại dùng cách cũ như đã dùng với người khác là bao nhiêu? Thành công của một nhà sáng chế giàu có khi thành công với trình duyệt sea monkey có đồng nghĩa với việc anh ta có nhiều cơ hội thành công với các ý tưởng mới về invisible goldfish hay instant frog hay không? (Theo ghi chép là không). Khi quan sát một thành công hay thất bại, chúng ta quan sát một điểm của bộ dữ liệu, một mẫu ở dưới đường cong hình chuông mô tả các tiềm năng đã từng có. Chúng ta không biết liệu một quan sát riêng lẽ của chúng ta có đại diện cho trung vị, một sự kiện để dự đoán, một trường hợp ngoại lai hay chỉ là một khả năng hiếm xảy ra mà dường như không bao giờ lặp lại. Nhưng ít nhất chúng ta cũng phải nhận thức được rằng một điểm mẫu chỉ là một điểm mẫu, và không chỉ chấp nhận nó đơn giản như thực tế, chúng ta cũng cần phải nhìn nhận nó trong bối cảnh của độ lệch chuẩn hay độ rộng của xác xuất sẽ diễn ra nó. Một loại rượu có thể được chấm 91 điểm, nhưng con số này là vô nghĩa nếu chúng ta không có ước lượng về sự biến thiên có thể xuất hiện nếu một mẫu rượu tương tự được đem ra chấm đi chấm lại hoặc được đánh giá bởi những người khác nhau. Lấy ví dụ minh họa cho điều này, vài năm trước, cả hai tạp chí The Penguin Good Australian Wine Guide và Australian Wine Annual đều đánh giá loại rượu nho chính vụ năm 1999 của Mitchelton Blackwood Park Riesling. Penguin guide gắn cho loại rượu này đánh giá ở hạng năm sao (tối đa) và gọi nó là Loại rượu tốt nhất trong năm. Trong khi đó On Wine đánh giá loại rượu này ở cuối bảng xếp hạng, ngầm hiểu rằng đây là loại rượu tồi tệ nhất được sản xuất trong thập kỷ. Phân phối chuẩn không chỉ giúp chúng ta hiểu được những khác biệt này, mà còn giúp cho hàng loạt các ứng dụng thống kê được sử dụng rộng rãi ngày nay, trong các lĩnh vực khoa học và thương mại. Ví dụ, khi một công ty dược phẩm cần đánh giá kết quả của một thử nghiệm lâm sàng có hữu hiệu hay không, nhà sản xuất sẽ thẩm định xem liệu một mẫu gồm các phần có phản ánh chính xác tỷ lệ các sản phẩm lỗi hay một nhà nghiên cứu thị trường quyết định liệu có hành động dựa vào các kết quả của một cuộc khảo sát nghiên cứu hay không. 

SỰ THỪA NHẬN việc phân phối chuẩn mô tả phân bố sai số đo lường xuất hiện đã hàng thập kỷ sau công trình của De Moivre, được viết bởi một đồng nghiệp mà tên tuổi của ông còn gắn liền với đường cong hình chuông, nhà toán học người đức Carl Friedrich Gauss. Khi nghiên cứu về chuyển động của hành tinh, Gauss đã phát hiện ra điều đó, ít nhất là những điều liên quan đến đo lường thiên văn học. Tuy nhiên “bằng chứng” của Gauss, như chính ông thừa nhận, là không có căn cứ. Hơn nữa, ông cũng không kiểm soát được những hệ quả sâu rộng của nó. Và do vậy ông kín đáo đưa định luật vào phần cuối cuối sách The Theory of the Motion of Heaven Bodies Moving about the Sun in Conic Sections (Lý thuyết về sự chuyển động của các thiên thể quanh mặt trời theo tiết diện hình nón). Cuốn sách có thể đã rơi vào quên lãng, chỉ là một phần trong hàng chồng ngày càng cao các đề xuất bị bỏ qua vì quy luật sai số.

Chính Laplace là người đã đưa phân phối chuẩn ra ánh sáng. Năm 1810, ông được tiếp cận công trình của Gauss, ngay sau khi ông đọc một ký sự gửi tới Académie des Sciences (Học viện Khoa học) để chứng minh một định luật gọi là định luật giới hạn trung tâm, trong đó nói rằng xác suất tổng của một lượng lớn các yếu tố ngẫu nhiên độc lập nhận giá trị cụ thể nào đó được phân phối theo phân phối chuẩn. Ví dụ, giả sử bạn nướng 100 ổ bánh mì, mỗi lần theo một công thức để tạo ra ổ bánh mì có trọng lượng 1.000g. Ngẫu nhiên, đôi khi bạn cho ít hơn hoặc nhiều hơn một chút bột hoặc sữa, tức sẽ có ít hơn hoặc nhiều hơi ẩm hơn thoát ra trong lò nướng. Nếu cuối cùng mỗi nguyên nhân trong vô số các nguyên nhân có thể thêm vào hoặc trừ đi vài gam, thì định luật giới hạn trung tâm nói rằng trọng lượng các ổ bánh mì dao động theo phân phối chuẩn. Khi đọc công trình của Gauss, Laplace ngay lập tức nhận ra rằng ông có thể sử dụng nó để phát triển hơn luận điểm của bản thân và công trình của ông có thể đưa ra luận cứ tốt hơn của Gauss nhằm ủng hộ quan điểm phân phối chuẩn thực sự là quy luật sai số. Laplace vội vã đưa thêm một đoạn ngắn vào chuyên luận về định luật này. Ngày nay, định luật giới hạn trung tâm và quy luật các số lớn là hai kết quả quan trọng nhất của lý thuyết ngẫu nhiên.

Để minh họa cách giải thích của định luật giới hạn trung tâm về lý do tại sao phân phối chuẩn là quy luật sai số đúng, hãy xem lại ví dụ của Daniel Bernoulli về người bắn cung. Tôi đã đóng vai người bắn cung vào một đêm sau khi uống rượu cùng bạn bè. Khi đó con trai thứ của tôi, Nicolai, đưa cho tôi một cái cung, một mũi tên và đố tôi bắn xuyên qua quả táo đặt trên đầu nó. Mũi tên có một đỉnh bằng bọt biển mềm, nhưng vẫn rất có lý để tôi phân tích các sai số có thể xảy ra và mức độ chắc chắn của chúng. Vì tất cả những nguyên nhân rõ rệt, tôi chủ yếu lo lắng về lỗi theo chiều dọc. Một mô hình lỗi đơn giản là: mỗi nhân tố ngẫu nhiên – giả sử, một sai số trông thấy, tác động của luồng không khí… – sẽ khiến phát bắn của tôi chệch theo chiều dọc, cho dù cao hay thấp, với xác suất bằng nhau. Do đó, sai số tổng mục tiêu của tôi là tổng các sai số. Nếu tôi may mắn, khoảng nửa các sai số thành phần sẽ làm chệch mũi tên hướng lên và xuống dưới một nửa, và phát bắn của tôi sẽ trúng đích. Nếu tôi không may (hoặc nếu con trai tôi không may), tất cả các sai số sẽ tập trung lại và mục tiêu của tôi sẽ bị chệch, cho dù cao hay thấp. Vậy mức độ chắc chắn rằng các sai số sẽ loại trừ nhau, hoặc rằng chúng sẽ cộng thành số lớn nhất, hoặc rằng chúng sẽ cộng thành bất cứ giá trị nào nằm giữa, là bao nhiêu? Nhưng đó chỉ là một quy trình Bernoulli – giống như tung đồng xu và hỏi mức độ chắc chắn rằng việc tung đồng xu sẽ cho ra kết quả là một tỷ lệ xác định về các mặt ngửa. Câu trả lời đã được thể hiện trong tam giác Pascal hoặc bằng phân phối chuẩn, nếu có nhiều phép thử. Và trong trường hợp này, đó chính xác là điều định luật giới hạn trung tâm cho chúng ta biết. (Rút cuộc, tôi bắn trượt cả quả táo lẫn cậu con trai, nhưng làm vỡ kính của cái tủ rất đẹp).

Cho tới những năm 1830, đa số nhà khoa học đã tin rằng mọi phép đo lường là sự phức hợp, phụ thuộc vào rất nhiều độ lệch và do đó có quy luật sai số. Quy luật sai số và định luật giới hạn trung tâm từ đó hỗ trợ những nghiên cứu mới và sâu hơn về dữ liệu và những thứ liên quan trong điều kiện tự nhiên. Trong thế kỷ tiếp theo, các học giả quan tâm tới xã hội loài người đồng thời nắm lấy những tư tưởng này và vô cùng ngạc nhiên trước sự đa dạng trong tính cách và hành vi của con người cũng biểu thị dạng mẫu như sai số trong đo lường. Do đó họ thử mở rộng ứng dụng của quy luật sai số từ khoa học vật lý sang một khoa học mới về các vấn đề con người. 


Bạn có thể dùng phím mũi tên để lùi/sang chương. Các phím WASD cũng có chức năng tương tự như các phím mũi tên.