Nạn lụt thông tin

Phạm Văn Thiều dịchTuổi trẻ cuối tuần
09:33' SA - Thứ hai, 23/10/2017

Đầu năm nay, nhà báo khoa học nổi tiếng James Gleick (*) đã cho ra mắt Thông tin: một lịch sử, một lý thuyết và một nạn lụt - cuốn sách gây xôn xao dư luận. Nhà vật lý lỗi lạc 87 tuổi Freeman Dyson đã có bài giới thiệu súc tích lột tả được những ý tưởng tinh tế và cơ bản nhất của cuốn sách. TTCT trích giới thiệu bài viết này của Freeman Dyson qua bản dịch của phó tổng thư ký Hội Vật lý Việt Nam Phạm Văn Thiều.

Kỳ 1: Những chiếc trống biết nói

Các nhà thám hiểm châu Âu từ lâu đã biết rằng những tiếng trống khoan nhặt ở châu Phi mang các thông điệp bí ẩn xuyên qua những cánh rừng rậm nhiệt đới.

Họ đã tới những ngôi làng chưa từng có người châu Âu nào đặt chân tới, không báo trước mà cũng chẳng có cách nào để báo. Vậy mà đến nơi họ thấy những người cao tuổi trong làng đã chuẩn bị đâu vào đấy để đón tiếp.

Từ xa xưa, người châu Phi đã biết dùng
tiếng trống truyền thông tin

Từ ngôn ngữ tiếng trống châu Phi

Thật buồn thay, ngôn ngữ trống chỉ được hiểu và được ghi lại bởi một người châu Âu duy nhất trước khi nó sắp sửa biến mất. Người châu Âu đó là John Carrington, nhà truyền giáo người Anh sống gần như trọn đời ở châu Phi và thông thạo cả ngôn ngữ Kele ở Congo lẫn ngôn ngữ trống. Ông tới châu Phi năm 1938 và công bố những phát hiện của mình trong cuốn sách Những chiếc trống biết nói ở châu Phi năm 1949.

Trước khi người châu Âu tới với những con đường và máy thu thanh của họ, những người châu Phi nói tiếng Kele đã dùng ngôn ngữ trống truyền thông tin nhanh từ làng này sang làng khác trong những cánh rừng nhiệt đới. Mỗi làng có một tay trống điêu luyện và mọi người trong làng đều hiểu những tiếng trống muốn nói gì. Vào thời gian ông Carrington viết cuốn sách của mình, việc dùng ngôn ngữ trống đã tàn phai và học sinh ở trường không còn học nó nữa. Suốt 60 năm kể từ sau phát hiện của Carrington, điện thoại đã làm ngôn ngữ trống trở nên lỗi thời và hoàn tất quá trình tuyệt diệt của nó.

Thông tin độc lập với ý nghĩa mà nó biểu đạt và cũng độc lập với ngôn ngữ được dùng để biểu đạt nó. Thông tin là một khái niệm trừu tượng, có thể được thể hiện một cách bình đẳng dưới dạng tiếng nói của con người hay dưới dạng viết hoặc tiếng trống.

Kele là một ngôn ngữ thanh điệu với hai giọng phân biệt rõ rệt. Mỗi một âm tiết hoặc là giọng cao hoặc là giọng thấp. Ngôn ngữ trống được “nói” bằng một cặp trống với cùng hai giọng. Mỗi một từ Kele được “nói” bằng tiếng trống dưới dạng một dãy những tiếng đánh cao và thấp. Khi chuyển từ tiếng Kele tới ngôn ngữ trống, toàn bộ thông tin chứa trong các nguyên âm và phụ âm đều bị mất hết.

Trong một ngôn ngữ châu Âu, các phụ âm và nguyên âm chứa đựng toàn bộ thông tin và nếu thông tin này bị rơi rụng sẽ chẳng còn lại gì hết. Nhưng trong một ngôn ngữ thanh điệu như tiếng Kele, một số thông tin được mang trong giọng nói (thanh điệu) nên còn “sống sót” khi chuyển từ tiếng người sang tiếng trống. Một dãy các thanh điệu (tức là dãy tiếng trống cao hay thấp) có thể ứng với hàng trăm nghĩa tùy thuộc vào số các nguyên âm và phụ âm đã bị mất. Ngôn ngữ trống phải giải quyết sự mơ hồ về nghĩa này của một từ bằng cách thêm vào nhiều từ hơn. Khi số từ dôi dư được thêm vào đủ thì ý nghĩa của từ sẽ trở nên duy nhất.

Trung bình cần phải có tám từ ngôn ngữ trống để truyền đi một từ tiếng Kele mà không bị hiểu nhầm nghĩa. Theo các nhà toán học phương Tây, chỉ có 1/8 thông tin trong tiếng Kele được ngôn ngữ trống truyền đi. Sự dôi dư các cụm từ trong ngôn ngữ trống cốt để bù lại sự mất mát thông tin chứa trong các nguyên âm và phụ âm. Những người đánh trống ở châu Phi không biết gì về toán học phương Tây, nhưng đã tìm ra mức độ dôi dư chuẩn xác ngôn ngữ trống của họ nhờ phương pháp thử và sai.

Câu chuyện về ngôn ngữ trống minh họa cho một “giáo lý” trung tâm của lý thuyết thông tin. “Giáo lý” này nói rằng: “Ý nghĩa là không quan yếu”. Thông tin độc lập với ý nghĩa nó biểu đạt và cũng độc lập với ngôn ngữ được dùng để biểu đạt nó. Thông tin là một khái niệm trừu tượng, có thể được thể hiện một cách bình đẳng dưới dạng tiếng nói của con người hay dưới dạng viết hoặc tiếng trống.

Tất cả những thứ cần thiết để truyền thông tin từ ngôn ngữ này sang ngôn ngữ khác là một hệ thống mã hóa. Một hệ thống mã hóa có thể đơn giản, nhưng cũng có thể phức tạp. Nếu mã là đơn giản, như đối với ngôn ngữ trống với hai thanh điệu, thì một lượng thông tin đã cho đòi hỏi phải có một thông điệp dài hơn. Còn nếu mã là phức tạp, như ngôn ngữ nói chẳng hạn, thì cũng lượng thông tin đó có thể được chuyển tải trong một thông điệp ngắn hơn.

Và nhờ Internet, việc truyền và nhận thông tin đã làm thế giới xích lại gần nhau hơn

Đến hệ thống truyền tin Pháp

Một ví dụ khác soi sáng cho “giáo lý” trung tâm là hệ thống truyền tin quang học thời Cách mạng Pháp. Cho đến tận năm 1793, những người đánh trống châu Phi đã vượt trước những người châu Âu trong khả năng truyền thông tin nhanh trên những khoảng cách xa.

Năm 1793, Claude Chappe, một công dân Pháp yêu nước muốn củng cố khả năng quốc phòng của chính phủ cách mạng, đã phát minh một phương tiện mà ông gọi là hệ thống truyền tin đi xa. Đó là một hệ thống truyền tin quang học gồm các trạm có những con trỏ lớn phát sáng, có thể di động, được lắp trên đỉnh tháp cao tới 18m. Mỗi trạm có một nhân viên vận hành, người có thể hiểu được các thông điệp được gửi tới từ các trạm lân cận và truyền tiếp thông điệp đó tới trạm tiếp theo trên đường truyền.

Không giống như ngôn ngữ trống dựa trên ngôn ngữ nói, hệ thống truyền tin quang học của ông Chappe dựa trên tiếng Pháp viết. Ông đã phát minh một hệ thống mã hóa tinh xảo để dịch những văn bản thành các tín hiệu quang học. Và ở đây ông Chappe gặp phải vấn đề ngược với những người đánh trống. Những người đánh trống có hệ thống truyền tin nhanh nhưng các thông điệp nhận được lại mơ hồ, dễ nhầm lẫn. Họ cần phải làm chậm quá trình truyền bằng cách kéo dài thông điệp với những từ dôi dư để thông điệp không còn mơ hồ nữa. Trong khi đó, ông Chappe lại có hệ thống truyền quá ư chậm chạp do có quá nhiều các từ dư thừa.

Tiếng Pháp, cũng như hầu hết thứ tiếng dùng bảng chữ cái khác, có độ dôi dư rất cao vì dùng nhiều chữ cái hơn mức cần thiết để chuyển tải ý nghĩa của một thông điệp. Hệ thống mã của ông đã cho phép các thông điệp được truyền đi nhanh hơn. Nhiều cụm từ hay các tên riêng được mã hóa chỉ bằng hai ký hiệu quang học, và điều này đã làm tốc độ truyền nhanh lên đáng kể.

Máy truyền tín hiệu Morse

Và hệ thống điện thoại bảo mật

Trong lịch sử thông tin hiện đại nổi lên hai gương mặt là Samuel Morse và Claude Shannon. Người thứ nhất chính là tác giả của mã Morse mà bất cứ ai từng sinh hoạt trại đều phải biết. Ông cũng là một trong những người tiên phong xây dựng hệ thống điện tín dùng điện được dẫn qua dây thay vì những con trỏ quang học được triển khai trên các đỉnh tháp. Về mặt tư tưởng, Morse chính là đối cực của Chappe. Ông không quan tâm tới chuyện giữ bí mật hay tạo ra một công cụ của chính quyền.

Hệ thống Morse được thiết kế theo nguyên tắc nhanh, rẻ, đồng thời khả dụng với mọi người. Vào lúc bắt đầu, giá tính cho một chữ cái là một phần tư xu. Những người sử dụng quan trọng nhất lúc bấy giờ là các phóng viên, họ truyền tin về những sự kiện ở các địa phương cho bạn đọc trên khắp thế giới. Mã Morse đủ đơn giản để bất kỳ ai cũng có thể học được. Nếu người dùng muốn giữ bí mật, họ có thể tạo ra mật mã riêng và mã hóa thư tín của họ. Tất nhiên, giá của những bức điện mã hóa đắt hơn giá một bức điện thường.

Còn Claude Shannon là cha đẻ của lý thuyết thông tin. Một trăm năm sau khi có điện tín, các hệ thống truyền thông khác như điện thoại, phát thanh, truyền hình đã được các kỹ sư phát minh và phát triển mà không cần tới toán học cao cấp. Sau đó, Shannon đã cung cấp một lý thuyết để hiểu được tất cả hệ thống đó, bằng cách định nghĩa thông tin như một đại lượng trừu tượng vốn có trong một thông điệp điện thoại hay một bức hình trên tivi. Ông đã đưa toán học cao cấp vào cuộc chơi.

Khi còn là cậu bé lớn lên trong một trang trại ở Michigan (Mỹ), ông đã xây dựng một hệ thống điện tín tự làm sử dụng mã Morse. Những thông điệp được truyền tới bạn bè ở các trang trại lân cận nhờ những dây thép trần, vốn dùng làm hàng rào, để dẫn các tín hiệu điện. Khi Chiến tranh thế giới thứ hai bắt đầu, Shannon trở thành một trong những người tiên phong nghiên cứu mật mã khoa học, tạo ra một hệ thống điện thoại có trình độ bảo mật cao cho phép Tổng thống Roosevelt của Mỹ và Thủ tướng Churchill của Anh có thể nói chuyện trực tiếp với nhau một cách an toàn.

Năm 1945, ông Shannon có bài viết “Lý thuyết toán học của mật mã” được đóng dấu tuyệt mật. Ba năm sau, ông cho công bố một phiên bản đã được lược bớt của bài này dưới nhan đề “Một lý thuyết toán học của truyền thông” trên tờ Bell System Technical Journal và ngay lập tức trở thành kinh điển. Nó là văn bản nền tảng của khoa học thông tin hiện đại.

Sau Shannon, công nghệ thông tin đã phát triển một cách phi mã, với các máy tính điện tử, máy ảnh kỹ thuật số, Internet và mạng toàn cầu www.


Kỳ 2: Nạn lụt thông tin

Theo James Gleick, tác động của thông tin đến hoạt động của con người diễn ra theo ba giai đoạn: trong suốt hàng ngàn năm con người tạo ra thông tin và trao đổi mà không hề có khái niệm về chuyện đo lường nó, thứ hai là lý thuyết thông tin được Shannon lần đầu tiên định nghĩa, và thứ ba là nạn lụt thông tin mà chúng ta đang sống trong đó.

Từ định luật của Gordon Moore khai sinh những “kho nhớ” khổng lồ - Ảnh: clubic.com

Nạn lụt này bắt đầu rất lặng lẽ. Sự kiện làm cho nó trở nên được nhìn thấy rõ ràng xảy ra vào năm 1965, khi Gordon Moore - vốn là một kỹ sư điện, người sáng lập Công ty Intel Corporation - phát biểu định luật mang tên ông.

Những “kho nhớ” khổng lồ

Tốc độ tăng trưởng của Wikipedia đã vượt quá những ước mơ táo bạo nhất của Jimmy Wales. Trong vòng 10 năm, nó đã trở thành một kho lưu trữ thông tin lớn nhất trên hành tinh và cũng là chiến trường của những quan điểm xung đột ầm ĩ nhất. Và điều này cũng minh họa cho một định luật của Shannon về truyền thông tin cậy. Định luật này nói rằng sự truyền chính xác thông tin là khả dĩ trong một hệ truyền thông có mức độ nhiễu cao. Ngay cả trong những hệ nhiễu nhất, các lỗi đều có thể được sửa một cách tin cậy và thông tin chính xác được truyền đi, với điều kiện sự truyền phải có đủ độ dôi dư. Đó cũng chính là cách mà Wikipedia vận hành.

Định luật Moore phát biểu rằng cứ sau mỗi 18 tháng thì giá của các linh kiện giảm và số lượng của chúng tăng với hệ số 2. Điều này hàm ý rằng giá sẽ giảm và số lượng sẽ tăng với hệ số 100 cứ sau mỗi chục năm. Tiên đoán của Moore hóa ra là chính xác một cách đáng ngạc nhiên trong suốt 45 năm kể từ khi nó được phát biểu. Trong 45 năm đó, giá đã giảm và số lượng đã tăng với hệ số 1 tỉ (109). Mười lũy thừa chín là thừa sức để biến một lạch nước nhỏ thành một nạn lụt!

Gordon Moore làm việc trong doanh nghiệp phần cứng, nghĩa là làm ra những linh kiện cứng cho các máy móc điện tử, và ông phát biểu định luật của mình với tư cách là một định luật về sự tăng trưởng của phần cứng. Nhưng định luật này cũng áp dụng được cho cả thông tin mà phần cứng được thiết kế để thể hiện nó. Mục đích của phần cứng là để lưu trữ và xử lý thông tin. Sự lưu trữ thông tin được gọi là nhớ, còn sự xử lý thông tin được gọi là tính (computing).

Hệ quả của định luật Moore áp dụng cho thông tin là giá của nhớ và tính giảm, còn lượng nhớ và tính khả dụng lại tăng với cùng một thừa số là 100 trong mỗi 10 năm. Nghĩa là nạn lụt của phần cứng đã trở thành một nạn lụt của thông tin.

Năm 1949, sau khi công bố những quy tắc của lý thuyết thông tin, Claude Shannon lập một bảng liệt kê các kho nhớ tồn tại cho tới lúc đó. Kho nhớ lớn nhất trong bảng này là Thư viện Quốc hội Mỹ, mà ông đánh giá là chứa được cỡ 100 nghìn tỉ bit thông tin. Vào thời ấy có thể nói con số đó xấp xỉ với tổng tri thức mà con người đã ghi chép được. Ngày hôm nay, một ổ đĩa nhớ lưu trữ được cũng lượng đó thông tin chỉ nặng cỡ 1kg và có thể mua với giá 1.000 đôla.

Một trong số những hoạt động sáng tạo nhờ nạn lụt này chính là từ điển Wikipedia trên mạng, được Jimmy Wales khởi thảo 10 năm trước. Điều kinh ngạc là không có nhiều người tin tưởng vào Wikipedia, nhưng mọi người lại vẫn sử dụng nó. Không tin và sử dụng có hiệu quả lại là chuyện khác. Wikipedia là một kho thông tin nguồn mở tối hậu. Nó chứa các mục từ viết bằng 262 ngôn ngữ do hàng triệu tác giả biên soạn.

Thông tin chứa trong Wikipedia không hoàn toàn tin cậy, nhưng lại chính xác một cách đáng ngạc nhiên. Nó thường không tin cậy là do nhiều người biên soạn kém hiểu biết hoặc thiếu cẩn trọng, nhưng chính xác là bởi vì các mục từ được biên tập và hiệu chỉnh bởi các độc giả có hiểu biết tốt hơn.

Jimmy Wales đã phát triển kho dữ liệu khổng lồ là Wikipedia - Ảnh: wikipedia.org

Điều bí ẩn vẫn bao la

Nạn lụt thông tin cũng mang lại những lợi ích to lớn đối với khoa học. Trẻ em thường được dạy ở trường rằng khoa học là một tập hợp những chân lý đã được xác lập một cách vững chắc. Thực tế, khoa học không phải là một tập hợp các chân lý, mà là sự khám phá liên tục những điều bí ẩn. Dù có tiến hành khám phá ở bất kỳ đâu xung quanh chúng ta cũng đều thấy nhan nhản những điều bí ẩn.

Hành tinh của chúng ta được bao phủ bởi các lục địa và đại dương mà nguồn gốc của chúng chúng ta còn chưa giải thích được. Bầu khí quyển của chúng ta thường xuyên bị khuấy động bởi những nhiễu động còn được hiểu biết rất ít, mà chúng ta gọi là thời tiết và khí hậu. Trong vũ trụ, lượng vật chất nhìn thấy được chiếm một phần nhỏ hơn rất nhiều so với vật chất tối không nhìn thấy được, đó là thứ vật chất mà chúng ta còn hoàn toàn mù tịt chưa có hiểu biết gì.

Nguồn gốc của sự sống cũng là một thứ còn hoàn toàn bí ẩn, ấy là chưa nói tới sự tồn tại của ý thức con người. Chúng ta cũng còn chưa có một ý niệm rõ ràng về chuyện những quá trình phóng điện xảy ra trong các tế bào thần kinh ở não chúng ta có liên quan như thế nào với những tình cảm, ước vọng và hành động của chúng ta.

Sự tăng nhanh chóng của nạn lụt thông tin trong 10 năm trở lại đây đã làm cho việc biên soạn Wikipedia trở nên khả thi và cũng chính nạn lụt đó đã làm khoa học của thế kỷ 21 trở nên có thể phát triển được. Khoa học thế kỷ 21 bị ngự trị bởi những kho thông tin khổng lồ mà chúng ta thường gọi là các cơ sở dữ liệu.

Ví dụ về một cơ sở dữ liệu của thế kỷ 21 đó là tập hợp các trình tự hệ gen của các cơ thể sống thuộc tất cả các loài, từ các vi sinh vật cho tới con người. Mỗi một hệ gen chứa một thông tin di truyền hoàn chỉnh tạo nên hình hài của sinh vật chứa hệ gen đó. Cơ sở dữ liệu hệ gen đang tăng trưởng rất nhanh chóng và khả dụng cho tất cả các nhà khoa học trên khắp thế giới tha hồ khám phá. Nguồn gốc của cơ sở này có thể coi là bắt nguồn từ năm 1939 khi Shannon viết luận án tiến sĩ với nhan đề “Một đại số của di truyền học lý thuyết”.

Khi đó Shannon là nghiên cứu sinh thuộc khoa toán của Học viện Công nghệ Massachussets (MIT). Ông đã lờ mờ ý thức được về sự thể hiện vật lý của thông tin di truyền. Mười bốn năm sau, thể hiện vật lý đích thực của hệ gen chính là cấu trúc chuỗi xoắn kép của phân tử ADN do Francis Crick và James Watson phát hiện. Năm 1939 Shannon đã hiểu được rằng cơ sở của di truyền phải là thông tin, và thông tin đó phải được mã hóa dưới dạng một đại số trừu tượng nào đó độc lập với thể hiện vật lý của nó.

Do không có hiểu biết gì về chuỗi xoắn kép nên Shannon không thể có hi vọng đoán ra được cấu trúc chi tiết của mã di truyền. Ông chỉ có thể hình dung được rằng trong một tương lai xa, thông tin di truyền sẽ được giải mã và thu thập thành một cơ sở dữ liệu khổng lồ, một cơ sở dữ liệu có thể xác định toàn bộ sự phong phú đa dạng của các sinh vật sống.

Thực tế, chỉ mất có 60 năm, ước mơ của ông đã trở thành hiện thực.

Trong thế kỷ 20, hệ gen của người và các loài khác đã được cần mẫn giải mã và được dịch thành những trình tự chữ cái được lưu trong các bộ nhớ máy tính. Với thời gian, việc giải mã và dịch trở nên rẻ hơn và nhanh hơn, giá giảm và tốc độ tăng theo đúng định luật Moore. Hệ gen đầu tiên của con người phải giải mã mất 15 năm với giá 1 tỉ đôla. Giờ đây hệ gen của một người có thể giải mã trong ít tuần với giá vài ngàn đôla.

Vào khoảng năm 2000 người ta đã đạt tới điểm ngoặt khi mà việc tạo ra thông tin di truyền còn rẻ hơn là hiểu được nó. Giờ đây ta có thể chuyển một mẩu ADN của người qua máy và nhanh chóng đọc được thông tin di truyền, nhưng không thể đọc được ý nghĩa của thông tin đó. Và chúng ta sẽ hoàn toàn không thể hiểu được thông tin chừng nào chúng ta chưa hiểu được những quá trình phát triển của bào thai mà ADN đã chỉ huy tạo ra chúng ta đúng như chúng ta trên thực tế.

Sự tăng trưởng có tính cách bùng nổ của thông tin trong xã hội chúng ta là một bộ phận của sự tăng trưởng chậm hơn của những cấu trúc có trật tự trong sự tiến hóa của sự sống. Sự sống đã có cả hàng tỉ năm tiến hóa với các cơ thể và các hệ sinh thái thể hiện sự tăng trưởng của thông tin. Mà quá trình tiến hóa của sự sống lại là một bộ phận của sự tiến hóa của vũ trụ. Vũ trụ cũng tiến hóa với những lượng tăng của thông tin được thể hiện ở những cấu trúc có trật tự, như các thiên hà và các vì sao cũng như các hệ hành tinh.

Sự tăng trưởng nhìn thấy được của các cấu trúc có trật tự trong vũ trụ dường như mâu thuẫn với các nhà khoa học và triết học thế kỷ 19 với học thuyết chết nhiệt của họ.

Huân tước Kelvin, một trong số những nhà vật lý hàng đầu của thời gian đó, đã đưa ra “giáo lý” về sự chết nhiệt cho rằng sự truyền nhiệt từ những vật nóng hơn sang những vật lạnh hơn sẽ làm cho sự chênh lệch nhiệt độ ở khắp nơi giảm xuống cho tới khi toàn bộ các nhiệt độ cuối cùng sẽ trở nên bằng nhau. Mà sự sống lại cần tới sự chênh lệch nhiệt độ, để tránh khỏi chết ngạt bởi nhiệt thải của nó. Và như vậy thì sự sống sẽ biến mất.

Trong lĩnh vực thiên văn, khi nhiệt chảy từ vật nóng hơn sang vật lạnh hơn thì vật nóng sẽ trở nên nóng hơn và vật lạnh sẽ trở nên lạnh hơn. Kết quả là hiệu nhiệt độ trong vũ trụ thiên văn có xu hướng tăng chứ không phải giảm theo thời gian. Sẽ không có trạng thái cuối cùng với nhiệt độ đồng đều, và như vậy có nghĩa là sẽ không có sự chết nhiệt.

Thông tin và trật tự có thể còn tiếp tục tăng hàng tỉ năm nữa trong tương lai như chúng rõ ràng đã tăng trong quá khứ.

Nạn lụt thông tin
ChúngTa.com @ Facebook
Thống kê truy cập
Số lượt truy cập: .
Tổng số người truy cập: .
Số người đang trực tuyến: .
.
Sponsor links (Provided by VIEPortal.net - The web cloud services for enterprises)
Thiết kế web, Thiết kế website, Thiết kế website công ty, Dịch vụ thiết kế website, Dịch vụ thiết kế web tối ưu, Giải pháp portal cổng thông tin, Xây dựng website doanh nghiệp, Dịch vụ web bán hàng trực tuyến, Giải pháp thương mại điện tử, Phần mềm dịch vụ web, Phần mềm quản trị tác nghiệp nội bộ công ty,