Google và Khoa học Văn Hóa

Google mới đây đã bất ngờ trình làng một cơ sở dữ liệu ngôn ngữ đồ sộ được trích xuất từ gần 5,2 triệu cuốn sách điện tử. Cơ sở dữ liệu số cực lớn này có thể thay đổi hiểu biết của chúng ta về ngôn ngữ, văn hóa và các luồng ý tưởng như thế nào. Đây là một cơ hội tốt cho khoa học và cho cả Google.

Khoa học Văn hóa chỉ đơn giản cung cấp các thông tin. Sau đó, việc diễn giải thế nào đều phụ thuộc vào các học giả…

Siêu từ điển chứa 500 tỉ từ

Cuốn siêu từ điển bao gồm 500 tỉ từ và cụm từ được dùng trong những cuốn sách ra đời từ năm 1500 đến 2008 bằng các thứ tiếng: Anh, Pháp, Tây Ban Nha, Đức, Trung Quốc và Nga. Có thể nói, đây là lần đầu tiên trong lịch sử một kho dữ liệu với tầm cỡ và công cụ tìm kiếm như vậy được mở ra hoàn toàn miễn phí trước mắt các nhà nghiên cứu, các học sinh, sinh viên hay bất cứ người nào tâm huyết với các vấn đề nhân văn học.

Đối tượng người dùng mà Google nhắm đến khi giới thiệu bộ dữ liệu này chủ yếu là các học giả. Tuy nhiên, Google còn phát triển một công cụ trực tuyến đơn giản cho phép bất cứ ai với một chiếc máy tính cũng có thể đăng nhập vào kho dữ liệu để tìm hiểu về một cụm từ và cách sử dụng nó qua các thời kỳ khác nhau. Đây được coi là một trong những chức năng “gây nghiện” của Google và dự đoán sẽ trở thành thói quen của người sử dụng mạng.

Chỉ với một cú nhắp chuột, bạn có thể thấy rằng từ “phụ nữ” rất hiếm khi được nhắc đến so với từ “nam giới” cho đến tận đầu những năm 1970, khi nữ giới bắt đầu giành được quyền bình đẳng cho mình. Mức độ sử dụng đối với hai từ này chỉ cân bằng khi bước sang năm 1986.

Bạn cũng có thể biết chuột Mickey và diễn viên Marilyn Monroe không được chú ý nhiều trên sách báo bằng tổng thống Jimmy Carter; và cụm từ “quảng trường Thiên An Môn” được nhắc đến nhiều lần bằng tiếng Anh hơn là bằng tiếng Trung kể từ sau năm 1989; hay từ “nướng” ngày càng được ưa chuộng kể từ cuối những năm 1990 và vượt mặt hai từ “quay” và “rán” vào năm 2004.

Erez Lieberman Aiden và Jean-Baptiste Michel, hai nghiên cứu sinh thuộc Hiệp hội nghiên cứu sinh Harvard, đã cùng nhau tích hợp bộ dữ liệu trên với công cụ tìm kiếm của Google để tiên phong thực hiện một dự án nghiên cứu nhằm cho thấy các cơ sở dữ liệu số cực lớn có thể thay đổi hiểu biết của chúng ta về ngôn ngữ, văn hóa và các luồng ý tưởng như thế nào.

Lieberman cho hay: “Mục tiêu của chúng tôi là làm sao để một đứa bé 8 tuổi cũng có thể tìm thấy các xu hướng văn hóa qua các thời kỳ lịch sử từ trong các cuốn sách.”

Lieberman nói: “Chúng tôi muốn chỉ ra những khả năng vô tận khi chúng ta áp dụng các phương pháp phân tích dữ liệu cấp cao để giải đáp những câu hỏi trong các vấn đề nhân văn học.” Lĩnh vực chuyên môn của Lieberman là Khoa học Gen và Toán Ứng Dụng. – Anh gọi phương pháp của mình là “Khoa học Văn Hóa.”

Sẽ nhanh chóng được sử dụng trên toàn cầu?

Steven Pinker – một nhà ngôn ngữ học tại trường Đại học Harvard – đã nghiên cứu các thay đổi trong ngữ pháp và các dạng thức của thì quá khứ trong suốt 20 năm qua.

Steven cho biết: “Khi nhìn thấy bộ dữ liệu này, tôi cảm thấy mình tràn đầy nhiệt huyết. Trước đây mọi thứ đều không rõ ràng. Chúng tôi phải tự tưởng tượng những điều đã xảy ra với các ngôn ngữ.”

Thông tin mà Steven có thể rút ra từ cơ sở dữ liệu của Google “sẽ khiến các kết quả nghiên cứu thuyết phục hơn và trọn vẹn hơn.”

Mặc dù vẫn còn nhiều ngần ngại trong việc phân tích một cách định lượng các vấn đề về khoa học nhân văn, song Steven tin tưởng bộ dữ liệu trên sẽ nhanh chóng được sử dụng “trên toàn cầu.”

Louis Menand, giáo sư dạy tiếng Anh tại Harvard phát biểu: “Nói chung việc sở hữu một cơ sở dữ liệu như thế là rất tuyệt.” Tuy nhiên, ông cũng cảnh báo rằng, trong lịch sử văn hóa, “đôi khi một số phát biểu thường được cường điệu hóa.”

Alan Brinkley, giáo sư lịch sử Mỹ cho rằng còn quá sớm để kết luận những ảnh hưởng của cơ sở dữ liệu và công cụ tìm kiếm này. “Tôi có thể nghĩ ra rất nhiều cách dùng thú vị, song tôi chỉ không rõ họ đang cố làm gì với các con số thống kê?”

Nhận thức được rõ những điều mà các nhà nhân văn học quan tâm là tìm ra ý nghĩa của sự việc chứ không phải các con số, Michel và Lieberman Aiden nhấn mạnh rằng: Khoa học Văn hóa chỉ đơn giản cung cấp các thông tin. Sau đó, việc diễn giải thế nào đều phụ thuộc vào các học giả.

Lieberman nhận xét: “Tôi không muốn các nhà nhân văn học phải chấp nhận bất cứ kết luận nào. Chúng tôi chỉ cung cấp rất nhiều thông tin thú vị và câu hỏi là: Các ngài có sẵn sàng để xem xét những thông tin này không?”

Michel và Lieberman Aiden bắt đầu công trình nghiên cứu từ vựng năm 2004 khi Google Books còn chưa ra đời. Họ phải lọc tìm từ từng trang sách một và mất 18 tháng cho việc đó.

“Chúng tôi đã hoàn toàn kiệt sức.” Lieberman cho hay.

Rồi họ biết được kế hoạch xây dựng thư viện số của Google và nhận ra đây có thể là cơ hội để tạo ra bước đột phá trong nghiên cứu của mình. Hai người gặp Peter Norvig, giám đốc nghiên cứu tại Google và đề xuất việc sử dụng thư viện sách để thực hiện các phân tích thống kê.

“Ông ấy nhận ra ngay đây là một cơ hội tốt cho khoa học và cho cả Google,” Michel hồ hởi nói. “Chúng tôi đã dành cả 4 năm tiếp theo để giải quyết rất nhiều vấn đề nảy sinh. Từ những rắc rối về mặt bản quyền đến các giới hạn tính toán.”

Cho đến nay, Google đã số hóa được hơn 11% số sách đã được xuất bản, tương đương với 2 triệu tỉ từ vựng. Kho từ vựng này biến việc phân tích thống kê ảnh hưởng của các nền văn hóa vốn là không thể trở thành có thể. Tuy nhiên, theo Michel, để vẽ được bức tranh chính xác về vấn đề này cần có số mẫu nghiên cứu vô cùng lớn, có lẽ là phiên bản của kho dữ liệu này trong 20 năm nữa?

Theo (PATRICIA COHEN – New York Times)/(Tuanvietnam)

Bài liên quan

Cùng chuyên mục