Tỉnh dậy trong một buổi sáng chủ nhật đẹp trời, mình mở báo Tuổi trẻ ra đọc như mọi ngày và đập ngay vào mắt mình là bài báo khá hài hước về quảng cáo của Coca-Cola cùng với hình ảnh cái lon Việt Nam.

Dưới góc độ một sinh viên từng được điểm A môn Tin học căn bản và Giải tích 2, mình xin phép được trình bày cách hiểu cá nhân đối với vấn đề thuần phong mỹ tục của từ ngữ.

Bài toán

  • Cho một từ tiếng Việt, ký hiệu là s. Đánh giá xem khả năng vi phạm thuần phong mỹ tục Việt Nam của từ đó là bao nhiêu.
  • Ví dụ: “lon”.

Quan sát

  • Quan sát đầu tiên của mình là vấn đề này có liên quan tới bài toán về khoảng cách Levenshtein (xem (2)). Nói sơ qua, bài toán này giúp đánh giá độ “khác nhau” của 2 từ (hoặc dãy ký tự) riêng biệt. Bắt đầu với hai dãy ký tự ST. Thông qua ba phép hoán đổi, thêm 1 ký tự, xóa 1 ký tự và thay thế 1 ký tự, làm thế nào để ST trở thành hai dãy ký tự giống hệt nhau.
  • Đối với tiếng Việt, cần bổ sung thêm một phép hoán đổi: thay thế thanh điệu. Việc thêm dấu mũ cho chữ cái, ví dụ o thành ô, có thể tính là một loại hoán đổi khác, hoặc cũng có thể coi là phép thay thế ký tự như trong 3 phép hoán vị được định nghĩa ban đầu.

Phân tích ví dụ

  • Cần 2 bước để đưa “o” trở thành “ồ” (o -> ò -> ồ).
  • Vì bài toán ban đầu không đưa ra một giới hạn khoảng cách tối đa để xác định từ ngữ vi phạm thuần phong mỹ tục, nên mình tạm lấy kết quả của ví dụ để làm giới hạn. Vì vậy, một từ tiếng Việt “nguy hiểm” (có khả năng bị cấm xuất hiện trên các phương tiện thông tin đại chúng) được định nghĩa là các từ có khoảng cách Levenshtein tối đa là 2 với ít nhất một từ tiếng Việt khác được chính thức coi là tục.

Mở rộng bài toán & ứng dụng

  • Chỉ với một danh sách những từ sẵn được coi là bậy bạ, cùng một quyển từ điển tiếng Việt, bạn có thể đem đối chiếu và mở rộng danh sách “từ ngữ vi phạm thuần phong mỹ tục”. Với một chiếc máy tính đời 2013, điều này sẽ được thực hiện một cách tương đối đơn giản.
  • Tuy nhiên, nếu những từ ngữ thuộc thể loại này bị cấm sử dụng trên phương tiện thông tin đại chúng hay trước mặt công chúng, sẽ kéo theo rất nhiều cụm từ quen thuộc khác cần phải thay thế. Đơn cử, câu mở đầu “Kính thưa quý vị và các bạn” có chứa từ “các” mà mình thấy rất chi là nguy hiểm. Vì chỉ cần sử dụng 2 phép biến đổi tương tự như trong trường hợp của từ “lon”, mình có thể thu được một kết quả bắt đầu bằng chữ “c”, và kết thúc bằng “ặc”. Rất nguy hiểm!
  • Đừng quên, cụm từ “pho Viet Nam” ở thời điểm hiện tại đã trở nên phổ biến khắp toàn cầu, và được coi là một trong những đặc sản nổi bật nhất của quốc gia. Nhưng hình như cụm từ này cũng dễ bị xếp vào dạng gây hiểu nhầm. Nhỉ?

Nguồn tham khảo:

[1] https://tuoitre.vn/mo-lon-viet-nam-trai-thuan-phong-my-tuc-the-nao-ma-bi-cam-20190629095511564.htm
[2] https://vi.wikipedia.org/wiki/Kho%E1%BA%A3ng_c%C3%A1ch_Levenshtein