Trang chủ » Bài viết - Ý nghĩa của Unicode trong việc Việt hoá Linux

Ý nghĩa của Unicode trong việc Việt hoá Linux

Nội dung

  1. Unicode là ngôn ngữ của Internet.
  2. Unicode là mã ký tự, cơ sở của công nghệ thông tin đa hệ.
  3. Chữ Việt Nam trong hệ Unicode.
  4. Bản địa hoá: tận dụng những giải pháp kỹ thuật có sẵn, phần mềm nguồn mở.
  5. Giai đoạn chuyển tiếp sang Unicode, trong điều kiện của Việt Nam.

 

 

Giới thiệu

Công trình xây dựng chuẩn Unicode bắt đầu từ hơn mười năm nay, do yêu cầu của các công ty tin học muốn xâm nhập các thị trường lớn ngoài bắc Mỹ và châu Âu. Do công dụng phổ biến nhất của máy tính là xử lý chữ viết, có yêu cầu là máy tính phải xử lý được các bộ chữ với hàng nghìn ký tự ngoài hệ Latin; do đó, Unicode dùng 16-bit để có thể định nghĩa đến hơn 1 triệu ký tự, so với 256 ký tự cho 8-bit. Ban Kỹ thuật Unicode [Unicode Technical Committee (UTC)] đã cùng làm việc chặt chẽ với Tổ chức Chuẩn hoá Quốc tế (ISO) để kết hợp hai bộ mã Unicode và ISO 10646 thành một chuẩn và phát triển một cách đồng bộ.

Unicode là ngôn ngữ của Internet

Trong những năm đầu tiên, Unicode chỉ là niềm hy vọng của một nhóm chuyên gia muốn đạt mục đích xử lý đa ngôn ngữ một cách hợp lý nhất. Vai trò trung tâm của xử lý đa ngôn ngữ thật sự được thể hiện rõ ràng qua sự bùng nổ của Internet, khi cần có sự trao đổi thông tin thông suốt khắp thế giới.

Với nổ lực của các công ty thành viên của Ủy ban Kỹ thuật Unicode để đáp ứng thị trường Internet, Unicode đã được đưa vào công nghệ hiện đại. Từ đầu, Sun Microsystems đã lấy Unicode làm bộ mã chính của ngôn ngữ Java; đến nay, Java trở thành ngôn ngữ và hệ phần mềm phổ thông nhất để xây dựng các ứng dụng Internet. Hiện nay, các hệ điều hành hiện đại thuộc gia đình Windows của Microsoft lấy cơ sở là Unicode; do một phần đóng góp của những kỹ sư gốc Việt Nam trong Microsoft, chữ Việt được hỗ trợ như chữ viết châu Âu.

XML [eXtensible Markup Language] là ngôn ngữ mới của Web, nhằm vượt qua các giới hạn của HTML [HyperText Markup Language] và đồng thời phối hợp kỹ thuật Web chặt chẽ hơn với kỹ thuật cơ sở dữ liệu. Chuẩn XML lấy Unicode làm bộ mã chuẩn; đồng thời, Oracle 8i hỗ trợ Unicode.

Unicode là mã ký tự, cơ sở của công nghệ thông tin đa hệ

Đặc điểm và mục tiêu quan trọng nhất của bộ mã ký tự là trao đổi và thông tin chữ viết qua mã số. Trong mỗi bộ mã, một mã số định nghĩa cho một ký tự nhất định [uniqueness], và mỗi bộ mã phải định nghĩa đầy đủ toàn bộ ký tự [completeness]. Vì có thể có nhiều bộ mã khác nhau khi trao đổi thông tin bằng máy tính, dẫn đến việc một mã số có thể chỉ định nhiều ký tự khác nhau, nên vấn đề tất yếu là phải quy định rõ ràng bộ mã nào đang được sử dụng. Quan trọng hơn nữa, các khâu công nghệ thông tin phải chấp nhận và hỗ trợ những quy định này.

Các bộ mã 8-bit cho chữ Việt không thể nào đáp ứng toàn bộ những yêu cầu trên, nên việc cài đặt các bộ mã Việt hiện có đòi hỏi những sáng kiến ngoài lề, không theo đúng những giải pháp trong công nghệ. Ví dụ cụ thể nhất là sử dụng hai bộ font (ABC, VISCII, VPS), hoặc định nghĩa ký tự một cách tuỳ tiện (VNI).

Vì chữ Việt Nam đã có sẵn trong Unicode, sử dụng Unicode sẽ cho chúng ta vượt qua những bế tắc trên, không những trong phạm vi một hệ điều hành, mà đồng thời khi trao đổi giữa nhiều hệ điều hành khác nhau. Môi trường công nghệ thông tin đang phát triển rất nhanh ngoài hệ Windows, bao gồm các hệ khác như Linux, và các ứng dụng như máy tính cầm tay hoặc điện thoại nối vào Internet.

Chữ Việt Nam trong hệ Unicode

Chữ quốc ngữ đã có mặt trong những bảng thảo Unicode cũng như ISO 10646, tuy theo hai cách khác nhau:

Unicode sử dụng dạng tổ hợp [combining characters], tức là đưa nguyên âm và dấu thanh thành ký tự khác nhau, và

ISO theo dạng dựng sẵn [precomposed character], nhưng lại thiếu 6 ký tự quốc ngữ.

Sau khi thống nhất hai bộ mã, chữ quốc ngữ và vài chữ viết có mặt trong Unicode/ISO01646 theo ba dạng -- hai dạng kể trên và:

dạng cơ bản [canonical form], coi như là tổ hợp triệt để, tách luôn dấu ra khỏi nguyên âm. Trên nhiều phương diện, dạng này là dạng tối ưu để xử lý chữ Việt trong các ứng dụng như xếp thứ tự, tìm kiếm.

Ký tự "" (đồng) được định nghĩa trong Unicode/ISO10646, theo đề nghị của TCVN, đại diện của Việt Nam trong ISO.

Hiện nay, Viện Hán-Nôm cùng TCVN tiếp tục tham gia với IRG [Ideographic Rapporteur Group] của ISO/IEC JTC1/SC2/WG2 đưa chữ Nôm vào Unicode/ISO10646. Đồng thời, vẫn còn nổ lực đưa chữ Chàm, và chữ Thái Việt.

Bản địa hoá

Theo tinh thần tách biệt tác dụng của việc xử lý -- ví dụ như bộ mã thuộc lĩnh vực trao đổi [information interchange], bàn phím thuộc lĩnh vực vào [input method], font là thuộc lĩnh vực thể hiện [presentation] -- vấn đề bản địa hoá là một lĩnh vực riêng, được thực hiện bằng locale.

Vì phần mềm truyền thống [legacy] xử lý 8-bit là chính, chuẩn Unicode có quy định một phương pháp chuyển đổi [transformation format] 8-bit, được gọi là UTF-8, để tránh các ký tự 16-bit. Sau đây là ví dụ của các dạng Unicode:

 

người

precomposed characters

combining characters

canonical form

VietNet

   

ngu+o+`i

Unicode UTF-16
(dec, HTML)

người

người

người

Unicode UTF-16
(hex)

006E 0067 01B0 1EDD 0069

006E 0067 01B0 01A1 0300 0069

006E 0067 0075 031B 006F 031B 0300 0069

Unicode UTF-8
(hex)

6E 67 C6 B0 E1 BB 9D 69

6E 67 C6 B0 C6 A1 CC 80 69

6E 67 75 CC 9B 6F CC 9B CC 80 69

Unicode text

người

người

người

Đây cũng có thể xem như một thước đo về độ hỗ trợ đối với Unicode. Phần mềm nào thể hiện rõ và chính xác dòng cuối ("Unicode text" và 3 chữ "người") có mức hỗ trợ Unicode cao nhất.

Giai đoạn chuyển tiếp

Xu hướng dùng Unicode để thực hiện các trạm Việt ngữ trên Web ngày càng mạnh, và có lẽ đó là môi trường Unicode phổ biến nhất, vì Microsoft đã cung cấp những bộ font cơ bản đọc chữ Việt rất dễ và rõ trên màn ảnh. Song song với Web vẫn duy trì những ứng dụng tách biệt, như soạn thảo văn bản, sử dụng những công cụ 8-bit hiện có như ABC, VNI. Một lý do chính là số lượng font 8-bit hiện có nhiều hơn hẳn số font 16-bit, vì các công ty phần mềm chưa nhận thị trường Việt Nam đủ lớn để đặt ký tự Việt vào những bộ font Unicode vừa đưa ra sản xuất.

Vì vậy, nhu cầu chuyển đổi văn kiện và dữ kiện một cách dễ dàng và chính xác giữa 8-bit và 16-bit là một nhu cầu rất lớn. Tuy nhiên, các công cụ chuyển đổi nên khuyến khích người dùng chuyển sang Unicode, xây dựng một thế mạnh và đồng nhất, nhằm lôi cuốn càng nhiều người dùng và sản phẩm. (Đây là hiện tượng ảnh hưởng mạng [network effect].)

Trong giai đoạn chuyển tiếp, một công trình có thể khởi đầu là một bộ tìm kiếm [search engine] chữ Việt, lấy Unicode làm cơ sở để trữ các trang Web.

Kết luận

Bản địa hoá và Việt hoá Linux thông qua Unicode là một bàn đạp quan trọng để thống nhất việc xử lý chữ Việt. Qua cách làm việc vừa hợp tác vừa cạnh tranh [coopetition], giới công nghệ thông tin sẽ xây dựng và củng cố nền tảng vững chắc cho chính mình và cho người dùng nói chung, trong khuôn khổ công nghệ toàn thế giới.

Theo echip

Các bài viết khác trong blog

Bài viết về font

Đăng nhập
Bạn chưa có tài khoản? Tạo tài khoản
Tạo tài khoản
Bạn đã có tài khoản? Đăng nhập