Hãng xe hơi này sử dụng phần mềm Enterprise Global Server của Systran Software, một công ty chuyên cung cấp các phần mềm dịch thuật có trụ sở ở San Diego, bang California. Bên cạnh đó, các kỹ sư của Ford cũng tự viết một chương trình AI để chuyển ngữ những câu hướng dẫn thuộc về chuyên môn ở cấp độ cao một cách chính xác và rõ ràng. Mỗi một câu hướng dẫn đều được lưu trữ vào cơ sở dữ liệu để dùng cho việc dịch thuật.
Hãng Ford cũng phải phát triển những từ điển thuật ngữ chuyên ngành xe hơi. Theo Rychtyckyj, duy trì những từ điển như thế dễ dàng hơn việc tìm kiếm một chuyên gia dịch thuật thông thạo các thuật ngữ. Ông nói : “Hầu hết những nỗ lực của chúng tôi là xây dựng các bảng thuật ngữ, và thường xuyên thay đổi chúng. Kết quả dịch thuật của bạn sẽ tốt hơn nhiều nếu bạn có sự chuẩn bị trước.”
Phần mềm của công ty Systran sử dụng một kỹ thuật đáng tin cậy gọi là dịch theo quy tắc (rules-based translation). Những hệ thống như thế sử dụng những từ điển song ngữ kết hợp với cơ sở dữ liệu về cách dùng từ và các quy tắc văn phạm. Các trình dịch thuật thương mại thường được bổ sung bằng các bảng thuật ngữ, hoặc những cơ sở dữ liệu lưu trữ những câu hoặc đoạn văn mẫu đã được dịch sẵn (translation memory).
Những phần bổ sung này thường do người sử dụng lập ra trong quá trình dịch thuật. Nhờ vậy, phần mềm dịch thuật có thể đưa ra những từ hoặc câu dịch chính xác hoặc gần đúng nhất so với từ hoặc câu gốc để người dịch dễ dàng xem lại.
Huấn luyện phần mềm Dịch thuật theo kiểu thống kê (statistical machine translation) là một kỹ thuật mới nhưng chưa được sử dụng rộng rãi. Kỹ thuật này sử dụng những văn bản gốc và bản dịch của chúng để “huấn luyện” phần mềm. Theo thời gian, những hệ thống này sẽ “học” được cách tạo ra một bản dịch tốt, rồi dùng phép tính xác suất và thống kê để chọn ra một từ hoặc cụm từ gần đúng nhất dựa trên ngữ cảnh.
Các hệ thống thống kê đòi hỏi phải có rất nhiều văn bản để huấn luyện các thuật toán, nhưng chúng không cần các quy tắc văn phạm, từ điển song ngữ hoặc translation memory. Chúng tự phát triển những quy tắc và tiếp tục tự điều chỉnh các quy tắc đó theo thời gian.
Hãng Google sử dụng phần mềm dịch theo quy tắc của công ty Systran, nhưng họ cũng phát triển những hệ thống dựa trên thống kê của chính họ để dịch từ tiếng Anh sang tiếng Arab, Nga, Hoa, Hàn, Nhật, và ngược lại. Theo chuyên gia nghiên cứu Franz Josef Och của Google, những ngôn ngữ này rất khó cho các phần mềm dịch thuật vì chúng khác với các ngôn ngữ Tây phương có gốc là tiếng Latin bình dân (Vulgar Latin).
Trong nhiều năm qua, hãng Microsoft đã đưa một phần mềm phân tích cú pháp dựa trên quy tắc văn phạm vào trình soạn thảo văn bản Word của họ. Gần đây, hãng này lại kết hợp các translation memory, các phần mềm dịch thuật dựa trên quy tắc và thống kê với sự hỗ trợ của con người để dịch các văn bản cho cơ sở dữ liệu về thông tin hỗ trợ khách hàng của họ. Steve Richardson, một nhà nghiên cứu cao cấp của Microsoft, nói : “Khuynh hướng mới trong cộng đồng các nhà nghiên cứu là xem con người có thể kết hợp những kỹ thuật thuần túy về thống kê này với một số kiến thức về ngôn ngữ ra sao.”
Khi được hỏi là sẽ có những đột phá trong việc dịch thuật không, ông trả lời: “Những đột phá đã xuất hiện trong quá trình nghiên cứu. Trên phương diện thực hành, sẽ có những đột phá trong việc tạo ra những hệ thống được tích hợp vào quá trình hoạt động của doanh nghiệp.”
Xu hướng trong tương lai là kết hợp các cơ sở dữ liệu lưu trữ những câu hoặc đoạn văn mẫu đã được dịch sẵn với các phần mềm dịch thuật dựa trên quy tắc hoặc thống kê, hoặc cả hai. Những hệ thống lai tạo như thế sẽ trở nên tinh vi và phức tạp hơn.
Tuy nhiên, những hệ thống dịch thuật hiện nay chưa thể đưa ra những bản dịch có chất lượng cao như là những dịch giả “siêu đẳng”, đặc biệt đối với những văn bản sử dụng ngôn ngữ bình dân. Theo Rychtyckyj của hãng Ford, những hệ thống lai tạo trở nên thông minh như thế nào không là vấn đề gì cả, chất lượng dịch thuật phụ thuộc vào việc xây dựng ngôn ngữ gốc một cách chuẩn xác.
Quy trình dịch thuật nói chung có hai công đoạn chính : - Phân tích nguyên bản trong ngôn ngữ gốc để “hiểu” thật rõ tác giả “muốn nói” gì.
- Tái lập ý nghĩa mà tác giả muốn chuyển tải trong ngôn ngữ đích để có được một văn bản tương đương với nguyên bản.
Thoạt nhìn thì quy trình này có vẻ đơn giản nhưng đằng sau nó là cả một quá trình nhận thức phức tạp. Để “giải mã” ý nghĩa của văn bản gốc một cách chính xác, dịch giả phải phân tích và diễn giải tất cả các đặc tính của nó. Đây là một quá trình đòi hỏi một kiến thức sâu rộng về văn phạm, ngữ nghĩa, cú pháp, thành ngữ… của ngôn ngữ gốc, cũng như văn hóa của tác giả văn bản đó. Đồng thời, dịch giả cũng phải có một kiến thức tương tự như thế về ngôn ngữ mà họ sẽ chuyển đổi.
Vì vậy, thách thức đối với các phần mềm dịch thuật là lập trình như thế nào để máy tính có thể “hiểu” một văn bản như là con người.
(Theo TBKTSG)