楊聰榮(中台灣教授協會理事長,任教於台灣師範大學)
隨著人工智慧(AI)與大型語言模型(LLM, Large Language Models)技術的迅速發展,全球各國積極投入 AI 語言技術的研發,以確保技術自主性、提升產業競爭力,並推動語言文化的數位保存。然而當前主流 AI 模型(如 OpenAI 的 ChatGPT、Google Gemini、DeepSeek)主要聚焦於英語、簡體中文、法語、西班牙語等語言,對於台灣本土語言的支持仍然嚴重不足,導致這些語言在數位世界中難以生存與發展。
台灣擁有豐富的語言文化,特別是南島語系,包括原住民族語(如阿美語、泰雅語、排灣語、布農語)、台語(閩南語)和客家語等。這些語言不僅是台灣文化的重要資產,也代表台灣在國際語言研究中的獨特性。然而由於這些語言目前在 AI 模型中的語料極少,甚至缺乏完整的語言數據,這些語言的數位化程度遠低於其他主要語言,導致它們在現代科技應用中難以發揮作用。若台灣不積極發展包含南島語言資源的 AI 語言模型,這些珍貴的語言將可能在數位時代逐漸消失,文化與知識傳承的基礎也將受到嚴重威脅。
台灣需要發展支持本土南島語言的 AI,因為目前全球 AI 技術的發展主要聚焦在通用語言處理,而對於南島語系的支持極為有限。台灣的原住民族語使用人口逐年下降,語言傳承面臨極大的困難,若未能建立 AI 語言資源,未來這些語言將無法適應數位時代的需求,甚至可能徹底消失。此外台語與客家語的使用頻率也正逐步下降,年輕世代的使用比例逐漸減少,若 AI 模型僅支持華語,而無法有效處理其他語言,這些語言將更難在數位世界存活,甚至在未來的數位應用場景中完全消失。這不僅是語言消失的問題,更是文化與歷史記憶被遺忘的危機。
目前主流的 AI 模型無法精確理解台灣的語言特色,因為現有的 AI 主要訓練於英語與簡體中文語料,對於繁體中文、台語、客語、原住民族語的理解能力極低。許多 AI 系統在處理這些語言時經常出現錯誤,例如台語的數字「tsit-tsap」(七十)可能被 AI 誤解為其他語言,甚至轉譯成不相關的內容。此外 AI 目前無法正確轉錄南島語言的發音與拼音系統,例如阿美語與泰雅語的獨特語音結構,這導致 AI 在處理南島語言時產生大量誤譯與錯誤理解。若這種情況持續發生,將進一步加深這些語言在數位世界中的邊緣化,使得南島語系的語言失去科技支援的機會。
確保 AI 技術自主權是發展本土 AI 語言模型的另一個重要原因,因為目前主流 AI 由國際大公司掌控,如 OpenAI、Google、百度等,這使得台灣如果完全依賴外部 AI 服務,將導致本土語言數據受限於國際企業的演算法與規則。這不僅使台灣在 AI 發展上受制於人,也讓台灣的語言與文化可能因國際企業的政策而被排除在主流技術之外。若這些企業選擇不支持南島語言,或因市場考量而不優化繁體中文與台灣本地語言的應用,那麼台灣將無法確保自身語言的數位永續性。因此發展包含台灣南島語言資源的 AI 語言模型,不僅能夠強化本土文化的數位化,也能確保 AI 產業發展不受國際科技巨頭的影響,並確立台灣在 AI 技術領域的自主地位。
台灣應從數據蒐集、技術開發與應用推動三大方向發展本土南島語言的 AI 模型,首先應建立「台灣 AI 語言數據庫」,收集南島語言的語料。AI 訓練的核心在於數據,而目前南島語言的數據極為零散,台灣應該積極建立完善的語言數據庫,彙整各種語言資源,確保 AI 模型能夠有效學習南島語言的語法、詞彙與語音特徵。這可以透過數位化現存的南島語言文獻,包括台灣原住民族語辭典、教育部閩南語辭典、客語詞彙資料庫等。此外也應積極收集口述歷史紀錄,將過去的語言記錄轉換為可用於 AI 訓練的數據,例如錄音資料與逐字稿。同時與學術機構合作,如中央研究院與各大學語言學研究中心,共同建立南島語言語料庫,以確保 AI 模型的訓練數據來源多元且準確。為了提升 AI 在語音處理方面的能力,還應建立語音資料庫,透過語音錄製計畫,收集台灣各族群語言的口語樣本,並訓練 AI 語音識別與轉錄系統,確保 AI 能夠正確理解與轉換南島語言的語音內容。
除了建立語料庫,台灣還應開發「多語 AI 語言模型」,確保 AI 能夠理解並產生南島語言的內容。這可以透過參考現有的開源 AI 技術,如 Llama、Mistral AI 等,來建立台灣專屬的 AI 語言模型(Taiwan LLM)。透過遷移學習(Transfer Learning)技術,AI 可以先學習繁體中文,然後進一步學習南島語言,這將有效降低開發成本,同時提升 AI 在處理多語環境下的準確性。與此同時台灣政府應與地方政府合作,例如台東、花蓮、高雄等原住民族語使用較多的區域,建立在地語料收集機制,確保 AI 訓練能夠貼近真實語言使用情境,提高 AI 的在地適應性與準確性。
發展 AI 應用將進一步促進南島語言在科技中的活躍應用,使這些語言能夠真正融入數位時代。AI 語音助理的開發將能夠支援台語、客語與原住民族語,應用於智慧客服、語音輸入、語言學習等領域,讓更多人能夠使用母語與 AI 互動。智慧翻譯系統的發展則能夠幫助繁體中文與南島語言之間的轉換,使不同族群能夠更輕鬆地進行語言交流。AI 還可以應用於文化數位化,例如透過自動轉錄與翻譯技術,將南島語言的歷史文獻與口述歷史數位化,確保這些語言文化得以長久保存。在教育領域 AI 語言學習平台的開發將能夠幫助年輕世代學習與使用台語、客語與原住民族語,使這些語言能夠在數位時代持續發展並傳承下去。
本文僅代表作者立場,不代表本平台立場









Facebook Comments 文章留言