“你说 ‘大牌’，我猜你是新加坡人?” —— 大语言模型识别与生成汉语变体的能力评估

doi:10.1515/glochi-2025-0017

DOI: 10.1515/glochi-2025-0017 ISSN: 2199-4374

“你说 ‘大牌’，我猜你是新加坡人?” —— 大语言模型识别与生成汉语变体的能力评估

Qiao Fang, Jingxia Lin

摘要

近年来，关于汉语变体的研究已取得丰富成果，涵盖语音、词汇、语法与语用等多个层面。然而，目前尚缺乏对大语言模型在多变体语境下处理能力的系统实证评估。本文作为初步探索，以词汇差异为切入点，选取中国大陆普通话、港式中文、台湾华语与新加坡华语四种主要变体，系统评估五款代表性大语言模型 (GPT-4o、Gemini 1.5 Pro、Claude 3 Opus、Spark 4.0 Ultra 与 DeepSeek V3) 在变体识别、语义理解与本地化生成任务中的表现。研究结果显示，模型普遍存在 “单向误判” 倾向，尤其易将新加坡华语误判为普通话，显示出对地域词义、语境与用法差异的理解偏差。在生成任务中，模型对新加坡华语的表现尤为薄弱，不仅难以准确识别本地义项，还频繁生成无文献支持的 “创义”，反映出训练语料在区域覆盖上的不足。本文揭示了当前主流模型在处理汉语变体时的能力边界与偏误类型，指出其区域适应性与语义精度仍有待提升。研究亦为未来多变体语料建设、评估框架与模型优化策略提供实证基础，强调将语言变体系统性纳入自然语言处理发展的重要性。

Outline

“你说 ‘大牌’，我猜你是新加坡人?” —— 大语言模型识别与生成汉语变体的能力评估

摘要

More from our Archive