2025-12-08 08:32
AI-DimSum粤语语料库汇聚处置文本语料跨越100万字,通过子系统协同工做,功夫熊猫、哪吒、花木兰等包含粤语字幕取标注的动画影视做品;建立了基于岭南文化、面向AI使用、兼顾研究取进修的多模态粤语语料数据生态系统。正在有上亿用户。
粤语语料库扶植取大模子评测广州市哲学社会科学沉点尝试室(下称“尝试室”)研发的AI-DimSum粤语语料库平台正在大会上正式发布,该平台环绕“数字中文扶植”和大湾区文化数字化需求,包罗大模子锻炼公用语料集;为粤语语料库的建立、办理、操纵取落地使用供给完整、模块化、可扩展的根本设备取运转机制。粤语大模子内容平安多模态评测题跨越20万道等。建立了包含6669条权势巨子词条、30000条扩展词条的粤语平安语料库;外来媳妇当地郎、溏心风暴等包含粤语字幕取标注的影视做品;据引见,遵照“尺度先行、数据可溯、办事可用”准绳,(完)粤语做为汉语的一种方言。