2026年3月2日在huggingface上发布了qwen3.5,其中包括0.8b、2B、4B、9B、27B、35B-A3B、122B-A10B、397B-A17B
对比qwen3来说提高了上下文、多模态、支持的语言等等方面
本文集中研究小模型也就是0.8b和2b在本地部署和项目支持方面的作用,因此详细阐述下这两个模型相较于上代的变化。
qwen3.5-0.8b和qwen3-0.6b对比
- 参数量:从0.6b上升到0.8b
- 上下文长度:从32768上升到262144 有8倍提升之多
- 语言覆盖:从100+到201
- 模型的定位:从纯文本模型到现在的多模态模型,支持对图片等信息的解读
- 同样0.8b的模型支持thinking模式,可以手动开关。
qwen3.5-2B和qwen3-1.7b对比
- 参数量:从1.7b上升到2b
- 上下文长度:从32768上升到262144 差不多7倍
- 语言覆盖:100+到201
从跑分的测试来看:
- MMLU-Pro 从40.2提高到55.3 在无思考的模式下 这个指标说的是在复杂问题下回答的是否够好
- C-Eval 从61提高到65.2 这个指标说的是中文理解能力
- MMMLU 从46.7提高到46.7 这个指标说的是跨语言的泛化能力
那么问题来了为什么要执着于小模型在实际业务当中的运用呢?
首先我是刷知乎的这个话题:大模型都这么厉害了,还需要微调吗?0.6B的小模型还有什么意义吗?
然后想到之前买绿联nas其中有个软件是AI plugins,这个软件里面默认安装了一个deepseek r1的1.5b模型
我的nas是dxp4800plus,8g的内存是英特尔的8505,性能大概差不多和i3-1115G4差不多,试了下问答的效果,感觉回复是挺快的,但稍微复杂的问题就胡说八道了
所以我印象中,小模型貌似不能干啥。
直到我看到了这个话题,底下的回答可谓是仙之人兮列如麻,昨天看到千问发新模型了,同时想到之前看到的一篇回答:qwen3-0.6B这种小模型有什么实际意义和用途吗? - 不要葱姜蒜的回答 - 知乎
https://www.zhihu.com/question/1900664888608691102/answer/1902133419703529571↗
这个老哥用实际的例子来说明小模型在企业的应用中是有用的。
珠玉在前,我也来试下qwen3.5 0.8b和2b的模型分别在企业实际业务当中能起到什么作用。
本文的文字撰写均没有采用ai润色
业务拆解
本文设定了三个会在企业业务流程当中遇到的问题,并且为了测试模型的多模态能力,选择文字、图片、音频这三个角度设定相应的任务。
第一个业务是:bi报表自动解读,有的企业会用powerbi或者tableau对数据进行建模,然后构建一个数据的看板,上面会显示各种指标
比如:日报指标:gmv、转化率、退款率等等,痛点在于每天对着华丽花哨的数据看板
因此需要一个总结性的结论来实时反映得出的结论。
第二个业务是:发票字段检测的异常判定,企业的部门会碰到大量的发票、报销单、采购票据,这其中有拍照的,pdf的,扫描的等等,人工需要逐条校验
比如:发票代码、发票号码、发票日期、开票日期、金额、税额、购买方名称、销售方名称、税号等等,痛点在于票据来源复杂,格式不统一,人工审核麻烦。
因此要做一个版面检测+图像识别,然后根据规则或者llm做异常判定,支持财务审计。
第三个业务是:客服通话音频识别的质量检测,企业有大量的客服岗位,售前 售后 或者有的企业是催收,
比如:靠传统的人工抽检听对话的录音判断是否反馈的内容足够充分,或者客服是否不按规定流程进行回复,客户的意见反馈是否记录到位,以及其中会出现高危词等等。
痛点在于录音的语速快、声音杂、噪音严重,固定的模板规则很难覆盖真实场景
因此要做一个asr转写,然后用模型进行语意理解和标签判定,来检测通话质量。
那么什么任务用什么模型呢?
思路是全部用0.8b的模型,如果0.8b的模型不能够完成这个任务就用2b的模型。
举个例子比如说某个json解析失败、缺字段,置信度低等等,那就自动切换成2b的模型。
第一步:0.8B输出{"is_anomaly":"no","risk_score":22,...}第二步:规则引擎检查到缺发票附件第三步:标记为不确定样本,转2b第四步:2b给最终判定{"is_anomaly":"yes","anomaly_type":"missing_invoice","risk_score":88,...}