qwen3.5 小模型在企业中的实际应用（2/4）：bi面板实时自动解读

本篇使用 Google Colab 完成训练与推理链路，GPU 使用 T4。

目标是实现bi数据解读的双模型路由：默认走 0.8B，低置信度或规则命中时回退到2B。从最终的结果来看，0.8B模型已经能够胜任大部分的解读任务，只有在输入特别复杂或者模型输出质量较低时才会回退到 2B，这样在保证解读质量的同时最大化效率。

1.安装依赖
1.1重启运行时
2.重启后检查版本
3.检查 GPU
4.生成数据
5.swanlab（如果没有账号，可以不用执行这个模块）
6.准备测试数据
7.模型懒加载
8.挂载 LoRA Adapter（如果没有训练好的，可以不用挂载）
9.路由规则与质量评分
10.推理函数（单模型）
11.路由执行（0.8B主路+2B回退）
12.单条测试
13.批量路由+swanlab记录
14.保存结果

代码实现

1. 安装依赖

1
!pip -q uninstall -y transformers
2
!pip -q install -U --no-cache-dir --force-reinstall --no-deps git+https://github.com/huggingface/transformers.git@main
3
!pip -q install -U datasets peft accelerate swanlab
4
!pip -q install -U swanlab

1.1 重启运行时

1
import os
2
os.kill(os.getpid(), 9)

2. 重启后检查版本

1
import transformers
2
from transformers.models.auto.configuration_auto import CONFIG_MAPPING_NAMES
3

4
print("transformers:", transformers.__version__)
5
print("path:", transformers.__file__)
6
print("qwen3_5 supported:", "qwen3_5" in CONFIG_MAPPING_NAMES)

3. 检查 GPU

1
!nvidia-smi

4. 生成数据

1
import json
2
import random
3
from datetime import datetime, timedelta
4
from pathlib import Path
5

6
random.seed(42)
7

8
N = 300
9
DATA_PATH = "/content/bi_sft_300.json"
10

11
indicators = [
12
    ("GMV", "万元", 800, 5000),
13
    ("订单数", "单", 3000, 20000),
14
    ("转化率", "%", 1.0, 6.0),
15
    ("退款率", "%", 0.5, 15.0),
16
    ("客单价", "元", 80, 600),
17
    ("新客数", "人", 200, 5000),
18
    ("ROAS", "", 1.0, 8.0),
19
    ("毛利率", "%", 8.0, 40.0),
20
]
21

22
channels = ["信息流", "搜索", "站内", "社媒", "自然流量"]
23
regions = ["华东", "华南", "华北", "华中", "西南"]
24
categories = ["3C数码", "美妆", "食品", "家居", "服饰"]
25

26
def pick_metric(metrics, name):
27
    return next(x for x in metrics if x["name"] == name)
28

29
samples = []
30
base_date = datetime(2026, 3, 6)
31

32
for i in range(N):
33
    day = (base_date - timedelta(days=i)).strftime("%Y-%m-%d")
34

35
    metrics = []
36
    for name, unit, lo, hi in indicators:
37
        value = round(random.uniform(lo, hi), 2)
38
        mom = round(random.uniform(-0.30, 0.30), 3)
39
        yoy = round(random.uniform(-0.40, 0.40), 3)
40
        metrics.append({
41
            "name": name,
42
            "unit": unit,
43
            "value": value,
44
            "mom": mom,
45
            "yoy": yoy
46
        })
47

48
    payload = {
49
        "date": day,
50
        "metrics": metrics,
51
        "dimensions": {
52
            "channel": [{"name": c, "gmv_mom": round(random.uniform(-0.5, 0.5), 3)} for c in random.sample(channels, 3)],
53
            "region": [{"name": r, "gmv_mom": round(random.uniform(-0.5, 0.5), 3)} for r in random.sample(regions, 3)],
54
            "category": [{"name": c, "gmv_mom": round(random.uniform(-0.5, 0.5), 3)} for c in random.sample(categories, 3)],
55
        }
56
    }
57

58
    gmv = pick_metric(metrics, "GMV")
59
    conv = pick_metric(metrics, "转化率")
60
    refund = pick_metric(metrics, "退款率")
61
    roas = pick_metric(metrics, "ROAS")
62
    margin = pick_metric(metrics, "毛利率")
63

64
    highlights, risks, actions = [], [], []
65

66
    if gmv["mom"] >= 0.08:
67
        highlights.append(f"GMV环比上升{gmv['mom']*100:.1f}%")
68
    if conv["mom"] >= 0.05:
69
        highlights.append(f"转化率环比提升{conv['mom']*100:.1f}%")
70
    if refund["mom"] <= -0.02:
71
        highlights.append("退款率环比下降")
72

73
    if gmv["mom"] <= -0.08:
74
        risks.append(f"GMV环比下降{abs(gmv['mom']*100):.1f}%")
75
        actions.append("排查下滑渠道与活动投放")
76
    if conv["mom"] <= -0.04:
77
        risks.append(f"转化率环比下降{abs(conv['mom']*100):.1f}%")
78
        actions.append("优化落地页和转化链路")
79
    if refund["value"] >= 8:
80
        risks.append("退款率偏高")
81
        actions.append("复盘高退款SKU和售后流程")
82
    if roas["value"] <= 2:
83
        risks.append("ROAS偏低")
84
        actions.append("优化投放结构和素材")
85
    if margin["mom"] <= -0.03:
86
        risks.append("毛利率下滑")
87
        actions.append("关注折扣与成本变化")
88

89
    if not highlights:
90
        highlights = ["整体波动可控"]
91
    if not risks:
92
        risks = ["暂无明显风险"]
93
    if not actions:
94
        actions = ["持续观察核心指标趋势"]
95

96
    output_obj = {
97
        "summary": f"{day} BI日报：GMV环比{gmv['mom']*100:.1f}%，转化率环比{conv['mom']*100:.1f}%，退款率{refund['value']}%。",
98
        "highlights": highlights,
99
        "risks": risks,
100
        "actions": actions
101
    }
102

103
    samples.append({
104
        "system": "你是BI分析助手。",
105
        "instruction": "请解读以下BI日报，输出JSON结论（summary/highlights/risks/actions）。",
106
        "input": json.dumps(payload, ensure_ascii=False),
107
        "output": json.dumps(output_obj, ensure_ascii=False)
108
    })
109

110
Path(DATA_PATH).write_text(json.dumps(samples, ensure_ascii=False, indent=2), encoding="utf-8")
111
print("生成完成：", DATA_PATH, "样本数：", len(samples))

5.swanlab

1
SWANLAB_ON = False
2
try:
3
    import swanlab
4
    swanlab.init(
5
        project="bi-router",
6
        experiment_name="qwen35-08b-2b-router",
7
        config={
8
            "small_model": "Qwen/Qwen3.5-0.8B",
9
            "large_model": "Qwen/Qwen3.5-2B",
10
            "route_policy": "complexity + quality fallback",
11
        },
12
    )
13
    SWANLAB_ON = True
14
    print("swanlab enabled")
15
except Exception as e:
16
    print("swanlab disabled:", e)

6. 准备测试数据

1
import json
2
import random
3
from datetime import datetime, timedelta
4
from pathlib import Path
5

6
DATA_PATH = "/content/drive/MyDrive/bi_sft_300.json"
7
if not Path(DATA_PATH).exists():
8
    DATA_PATH = "/content/bi_router_eval.json"
9

10
if not Path(DATA_PATH).exists():
11
    random.seed(42)
12
    rows = []
13
    base_date = datetime(2026, 3, 6)
14
    for i in range(50):
15
        day = (base_date - timedelta(days=i)).strftime("%Y-%m-%d")
16
        payload = {
17
            "date": day,
18
            "metrics": [
19
                {"name": "GMV", "value": round(random.uniform(800, 3000), 2), "mom": round(random.uniform(-0.3, 0.2), 3)},
20
                {"name": "订单数", "value": random.randint(3000, 15000), "mom": round(random.uniform(-0.2, 0.2), 3)},
21
                {"name": "转化率", "value": round(random.uniform(0.01, 0.05), 4), "mom": round(random.uniform(-0.02, 0.01), 4)},
22
                {"name": "退款率", "value": round(random.uniform(0.02, 0.15), 4), "mom": round(random.uniform(-0.01, 0.03), 4)},
23
                {"name": "ROAS", "value": round(random.uniform(1.2, 4.5), 3), "mom": round(random.uniform(-0.4, 0.2), 3)},
24
            ],
25
            "dimensions": {
26
                "channel": [
27
                    {"name": "信息流", "gmv_mom": round(random.uniform(-0.4, 0.2), 3)},
28
                    {"name": "搜索", "gmv_mom": round(random.uniform(-0.3, 0.3), 3)},
29
                    {"name": "站内", "gmv_mom": round(random.uniform(-0.2, 0.2), 3)},
30
                ],
31
                "region": [
32
                    {"name": "华东", "gmv_mom": round(random.uniform(-0.4, 0.2), 3)},
33
                    {"name": "华南", "gmv_mom": round(random.uniform(-0.2, 0.3), 3)},
34
                    {"name": "华北", "gmv_mom": round(random.uniform(-0.3, 0.2), 3)},
35
                ],
36
            },
37
        }
38
        rows.append({"input": json.dumps(payload, ensure_ascii=False)})
39

40
    Path(DATA_PATH).write_text(json.dumps(rows, ensure_ascii=False, indent=2), encoding="utf-8")
41

42
print("DATA_PATH:", DATA_PATH)

7. 模型懒加载

1
import torch
2
from transformers import AutoTokenizer, AutoModelForCausalLM
3

4
MODEL_IDS = {
5
    "small": "Qwen/Qwen3.5-0.8B",
6
    "large": "Qwen/Qwen3.5-2B",
7
}
8

9
tokenizers = {}
10
models = {}
11

12
def get_model(name: str):
13
    if name in models:
14
        return tokenizers[name], models[name]
15

16
    model_id = MODEL_IDS[name]
17
    tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=False, trust_remote_code=True)
18
    model = AutoModelForCausalLM.from_pretrained(
19
        model_id,
20
        trust_remote_code=True,
21
        device_map="auto",
22
        dtype=torch.float16,
23
    )
24
    if tokenizer.pad_token_id is None:
25
        tokenizer.pad_token_id = tokenizer.eos_token_id
26

27
    tokenizers[name] = tokenizer
28
    models[name] = model
29
    return tokenizer, model
30

31
print("lazy loader ready")

8. （可选）挂载 LoRA Adapter

1
# 如果你没有微调过，就保持注释
2
# from peft import PeftModel
3
# small_adapter_path = "/content/drive/MyDrive/qwen35_08b_bi_lora"
4
# large_adapter_path = "/content/drive/MyDrive/qwen35_2b_bi_lora"
5
#
6
# tok_s, mdl_s = get_model("small")
7
# models["small"] = PeftModel.from_pretrained(mdl_s, small_adapter_path)
8
#
9
# tok_l, mdl_l = get_model("large")
10
# models["large"] = PeftModel.from_pretrained(mdl_l, large_adapter_path)

9. 路由规则与质量评分

1
import json, re
2

3
REQUIRED_KEYS = ["summary", "highlights", "risks", "actions"]
4

5
def safe_json_load(text: str):
6
    if not text or not text.strip():
7
        return None
8
    t = text.strip()
9
    t = re.sub(r"^```json\s*", "", t, flags=re.I)
10
    t = re.sub(r"^```", "", t)
11
    t = re.sub(r"```$", "", t).strip()
12

13
    # 先直接解析
14
    try:
15
        return json.loads(t)
16
    except Exception:
17
        pass
18

19
    # 再提取第一个 {...}
20
    m = re.search(r"\{[\s\S]*\}", t)
21
    if not m:
22
        return None
23
    try:
24
        return json.loads(m.group(0))
25
    except Exception:
26
        return None
27

28
def output_quality_score(obj):
29
    if not isinstance(obj, dict):
30
        return 0.0
31
    score = 0.0
32
    for k in REQUIRED_KEYS:
33
        if k in obj:
34
            score += 0.2
35
    if isinstance(obj.get("summary"), str) and len(obj["summary"]) >= 20:
36
        score += 0.2
37
    return min(score, 1.0)

10. 推理函数（单模型）

1
def generate_bi_json(payload: dict, model_name: str, max_new_tokens: int = 320):
2
    tokenizer, model = get_model(model_name)
3

4
    system = (
5
    "你是BI分析助手。只输出一个JSON对象，不要任何解释。"
6
    "JSON键严格为：summary, highlights, risks, actions。"
7
    "highlights/risks/actions 每个数组最多3条，每条不超过40字。"
8
)
9
    user = "请解读以下BI日报并按指定JSON输出：" + json.dumps(payload, ensure_ascii=False)
10

11
    messages = [
12
        {"role": "system", "content": system},
13
        {"role": "user", "content": user},
14
    ]
15

16
    inputs = tokenizer.apply_chat_template(
17
        messages,
18
        add_generation_prompt=True,
19
        tokenize=True,
20
        return_tensors="pt",
21
        return_dict=True,
22
        enable_thinking=False
23
    ).to(model.device)
24

25
    with torch.no_grad():
26
        outputs = model.generate(
27
            **inputs,
28
            max_new_tokens=max_new_tokens,
29
            do_sample=False,
30
            pad_token_id=tokenizer.eos_token_id
31
        )
32

33
    text = tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True).strip()
34
    obj = safe_json_load(text)
35
    quality = output_quality_score(obj)
36

37
    return {"model": model_name, "raw_text": text, "parsed": obj, "quality": quality}

11. 路由执行（0.8B主路+2B回退）

1
def route_predict(payload: dict, quality_threshold: float = 0.65, direct_large_threshold: float = 0.95):
2
    # 复杂度特别高才直走2B；否则先走0.8B
3
    if should_direct_large(payload, threshold=direct_large_threshold):
4
        large = generate_bi_json(payload, "large")
5
        large["route_reason"] = "complex_input_direct_large"
6
        return large
7

8
    small = generate_bi_json(payload, "small")
9
    if small["quality"] >= quality_threshold:
10
        small["route_reason"] = "small_pass"
11
        return small
12

13
    large = generate_bi_json(payload, "large")
14
    large["route_reason"] = f"fallback_from_small_quality_{small['quality']:.2f}"
15
    large["small_preview"] = small
16
    return large

12. 单条测试

1
test_input = {
2
    "date": "2026-03-04",
3
    "metrics": [
4
        {"name": "GMV", "value": 980, "mom": -0.18, "yoy": -0.05},
5
        {"name": "订单数", "value": 7200, "mom": -0.09, "yoy": 0.03},
6
        {"name": "转化率", "value": 0.018, "mom": -0.006, "yoy": -0.002},
7
        {"name": "退款率", "value": 0.11, "mom": 0.04, "yoy": 0.02},
8
        {"name": "ROAS", "value": 1.6, "mom": -0.25, "yoy": -0.18},
9
    ],
10
    "dimensions": {
11
        "channel": [
12
            {"name": "信息流", "gmv_mom": -0.32},
13
            {"name": "搜索", "gmv_mom": 0.06},
14
            {"name": "站内", "gmv_mom": -0.08},
15
        ],
16
        "region": [
17
            {"name": "华东", "gmv_mom": -0.21},
18
            {"name": "华南", "gmv_mom": 0.04},
19
            {"name": "华北", "gmv_mom": -0.12},
20
        ],
21
    },
22
}
23

24
result = route_predict(test_input)
25
print("model:", result["model"])
26
print("reason:", result["route_reason"])
27
print("quality:", result["quality"])
28
print("raw_text:", result["raw_text"])
29
print("parsed:", result["parsed"])

13. 批量路由+swanlab记录

1
import pandas as pd
2
from pathlib import Path
3

4
rows = json.loads(Path(DATA_PATH).read_text(encoding="utf-8"))
5
outputs = []
6
for row in rows[:20]:
7
    payload = json.loads(row["input"]) if isinstance(row.get("input"), str) else row
8
    pred = route_predict(payload)
9
    outputs.append({
10
        "model": pred["model"],
11
        "route_reason": pred["route_reason"],
12
        "quality": pred["quality"],
13
        "parsed_ok": isinstance(pred["parsed"], dict),
14
    })
15

16
df = pd.DataFrame(outputs)
17
print(df.head())
18
print("\nmodel count:")
19
print(df["model"].value_counts())
20
print("\nreason count:")
21
print(df["route_reason"].value_counts())
22

23
if SWANLAB_ON:
24
    model_counts = df["model"].value_counts().to_dict()
25
    reason_counts = df["route_reason"].value_counts().to_dict()
26
    swanlab.log({
27
        "avg_quality": float(df["quality"].mean()),
28
        "parsed_ok_rate": float(df["parsed_ok"].mean()),
29
        "small_count": int(model_counts.get("small", 0)),
30
        "large_count": int(model_counts.get("large", 0)),
31
        "route_reason_counts": reason_counts,
32
    })
33
    print("swanlab logged")

14. 保存结果

1
from pathlib import Path
2
import json
3

4
save_path = Path("/content/bi_router_results.jsonl")
5
with save_path.open("w", encoding="utf-8") as f:
6
    for x in outputs:
7
        f.write(json.dumps(x, ensure_ascii=False) + "\n")
8

9
print("saved:", save_path)

Thanks for reading!

qwen3.5 小模型在企业中的实际应用（2/4）：bi面板实时自动解读

Fri Mar 06 2026

1734 words · 16 minutes

ai-practice Qwen3.5 小模型 Bi面板 Ai

qwen3.5 小模型在企业中的实际应用（2/4）：bi面板实时自动解读

目录

代码实现

1. 安装依赖

1.1 重启运行时

2. 重启后检查版本

3. 检查 GPU

4. 生成数据

5.swanlab

6. 准备测试数据

7. 模型懒加载

8. （可选）挂载 LoRA Adapter

9. 路由规则与质量评分

10. 推理函数（单模型）

11. 路由执行（0.8B主路+2B回退）

12. 单条测试

13. 批量路由+swanlab记录

14. 保存结果

qwen3.5 小模型在企业中的实际应用（2/4）：bi面板实时自动解读