背景
2024 年 4 月到 8 月,我在阿维塔科技(AVATR)做产品数据实习,主要负责 VOC(Voice of Customer) 数据的全链路处理:从原始客户反馈,到 NLP 归纳,再到 PowerBI 可视化报告。
这篇文章记录这段经历里几个有意思的工程细节。
问题是什么
阿维塔的 VOC 数据每周涌入数百条,来源包括 App 评价、400 电话记录、维权平台等。每条数据是一段自然语言文本,格式不一,质量参差不齐。
人工分类的问题:
- 慢(每天几小时处理量)
- 不一致(不同人对同一问题的分类标准不同)
- 无法追踪同类问题的趋势
目标是:自动把客户反馈归纳进 5 个标准流程分类,并输出每周数据报告。
NLP 系统设计
为什么不用大模型直接分
2024 年初,直接调用 GPT-4 API 在企业内部数据处理场景受限(数据合规、成本、延迟)。最终方案选择了传统 NLP + 规则的混合路线。
流程
原始文本
→ 预处理(去噪、分句、停用词)
→ 关键词提取(TF-IDF + 领域词典)
→ 意图分类(基于 jieba + 规则 + 轻量分类器)
→ 归类标签
→ 写入低代码平台
关键设计决策
1. 领域词典优先于通用模型
汽车 VOC 有大量专业词汇(充电桩、OTA 升级、NVH 噪音、智驾系统……)。通用预训练模型对这些词的语义理解偏差较大。先建一个 ~2000 词的领域词典,效果比直接用预训练模型好很多。
2. 短文本 + 规则 → 长文本 + 模型
客户投诉通常很短(10–50 字)。短文本分类对规则方法更友好,因为可以精确命中关键词组合。当文本超过 100 字(解释性反馈),再用轻量分类器处理。
3. 归纳失败 → 人工复核队列
不是所有文本都能高置信度分类。置信度低于阈值的进入人工复核队列,复核结果反馈进词典更新,形成闭环。
低代码平台集成
归纳完的数据要写回公司的低代码流程平台。这一步的难点是:平台 API 文档不完整,而且接口格式会随版本迭代变化。
解法:用 Python 写了一个轻量适配层,把 NLP 输出的结构化结果映射到平台的接口格式。字段映射表用 JSON 维护,换接口版本时只改配置不改代码。
数据分析与可视化
每周用 PowerBI 出一份分析报告,主要维度:
- 各类问题的数量趋势(是否有持续增长?是否有陡增?)
- 同类问题的共现关键词
- 问题来源渠道分布
陡增检测是用了简单的 Z-score 方法:当某类问题的周同比超过 2σ 就触发预警,让产品经理能第一时间关注。
最终指标
| 指标 | 结果 |
|---|---|
| 系统归纳成功率 | 93% |
| 优化流程数 | 5 个 |
| 周承接数据量 | 600+ |
| 报告交付频率 | 每周 |
踩坑记录
- 分词粒度:jieba 默认分词在汽车专业词汇上表现差,需要用用户词典强制整词切分
- 标注一致性:人工复核阶段发现不同运营对同一问题的分类标准不一致,最后做了一个标注规范文档强制统一
- 平台接口限速:批量写入时触发了速率限制,改成了带退避的异步写入
这段经历让我对「数据流水线」有了更完整的理解:模型准确率只是其中一环,数据质量、接口稳定性、标注一致性同样重要。