YANN — 在阿维塔做 VOC 数据分析：NLP 流水线与低代码落地

背景

2024 年 4 月到 8 月，我在阿维塔科技（AVATR）做产品数据实习，主要负责 VOC（Voice of Customer） 数据的全链路处理：从原始客户反馈，到 NLP 归纳，再到 PowerBI 可视化报告。

这篇文章记录这段经历里几个有意思的工程细节。

阿维塔的 VOC 数据每周涌入数百条，来源包括 App 评价、400 电话记录、维权平台等。每条数据是一段自然语言文本，格式不一，质量参差不齐。

人工分类的问题：

目标是：自动把客户反馈归纳进 5 个标准流程分类，并输出每周数据报告。

2024 年初，直接调用 GPT-4 API 在企业内部数据处理场景受限（数据合规、成本、延迟）。最终方案选择了传统 NLP + 规则的混合路线。

原始文本
  → 预处理（去噪、分句、停用词）
  → 关键词提取（TF-IDF + 领域词典）
  → 意图分类（基于 jieba + 规则 + 轻量分类器）
  → 归类标签
  → 写入低代码平台

1. 领域词典优先于通用模型

汽车 VOC 有大量专业词汇（充电桩、OTA 升级、NVH 噪音、智驾系统……）。通用预训练模型对这些词的语义理解偏差较大。先建一个 ~2000 词的领域词典，效果比直接用预训练模型好很多。

2. 短文本 + 规则 → 长文本 + 模型

客户投诉通常很短（10–50 字）。短文本分类对规则方法更友好，因为可以精确命中关键词组合。当文本超过 100 字（解释性反馈），再用轻量分类器处理。

3. 归纳失败 → 人工复核队列

不是所有文本都能高置信度分类。置信度低于阈值的进入人工复核队列，复核结果反馈进词典更新，形成闭环。

归纳完的数据要写回公司的低代码流程平台。这一步的难点是：平台 API 文档不完整，而且接口格式会随版本迭代变化。

解法：用 Python 写了一个轻量适配层，把 NLP 输出的结构化结果映射到平台的接口格式。字段映射表用 JSON 维护，换接口版本时只改配置不改代码。

每周用 PowerBI 出一份分析报告，主要维度：

陡增检测是用了简单的 Z-score 方法：当某类问题的周同比超过 2σ 就触发预警，让产品经理能第一时间关注。

这段经历让我对「数据流水线」有了更完整的理解：模型准确率只是其中一环，数据质量、接口稳定性、标注一致性同样重要。