第一章 数据核心概念与分类体系
1.1按加工阶段划分的核心数据形态定义
数据形态 |
定义 |
处理状态 |
可用场景 |
质量要求 |
生语料 |
直接从互联网、数据库或传感器获取的原始数据,未经任何清洗 |
未加工 |
待处理 |
无质量要求 |
熟语料 |
经过基础清洗、去重、格式统一后的数据,具备基本可用性 |
粗加工 |
预训练 |
基础质量达标 |
样本集 |
经过精细化加工、标注、校验,带有明确监督信号的数据单元集合 |
精加工 |
微调、对齐 |
高质量、标注完整 |
标准化数据集 |
完成分布配比、版本冻结,可直接投入模型训练或推理引擎的成品数据包 |
成品 |
正式训练 |
验收通过、版本冻结 |
归档数据集 |
已完成历史使命,转入冷存储以备审计、溯源或未来复用的数据集合 |
归档 |
审计、复用 |
完整存储、可追溯 |
1.2按学习目标划分的核心数据分类
样本类型 |
定义 |
作用 |
配比建议 |
处理要求 |
|
|
|
正向标准样本 |
展示正确行为、知识或逻辑的样本 |
强化模型正向能力 |
SFT指令数据集 |
高质量的「指令-回复」对,旨在让模型学会遵循人类意图 |
指令清晰、回复高质量 |
标注、校验、配对 |
标注一致率>95% |
偏好对齐数据集 |
包含「优选-劣选」对比的样本对,旨在优化输出风格与价值观 |
偏好明确、对比鲜明 |
成对化、专家终审 |
偏好一致率>90% |
|
|
|
RAG知识库 |
结构化、分块的企业私有知识,旨在支持检索增强生成 |
结构完整、可检索 |
解析、切片、向量化 |
语义完整率>98% |
|
|
|
Agent工具库 |
API描述、参数定义及调用示例,旨在赋予模型工具使用能力 |
描述准确、权限清晰 |
标准化、权限标注 |
工具调用准确率>95% |
|
|
|
记忆库 |
用户历史交互摘要与关键信息,旨在支持长程个性化服务 |
上下文安全、可追溯 |
实时脱敏、切片管理 |
脱敏率>99% |
|
|
|
1.4多模态数据细分定义与特性
模态 |
定义 |
核心特性 |
处理重点 |
质量评估指标 |
文本 |
自然语言、代码、公式等符号化信息 |
高抽象度、语义丰富 |
逻辑连贯性、事实准确性 |
困惑度(PPL)、事实准确率 |
图像 |
静态视觉信息,包含照片、图表、示意图、界面截图等 |
高信息密度、空间结构 |
分辨率、版权合规、图文一致性 |
分辨率、美学评分、NSFW检测 |
音频 |
语音、环境音、音乐等听觉信号 |
时序性强、连续信号 |
降噪、说话人分离、转写准确率 |
信噪比(SNR)、词错率(WER) |
视频 |
包含时间维度的动态视觉与听觉复合信息 |
时空复合、多轨道 |
关键帧提取、音画同步、动作连续性 |
关键帧覆盖率、同步偏差 |
跨模态 |
两种及以上模态存在语义关联或时序同步的配对数据 |
语义对齐、时序同步 |
模态间语义一致性校验 |
图文相似度、时序同步率 |
第二章 核心数据处理动作体系
2.1数据处理动作总览与场景适配总表
核心处理动作 |
核心目标 |
主要适用场景 |
禁止适用场景 |
核心质量指标 |
技术实现要点 |
数据采集 |
合规获取符合场景目标的原始素材 |
全场景 |
无授权、无溯源的违规采集;爬虫违反Robots协议 |
授权完整率100% |
来源白名单、授权验证、元数据记录 |
格式转化 |
统一数据格式,适配后续处理/模型输入要求 |
全场景 |
破坏语义完整性的过度格式转化 |
语义零损失 |
编码统一、格式标准化、结构保留 |
文档解析 |
提取非结构化数据中的有效语义与结构信息 |
预训练、RAG、微调 |
破坏层级/版式/表格结构的解析;忽略元数据提取 |
结构保留率>95% |
<span lang="EN-US" style="mso-bidi-font-size:10.5pt; line-height:120%; font-family: <p> "微软雅黑",sans-serif; mso-bidi-font-family:Arial;"><span leaf=" "="">OCR、版式分析、结构化输出 |
数据清洗 |
剔除无效/低质/有害内容,保留有效语义 |
全场景 |
过度清洗剔除边界/例外/反例样本;无差别的关键词屏蔽 |
低质剔除率+边界保留率 |
规则+模型双机制、边界样本保护 |
数据脱敏 |
清除敏感信息,防范记忆泄露与隐私风险 |
全场景 |
破坏语义完整性的过度脱敏 |
敏感信息检出率>99% |
NER+正则、掩码+泛化策略 |
数据去重 |
剔除重复/同质化内容,避免模型过拟合 |
预训练、微调、RAG |
误删语义相似但场景不同的边界样本;忽略跨模态去重 |
重复率<阈值 |
精确去重+语义去重双机制 |
数据切片(分块) |
将长文本/长时序素材拆分为适配模型窗口的语义单元 |
预训练、微调、RAG、多模态处理 |
破坏语义完整性的固定字数切片;切断逻辑关联的强行截断 |
语义完整率>98% |
语义边界检测、重叠切片、父子切片 |
数据标注 |
为样本添加标签/指令/输出/配对信息,明确模型学习目标 |
微调、对齐、多模态训练 |
标注标准不统一、事实错误的违规标注;无校验的单人次标注 |
标注一致率>95% |
双人盲标+仲裁、专家抽检 |
事实校验 |
交叉验证内容的事实准确性,从根源降低幻觉 |
全场景(尤其是RAG/SFT) |
无权威信源的主观校验;仅依赖LLM自洽性校验 |
错误检出率>90% |
权威信源比对、专家终审 |
向量化 |
将语义内容转化为高维向量,适配语义检索 |
RAG、多模态对齐 |
语义匹配度低的劣质向量化;未做归一化处理的向量入库 |
语义匹配度>阈值 |
领域适配Embedding模型、质量校验 |
配比组装 |
按场景目标完成数据集的分布配比与组装 |
预训练、微调、对齐 |
分布失衡、场景覆盖不全的违规配比;忽视负样本比例 |
分布符合预设 |
分布分析、加权采样、版本管理 |
质检验收 |
按场景标准完成数据质量的最终校验 |
全场景 |
无量化标准的形式化质检;抽样比例不足的验收 |
达标率100% |
自动化+人工+模型实测三位一体 |
2.2单模态数据处理专项要求
2.2.1文本模态数据处理动作规范
处理流程:采集 → 编码统一→ 语言识别 → 噪声清洗 → 结构保留 → 质量评估技术规范:
· 编码统一:强制转换为UTF-8,清理乱码与控制字符(ASCII<32且非换行/制表符)
· 语言识别:使用LangDetect等工具精确识别语种,准确率>95%
· 结构保留:对于代码、Markdown、JSON等结构化文本,严禁破坏其语法结构
· 噪声清洗:剔除HTML标签、广告boilerplate、导航栏等非正文内容,但需保留引用文献与脚注
· 质量评估:使用Perplexity、可读性指数等指标评估文本质量
验收指标:
· 编码统一率100%
· 语言识别准确率>95%
· 结构保留率>95%
· 噪声剔除率>90%
2.2.2图像模态数据处理动作规范
处理流程:采集 → 分辨率过滤→ 水印检测 → 美学评分 → NSFW检测 → 质量评估技术规范:
· 分辨率过滤:设定最小像素阈值(如224x224),剔除模糊、破损图片
· 水印与版权:利用OCR与指纹技术识别并剔除含商业水印或侵权标识的图片
· 美学评分:引入美学评估模型(如NIMA),剔除构图极差、色彩失衡的低质图片
· NSFW检测:部署多类别色情、暴力检测模型,实行零容忍拦截
· 图文一致性:对于图文对数据,使用CLIP等模型计算相似度,剔除图文不符的噪声对
验收指标:
· 分辨率达标率>95%
· 水印检出率>90%
· NSFW拦截率100%
· 图文一致性>85%
2.2.3音频模态数据处理动作规范
处理流程:采集 → 信噪比控制→ 时长过滤 → 说话人分离 → ASR转写 → 质量评估技术规范:
· 信噪比(SNR)控制:剔除背景噪声过大、人声不清的音频片段,SNR>15dB
· 时长过滤:设定有效时长范围(如1s-60s),剔除过短或过长无效录音
· 说话人分离:对多人对话音频进行diarization处理,确保单条数据说话人单一或角色明确
· ASR转写校验:对自动转写文本进行WER(词错率)评估,低于阈值(如10%)者需人工复核或剔除
验收指标:
· SNR达标率>90%
· 时长合规率>95%
· 说话人分离准确率>85%
· WER<10%
2.2.4视频模态数据处理动作规范
处理流程:采集 → 关键帧提取→ 音画同步检测 → 动作连续性 → 多模态对齐 → 质量评估技术规范:
· 关键帧提取:基于场景变换检测提取代表性关键帧,避免冗余帧
· 音画同步检测:校验音频轨道与视频轨道的时间戳对齐情况,偏差超过阈值(如100ms)需校正
· 动作连续性:确保截取的视频片段动作逻辑完整,避免在半途截断
· 多模态对齐:确保视频画面、音频、字幕(如有)三者在语义上的高度一致
验收指标:
· 关键帧覆盖率>90%
· 音画同步偏差<100ms
· 动作完整率>95%
· 多模态一致性>85%
2.3跨模态数据处理专项要求
处理流程:多模态采集 → 语义对齐校验 → 细粒度标注 → 时序同步 → 缺失模态处理 → 质量评估技术规范:
· 语义对齐校验:利用CLIP等模型计算图文/音视频的相似度得分,剔除图文不符的噪声对(阈值>0.7)
· 细粒度标注:对跨模态数据进行区域级(Region-level)或时间级(Timestamp-level)的精细标注
· 时序同步规范:定义统一的时间基准,确保多模态流数据在毫秒级精度上的同步
· 缺失模态处理:制定当某一模态缺失时的降级策略(如仅有图像无文本时,是否自动生成描述或剔除)
验收指标:
· 语义对齐得分>0.7
· 细粒度标注覆盖率>90%
· 时序同步偏差<50ms
· 缺失模态处理合规率100%
第三章 数据全生命周期与对应处理动作
3.1第一阶段:原始数据采集与准入阶段
•核心数据形态:原始生语料/原始多模态素材•配套核心处理动作:合规采集、格式转化、初筛校验•处理目标:构建合规可信的源头数据池,阻断非法与高危数据流入•核心要求与注意事项:
· 建立白名单机制,优先采集权威信源
· 实施Robots协议遵守检查与版权初步筛查
· 记录采集元数据(URL、时间、来源、操作人)
· 禁止无授权采集、禁止来源不明数据入库
•质量评价标准:
· 来源合规率100%
· 元数据记录完整率100%
· 初筛通过率(按场景设定)
3.2第二阶段:数据预处理与粗加工阶段
•核心数据形态:初版熟语料/预处理后多模态素材•配套核心处理动作:格式统一、文档解析、粗清洗、全量脱敏、粗去重•处理目标:剔除明显无效内容,完成基础标准化,防范显性记忆泄露风险•核心要求与注意事项:
· 过度清洗防控:此阶段仅剔除乱码、空行、纯广告等明显噪声,严禁删除语义完整但稍显粗糙的内容
· 脱敏策略:采用正则与NER结合,对姓名、电话、身份证等进行掩码处理,保留实体类型标签
· 解析保留:表格、公式、代码需特殊处理,确保结构不丢失
•质量评价标准:
· 格式统一率100%
· 明显噪声剔除率>95%
· 敏感信息初筛覆盖率100%
· 解析结构保留率>95%
3.3第三阶段:数据精细化加工与校验阶段
•核心数据形态:标准化熟语料/标注后样本集•配套核心处理动作:精细化清洗、精准去重、事实校验、标注、伦理校验、偏见筛查•处理目标:构建符合场景要求的高质量数据单元,注入监督信号,消除隐性风险•核心要求与注意事项:
· 反例/边界样本保护:识别并单独标记边界样本,严禁将其作为噪声清洗掉
· 事实校验:对医疗、法律、科学等领域内容,必须引入专家或权威知识库进行交叉验证
· 标注质控:实施「双人盲标+仲裁」机制,确保标注一致性Kappa系数>0.8
· 伦理校验:覆盖暴力、色情、歧视、违法等场景,确保100%检出
•质量评价标准:
· 事实准确率>98%
· 标注一致率>95%
· 伦理违规检出率100%
· 偏见筛查覆盖率>90%
3.4第四阶段:数据切片与结构化处理阶段
•核心数据形态:标准化切片/结构化样本单元•配套核心处理动作:语义切片、结构化处理、多模态对齐、向量化(RAG场景)•处理目标:生成适配模型输入要求的最小语义单元,保持上下文逻辑完整•核心要求与注意事项:
· 分场景切片规范:预训练采用滑动窗口重叠切片;RAG采用基于段落/标题的语义切片;严禁按固定字符数强行截断
· 父子切片设计:RAG场景下,保留小块切片用于检索,同时关联大块父文档用于生成上下文
· 重叠度设置:切片重叠度建议10%-20%,确保语义连贯
•质量评价标准:
· 语义完整率>98%
· 切片重叠度符合设定
· 向量检索Top-K命中率达标
· 结构保留率>95%
3.5第五阶段:数据集配比与组装阶段
•核心数据形态:标准化成品数据集•配套核心处理动作:分布均衡性校验、场景配比、组装合库、版本冻结•处理目标:构建符合模型学习目标的完整数据集,优化数据分布以最大化模型收益•核心要求与注意事项:
· 刚性配比:严格执行预设的正负样本比例、领域分布比例、难度阶梯比例
· 版本管理:生成唯一的Dataset Version ID,锁定数据内容与处理参数,禁止原地修改
· 分布校验:使用统计检验方法验证分布是否符合预设
•质量评价标准:
· 分布偏离度<5%
· 版本信息完整
· 打包校验和(Checksum)一致
· 配比达标率100%
3.6第六阶段:数据交付与使用阶段
•核心数据形态:冻结版本的交付数据集/知识库•配套核心处理动作:交付校验、使用留痕、效果追踪•处理目标:保障数据在场景中合规、正确使用,建立数据-效果反馈闭环•核心要求与注意事项:
· 权限管控:基于RBAC模型严格控制数据访问权限,防止未授权下载
· 效果关联:记录该数据集参与训练的模型版本号及评估指标,建立映射关系
· 使用留痕:记录数据使用情况,包括使用时间、使用人、使用目的
•质量评价标准:
· 交付零差错
· 使用日志留存率100%
· 效果数据可追溯
· 权限违规率0%
3.7第七阶段:数据归档与退役阶段
•核心数据形态:归档数据集/待退役数据集•配套核心处理动作:合规归档、溯源留存、脱敏销毁•处理目标:合规留存、溯源审计、风险清零•核心要求与注意事项:
· 冷存储加密:归档数据需加密存储,密钥分离管理
· 彻底销毁:对于不再需要且含敏感信息的数据,执行多次覆写或物理销毁,确保不可恢复
· 溯源留存:保留数据血缘信息,支持未来审计追溯
•合规评价标准:
· 归档完整性100%
· 销毁可验证
· 审计响应时间<2小时
· 血缘信息完整率100%
第四章 专项数据治理与处理规范
4.1伦理/道德/价值观专项数据处理规范
样本构建要求:
· 构建包含政治敏感、仇恨言论、歧视、自残、犯罪教唆等类别的专项负样本库
· 每个类别样本数量不低于1000条,确保场景覆盖完整
· 样本需经过专家终审,确保分类准确、标注清晰
处理策略:
· 对于此类数据,不直接剔除,而是加工为「用户提问(有害)+ 模型回答(拒绝并引导)」的SFT样本
· 或在RLHF中标记为强烈负偏好
· 在预训练阶段进行降权处理,降低其在学习中的权重
分布要求:
· 在SFT与RLHF数据集中,伦理安全类样本占比不得低于5%-10%
· 确保各风险场景均有覆盖,不得遗漏
· 定期更新伦理样本库,适配新出现的风险类型
验收指标:
· 伦理样本覆盖率100%
· 伦理测试通过率>95%
· 专家终审完成率100%
4.2反例/边界例外样本专项处理规范
定义明确:
· 反例:明确错误的样本,用于教导模型什么是不应该做的
· 边界样本:处于合规与违规边缘的样本,用于细化模型决策边界
· 例外样本:特殊情况下的例外处理,用于提升模型灵活性
加工方式:
· 对边界样本添加详细的元数据标签(Tag),注明其特殊性
· 标签示例:is_boundary_case: true, risk_level: medium, exception_type: legal_gray_area
· 建立边界样本专用存储库,与常规样本分离管理
训练应用:
· 在训练中采用特殊的Loss权重或课程学习策略
· 让模型重点学习如何区分和处理此类样本,而非简单忽略
· 定期评估模型在边界场景下的表现,持续优化
验收指标:
· 边界样本保留率100%
· 边界场景测试通过率>90%
· 标签完整率100%
4.3系统性偏见防控专项数据处理规范
检测机制:
· 利用偏见检测工具包(如Bias Benchmark)扫描数据集
· 统计性别、种族、地域、职业等属性的共现概率
· 识别刻板印象严重的语料(如「护士-女性」、「工程师-男性」过度关联)
矫正措施:
· 补充平衡语料:针对检测出的刻板印象关联,补充反向关联语料(如「女性工程师」「男性护士」等),平衡各类别属性的共现概率,中和模型固有统计偏见。
· 偏见标注与权重调整:对含明显偏见的语料进行标注,在训练过程中降低其权重;对平衡类语料适当提升权重,引导模型学习无偏见表达。
· 群体代表性校准:确保数据集覆盖不同性别、种族、地域、职业的群体,每个群体的样本占比与实际分布大致匹配,避免某一群体被过度强化或弱化。
· 动态迭代优化:定期重新扫描数据集,结合模型输出反馈,更新偏见检测规则与平衡语料库,适配新出现的偏见表现形式。
验收指标:
· 偏见检测覆盖率>90%,刻板印象语料检出率>95%
· 各类群体样本代表性偏差<10%
· 模型偏见评估指标(如偏见得分)达标
· 平衡语料补充完成率100%
第五章 元数据与血缘管理体系
5.1元数据管理核心规范
定义:元数据是描述数据本身属性、来源、加工过程、质量特征及使用权限的结构化信息,是数据全生命周期可追溯、可管理的核心支撑,贯穿数据采集至归档退役的每一个阶段。核心元数据分类及要素:
· 基础元数据:涵盖数据名称、数据类型(文本/图像/音频/视频)、格式、存储路径、大小、创建时间、更新时间、负责人,用于明确数据的基础属性,确保数据可识别。
· 来源元数据:包含数据来源(权威网站/数据库/传感器/人工标注)、授权信息、采集工具、采集时间、溯源ID,用于追溯数据源头,保障数据合规性。
· 加工元数据:记录数据经过的所有处理动作、处理工具、处理参数、处理时间、处理人、版本号,用于还原数据加工过程,支撑质量回溯。
· 质量元数据:记录各阶段质量评估指标(如重复率、脱敏率、标注一致率)、质检结果、质检时间、质检人员,用于跟踪数据质量变化,明确质量责任。
· 权限元数据:包含数据访问权限、修改权限、使用范围、有效期,用于管控数据访问,防范数据泄露风险。
元数据管理流程:元数据采集 → 元数据标准化 → 元数据存储 → 元数据更新 → 元数据校验 → 元数据查询与复用技术规范:
· 元数据采集:采用自动化采集为主、人工补充为辅的方式,采集频率与数据更新频率同步,确保元数据实时性,避免元数据与实际数据脱节。
· 元数据标准化:制定统一的元数据字段规范、编码规则、命名规范,确保不同类型、不同来源的数据元数据格式统一,可互通、可对比。
· 元数据存储:采用专门的元数据管理系统(如MetaStore),支持结构化存储与快速检索,对敏感元数据(如权限信息)进行加密存储,密钥分离管理。
· 元数据更新:数据发生修改、加工、迁移、归档时,同步更新对应元数据,记录更新原因与更新人,确保元数据与数据的一致性,更新日志留存不少于3年。
· 元数据校验:定期对元数据进行完整性、准确性、一致性校验,剔除无效元数据,修正错误元数据,确保元数据可用、可信。
· 验收指标:
· 元数据完整率100%,核心元数据无缺失、无错误
· 元数据与实际数据一致性>99.5%
· 元数据更新延迟≤1小时,更新日志留存率100%
· 元数据检索响应时间<1秒,检索准确率100%
· 5.2数据血缘管理核心规范
· 定义:数据血缘是描述数据从原始采集、加工处理、流转、复用,到归档退役的全链路流转关系,清晰记录数据的来源、去向及加工过程,实现数据全生命周期可追溯、可审计。核心作用:
· 溯源追责:当数据出现质量问题、合规问题时,可通过血缘追溯定位问题源头(如采集环节、加工环节),明确责任主体。
· 影响分析:当某一环节的数据发生变更时,可通过血缘分析判断变更对下游数据、模型训练、业务应用的影响范围,降低变更风险。
· 合规审计:满足监管部门对数据溯源的要求,提供完整的数据流证明,支撑合规审计工作。
· 数据复用:通过血缘关系,快速定位可复用的数据资源,提升数据利用效率,减少重复采集与加工成本。
· 血缘追溯范围:
· 横向追溯:覆盖数据的全场景流转,包括采集源头 → 预处理 → 精细化加工 → 切片结构化 → 配比组装 → 交付使用 → 归档退役的每一个环节。
· 纵向追溯:覆盖数据的每一次加工迭代,包括版本变更、参数调整、处理动作优化等,记录每一次变更的具体内容与影响。
· 跨模态追溯:对于多模态数据,需建立不同模态数据间的血缘关联,记录模态转换、对齐、融合过程中的数据流转关系。