|
|
|
|
|
1. 多源多模态数据合规采集,覆盖公开网页、行业数据库、企业私域数据、授权第三方数据源等全渠道
|
通用预训练语料库原始素材建设、企业私域知识库原始素材汇聚、微调数据集原始素材采集、全量数据合规归档与溯源、增量数据常态化同步
|
|
2. 全量原始数据的统一汇聚、归档备份,完整保留数据原始链路、授权文件与原生元数据
|
|
3. 数据接入的格式兼容性校验、原始数据完整性校验、无效数据源剔除
|
|
4. 全量数据源台账维护、采集链路合规审计、数据源授权全生命周期管理
|
|
5. 增量数据的定时同步、批次管理、全链路采集日志留痕
|
|
|
1. 多模态数据格式标准化与格式转换,包括音视频转码、文档格式统一、图片分辨率标准化、编码格式统一
|
预训练语料库基础清洗加工、RAG 知识库原始素材预处理、单模态明细数据资产建设、微调数据集基础标准化、多模态数据基础解析入库
|
|
2. 全量数据去重处理,包括精准去重、语义近重识别与剔除、重复片段 / 重复文件批量处理
|
|
3. 低质 / 无效 / 噪声数据过滤,包括垃圾文本、模糊图片、无意义音视频、空白 / 损坏文档、乱码数据批量剔除
|
|
4. 非结构化数据基础解析,包括 OCR 图文识别、ASR 语音转写、视频关键帧提取、文档结构化解析、代码语法格式化
|
|
5. 基础噪声剔除、语种规范化、特殊字符 / 冗余内容处理、基础敏感信息初筛与标记
|
|
|
1. 多模态数据语义深度治理,包括事实一致性校验、知识密度分级、内容质量多维度打分、虚假信息识别与剔除
|
多模态预训练语料库深度治理、企业级 RAG 知识库建设、跨模态对齐数据集加工、领域知识图谱构建、多模态语义中台建设、高质量明细数据资产生产
|
|
2. 跨模态数据语义对齐,包括图文 / 音视频内容一致性核验、跨模态语义关联映射、全局统一语义编码
|
|
3. 数据分类分级、领域标签体系建设、知识体系梳理、业务语义标准化
|
|
4. 知识切片、语义分块、窗口优化,适配大模型上下文窗口与输入要求
|
|
5. 全流程数据质量管理,包括质量规则制定、批量质量稽核、质量问题溯源与整改、质量报告输出
|
|
6. 结构化数据语义化转换、知识图谱构建与融合、多模态 Embedding 向量化、向量索引构建与优化
|
|
|
1. 通用基础标注:文本分类、实体标注、意图识别、图文配对标注、音视频内容分段标注、场景标签标注
|
SFT 监督微调数据集制作、RLHF/DPO 偏好对齐数据集建设、领域大模型微调、小样本 / 零样本学习数据集制作、模型安全对齐训练、多模态指令跟随能力训练
|
|
2. 专业领域标注:行业知识标注、专业术语标注、指令 - 回答配对标注、专业内容事实校验标注(联合行业专家完成)
|
|
3. 大模型对齐标注:RLHF/DPO 偏好排序标注、人类反馈数据标注、有害内容识别标注、模型价值观对齐标注
|
|
4. 标注全流程管控:标注规则制定、标注流程标准化、标注质量抽检与校验、标注人员培训与管理
|
|
5. 数据合成与增强:高质量样本合成、领域数据增强、小样本场景数据扩充、指令模板优化与扩充、样本均衡化处理
|
|
|
1. 多模态元数据全生命周期管理,包括元数据自动采集、更新、维护、检索与标准化管理
|
企业级多模态数据资产平台建设、全量数据合规溯源、预训练 / 微调数据集版本管理、RAG 知识库全生命周期运维、数据资产复用与共享、企业数据资产化落地
|
|
2. 数据 - 模型全链路血缘追踪、血缘图谱构建、可视化溯源、数据变更全流程留痕
|
|
3. 多模态数据资产分级分类、资产目录建设、资产编目、资产检索与共享管理
|
|
4. 数据资产版本管理、增量更新管控、数据集全生命周期版本追溯
|
|
5. 数据资产价值评估、资产运营台账维护、资产授权与订阅管理、资产复用率提升
|
|
6. 数据全生命周期管理,包括数据归档、销毁、留存周期管控,符合监管与业务要求
|
|
|
1. 多模态数据全链路内容安全审核,有害 / 低俗 / 违规 / 敏感内容识别与批量剔除
|
预训练语料库全维度合规审核、微调数据集安全校验、RAG 知识库合规管控、模型安全对齐训练、监管合规审计备案、AIGC 生成内容全链路安全管控
|
|
2. 全模态敏感信息识别与脱敏,包括个人信息、商业秘密、涉密内容的自动化识别与脱敏处理
|
|
3. 版权合规全流程管控,包括版权溯源、侵权内容识别、数据源授权管理、商用内容合规性校验
|
|
4. 数据偏见、歧视性内容识别与治理、模型价值观对齐合规管控、越狱风险数据筛查与剔除
|
|
5. 全流程合规审计留痕、合规台账维护、监管合规对接、风险事件处置与复盘
|
|
6. 数据安全分级、细粒度权限管控、数据加密存储、数据跨境合规管控
|
|
|
1. 面向预训练场景的语料库封装、批次划分、模型格式适配、交付与验收、交付台账维护
|
大模型预训练语料交付、监督微调 / 偏好对齐数据集交付、企业 RAG 知识库交付、模型测评数据集交付、领域大模型定制化数据集开发、场景化数据解决方案落地
|
|
2. 面向微调场景的数据集标准化拆分(训练 / 验证 / 测试集)、格式化封装、场景适配定制、交付与效果初测
|
|
3. 面向 RAG 场景的知识库切片封装、向量索引交付、知识库更新迭代、运维支持与效果优化
|
|
4. 交付数据的模型适配性验证、效果测试、用户反馈收集、定向优化与迭代
|
|
5. 场景化数据解决方案制定、定制化数据集开发、交付版本全生命周期管理
|
|
6. 数据封装、加密交付、授权管控、交付文档与使用说明输出
|