IBM公布了其完整的6.48 TB LLM训练数据集

AI头条· 2024-07-05 08:57:17

IBM 于五月份开源了适用于企业应用场景的 Granite13B LLM 模型。现在,IBM 的 AI 平台产品副总裁阿曼德・鲁伊兹(Armand Ruiz)公开了用于训练 Granite13B 的全面6.48TB 数据集的完整内容。

这个数据集经过严格的预处理后,缩减为2.07TB,减少了68%。鲁伊兹强调,这一步骤对于确保高质量、无偏见、符合伦理和法律的数据集,以满足企业应用场景需求至关重要。

数据集由多个来源精心策划而来,包括:

- arXiv:超过240万篇科学论文预印本。

- Common Crawl:开放的网络抓取数据库。

- DeepMind Mathematics:数学问答对。

- Free Law:来自美国法院的公共领域法律意见。

- GitHub Clean:来自 CodeParrot 的代码数据。

- Hacker News:2007-2018年的计算机科学和企业家新闻。

- OpenWeb Text:OpenAI 的 Web Text 语料库的开源版本。

- Project Gutenberg(PG-19):专注于早期作品的免费电子书。

- Pubmed Central:生物医学和生命科学论文。

- SEC Filings:美国证券交易委员会(SEC)的10-K/Q 提交文件(1934-2022年)。

- Stack Exchange:Stack Exchange 网络上的用户贡献内容。

- USPTO:1975年至2023年5月间授予的美国专利。

- Webhose:将非结构化网络内容转换为机器可读数据。

- Wikimedia:八个英文维基媒体项目。

预处理流程包括文本提取、去重、语言识别、句子分割、仇恨、滥用和粗话标注、文档质量标注、URL 屏蔽标注、过滤和标记化。

这些步骤涉及基于设定阈值的标注和过滤,确保最终数据集对模型训练具有最高质量。

IBM 发布了 Granite 代码模型的四个版本,参数范围从30亿到340亿。这些模型已在一系列基准测试中进行了测试,并在许多任务中胜过其他可比模型,如 Code Llama 和 Llama3。



文章链接: http://youthcy.com/aizixun/2445.html Chat gpt人工智能中文版在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表炎黄立场。

轻创AI创作系统

轻创AI智能客户管理系统是一款全面而高效的客户关系管理工具,专门设计用于帮助企业更好地管理他们的客户资源和业务关系。该系统结合了强大的客户关系管理功能与先进的智能化技术,旨在提升客户满意度和忠诚度,从而实现更高的业务效益。