IBM公布了其完整的6.48 TB LLM训练数据集

AI头条· 2024-07-05 08:57:17

IBM 于五月份开源了适用于企业应用场景的 Granite13B LLM 模型。现在，IBM 的 AI 平台产品副总裁阿曼德・鲁伊兹（Armand Ruiz）公开了用于训练 Granite13B 的全面6.48TB 数据集的完整内容。

这个数据集经过严格的预处理后，缩减为2.07TB，减少了68%。鲁伊兹强调，这一步骤对于确保高质量、无偏见、符合伦理和法律的数据集，以满足企业应用场景需求至关重要。

数据集由多个来源精心策划而来，包括:

- arXiv:超过240万篇科学论文预印本。

- Common Crawl:开放的网络抓取数据库。

- DeepMind Mathematics:数学问答对。

- Free Law:来自美国法院的公共领域法律意见。

- GitHub Clean:来自 CodeParrot 的代码数据。

- Hacker News:2007-2018年的计算机科学和企业家新闻。

- OpenWeb Text:OpenAI 的 Web Text 语料库的开源版本。

- Project Gutenberg（PG-19）:专注于早期作品的免费电子书。

- Pubmed Central:生物医学和生命科学论文。

- SEC Filings:美国证券交易委员会（SEC）的10-K/Q 提交文件(1934-2022年)。

- Stack Exchange:Stack Exchange 网络上的用户贡献内容。

- USPTO:1975年至2023年5月间授予的美国专利。

- Webhose:将非结构化网络内容转换为机器可读数据。

- Wikimedia:八个英文维基媒体项目。

预处理流程包括文本提取、去重、语言识别、句子分割、仇恨、滥用和粗话标注、文档质量标注、URL 屏蔽标注、过滤和标记化。

这些步骤涉及基于设定阈值的标注和过滤，确保最终数据集对模型训练具有最高质量。

IBM 发布了 Granite 代码模型的四个版本，参数范围从30亿到340亿。这些模型已在一系列基准测试中进行了测试，并在许多任务中胜过其他可比模型，如 Code Llama 和 Llama3。

AI论文写作一键生成万字原创论文只需5分钟

文章链接: http://youthcy.com/aizixun/2445.html Chat gpt人工智能中文版在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表炎黄立场。

轻创AI智能客户管理系统是一款全面而高效的客户关系管理工具，专门设计用于帮助企业更好地管理他们的客户资源和业务关系。该系统结合了强大的客户关系管理功能与先进的智能化技术，旨在提升客户满意度和忠诚度，从而实现更高的业务效益。

扫码咨询

关注微博

立即咨询

上一篇腾讯混元DiT推出6G小显存版本混元Captioner正式

下一篇阶跃星辰发布Step-2等三个模型主打多模态能力

相关推荐

月之暗面杨植麟：天才少年难躲资本局？

　双11当天，这场电商的节日反倒静悄悄，AI领域却爆出了大新闻。大模型独角兽企业『月之暗面』创始人被前司投资人提起仲裁，消息阅读量很快突破10W+。据《暗涌》具 ...

一句话开发AI智能体，有人靠它一单赚10万！80万开发者已入局

　最近，AI智能体领域好不热闹。ChatGPT一夜变身AI搜索，为自家AI Agent铺路；Anthropic重磅推出的「计算机使用」，开启了智能体的军备竞赛；谷 ...

字节、快手、Vidu“打野”升级，AI视频小步快跑

　继9月份版本更新之后，光锥智能从生数科技联合创始人兼CEO唐家渝朋友圈获悉，Vidu大模型将于本周再次进行版本升级，Vidu-1.5版本即将上线。此版本更新方向 ...

AI毒液刷屏抖音小红书！闲鱼10元代生成一次，但官网其实免费

　仅仅2天时间，毒液迅猛攻占了抖音快手小红书！不过不是3分钟看完最新电影，火遍全网的是一款AI驱动的毒液特效：△来自抖音用户西北彭鱼艳甚至还被拿来和美人如云的《甄 ...

京东做外卖，瞄准咖啡奶茶和快餐，互联网巨头都爱“送外卖”？

　外卖战场，越来越热闹了！大概一个月前，京东 “秒送” 频道上线了咖啡奶茶与快餐外卖。此后，有关“京东入局外卖”的消息就此起彼伏，按照不少媒体的评价，京东上线外卖 ...

30亿美元的月之暗面，为什么“被仲裁”？

　国内最火的人工智能产品Kimi，背后的创始人被他们上一家公司的部分投资人申请仲裁。听起来有点儿绕，但实际无非就是“人红是非多”罢了。据36氪旗下专注于投资报道的 ...

青年创业网

AI智能对话

AI长篇写作

AI智能视频

炎黄AI注册

IBM公布了其完整的6.48 TB LLM训练数据集