如影随形

影子是一个会撒谎的精灵,它在虚空中流浪和等待被发现之间;在存在与不存在之间....

您现在的位置是:主页 > 模板分享 > 国外 >

培训AI模型克劳德(Claude),拟人化花费了数百万

发布时间:2025-06-27 10:32编辑:365bet网址浏览(139)

    Home在6月26日报道说,根据《今日外国媒体ARS Technica》的报道,法院在当地时代发布的法院文件显示,人工智能公司人类众人花费了数百万美元来废除物理书籍,并将其扫描到数字文件中以实践Claude,练习Claude,Aleter Chatgpt。为了获得培训数据,公司被拆除并与系统上的大量书籍绑定,然后直接抛出了原件。判决长32页,并宣布了2024年2月的拟人化雇用汤姆·图里(Tom Turvey)。Turvey负责Google Books Project,该公司已任命他“从世界各地获取书籍”。这种战略安排显然是希望复制Google先前确定为法院的书籍的数字模型。最终,威廉·阿尔苏普法官(William Alsup扫描,并且数字文件仅用于内部用途,而不是传播。他认为,这种转换等同于“节省空间”数字转换,并具有“转换”属性以合理使用。如果公司从一开始就遵循这一道路,它可能会为合理使用AI的第一个法学制定,但早期的盗版使其合法性分散了人们的注意力。主要原因真的很简单:AI培训需要大量的高质量文本。为了产生大型语言模型,研究人员需要在神经Netwsork中输入数十亿个单词,反复训练该模型,并建立单词和概念之间的关系。培训数据的质量直接影响模型输出的准确性。与诸如在线评论之类的混乱信息相比,编辑的书籍和文章可以显着提高AI语言技能。 AI公司迫切需要发布内容,但通常会犹豫不决关于许可。美国的“首次销售原则”提供了法律空间:购买实物书籍后,用户可以自己处理。它使这本书购买合法的“绕行计划”。像他的许多同龄人一样,人类最初选择了一个捷径来错过版权。众议院从法院材料中学到了这一点,以防止长期而复杂的PAH ProcessInvolvolved,Amodai促进了使用盗版电子书的使用。但是到2024年,出于法律原因,公司开始寻找更安全的继任者。获得二手书已成为一个不错的选择:无需谈论许可,您将获得高质量的培训文本。为了加快数字化流程,人为采用的“破坏性扫描”以购买大量书籍,打开包装,收获和扫描PDF文件阅读的机器,所有纸张都在完成后抛出。整个过程价值数百万美元。公司大部分的购买目标都是零售cha的普通旧书籍nnels。但是实际上,长期以来,非破坏性扫描技术已经成熟。例如,互联网存档是可以维护原始书籍的数字方式的转盘。本月初,微软还宣布与哈佛大学图书馆建立合作伙伴关系,计划使用近100万本公共版本来培训AI,在警告期间仍然保存得很好。