你的位置:

外国色情片 > 成人 动漫 >

  • 户外 你的自拍和聊天纪录,正被硅谷大厂砸数十亿好意思元疯抢

    发布日期:2025-04-14 18:21    点击次数:184

    户外 你的自拍和聊天纪录,正被硅谷大厂砸数十亿好意思元疯抢

      新智元报说念  

    剪辑:Aeneas 好困

    【新智元导读】2026 年的数据荒越来越近,硅谷大厂们一经为 AI 提示数据抢疯了!它们纷纷豪掷十数亿好意思元,但愿把犄角旮旯里的像片、视频、聊天纪录都给挖出来。不外,如若有一天 AI 忽然吐出了咱们的自拍照或者秘籍聊天,该奈何办?

    谁能预料,咱们多年前的聊天纪录、酬酢媒体上的陈年像片,忽然变得腹背之毛,被大科技公司争相疯抢。

    现时,硅谷大厂们一经纷纷搬动,买下整个能购买版权的互联网数据,这架势简直要抢破头了!

    图像托管网站 Photobucket 的陈年旧数据,原本一经多年无东说念主问津,但如今,它们正在被各大互联网公司疯抢,用来提示 AI 模子。

    为此,科技巨头们沸腾拿出实打实的真金白银。比如,每张像片价值 5 好意思分到 1 好意思元,每个视频价值越过 1 好意思元,具体情况取决于买家和素材种类。

    总之,为了购买 AI 提示数据,巨头们一经张开了一场合下竞赛!

    而最近闹得重兴旗饱读的 Meta 图像生成器大翻车事件,更是让 AI 的提示数据「刻板印象」内情毕露。

    如若喂给模子的数据无法更正「偏见」,那各大公司要遭受的公论风云,或许少不了。

    Meta 的 AI 生图器用画不出来「亚洲男性和白东说念主太太」或「亚洲女性和白东说念主丈夫」

    巨头狂砸数十亿好意思元,只为买到数据「黄金」

    凭证路透社报说念,在 2000 年代,Photobucket 处于巅峰期,领有 7000 万用户。而今天,这家顶级网站的用户一经骤降到了 200 万东说念主。

    但生成式 AI,给这家公司带来了重生。

    CEO Ted Leonard 沸腾肠浮现,现时一经有多家科技公司找上门来,沸腾重金购买公司的 130 亿份像片和视频。

    认识,天然就是提示 AI。

    为特出到这些数据,各大公司都相等舍得割肉。

    而且,他们还想要更多!传说,一位买家暗意,我方想要越过 10 亿个视频,而这,一经远远超出了 Photobucket 能提供的数目。

    据稚子推测,Photobucket 手中执着的数据,很可能价值数十亿好意思元。

    OpenAI 陷告状风云,版权太明锐了

    现时眼看着,环球的数据都不够用了。

    凭证 Epoch 连络所的分析,到 2026 年,科技公司很可能会耗尽互联网上整个的高质地数据,因为他们耗尽数据的速率,远远越过了数据的生成速率!

    提示 ChatGPT 的数据,是从互联网上免费抓取的。Sora 的提示数据开首省略,CTO Murati 给与采访时支粗略吾的施展,险些又让 OpenAI 大翻车。

    天然 OpenAI 暗意,我方的作念法全都正当,但前线还有一堆版权诉讼在等着他们。而其他大科技公司都随着学乖了,环球都在暗暗地为付费墙和登录屏幕背后的锁定实践付费。

    如今,岂论是铩羽的聊天纪录,如故被淡忘的酬酢媒体上灭亡的旧像片,忽然都变成了腹背之毛的东西。而各大公司一经纷纷搬动,急于寻找版权整个者的授权。毕竟,私东说念主储藏的东西,是无法抓取的。

    外媒记者走访了 30 多名专科东说念主士,发现这背后荫藏的,是一个黄金市集。

    天然许多公司对于这个不透明的 AI 市集畛域暗意肃静,但 Business Research Insights 等连络东说念主员以为,现时市集畛域约为 25 亿好意思元,并瞻望十年内可能会增长近 300 亿好意思元。

    生成数据淘金热,让数据商乐着花

    对科技公司来说,如若不可使用免费抓取的网页数据档案,比如 Common Crawl,那资本会是一个很可怕的数字。

    但是一连串版权诉讼和监管激越,一经让他们别无选拔。以至,硅谷一经出现了一个新兴的行业 —— 数据牙东说念主。而图片、视频供应商们,也随之赚得盆满钵满。

    手快的公司,早就响应过来了。ChatGPT 在 2022 年底亮相的几个月内,Meta、谷歌、亚马逊和苹果就一经赶快和图片库提供商 Shutterstock 完了条约,使用库中的数亿份图像、视频和音乐文献进行提示。

    凭证首席财务官浮现的数据,这些来去从 2500 万好意思元到 5000 万好意思元不等。

    而 Shutterstock 的竞争敌手 Freepik,也一经有了两位大买家,2 亿张图片档案中的大部分,会以 2 至 4 好意思分的价钱授权。

    OpenAI 天然也不会过期,它不仅是 Shutterstock 的早期客户,还与包括好意思联社在内的至少四家新闻机构签署了许可条约。

    让实践「相宜说念德」

    同期兴起的,还有 AI 数据定制行业。

    这批公司得回了与播客、短视频和与数字助理互动等现实天下实践的授权,同期还开垦了短期合同工麇集,从新开动定制视觉恶果和语音样本。

    手脚代表之一的 Defined.ai,一经把我方的实践卖给了谷歌、Meta、苹果、亚马逊、微软等多家科技大厂。

    其中,一张图片卖 1 到 2 好意思元,一部短视频卖 2 到 4 好意思元,一部长片每小时不错卖到 100 到 300 好意思元,文本的市价则是每字 0.001 好意思元。

    而比较攻击的赤身图像,售价为 5 到 7 好意思元,因为还需要后期处理。

    而这些像片、播客和医疗数据的整个者,也会得回总来去额 20% 至 30% 的用度。

    一位巴西数据商暗意,为了得回犯科现场、冲破暴力和手术的图像,他需要从巡警、摆脱影相记者和医学新手里去买。

    他补充说,他的公司雇用了风气于看到暴力伤害的照顾来脱敏和标注这些图像,这对未经提示的眼睛来说是令东说念主不安的。

    而将图像脱敏、标注的使命,则交给惯于看到暴力伤害的照顾,毕竟未经提示的东说念主眼看到这些图像,会很不安。

    然则,这些 AI 模子的「燃料」,很可能会激发严重的问题,比如 —— 吐出用户秘籍。

    大家发现,AI 会反刍提示数据,比如,它们会吐出 Getty Images 水印,逐字输出纽约时报著述的段落户外,以至再现真东说念主图像。

    Getty Images 谴责 Stability AI「以惊东说念主的畛域明火执杖地侵略它的学问产权」

    也就是说,几十年前某东说念主发布的私东说念主像片或精巧想法,很可能在不知情的情况下,被 AI 模子原样吐了出来!

    此次「ChatGPT 在回报中泄露目生男人自拍照事件」,让环球颇为慌乱

    这些隐患,现时还莫得灵验步调措置。

    调查炫耀,用户沸腾每月多付 1 好意思元,让我方的个东说念主数据不被第三方使用

    Altman,也看上了合成数据

    另外,Sam Altman 也早看到了合成数据的将来。

    这些数据不是东说念主类平直创造的,而是由 AI 模子生成的文本、图像和代码,也就是说,这些系统通过学习我方产生的实践来跳跃。

    既然 AI 能创造出接近东说念主类的文本,天然也就能自产自销,帮我方进化成更先进的版块。

    唯一咱们能够跨过合成数据的关节阈值,即让模子能够自主创造出高质地的合成数据,那么一切问题都将应刃而解。

    ——Sam Altman

    不外,这件事真实这样容易吗?

    东说念主工智能连络者们一经连络合成数据多年,但要构建一个能自我提示的东说念主工智能系统并非易事。

    大家发现,模子如若只依赖于自我生成的数据,可能会不休近似我方的作假和局限,堕入一个自我加强的轮回中。

    这些系统所需的数据,就像是在森林中寻找一条旅途,如若它们只是依赖于合成数据,就可能在森林里迷途。

    —— 前 OpenAI 连络员、现任不列颠哥伦比亚大学蓄意机科学种植 Jeff Clune

    对此,OpenAI 正在探索怎样让两个不同的东说念主工智能模子合作,共同生成更高质地、更可靠的合成数据。其中一个肃肃生成数据,另一个则肃肃评估。

    这种步调是否灵验,还未可知。

    「畛域」Is All You Need

    数据为什么对 AI 模子这样蹙迫?这要从底下这篇论文提及。

    2020 年 1 月,约翰斯・霍普金斯大学的表面物理学家 Jared Kaplan 与 9 位 OpenAI 连络东说念主员共同发表了一篇具有里程碑意旨的东说念主工智能论文。

    他们得出了一个明确的论断:提示大言语模子所用的数据越多,其性能就越好。

    正如一个学生通过阅读更多册本能学到更多学问一样,大言语模子能通过更多的信息更精准地识别文本模式。

    很快,「唯一畛域豪阔大,一切就王人有可能」便成为了 AI 领域的共鸣。

    论文地址:https://arxiv.org/ abs / 2001.08361

    2020 年 11 月,OpenAI 推出的 GPT-3,便愚弄了其时最为宽敞的数据进行提示 —— 约 3000 亿个 token。

    在继承了这些数据后,GPT-3 展现出了惊东说念主的文本生成智商 —— 它不仅不错撰写博客著述、诗歌,以至还能编写我方的蓄意机法子。

    但如今看来,这个数据集的畛域就显得额外小了。

    到了 2022 年,DeepMind 将提示数据平直拉到了 1.4 万亿个 token,比 Kaplan 博士在论文中瞻望的还要多。

    然则,这一纪录并未保持太久。

    2023 年,谷歌发布的 PaLM 2,在提示 token 上更是达到了 3.6 万亿 —— 简直是牛津大学博德利藏书楼自 1602 年以来汇集手稿数目的两倍。

    为训 GPT-4,OpenAI 白嫖 100 万 + 小时 YouTube 视频

    但正如 OpenAI 的 CEO Sam Altman 所说,AI 终究会耗尽完互联网上整个可用的数据资源。

    这不是预言,也不是稠浊视听 —— 因为 Altman 本东说念主就曾亲眼目击过它的发生。

    在 OpenAI,连络团队多年来一直在汇集、清算数据,并将其汇集成巨大的文本库,用以提示公司的言语模子。

    他们从 GitHub 这个蓄意机代码库中索求信息,汇集了海外象棋走法的数据库,并愚弄 Quizlet 网站上对于高中观望和功课的数据。

    然则,到了 2021 年底,这些数据资源一经耗尽。

    为了下一代 AI 模子的开发,总裁 Brockman 决定躬行披挂上阵。在他的率领下,团队开发出了一款全新名的语音识别器用 Whisper,不错快速准确地转录播客、有声读物和视频。

    有了 Whisper 之后,OpenAI 很快便转录了越过 100 万小时的 YouTube 视频,而 Brockman 更是躬行参与到了汇集使命当中。

    最终的故事环球都知说念了,在如斯高质地数据的加持下,地表最强的 GPT-4 横空出世。

    谷歌:我也一样

    趣味的是,谷歌其实早就知说念 OpenAI 在愚弄 YouTube 视频汇集数据,但从未想过要露面攻击。

    你猜的没错,谷歌也在愚弄 YouTube 视频来提示自家的 AI 模子。

    而如若要对 OpenAI 的行动大加谴责,他们不仅会知道我方,以至还会激发公众愈加激烈的响应。

    不仅如斯,那些储存在 Google Docs、Google Sheets 等应用里的数十亿笔墨数据,亦然谷歌的方针。

    2023 年 6 月,谷歌的法律部门要求秘籍团队修改就业条目,从而扩张公司抵消费者数据的使用权限。

    也就是,为公司能够愚弄用户公开共享的实践开发一系列的 AI 产物,铺平说念路。

    据职工浮现,他们被明确迷惑要在 7 月发布新的条目,因为那时环球的珍重力都在行将到来的假期上。

    7 月 1 日发布的新条目不仅允许谷歌使用这些数据开发言语模子,还能用于创建像 Google Translate、Bard 和 Cloud AI 等平凡的 AI 本事和产物Meta 数据不及,高管被动天天开会

    相同在追逐 OpenAI 的,还有 Meta。

    为了能够超越 ChatGPT,小扎不分日夜地催促公司的高管和工程师加速开发一个能与之竞争的聊天机器东说念主。

    然则,到了旧年事首,Meta 也遇到了和其他竞争者一样的坚苦 —— 数据不及。

    尽管 Meta 掌管着宽敞的酬酢麇集资源,但不仅用户莫得保留帖子的风气(许多东说念主会删除我方之前的发布),而且 Facebook 毕竟也不是一个环球风气发高质地长文的场所。

    此前,小扎曾自傲宣称 Meta Platforms 的调查数据,是 Meta AI 的一大上风

    生成式 AI 副总裁 Ahmad Al-Dahle 向高层浮现,为了开发出一个模子,他的团队简直愚弄了麇集上整个可找到的英文册本、论文、诗歌和新闻著述。

    但这些还远远不够。

    2023 年 3 月到 4 月,公司的商务发展肃肃东说念主、工程师和讼师简直每天都在密鸠合议,试图找到措置有策划。

    他们议论了为获取新书的好意思满版权支付每本 10 好意思元的可能性,并征询了收购出书了斯蒂芬・金等作者作品的 Simon & Schuster 的想法。

    与此同期,他们还征询了未经允许就对麇集上的册本、论文等作品进行选录的作念法,并议论进一步「继承」更多实践,哪怕这可能招致法律诉讼。

    jisoo ai换脸

    好在,手脚行业标杆的 OpenAI,就在未经授权的情况下使用了版权材料,而 Meta 概况不错参考这一「市集前例」。

    凭证灌音,Meta 的高管们决定鉴戒 2015 年作者协会(Authors Guild)对谷歌的法庭判决。

    在阿谁案例中,谷歌被允许扫描、数字化并在在线数据库中编目册本,因为它仅在线上复制了作品的一小部分,况且更正了原作,这被认定为合理使用。

    在会议中,Meta 的讼师们暗意,用数据提示东说念主工智能系统应当相同被视为合理使用。

    但即便如斯,Meta 似乎如故没攒足数据……

    AI 生图器用拒却「白东说念主和亚洲东说念主」合影

    最近,外媒 The Verge 的记者在屡次尝试后发现,Meta 的 AI 图像生成器用并不可创建一张东亚男性和白东说念主女性同框的图片。

    不管 prompt 是「亚洲男性与白东说念主一又友」、「亚洲男性与白东说念主太太」、「亚洲女性与白东说念主丈夫」,如故经由魔改的「一位亚洲男性和一位白东说念主女性带着狗含笑」,都不著成功。

    当他将「白东说念主」改为「高加索东说念主」时,戒指依旧如斯。

    比如「亚洲男性和高加索女性的婚典日」这个 prompt,得到的却是一张身穿西装的亚洲男性与身着旗袍 / 和服混搭的亚洲女性的图像……

    AI 竟然难以联想亚洲东说念主与白东说念主并列而立的场景,这真实有些匪夷所想。

    而且,在生成的实践中,还荫藏着愈加神秘的偏见。

    举个例子,Meta 老是将「亚洲女性」描摹成东亚面目,似乎忽略了印度手脚天下上东说念主口最多国度的事实。与此同期,「亚洲男性」多为年长辈,而亚洲女性却老是年青化。

    比较之下,OpenAI 加持的 DALL-E 3,就全都莫得这个问题。

    对此,有网友指出,出现这个问题的原因是 Meta 在模子提示时莫得输入豪阔多的场景示例。

    简而言之,问题不在于代码自身,而在于模子提示时所使用的数据集不够丰富,莫得充分掩饰整个可能的场景。

    但更深头绪的是,AI 的行动是其创造者偏见的体现。

    在好意思国媒体中,「亚洲东说念主」往往就是指东亚东说念主,不符合这一单一形象的亚洲东说念主简直从文化相识中被抹去,即就是符合的东说念主也在主流媒体中被边际化。

    而这,只是因数据形成的 AI 偏见的一隅云尔。

    参考贵寓:

    https://www.reuters.com/technology/inside-big-techs-underground-race-buy-ai-training-data-2024-04-05/

    https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

    https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism

    本文来自微信公众号:新智元 (ID:AI_era)

    告白声明:文内含有的对外跳转汇注(包括不限于超汇注、二维码、口令等阵势),用于传递更多信息户外,从简甄选时候,戒指仅供参考,IT之家整个著述均包含本声明。




Powered by 外国色情片 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024