21 فروردین 1403

استفاده غیر مجاز از یک میلیون ساعت ویدیوی یوتیوب برای آموزش هوش مصنوعی

شرکت اُپن ای‌آی بیش از یک میلیون ساعت از ویدیوهای یوتیوب را برای آموزش هوش مصنوعی جی‌پی‌تی-۴ (GPT-4) خود رونویسی کرده است که این با واکنش شرکت گوگل همراه بوده است.

به گزارش داتیکا به نقل از ایسنا، اوایل این هفته، وال استریت ژورنال گزارش داد که شرکت‌های هوش مصنوعی هنگام جمع‌آوری داده‌های آموزشی با کیفیت بالا با مانع مواجه شده‌اند. اکنون، نیویورک تایمز برخی از روش‌هایی را که شرکت‌ها با این موضوع برخورد کرده‌اند، شرح داده است. جای تعجب نیست که این کارها شامل فعالیت‌هایی می‌شود که در ناحیه خاکستری مبهم قانون کپی‌رایت هوش مصنوعی قرار می‌گیرند.

داستان با شرکت اُپن ای‌آی آغاز می‌شود که به‌دلیل ناامیدی از به دست آوردن داده‌های آموزشی، مدل رونویسی صوتی ویسپر(Whisper) خود را توسعه داد و بیش از یک میلیون ساعت ویدیوی یوتیوب را برای آموزش هوش مصنوعی جی‌پی‌تی-۴ که پیشرفته‌ترین مدل زبانی بزرگ این شرکت است، رونویسی کرد. به گفته نیویورک تایمز این شرکت می‌دانسته که چنین کاری از نظر قانونی مورد سوال است اما معتقد بوده که استفاده از ویدیوها منصفانه است. تایمز می‌نویسد، گرگ براکمن(Greg Brockman)، رئیس اُپن ای‌آی، شخصا در جمع‌آوری ویدیوهای مورد استفاده شرکت داشته است.

لیندزی هلد(Lindsay Held)، سخنگوی اُپن ای‌آی در ایمیلی به ورج گفته است که این شرکت مجموعه داده‌های منحصر به فردی را برای هر یک از مدل‌های خود تنظیم می‌کند تا به درک آنها از جهان کمک کند و رقابت تحقیقاتی جهانی خود را حفظ کند. هلد افزود که این شرکت از منابع متعددی از جمله داده‌های در دسترس عموم و داده‌های غیرعمومی استفاده می‌کند و به دنبال تولید داده‌های مصنوعی خود است.

براساس مقاله تایمز، این شرکت منابع داده‌های مفید را در سال ۲۰۲۱ به پایان رسانده و پس از بررسی منابع دیگر به رونویسی ویدیوها، پادکست‌ها و کتاب‌های صوتی یوتیوب روی آورده است. تا پیش از آن، اُپن ای‌آی‌ مدل‌های خود را بر روی داده‌هایی که شامل کد رایانه‌ای بودند، آموزش داده بود.

مت برایانت(Matt Bryant)، سخنگوی گوگل در ایمیلی به ورج گفته است که این شرکت گزارش‌های تایید نشده‌ای از فعالیت اُپن ای‌آی را دیده است و افزود که آنها هم فایل‌های robots.txt و هم شرایط خدمت‌رسانی، حذف یا دانلود غیرمجاز محتوای یوتیوب را ممنوع می‌کنند.

نیل موهان(Neal Mohan)، مدیرعامل یوتیوب، موارد مشابهی در مورد احتمال استفاده اُپن ای‌آی از یوتیوب برای آموزش مدل تولید ویدیوی سورا Sora خود در این هفته گزارش کرده بود. برایانت می‌گوید که گوگل تدابیر فنی و قانونی را برای جلوگیری از چنین استفاده‌های غیرمجازی اتخاذ می‌کند.

به گفته منابع تایمز، گوگل همچنین رونوشت‌هایی را از یوتیوب جمع‌آوری کرده است. تایمز می‌نویسد که دپارتمان حقوقی گوگل از تیم حریم خصوصی این شرکت خواسته تا خط ‌مشی خود را به منظور گسترش فعالیت‌هایی که می‌توان با داده‌های مصرف‌کننده انجام داد، تغییر دهد.

گوگل، اُپن‌ ای‌آی و دنیای آموزش هوش مصنوعی گسترده، با داده‌های آموزشی که به سرعت از بین می‌روند برای آموزش مدل‌های خود دست و پنجه نرم می‌کنند. این مدل‌ها هرچه داده‌های بیشتری دریافت کنند، بهتر می‌شوند. شرکت‌ها ممکن است تا سال ۲۰۲۸ از محتواهای جدید پیشی بگیرند.