استمع إلى الملخص
- قاعدة بيانات هارفارد تفوق حجم مجموعة Books3 بخمسة أضعاف، وتضم كتباً متنوعة من مختلف الأنواع واللغات، مما يتيح للباحثين والمطورين الصغار الوصول إلى محتوى دقيق ومُنسق.
- تأتي المبادرة وسط جدل عالمي حول ترخيص المحتوى، حيث توفر بديلاً مرخصاً ومجانياً لتدريب نماذج الذكاء الاصطناعي، مما يعزز العدالة والمساواة في الوصول إلى البيانات.
أعلنت جامعة هارفارد اليوم الخميس قرار تقديم بيانات عالية الجودة تضم ما يقرب من مليون كتاب يمكن لأي شخص استخدامها لتدريب مختلف نماذج وأدوات الذكاء الاصطناعي. وأُنشئت مجموعة البيانات هذه بمبادرة حديثة من هارفارد، وبتمويل من كل من شركتي مايكروسوفت وأوبن إيه آي. تحتوي بيانات المبادرة على كتب مُسحت ضوئياً كجزء من مشروع الكتب "غوغل بوكس"، وهي كتب لم تَعُد محمية بحقوق الطبع والنشر.
ما الذي يجعل مبادرة هارفارد ضخمة؟
يبلغ حجم قاعدة بيانات مبادرة هارفارد حوالى خمسة أضعاف حجم مجموعة بيانات Books3، التي استُخدمت لتدريب نماذج الذكاء الاصطناعي مثل "لاما" من "ميتا"، وتمتد قاعدة بياناتها عبر الأنواع والسنين واللغات، مع تضمين كلاسيكيات من شكسبير وتشارلز ديكنز ودانتي، جنباً إلى جنب مع كتب الرياضيات التشيكية الغامضة والقواميس الجيبية الويلزية. ونقلت مجلة وايرد عن المدير التنفيذي لمبادرة البيانات المؤسسية، غريغ ليبيرت، أن المشروع هو محاولة للعدالة والمساواة من خلال منح عامة الناس، بما في ذلك اللاعبون الصغار في صناعة الذكاء الاصطناعي والباحثون الأفراد، إمكانية الوصول إلى مستودعات المحتوى عالية الدقة والمُنسقة، التي لا تمتلك عادةً سوى شركات التكنولوجيا العملاقة الموارد اللازمة لتجميعها. وطمأن ليبيرت إلى أن المجموعة "خضعت لمراجعة صارمة".
بيانات مجانية وسط جدل الترخيص
ترخيص المحتوى هو جدل عالمي واسع طفا على السطح منذ ظهور أول روبوتات الذكاء التوليدي، إذ رُفعت عشرات الدعاوى القضائية ضد استخدام شركات التكنولوجيا للبيانات المحمية بحقوق الطبع والنشر لتدريب نماذج الذكاء الاصطناعي خاصتها، وهو ما يهدّد مستقبل بناء أدوات الذكاء الاصطناعي. إذا فازت شركات الذكاء الاصطناعي بقضاياها، فستكون قادرة على الاستمرار في البحث على الإنترنت من دون الحاجة إلى الدخول في اتفاقيات ترخيص مع حاملي حقوق الطبع والنشر. لكن إذا خسرت، فقد تضطر الشركات إلى إصلاح كيفية صنع نماذجها. وهنا تظهر المشاريع مثل قاعدة بيانات هارفارد لتوفير محتوى مرخّص عالي الجودة وبالمجان. ويرى ليبيرت أن قاعدة البيانات الجديدة يمكن استخدامها إلى جانب مواد مرخصة أخرى لبناء نماذج الذكاء الاصطناعي. ويقول: "أفكر في الأمر قليلاً مثل الطريقة التي أصبح بها لينكس نظام تشغيل أساسياً لكثير من أنحاء العالم"، مشيراً إلى أن الشركات ستظل بحاجة إلى استخدام بيانات تدريب إضافية للتمييز بين نماذجها ونماذج منافسيها.