ضعف تمثيل اللغة العربية في عالم الذكاء الاصطناعي

18 اغسطس 2025   |  آخر تحديث: 02:45 (توقيت القدس)

(Getty)

+ الخط -

يحتدم النقاش العالمي بشأن الذكاء الاصطناعي، فهذا المجال الذي يتطوّر بسرعة خيالية يمتدّ أثره إلى الصناعات والقطاعات كافّة، ويُحدث قلقاً عالمياً صامتاً وترقّباً للشكل الذي سيصبح عليه العالم بعد انتهاء السباق نحو المرحلة التالية من ذكاء الآلة، وعن سؤال أيّ من عملاقيه سيصل هناك أولاً، الصين أم الولايات المتحدة. في العالم العربي، يتركّز النقاش في مسائل الهوية واللغة والثقافة، ويتبلور في قضية "ضعف تمثيل العربية"، التي باتت تمثل هاجساً دفع دولاً عربية تتوفّر على الإمكانات المادية، إلى تفعيل مبادرات لتدارك تبعات هذا الضعف.
تتناقض الآراء في مستقبل اللغة العربية مع الذكاء الاصطناعي، فيرى المتفائلون أن أثره سيكون إيجابياً وسيشجّع على تعليم اللغة وييسر سبل هذا التعليم، فيما يرى المتشائمون أنه يمثّل خطراً وجودياً ليس على اللغة فقط، بل على الثقافة والهوية أيضاً.
معنى ضعف تمثيل العربية وتبعاته
ضعف تمثيل اللغة العربية هو باختصار عدم توافر بيانات كافية مدوّنة بالعربية في قواعد البيانات التي تُستخدم في تدريب النماذج اللغوية الضخمة (Large language model LLM) مثل تشات جي بي تي (ChatGPT) وجيميناي (Gemini) وديب سيك (Deepseek ) وغروك (Grok) وكلود (Claude). وأول تأثير متوقّع لضعف تمثيل العربية ضعف المحتوى العربي الذي تنتجه النماذج اللغوية، ما يعني أن الإجابات التي سيتلقاها مستخدم النماذج باللغة الإنكليزية أو الصينية ستكون أفضل وأكثر علمية من الإجابات باللغة العربية لأن الأولى تستند على مخازن ضخمة من المعارف المرمَزة للآلة باللغة الإنكليزية أو الصينية، لكن هذا جزءٌ ضئيلٌ من حجم المشكلة الحقيقي، فالذكاء الاصطناعي في بداياته، والتنافس المحموم بين الولايات المتحدة والصين على الوصول إلى المرحلة التالية منه أو من الذكاء السوبر اصطناعي (ASI - Artificial Super Intelligence) يستند إلى سبب وجيه. لأن الاعتقاد السائد أن من يصل أولاً إلى النموذج الأقوى سيهيمن على العالم، وستبدأ ثقافته في ابتلاع ثقافة منافسه الخاسر، أمّا الثقافات الأضعف فلن يكون لها مكان أو ذكر.

النماذج اللغوية الكبرى ليست أدوات معرفة فحسب، بل أدوات هيمنة ايضاً 

يبدو السيناريو السابق متطرّفاً وتبسيطياً رغم عدم استحالته، لكن ما لا مفرّ منه حقيقة أن النماذج اللغوية الضخمة انتشرت، وامتد أثرها إلى كلّ شيء حولنا بالفعل، التعليم والصحّة والصحافة والقانون وصناعة العلوم والمعارف وكلّ شيء… وسيؤثّر هذا تدريجياً في ثقافة الناس وهوياتهم وتصوّراتهم للحياة، وإن لم تجد الثقافات ضعيفة التمثيل طريقة لوقف هذه العاصفة الجامحة، فسيكون تأثيرُها أكبر بأضعاف مضاعفة من تأثير منصّات التواصل الاجتماعي وخوارزمياتها.
ومن باب تجنب أي استنتاجاتٍ مبكّرة من النوع المحور الكونيّ أو المؤامراتي، تجدُر الإشارة إلى أن مشكلة ضعف التمثيل لا تقتصر على اللغة العربية، بل تعاني منها ثقافات أخرى. وتتفق مصادر عربية وغير عربيّة على وجود ضعف في تمثيل اللغة العربية، وتعزو ذلك، في الأغلب، إلى ضعف المحتوى العربي في الإنترنت. ... ولكن، هل ضعف المحتوى العربي في الإنترنت العامل الوحيد المؤثر؟
تُظهر بيانات حديثة أعدّتها مؤسّسة مرصد التنوع اللغوي والثقافي على الإنترنت (Observatory of the Linguistic and Cultural Diversity on the Internet obdilci) أن المحتوى العربي يمثّل حوالي 3.5% من المحتوى المنشور في الإنترنت، وتحتل الإنكليزية المركز الأول بواقع 20.08%، والصينية في المركز الثاني بواقع 19.04%، أمّا الإسبانية فهي صاحبة المركز الثالث بنسبة 7.7% من كل المحتوى المنشور. وتُظهر بيانات المرصد أن العربية تشترك في نسبة حضورها المنخفضة على شبكة الإنترنت مع لغاتٍ عريقةٍ ومستخدمة على نطاق واسع عند شعوب مليونية، منها الروسية والهندية (Hindi) والفرنسية والبرتغالية، ويذهب المرصد خطوة أبعد في رصد النسبة المئوية لمستخدمي اللغات من سكّان العالم، وليس نسبة تمثيلها في الإنترنت فحسب.
يستخدم العربية حوالي 4% من سكّان العالم، منهم قرابة 68% متصلون بالإنترنت، يمثلون معاً 4.36% من مستخدمي الإنترنت (Internauts). وإذا ما نظرنا بتمعّن في بيانات المركز، نجد أن العامل الحاسم في تمثيل اللغة عدد مستخدميها في العالم الحقيقي، فالصينية والإنكليزية مستخدمتان عالمياً بنسب متقاربة، والروسية والفرنسية والبرتغالية تُستخدم بنسب متقاربة، وتتقارب بالتالي في تمثيلها الرقمي. ويمكن القول إن نسبة المحتوى العربي يجب أن تقترب أكثر من نسبة محتوى اللغة الإسبانية (لأنهما تتقاربان في عدد المستخدمين)، لكن هذه النسبة لا يمكنها في أي حال أن تصل إلى مستوى اللغتين الإنكليزية والصينية، بسبب الفرق الكبير في عدد المستخدمين.

صورة من موقع مرصد التنوع اللغوي والثقافي على الانترنت يلخص أهم نتائج مسحه الصادر في يوليو/ تموز 2025
صورة من موقع مرصد التنوع اللغوي والثقافي على الانترنت يلخص أهم نتائج مسحه الصادر في يوليو/ تموز 2025

يُعتقد، على نطاق واسع، أن أحداً لا يمتلك جميع البيانات على الإنترنت، لا سام ألتمان ولا إيلون ماسك ولا حتى "مايكروسوفت" أو "غوغل"، وهذا واحد من عدة أسباب تجعل البيانات المستخدمة في تدريب الذكاء الاصطناعي لا تمثل انعكاساً للمحتوى الرقمي في الإنترنت.
وفي دراسة محكّمة، نشرتها دورية استشراف الصادرة عن المركز العربي للأبحاث ودراسة السياسات، سلط الباحثون الضوء على مشكلة ضعف تمثيل اللغات، واستخدموا رسماً بيانياً للتوزيع التراكمي للغات (بالنسبة المئوية) في قاعدة بيانات اسمُها "كامن كراول" (Common Crawl) جُمعت من شبكة الإنترنت واستخدمت في تدريب النموذج اللغوي الشهير تشات جي بي تي 3 (ChatGPT 3) لا نعرف على وجه التحديد أين تقع اللغة العربية في الرسم البياني الذي أعدّه الباحثون لتلخيص تمثيل اللغات في القاعدة، لأن نسبتها أكثر ضآلة من أن نراها، أي أن نسبة البيانات المستخدمة في الحقيقة أقلّ من نسبة التمثيل في الإنترنت التي يعتبرها كثيرون نسبة ضعيفة.

صورة من دراسة "مستقبلات الذكاء الاصطناعي والثقافات الضعيفة التمثيل  كيف ستصوغ النماذج اللغوية الضخمة المشهد المعرفي في المستقبل؟  (منشورة على موقع المركز العربي للأبحاث ودراسة السياسات) 3
صورة من دراسة "مستقبلات الذكاء الاصطناعي والثقافات الضعيفة التمثيل (المركز العربي للأبحاث ودراسة السياسات)

 

الاعتقاد السائد أن من يصل أولاً إلى النموذج الأقوى سيهيمن على العالم، وتبتلع ثقافته ثقافة منافسه

سباق الذكاء الاصطناعي
لكن هل اكتفت "أوبن إيه آي" (OpenAI) بقاعدة بيانات "كامن كراول" لتدريب "تشات جي بي تي3"؟. ... ينزع كثيرون إلى القول إن ضعف المحتوى العربي على الإنترنت سيؤدّي، بالضرورة، إلى ضعف تمثيل العربية، لكن الأمر ليس بهذه البساطة في الواقع؛ لأننا لا نعرف جميع المصادر التي تعتمد عليها الشركات الكبرى في سباقها لتطوير نماذجها اللغوية.
وعلى سبيل المثال، حضر كاتب المقال قبل عامين مؤتمر شبكة الجزيرة الأول للذكاء الاصطناعي، وقابل ممثلين عن "غوغل" و"مايكروسوفت" (تملك حصّة في OpenAi مطورة ChatGPT)، وسألتهم عن أداة تدقيق لغوي للغة العربية، بعد أن قدّم الصينيون خلال عرضهم أداة مماثلة للغتهم، كان ردّ ممثل "غوغل" إن لغتهم ليست أسهل لغة، وأن علينا البحث عن بدائل لتعويض ضعف المحتوى العربي في الإنترنت. أمّا ممثل "مايكروسوفت"، فقال إنهم استعانوا بفرق لتفريغ محتوى محاضر المحاكم في مصر ودول أخرى، وطلب من الكاتب انتظار النموذج الجديد الذي سيكون أقوى، ليس في العربية فقط، ولكن في اللهجات أيضاً، وكان بالفعل إطلاق "تشات جي بي تي 4" (ChatGPT 4) بعد يوم واحد من المؤتمر، وهو الإصدار الذي ضمن لـ"أوبن إيه آي" أكبر قاعد مستخدمين في العالم، متفوّقاً على نموذج شركات كبرى منها "غوغل"، والنموذج الذي يعتبر على نطاق واسع أفضل نموذج لغوي وأكثره تحقيقاً لرضى المستخدمين؛ حتى أطلقت الشركة نفسها "تشات جي بي تي 5" (ChatGPT 5) الذي صدر في أثناء كتابه هذا المقال، ولا تزال المعلومات الموثوقة عن قدراته الحقيقيّة شحيحة. آنذاك، بعد مؤتمر "الجزيرة" بيوم، كان "تشات جي بي تي 4" بالفعل أفضل بكثير من النموذج السابق في استخدام اللغة العربية.
من المهم جداً في هذا السياق أن يُشار إلى أن سباق الذكاء الاصطناعي هو، من وجهة نظر ثقافيّة، مدفوع بالهيمنة، وأن النماذج اللغوية الكبرى أدوات للهيمنة، وإن كُنتَ تريد الهيمنة على شعوب وثقافات مختلفة، عليك فهم لغاتهم وتطوير أدوات مقنعة لهم بناءً على هذا الفهم، بكلمات أخرى: سيسعى مطوّرو أدوات الذكاء الاصطناعي إلى أن تكون هذه مقنعة للمستخدمين، تماماً كما حرصت منصّات التواصل الاجتماعي (فيسبوك وتويتر وغوغل وغيرها) على توفير خدماتها بلغاتٍ متعدّدة، بل وتكييفها ثقافياً بحيث تعطيك الخوارزميات مزيداً مما تريد. لكن السؤال: هل ستحاول هذه الجهات تطوير أدواتٍ مقنعةٍ للنُخب الثقافيّة وتتوافق فعلاً مع قواعد اللغة، أم ستكتفي بتطوير إجاباتٍ مقنعةٍ لأكبر عدد ممكن من الناس، كما يفعل سياسيّ شعبويّ، أي هل ستُعنى فعلاً بالتعليم أم سيكون همّها الوحيد التسويق والانتشار؟
بالعودة إلى نموذج "تشات جي بي تي 4" الذي هيمن على العالم حتى ظهور "تشات جي بي تي 5"، نجد أن باحثين من جامعة إماراتية متخصّصة بالذكاء الاصطناعي اختبروا أداء النموذج باللغة العربية، وأعدّوا دراسة شملت تطوير اختبار قدرة النماذج اللغوية الضخمة على استخدام اللغة العربية في المهام المعقدة. شمل الاختبار أكثر من 14 ألف سؤال ينضوي على منطقٍ متداخلٍ بعيداً من الأسئلة البسيطة والمباشرة، جُمعت بحسب الباحثين من مناهج دراسية لعدة دول عربية وراجعها عربٌ لغة الضاد لسانهم الأم. طُبق الاختبار على 22 نموذجاً لغوياً متعدّد اللغات، من بينها تشات جي بي تي و11 نموذجاً لغوياً متخصّصاً باللغة العربية.
أظهرت النتائج أن "تشات جي بي تي 4" حقق أفضل نتيجة في الاختبار بواقع 72.5%، بينما لم تتجاوز معظم النماذج المتخصّصة باللغة العربية نسبة 50% وحقق نموذج "جيس" الذي تطوّره الجامعة الإماراتية نفسها 62% بحسب الباحثين.

تظهر بيانات حديثة أن المحتوى العربي يمثّل حوالي 3.5% فقط من المحتوى المنشور في الإنترنت

الشيطان في التفاصيل
ورغم تفوق النموذج على مثيلاته المكرسة للغة العربية، يبقى ضعفُه واضحاً أمام المتخصّصين، فعلى سبيل المثال جرّبت الخبيرة اللغوية في معجم الدوحة التاريخي للغة العربية، ندى نور الدائم، النموذج نفسه (تشات جي بي تي 4) في التقطيع العروضي للبيت الشعري، وهي من المهامّ التي فكّر كثيرون بتفويضها للذكاء الاصطناعي، نظراً إلى الوقت والجهد الذين تحتاجهما، فوجدت الأداة تفشل في إنجاز مهام بسيطة. تقول ندى "العَروض علم خاص، وماتع، ويمكن أن أقول لك إنه علم رياضي، تتوقع من الذكاء الصناعي أن يجيده بكفاءة عالية. ومع ذلك حين طلبت منه ذات مرة تقطيع بيت شعر، أصرّ على أن التفعيلة السباعية هي خماسية (فعولن)، وزاد باستدلال على أن البيت على وزن معلقة عنترة بن شداد، التي يعاملها على أنها من بحر المتقارب. وهذا مضحك، يؤكّد أن المشكلة أكبر من ضعف قدرته على التحليل والتفاعل، بل هي متجذّرة في فهم المدخل الصريح والواضح".

صورة تمثل خطأ ارتكبه نموذج تشات جي بي تي 4 في التقطيع العروضي، المصدر د.ندى الدائم
صورة تمثل خطأ ارتكبه نموذج تشات جي بي تي 4 في التقطيع العروضي (ندى الدائم)

وعن إجادته اللغة وقدرته على الإعراب، قالت: "لم أسمع مقطعاً من 30 ثانية من توليده إلا وكان مشحوناً بالأخطاء النحوية والصرفية". وأضافت: "في الحقيقة، نادراً ما استخدم هذا النموذج وآخذه على محمل الجدّ، لكن قبل أيام مثلاً سألناه عن مرادف تراثي لتعبير "عنق الزجاجة"، فقدّم 14 اقتراحاً، واحد منها فقط قارب الصواب"، وختمت: "ستكون هذه التقنيات والأدوات فعّالة جداً ومدهشة لو وجدت خبراء لغويين يراجعون النماذج المدربة أولاً بأول. أمّا ما نحن فيه الآن فسيؤدّي إلى انهيار كارثي في تعليم العربية وجميع مناحي تداولها".
ربّما يسهل على الخبراء اكتشاف أخطاء الذكاء الاصطناعي وزلّاته، لكن ملايين المستخدمين من الصغار والكبار تكفيهم أيّ إجابة مقنعة تقدّمها هذه المنصّات، خصوصاً إذا كانت المنصّة مشهورةً ومقنعةً، مثل منصّة تشات جي بي تي. ويمكن تصوّر أن استمرار هذه الحالة قد يؤدّي إلى تشويه اللغة لدى مستخدميها وتبدّل قواعدها.
وكخلاصة، يمكن القول إن ضعف تمثيل العربية مشكلة حقيقية ومؤثّرة في المحتوى العربي الذي ينتجه الذكاء الاصطناعي، ويتلقاه الملايين بالفعل. وهي مشكلة ذات جذور بنيوية تبدأ بتعداد الناطقين بالعربية ولا تنتهي عند ضعف المحتوى العربي على الشبكة العنكبوتية، ومع ذلك ليس حلّها مستحيلًا. ووجبت الإشارة إلى أننا لم نتناول إلا جانباً واحداً من مشكلة العربية مع الذكاء الاصطناعي تتعلّق بضعف تمثيلها الرقمي، وهناك مشاكل أخرى تتعلّق بجودة المحتوى والترميز والترجمة تؤثر في توقّعاتنا لمستقبل العرب والعربية مع الذكاء الاصطناعي.

علاء عسقول
علاء عسقول
كاتب وباحث وصحافي فلسطيني، حاصل على درجة الماجستير في العلوم الاجتماعية والإنسانية، يعمل محررًا للموقع الإلكتروني ومنصات التواصل الاجتماعي لمعجم الدوحة التاريخي للغة العربية.