
يصبح نماذج الذكاء الاصطناعي ذات التفسير أسهل - وأرخص - للتطوير.
في يوم الجمعة ، أصدر فريق NovaSky ، المكون من باحثين يعملون في معمل Sky Computing Lab التابع لجامعة كاليفورنيا بيركلي ، نموذج Sky-T1-32B-Preview ، وهو نموذج تفسيري يتنافس مع نسخة سابقة من نموذج OpenAI's o1 في عدد من الاختبارات الرئيسية. يبدو أن Sky-T1 هو أول نموذج تفسيري مصدر مفتوح حقًا بالمعنى الذي يمكن فيه تكراره من الصفر. أصدر الفريق مجموعة البيانات التي استخدموها لتدريبه بالإضافة إلى الكود التدريبي الضروري.
"لقد تم تدريب Sky-T1-32B-Preview بتكلفة أقل من 450 دولارًا" ، كتب الفريق في مدونة ، "مما يدل على أنه من الممكن تكرار قدرات التفكير عالية المستوى بتكلفة معقولة وبكفاءة".
قد لا تبدو 450 دولارًا معقولة. ولكن لم يمض وقت طويل على أن تكون التكلفة لتدريب نموذج بأداء قارن تتراوح عادة بين الملايين من الدولارات. ساعدت بيانات التدريب الاصطناعية ، أو البيانات التدريبية التي تم إنشاؤها من قبل نماذج أخرى ، في خفض التكاليف. برنامج Palmyra X 004 ، الذي تم إصداره مؤخرًا من شركة الذكاء الاصطناعي Writer ، تم تدريبه تقريبًا بالكامل على البيانات الاصطناعية ، وكانت تكلفته التقديرية 700،000 دولار فقط للتطوير.
على عكس معظم نماذج الذكاء الاصطناعي ، فإن نماذج التفكير تقوم بالتحقق من الحقائق بشكل فعال ، مما يساعدها على تجنب بعض العثرات التي عادة ما تعثر على النماذج. تستغرق نماذج التفكير وقتًا أطول قليلاً - عادةً تستغرق ثواني إلى دقائق إضافية - للوصول إلى الحلول مقارنة بنموذج غير تفسيري. الميزة في ذلك هو أنها عادة ما تكون أكثر موثوقية في المجالات مثل الفيزياء والعلوم والرياضيات.
يقول فريق NovaSky إنه استخدم نموذج تفكير آخر هو QwQ-32B-Preview من Alibaba لإنشاء البيانات التدريبية الأولية لـ Sky-T1 ، ثم "curated" بمزيج البيانات واستفاد من GPT-4o-mini من OpenAI لإعادة صياغة البيانات في شكل أكثر قابلية للعمل. احتاج تدريب Sky-T1 الذي يحوي على 32 مليار معلمة حوالي 19 ساعة باستخدام رف Stack of 8 Nvidia H100 GPUs. (المعلمات تقريبًا تتوافق مع مهارات الحلول للنموذج.)
وفقًا لفريق NovaSky ، يؤدي Sky-T1 بشكل أفضل من الإصدار المعاينة المبكر لـ o1 على MATH500 ، وهي مجموعة من تحديات الرياضيات "على مستوى المنافسة". يفوز النموذج أيضًا بالمعاينة لـ o1 على مجموعة من المشاكل الصعبة من LiveCodeBench ، وهي تقييم للبرمجة.
ومع ذلك ، يفشل Sky-T1 في الإصدار المعاين لـ o1 في GPQA-Diamond ، والتي تحتوي على أسئلة تتعلق بالفيزياء والأحياء والكيمياء يُتوقع من خريج الدكتوراه أن يعرفه.
من المهم أيضًا أن نلاحظ أن إصدار GA لـ o1 من OpenAI هو نموذج أقوى من الإصدار المعاين لـ o1 ، ومن المتوقع أن تصدر OpenAI نموذجًا للتفكير أداء أفضل ، o3 ، خلال الأسابيع القادمة.
ولكن يقول فريق NovaSky إن Sky-T1 يمثل فقط بداية رحلتهم لتطوير نماذج مصدر مفتوح بها قدرات تفسيرية متقدمة.
"في المستقبل ، سنركز على تطوير نماذج أكثر كفاءة تحتفظ بأداء التفكير القوي واستكشاف تقنيات متقدمة تزيد من كفاءة النماذج ودقتها في وقت الاختبار ،" كتب الفريق في المشاركة. "ترقبوا أثناء تقدمنا في هذه المبادرات المثيرة."