ديجيتال أوشن وAMD يقدمان أداءً مضاعفًا للاستدلال لـ Character.ai

تتنافس مزودات السحابة بشكل متزايد بناءً على نتائج الاستدلال مثل الإنتاجية، الكمون والتكلفة، بدلاً من الاعتماد فقط على مواصفات الأجهزة. وقد أظهرت ديجيتال أوشن هذا التحول من خلال نشر Character.ai، الذي ضاعف الإنتاجية وقلل تكاليف الرموز إلى النصف مقارنةً بوحدات معالجة الرسوميات القياسية، مستفيدًا من تحسينات المنصة على وحدات معالجة الرسوميات AMD Instinct.

ركز النشر على التعامل مع أكثر من مليار استفسار يوميًا من Character.ai ومعالجة أحمال العمل الحوارية الحساسة للكمون التي تتطلب أوقات استجابة متسقة تحت ضغط عالٍ. في المقابل، تتيح الطرق التقليدية في السحابة تخصيص سعة GPU وتترك التحسين للعملاء. بدلاً من ذلك، دمجت ديجيتال أوشن جدولة واعية للأجهزة مع ضبط وقت تشغيل الاستدلال، مما أدى إلى تحقيق مكاسب في الأداء تفوتها التكوينات العامة للبنية التحتية.

الهندسة التقنية تؤثر على الاقتصاد

وفقًا لـ تحليل تقني عميق نشرته ديجيتال أوشن، ظهرت تحسينات الأداء من خلال تحسين منسق عبر عدة طبقات من النظام.

عمل مهندسو ديجيتال أوشن مع فرق Character.ai وAMD لتكوين وحدات معالجة الرسوميات AMD Instinct MI300X وMI325X لنموذج Qwen المكون من 235 مليار معلمة. تقوم الهندسة بتفعيل 22 مليار معلمة فقط لكل طلب استدلال، وتوزيع الحساب عبر 8 خبراء مختارين من مجموعة تضم 128.

تقدم هذه الهندسة المعمارية تحديات مميزة. تحقق نماذج مزيج الخبراء كفاءة حسابية من خلال توجيه الرموز إلى شبكات فرعية متخصصة، لكن التوجيه الديناميكي يخلق عدم توازن في الحمل وزيادة في التواصل، مما يجعل النشر العام لوحدات معالجة الرسوميات يواجه صعوبة في التعامل معها. عالج التحسين هذه التحديات من خلال ضبط استراتيجية التوازي لتحقيق توازن بين التوازي البياني والتوازي التنسوري، مستقرًا على تكوين يقسم كل خادم مكون من ثمانية وحدات معالجة رسوميات إلى نسختين متوازيتين للبيانات، كل منهما مع توازي تنسوري بأربعة اتجاهات وتوازي خبير بأربعة اتجاهات.

أثرت قرارات التكوين بشكل مباشر على الاقتصاد. من خلال تقليل التوازي التنسوري من ثمانية اتجاهات إلى أربعة، قامت كل وحدة معالجة رسوميات بأداء المزيد من الحسابات محليًا بدلاً من التنسيق عبر الخادم الكامل. قلل هذا من الحمل الزائد للتواصل مع الحفاظ على ميزانية الكمون لتوليد الرموز الأولية والإنتاج المستمر. كما طبق الفريق تقنيات FP8، مما قلل من حجم الذاكرة ومتطلبات النطاق الترددي دون تدهور ملحوظ في الدقة.

حققت Character.ai هذه النتائج مع الحفاظ على أهداف الكمون الصارمة. حافظ النشر على وقت p90 للرمز الأول ووقت لكل رمز ناتج ضمن الحدود المحددة، حتى مع مضاعفة الإنتاجية. يمثل هذا التوازن بين الكمون والإنتاجية التحدي الأساسي في الاستدلال الإنتاجي، حيث يجب على الأنظمة خدمة العديد من المستخدمين المتزامنين دون تدهور أوقات الاستجابة الفردية.

أجهزة AMD تنافس من خلال تكامل البرمجيات

تنسب ديجيتال أوشن النتائج إلى تحسين مشترك عبر النظام مع Character.ai وAMD، بما في ذلك العمل على ROCm وvLLM وAITER، كما هو موضح في التحليل العميق، كمكتبة من مشغلات/نوى الذكاء الاصطناعي عالية الأداء لوحدات معالجة الرسوميات AMD Instinct.

عالجت AMD المخاوف المتعلقة بنظام البرمجيات التي حدت تاريخيًا من اعتماد الشركات. استثمرت الشركة في ROCm، منصتها المفتوحة المصدر للحوسبة، وعملت عن كثب مع ديجيتال أوشن لتحسين vLLM مع AITER، وقت التشغيل المحدد للاستدلال لأحمال العمل التحويلية. شملت هذه التحسينات تحسينات على النوى، ومسارات تنفيذ FP8 الفعالة وتخصيص وحدات معالجة الرسوميات الواعية بالهيكلية التي تطابق متطلبات الأحمال مع قدرات الأجهزة.

توفر المعجلات MI300X وMI325X تمايزًا تقنيًا يتجاوز السعر. تقدم MI325X 256 جيجابايت من الذاكرة عالية النطاق مقارنةً بـ 141 جيجابايت على المنصات المنافسة، مع عرض نطاق ترددي أعلى بمقدار 1.3 مرة. بالنسبة لأحمال العمل الاستدلالية التي تعالج نوافذ سياقية كبيرة أو تعمل على نماذج مزيج الخبراء التي تتطلب ذاكرة كبيرة، فإن هذه الميزة في السعة تقلل من الحاجة إلى تقسيم النموذج عبر معجلات متعددة.

تواجه مزودات السحابة ضغطًا اقتصاديًا لتنويع استراتيجيات وحدات معالجة الرسوميات ذات البائع الواحد. يظهر النشر أن المعجلات البديلة يمكن أن تقدم أداءً بمستوى الإنتاج عند اقترانها مع تحسينات على مستوى المنصة، مما قد يغير قرارات الشراء حيث تسعى الشركات إلى بنية تحتية فعالة من حيث التكلفة للاستدلال.

يتطلب تحسين الإنتاج تفكيرًا على مستوى النظام

يكشف التنفيذ الفني أن اختيار وحدات معالجة الرسوميات وحده لا يحدد أداء الاستدلال. نشرت ديجيتال أوشن تحسينات عبر عدة طبقات من النظام. استخدمت المنصة ديجيتال أوشن كوبرنيتس للتنسيق، حيث تم تكوين العنقود.

المصدر: https://www.forbes.com/sites/janakirammsv/2026/01/19/digitalocean-and-amd-deliver-doubled-inference-performance-for-characterai/