في ورقة منشورة عن نموذج لغات Deepseek-V3 الكبير (LLM) ، الذي تم إطلاقه في ديسمبر ، زعمت الشركة الصينية أن التدريب استغرق 2.8 مليون فقط من “ساعة GPU” بتكلفة 5.6 مليون دولار أمريكي ، وهو جزء صغير من الوقت والمال التي تنفقها الشركات الأمريكية على نماذجها الخاصة.
أظهر Deepseek-R1 ، نموذج التفكير المفتوح للمصدر الذي تم إصداره في 20 يناير ، قدرات مماثلة لتلك الخاصة بالنماذج الأكثر تقدماً من Openai و Anthropic و Google ، ولكن أيضًا مع تكاليف تدريب أقل بكثير. لم تذكر الورقة على R1 تكلفة التطوير.
تُظهر سجلات Deepseek الخاصة ، وتلك الخاصة بصندوق التحوط التابع لها ، أن الشركة هي واحدة من أفضل المصادر لتدريب الذكاء الاصطناعي. في وقت مبكر من عام 2019 ، أنفق Liang Wenfeng ، مؤسس Flyer و Deepseek ، 200 مليون يوان (27.8 مليون دولار أمريكي) لشراء 1100 وحدة معالجة الرسومات (GPU) لتدريب خوارزميات لتداول الأسهم. وقالت طرفية عالية إن مركز الحوسبة الخاص به في ذلك الوقت غطى منطقة مكافئة لملعب كرة السلة ، وفقًا لوثائق الشركة ، والتي كانت ستضعها حوالي 436.6 متر مربع (4700 قدم مربع).
في عام 2021 ، أنفق الصندوق مليار يوان على تطوير مجموعة الحرائق الفائقة الحاسوبية 2 ، والتي كان من المتوقع أن تصل إلى 1550 PETAFLOPS ، وهو قياس قوة الحوسبة ، وفقًا لموقع FILLYER على الإنترنت. سيكون هذا مشابهًا في الأداء مع بعض من أقوى أجهزة الكمبيوتر العملاقة في العالم.