يقدّم المقال المنشور على موقع 0xkato شرحاً تصاعدياً لبنية نماذج اللغة الكبيرة المعاصرة، انطلاقاً من النص الخام وحتى حلقة توليد الرمز التالي، مع تركيز صريح على النماذج المبنية على المحوّل (Transformer) كما تُستخدم في عائلات مثل GPT وLLaMA وMistral وغيرها. يعتمد النص على مبدأ أن معظم هذه النماذج تشترك في هيكلية عظمى واحدة تقريباً، وأن الفروق الجوهرية تنبع من بيانات التدريب، وحجم التكوين، وطبقات ما بعد التدريب مثل الضبط بالإشراف أو التعلم المعزز من تفضيلات البشر. هذه المقاربة تجعل المقال قابلاً للاستخدام كمرجع عام لأي تغطية صحفية أو تحليلية حول بنية النماذج الكبرى، بعيداً عن التفاصيل الرياضية الثقيلة، من دون إغفال المفاهيم التقنية الأساسية.
يفتتح الكاتب الشرح من مستوى «تحويل النص إلى أعداد صحيحة» عبر آلية التقسيم إلى وحدات (Tokenization)، موضحاً أن النموذج لا يتعامل مع الكلمات مباشرة بل مع مُعرّفات عددية ثابتة مرتبطة بقاموس من المقاطع الجزئية. يوضح المقال أن معظم النماذج تستخدم تقسيمات شبه-كلمية مثل Byte Pair Encoding أو SentencePiece، بما يسمح بالتوازن بين حجم القاموس وقدرة النموذج على التعامل مع كلمات جديدة أو نادرة. يتم تقديم هذه الخطوة كسبب بنيوي لظواهر معروفة ميدانياً، من بينها أخطاء العدّ في داخل الكلمات، لأن النموذج يعمل على وحدات فرعية وليس على حروف مفردة. بعد ذلك ينتقل النص إلى مصفوفة التمثيلات الكثيفة (Embedding matrix)، حيث يُستبدل كل مُعرّف عددي بمتجه ذي أبعاد عالية يمثّل «المعنى» الذي تعلّمه النموذج لهذا الرمز خلال التدريب. يلفت الكاتب إلى البنية الهندسية لهذا الفضاء، حيث تميل المتجهات المرتبطة بمفاهيم متقاربة مثل أسماء العواصم أو الأزواج الدلالية إلى التجمّع في مناطق قريبة، بوصف ذلك نتيجة ناشئة عن هدف التنبؤ بالرمز التالي لا عن أي تشفير يدوي صريح.
ينتقل المقال بعد ذلك إلى عنصر ترتيب الرموز في السلسلة، موضحاً أن آلية الانتباه الذاتية لا تمتلك فهماً مضمّناً للترتيب ما لم يُحقن فيها تمثيل موضعي. يذكّر الكاتب بالترميز الجيبي الكلاسيكي في ورقة «Attention is All You Need» لعام 2017، قبل أن يركّز على اعتماد كثير من النماذج الحديثة على ما يُعرف بالـRoPE (Rotary Position Embeddings) كما في LLaMA وMistral وGemma وغيرها. في هذا النهج لا يُضاف متجه موضعي إلى المتجه الدلالي، بل تُجرى عملية تدوير لمتجهات الاستعلام والمفتاح بدرجة تعتمد على موقع الرمز في السلسلة، بحيث يُشفّر البعد النسبي بين المواقع داخل عملية الانتباه نفسها. يشير المقال أيضاً إلى ظاهرة «فقدان المعلومات في الوسط» في السلاسل الطويلة، مستشهداً بعمل Liu et al. 2023، حيث تُستَخدم معلومات بداية ونهاية المقطع بكفاءة أعلى من المعلومات الموزّعة في منتصفه، وهو ما يفسّر عملياً نصائح ترتيب السياق في هندسة التعليمات.
القسم الأكثر تفصيلاً مخصّص لآلية الانتباه، حيث تُعرَّف الأدوار الثلاثة: الاستعلام والمفتاح والقيمة، باعتبارها ثلاثة متجهات مستمدّة من كل رمز عبر مصفوفات تعلّمها النموذج خلال التدريب. يقدّم النص مثالاً لغوياً بسيطاً من نوع «القطة التي رأيتها أمس كانت نائمة» لتوضيح كيفية استخدام الاستعلام الخاص بالفعل في تحديد الرمز الأهم الذي ينبغي «الالتفات» إليه، وهو هنا اسم الفاعل، عبر حاصل الضرب النقطي بين الاستعلامات والمفاتيح ثم تحويل الدرجات إلى أوزان عبر دالة Softmax. يتم كذلك شرح القناع السببي في نماذج اللغة التوليدية، حيث يُمنع كل رمز من الوصول إلى رموز «المستقبل» في السلسلة من خلال تعيين درجات منخفضة جداً للمواضع غير المسموح بها. يخصص النص حيزاً لتلخيص أعمال التفسير الدلالي التي كشفت عن «رؤوس استقرائية» تستخلص أنماطاً من نوع «A B … A» وتتابِعها بـ«B»، وهو ما يقدَّم كآلية مجهرية لتفسير قدرات التعلم في السياق. كما يتوقف المقال عند التكلفة الحسابية لآلية الانتباه الكاملة، حيث يتزايد التعقيد تقريباً مع مربع طول السياق، ما يفسّر الاهتمام المتزايد بتقنيات مثل FlashAttention والأنماط المتناثرة والبدائل الخطّية.
يتناول المقال بعد ذلك التوسّع إلى الانتباه متعدّد الرؤوس، مع تصحيح مفهومي مهم: الرؤوس لا تتعامل مع «شرائح» ثابتة من المتجه الأصلي، بل تعتمد على إسقاطات متعلَّمة منفصلة لمتجه الرمز الكامل إلى فضاءات أصغر مستقلة لكل رأس. بذلك يصبح لكل رأس «منظوره» الخاص حول العلاقات بين الرموز، ويمكن للنموذج خلال التدريب أن يطوّر تخصّصاً وظيفياً متمايزاً للرؤوس، مثل تتبّع العلاقات النحوية أو الضمائر أو الأنماط الموضعية. يَعرِض النص أيضاً مشكلة الذاكرة الناجمة عن ضرورة تخزين مفاتيح وقيم جميع الرموز السابقة في ما يُعرف بمخزن KV، مع الإشارة إلى تبنّي تصاميم مثل Grouped-Query Attention في نماذج مثل LLaMA 2 وMistral لتقليص عدد رؤوس المفتاح والقيمة المشتركة بين عدة رؤوس استعلام مع الحفاظ على أداء قريب. هذا التفصيل ذو أهمية عملية لأي معالجة إعلامية لمسألة تشغيل النماذج محلياً أو في بيئات بقيود ذاكرة صارمة.
بعد الانتهاء من الانتباه ينتقل الكاتب إلى الشبكة أمامية التغذية (FFN) في كل طبقة، مبيّناً أنها تعمل على كل رمز بشكل مستقل بعد خلط المعلومات عبر الانتباه. تُعرّف البنية الثلاثية المتكررة: توسيع المتجه إلى أبعاد أكبر، تطبيق دالة لاخطّية، ثم ضغطه مجدداً إلى الحجم الأصلي، مع الإشارة إلى تطور اختيار الدوال من ReLU إلى GELU ثم عائلات مثل SwiGLU في النماذج الأحدث. يركّز المقال على أن القسم الأكبر من معلمات النموذج في النسخ الكثيفة يوجد داخل هذه الطبقات، وأن جزءاً كبيراً من «المحتوى المعرفي» المخزن في الشبكة مرتبط بتنشيطات معيّنة داخل FFN، كما تُظهر أعمال مثل ROME في تحرير الحقائق النموذجية. يلفت النص القارئ المتخصص إلى أن قابلية تحرير حقائق مفردة عبر تعديلات منخفضة الرتبة في هذه الأوزان تفتح مجالاً بحثياً حول تحوير المعرفة النموذجية من دون إعادة تدريب كامل. بالتوازي، يوضّح المقال انتقال بعض النماذج الحدودية إلى بنيات الخبراء المتعدّدين (Mixture of Experts) حيث تُستبدل شبكة واحدة بعدة شبكات متوازية يُفعَّل عدد محدود منها لكل رمز، كما في نموذج Mixtral 8x7B، بما يسمح برفع عدد المعلمات الفعّالة مع إبقاء تكلفة الاستدلال لكل رمز ضمن حدود أقل.
يتطرّق المقال أيضاً إلى مسار «التدفق المتبقي» (Residual stream) والـLayerNorm بوصفهما الآلية التي تجعل تكديس عشرات الطبقات قابلاً للتدريب المستقر. كل طبقة لا تستبدل تمثيل الرمز بل تضيف مساهمتها فوقه، ما يحافظ على أثر التمثيلات الأولية عبر العمق ويسمح بإرجاع الإشارات العكسية أثناء التدريب عبر مسارات أقصر، امتداداً لفكرة ResNet في مجال الرؤية الحاسوبية. يشرح النص أن الانتقال من التطبيع بعد الكتلة (Post-norm) في التصميم الأصلي إلى التطبيع قبل الكتلة (Pre-norm) في أجيال مثل GPT‑2 وLLaMA ساهم في تحسين استقرار النماذج العميقة، وأن كثيراً من النماذج المفتوحة الحديثة تعتمد نسخة مبسّطة مثل RMSNorm التي تقتصر على إعادة تحجيم المتجه دون إزاحته بمتوسطه. هذا التفصيل التقني يوضّح للقارئ المهني سبب توحّد عدد من الاختيارات المعمارية عبر عائلات نماذج مختلفة خلال الفترة بين 2020 و2025.
في الجزء المتعلق بمرحلة الإخراج، يوضّح المقال أن النموذج يستخلص في لحظة التوليد المتجه النهائي للرمز الأخير فقط، ثم يحوّله عبر مصفوفة «فك التمثيل» إلى مجموعة من الدرجات الخام (Logits) تغطي كامل قاموس الرموز المحتملة. تُحوَّل هذه الدرجات إلى توزيع احتمالي عبر Softmax، ثم تُطبَّق إعدادات الاستدلال مثل درجة الحرارة وTop‑k وTop‑p لضبط مستوى العشوائية والتنوّع في المخرجات. يؤكد الكاتب أن الهدف التدريبي الأساسي يظلّ تنبؤ الرمز التالي على نصوص ضخمة، وأن القدرات الحوارية أو السلوكية اللاحقة تنشأ من مراحل ما بعد التدريب مثل الضبط على التعليمات أو التعلم من تفضيلات البشر. يُضاف إلى ذلك شرح موجز لآلية «الاستدلال التكهّني» (Speculative decoding) التي تستخدم نموذجاً صغيراً لاقتراح تسلسل من الرموز ثم تعرضه على النموذج الكبير للتحقق الجماعي، بما يوفّر تسريعاً مع الحفاظ على نفس التوزيع الإحصائي للمخرجات كما في النموذج الأكبر وحده.
يُختَم المقال بتمييز واضح بين «الهيكلية» و«الأوزان» في النماذج المختلفة، مبيّناً أن معظم عائلات GPT وClaude وGemini وLLaMA تشترك في الإطار البنيوي العام، وأن الفروق الأساسية تأتي من بيانات التدريب، وأعداد الطبقات والرؤوس والمعلمات، واستخدام البنى الكثيفة أو خبراء متعدّدين، ثم من سياسات الضبط والسلوك المضافة بعد التدريب الأساسي. يربط الكاتب هذه العناصر باتجاه أوسع في أبحاث التعلم العميق، حيث امتد نموذج المحوّل إلى معالجة اللغة والصور والصوت والأنماط المتعددة الوسائط، مع الإشارة إلى مسارات بحث بديلة مثل نماذج الحالة (State-space models) من عائلة Mamba التي تحاول معالجة القيود الحالية في أطوال السياق والتعقيد الحسابي. بالنسبة إلى صحفي أو مراقب تقني، يوفّر هذا النص خريطة مفاهيمية مضغوطة يمكن البناء عليها في أعمال تفسيرية أعمق، سواء لشرح قيود النماذج الحالية أو لقراءة أوراق بحثية وتقارير تقنية عن الأجيال المقبلة من أنظمة الذكاء الاصطناعي التوليدي.