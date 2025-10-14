Advertisement

منذ فجر التاريخ، حاول الإنسان فهم سلوك الكائنات الحية وآليات التعلم والتكيف. ومع تجارب بافلوف وبورهوس فريدريك سكينر، وُلد علم جديد يرى أن السلوك يُبنى عبر المكافأة والعقوبة، ما عرف لاحقًا باسم التعلم الإجرائي أو التعلم بالتعزيز.في منتصف القرن العشرين، أحدث سكينر ثورة بابتكاره "صندوق سكينر"، الذي مكّن العلماء من مراقبة كيف تتعلم الحيوانات أفعالًا جديدة من خلال الحوافز. درّب الحمام على التعرف إلى صور الأهداف والنقر عليها للحصول على الطعام، واضعًا بذلك الأساس العلمي لمبدأ "الفعل والمكافأة".اليوم، يستمر هذا المبدأ في . فالخوارزميات الحديثة تتعلم من التجربة والتغذية الراجعة بالطريقة نفسها التي تعلم بها الحمام داخل الصندوق. في خوارزميات التعلم بالتعزيز (Reinforcement Learning)، ينفذ النظام فعلًا، يحصل على مكافأة أو عقوبة، ويعدّل قراراته تدريجيًا لتعظيم المكافآت على المدى .أبحاث منشورة في مجلة Nature Human Behaviour أظهرت أن إفراز الدوبامين في الدماغ يعكس آلية "خطأ توقع المكافأة" نفسها التي تعتمدها الخوارزميات الرقمية.ومن الألعاب إلى الصناعات الثقيلة، أثبت هذا المبدأ فعاليته: فقد هزم برنامج AlphaGo من "ديب مايند" بطل العالم في لعبة "غو" عام 2016 بعد ملايين التجارب الذاتية، كما يستخدم المبدأ نفسه لتقليل استهلاك الطاقة في مراكز بيانات وتوجيه البلازما في مفاعلات الاندماج .لكن خلف هذه القوة الحسابية تبرز تحديات أخلاقية جديدة: من يقرر شكل المكافأة؟ وكيف نمنع تحيزات خفية في الأنظمة التي تتخذ قرارات تمس البشر؟يرى علماء السلوك والتقنية أن التحدي الأكبر اليوم لم يعد في جعل الآلات تتعلم، بل في جعل البشر يتعلمون كيف يوجّهونها بمسؤولية.فمن صندوق سكينر الخشبي إلى صناديق السيليكون الحديثة، تتقاطع الحكاية عند سؤال واحد:هل نحن من نعلّم الخوارزميات… أم أنها بدأت تعلّمنا؟