مايكروسوفت تطلق معيارًا جديدًا لتعليم الروبوتات التخطيط والتنفيذ

طورت شركة مايكروسوفت بالتعاون مع فريق من الباحثين الأكاديميين معيارًا جديدًا يُدعى GroundedPlanBench لمعالجة مشكلة مستمرة في مجال الروبوتات، إذ لا تزال الروبوتات تواجه صعوبة في اتخاذ القرار بشأن ما يجب فعله وأين يجب فعله في الوقت نفسه.

تعتمد معظم الأنظمة الحالية على فصل هذه القرارات إلى خطوتين: أولًا يقوم نموذج لغوي بصري بوضع خطة نصية، ثم يحوّل نموذج آخر هذه الخطة إلى إجراءات فعلية. لكن هذا الانفصال غالبًا ما يؤدي إلى أخطاء، حتى في المهام البسيطة، مثل عندما يُطلب من روبوت التخلص من أكواب ورقية، فقد يختار الكوب الخطأ أو يبتكر خطوات لم يُطلب منها، وتزداد الأخطاء في البيئات المزدحمة.

الجمع بين التخطيط والتحديد المكاني

لمواجهة هذه المشكلة، صُمم GroundedPlanBench لاختبار قدرة نماذج الذكاء الاصطناعي على تخطيط المهام مع تحديد الموقع الدقيق لكل إجراء.
بدلاً من الاعتماد على النصوص فقط، يرتبط كل إجراء بمكان محدد في الصورة، حيث تُربط الأفعال الأساسية مثل الإمساك، الوضع، الفتح، والإغلاق بالأشياء أو المواقع، ما يفرض على النظام الربط بين القرارات والعالم المادي.

يتضمن المعيار أكثر من 1000 مهمة مأخوذة من تفاعلات روبوتية حقيقية، تتراوح بين التعليمات المباشرة، مثل وضع ملعقة على طبق، والتعليمات المفتوحة، مثل ترتيب الطاولة. هذه التنوعات مهمة لأن الروبوتات غالبًا ما تفشل عندما تكون التعليمات غامضة.

في أحد الأمثلة، طُلب من النظام وضع أربعة مناشف على أريكة، لكنه اختار نفس المنشفة عدة مرات لأن الوصف لم يكن واضحًا. حتى العبارات التفصيلية مثل “المنشفة العليا اليسرى” لم تكن دقيقة بما يكفي للتنفيذ الموثوق. وأشار الباحثون إلى أن “اللغة الغامضة تؤدي إلى إجراءات غير قابلة للتنفيذ”، مسلطين الضوء على أحد قيود الأنظمة الحالية.

التعلم من المهام الحقيقية

لتعزيز الأداء، طور الفريق طريقة تدريبية جديدة تُسمى Video-to-Spatially Grounded Planning (V2GP)، تتعلم من مقاطع الفيديو للروبوتات أثناء تنفيذ المهام، حيث تكتشف التفاعل مع الأشياء، تحددها، وتتابع مواقعها. النتيجة هي خطة منظمة تربط كل إجراء بموقع محدد.

وباستخدام هذا الأسلوب، تم إنشاء أكثر من 40,000 خطة مترابطة، تتراوح بين إجراءات بسيطة خطوة واحدة إلى سلاسل أطول تصل إلى 26 خطوة. وعندما تم تدريب النماذج على هذه البيانات، تحسنت قدرتها على اختيار الإجراءات الصحيحة وربطها بالأشياء الصحيحة، كما قللت من الأخطاء المتكررة مثل العمل على نفس العنصر عدة مرات.

ومع ذلك، لا تزال التحديات قائمة، خاصة مع المهام الطويلة والمعقدة أو التعليمات الغير مباشرة، إذ قال الباحثون: “يجب على النماذج التفكير في سلسلة طويلة من الإجراءات والحفاظ على الاتساق عبر عدة خطوات”.

وأظهرت المقارنة مع الأنظمة التقليدية التي تفصل بين التخطيط والتحديد المكاني أنها تواجه صعوبة مع الغموض، وغالبًا ما تطابق عدة إجراءات مع نفس الكائن أو الموقع. لكن الجمع بين الخطوتين في عملية واحدة يقلل من هذا الخلل، ويحافظ على ربط القرارات الخاصة بالإجراءات والمواقع بشكل متماسك.

يشير الفريق إلى أن العمل المستقبلي قد يجمع هذا النهج مع نماذج تنبؤية تتوقع نتائج الإجراءات قبل تنفيذها، ما قد يساعد الروبوتات على تفادي الأخطاء في الوقت الفعلي.

توضح النتائج الحالية اتجاهًا واضحًا في مجال الروبوتات: الأنظمة التي تفهم الأفعال والمواقع معًا هي الأكثر قدرة على العمل بفعالية في البيئات الواقعية.