في سابقة تكنولوجية قد تغير قواعد اللعبة في مجال البحث والإنقاذ والكوارث، كشف باحثون في معهد ماساتشوستس للتكنولوجيا تطوير نهج جديد ثوري يمزج بين قوة الذكاء الاصطناعي وعبقرية الرؤية الحاسوبية الكلاسيكية، ويهدف هذا النظام إلى تمكين روبوتات الإنقاذ من إنشاء خرائط ثلاثية الأبعاد دقيقة لبيئة غير متوقعة، مثل حطام منجم منهار أو ممر مكتبي معقد، ليس في دقائق، بل في ثوانٍ معدودة. وواجهت الروبوتات التي تعمل في بيئات الكوارث تحدياً حاسماً، وهو القدرة على رسم خريطة للمشهد، وتحديد موقعها داخله، وهي عملية تعرف باسم «التوطين والرسم المتزامن» للخرائط التي تتطلبها السيناريوهات الحرجة، مثل البحث عن عمال محاصرين، ومعالجة آلاف الصور الملتقطة بكاميرات الروبوت في أثناء تنقله السريع. يشير دومينيك ماجيو، طالب الدراسات العليا المؤلف الرئيسي للورقة البحثية، إلى المشكلة بقوله: «حتى أفضل النماذج السابقة لا تستطيع معالجة سوى عدد قليل من الصور في كل مرة». هذا القيد يجعلها غير عملية في التطبيقات الواقعية، حيث السرعة عامل بقاء.
وبدلاً من محاولة إنشاء خريطة ضخمة مرة واحدة، ينشئ النظام الذي يعتمد على الذكاء الاصطناعي خرائط فرعية أصغر للمشهد بشكل تدريجي.
دمج ذكي
يتم بعد ذلك ربط هذه الخرائط الفرعية معاً لإعادة بناء خريطة ثلاثية الأبعاد كاملة، مع تقدير موضع الروبوت في الوقت الفعلي. وعلى الرغم من أن النموذج لا يزال يعالج بضع صور فقط في كل مرة، فإن دمج الخرائط الفرعية يسمح له بإعادة بناء مشاهد أكبر بسرعة هائلة.
وكانت المفاجأة هي أن البساطة الظاهرة لهذا الحل واجهت تحدياً في البداية، إذ أدت الأخطاء في معالجة نماذج التعلم الآلي للصور إلى «تشوه» في الخرائط الفرعية (مثل ظهور الجدران منحنية قليلاً)، ما صعّب محاذاتها بالطرق التقليدية.
هنا استلهم ماجيو من أبحاث الرؤية الحاسوبية، التي تعود إلى الثمانينيات والتسعينيات. ومن خلال دمج تقنية رياضية أكثر مرونة، أصبح الباحثون قادرين على تمثيل جميع التشوهات في هذه الخرائط الفرعية ومعالجتها، ما ضمن محاذاة دقيقة ومتسقة.
يعلق لوكا كارلون، الأستاذ المشارك المؤلف الرئيسي للورقة، بالقول: «فور أن امتلك دومينيك الحدس اللازم للربط بين هذين العالمين - مناهج التعلم وطرق التحسين التقليدية - كان التنفيذ سهلاً ومباشراً».
التوظيف العملي
أظهر النظام الجديد سرعة فائقة مع أخطاء إعادة بناء ضئيلة، حيث نجح الباحثون في إنتاج عمليات إعادة بناء ثلاثية الأبعاد في وقت قريب من الوقت الفعلي لمشاهد معقدة، مثل داخل كنيسة MIT، باستخدام مقاطع فيديو قصيرة ملتقطة بهاتف محمول، وكان متوسط الخطأ أقل من 5 سنتيمترات.
هذا النهج لا يتطلب كاميرات معايرة مسبقاً أو خبيراً لضبط تنفيذه، ما يجعله سهل التوسع في تطبيقات عملية واسعة، منها تمكين الروبوتات الصناعية من تحديد موقع البضائع ونقلها بسرعة، وإنشاء تطبيقات دقيقة للأجهزة القابلة للارتداء.
وبدلاً من محاولة إنشاء خريطة ضخمة مرة واحدة، ينشئ النظام الذي يعتمد على الذكاء الاصطناعي خرائط فرعية أصغر للمشهد بشكل تدريجي.
دمج ذكي
يتم بعد ذلك ربط هذه الخرائط الفرعية معاً لإعادة بناء خريطة ثلاثية الأبعاد كاملة، مع تقدير موضع الروبوت في الوقت الفعلي. وعلى الرغم من أن النموذج لا يزال يعالج بضع صور فقط في كل مرة، فإن دمج الخرائط الفرعية يسمح له بإعادة بناء مشاهد أكبر بسرعة هائلة.
وكانت المفاجأة هي أن البساطة الظاهرة لهذا الحل واجهت تحدياً في البداية، إذ أدت الأخطاء في معالجة نماذج التعلم الآلي للصور إلى «تشوه» في الخرائط الفرعية (مثل ظهور الجدران منحنية قليلاً)، ما صعّب محاذاتها بالطرق التقليدية.
هنا استلهم ماجيو من أبحاث الرؤية الحاسوبية، التي تعود إلى الثمانينيات والتسعينيات. ومن خلال دمج تقنية رياضية أكثر مرونة، أصبح الباحثون قادرين على تمثيل جميع التشوهات في هذه الخرائط الفرعية ومعالجتها، ما ضمن محاذاة دقيقة ومتسقة.
يعلق لوكا كارلون، الأستاذ المشارك المؤلف الرئيسي للورقة، بالقول: «فور أن امتلك دومينيك الحدس اللازم للربط بين هذين العالمين - مناهج التعلم وطرق التحسين التقليدية - كان التنفيذ سهلاً ومباشراً».
التوظيف العملي
أظهر النظام الجديد سرعة فائقة مع أخطاء إعادة بناء ضئيلة، حيث نجح الباحثون في إنتاج عمليات إعادة بناء ثلاثية الأبعاد في وقت قريب من الوقت الفعلي لمشاهد معقدة، مثل داخل كنيسة MIT، باستخدام مقاطع فيديو قصيرة ملتقطة بهاتف محمول، وكان متوسط الخطأ أقل من 5 سنتيمترات.
هذا النهج لا يتطلب كاميرات معايرة مسبقاً أو خبيراً لضبط تنفيذه، ما يجعله سهل التوسع في تطبيقات عملية واسعة، منها تمكين الروبوتات الصناعية من تحديد موقع البضائع ونقلها بسرعة، وإنشاء تطبيقات دقيقة للأجهزة القابلة للارتداء.