وبدلاً من محاولة إنشاء خريطة ضخمة مرة واحدة، ينشئ النظام الذي يعتمد على الذكاء الاصطناعي خرائط فرعية أصغر للمشهد بشكل تدريجي.
دمج ذكي
يتم بعد ذلك ربط هذه الخرائط الفرعية معاً لإعادة بناء خريطة ثلاثية الأبعاد كاملة، مع تقدير موضع الروبوت في الوقت الفعلي. وعلى الرغم من أن النموذج لا يزال يعالج بضع صور فقط في كل مرة، فإن دمج الخرائط الفرعية يسمح له بإعادة بناء مشاهد أكبر بسرعة هائلة.
وكانت المفاجأة هي أن البساطة الظاهرة لهذا الحل واجهت تحدياً في البداية، إذ أدت الأخطاء في معالجة نماذج التعلم الآلي للصور إلى «تشوه» في الخرائط الفرعية (مثل ظهور الجدران منحنية قليلاً)، ما صعّب محاذاتها بالطرق التقليدية.
هنا استلهم ماجيو من أبحاث الرؤية الحاسوبية، التي تعود إلى الثمانينيات والتسعينيات. ومن خلال دمج تقنية رياضية أكثر مرونة، أصبح الباحثون قادرين على تمثيل جميع التشوهات في هذه الخرائط الفرعية ومعالجتها، ما ضمن محاذاة دقيقة ومتسقة.
يعلق لوكا كارلون، الأستاذ المشارك المؤلف الرئيسي للورقة، بالقول: «فور أن امتلك دومينيك الحدس اللازم للربط بين هذين العالمين - مناهج التعلم وطرق التحسين التقليدية - كان التنفيذ سهلاً ومباشراً».
التوظيف العملي
أظهر النظام الجديد سرعة فائقة مع أخطاء إعادة بناء ضئيلة، حيث نجح الباحثون في إنتاج عمليات إعادة بناء ثلاثية الأبعاد في وقت قريب من الوقت الفعلي لمشاهد معقدة، مثل داخل كنيسة MIT، باستخدام مقاطع فيديو قصيرة ملتقطة بهاتف محمول، وكان متوسط الخطأ أقل من 5 سنتيمترات.
هذا النهج لا يتطلب كاميرات معايرة مسبقاً أو خبيراً لضبط تنفيذه، ما يجعله سهل التوسع في تطبيقات عملية واسعة، منها تمكين الروبوتات الصناعية من تحديد موقع البضائع ونقلها بسرعة، وإنشاء تطبيقات دقيقة للأجهزة القابلة للارتداء.