غير أن البيانات التي يستخدمها الباحثون، لتدريب خوارزميات الذكاء الاصطناعي على اتخاذ القرار، وعلى الرغم من توفرها بشكل شبه مجاني، فإن هذه البيانات تحتاج إلى عدد من العمليات التأهيلية، قبل أن يمكن للخوارزميات الاستفادة منها.
إحدى أهم هذه العمليات التأهيلية، هي تقسيم وتصنيف البيانات بحسب النوع، وهذه العملية في العادة تتطلب التدخل البشري، بحيث يجهز أشخاص وبشكل يدوي، البيانات للخوارزميات، وعملية التجهيز هذه تستهلك كثيرا من الوقت والجهد والمال.
صعوبة تجهيز البيانات لتستطيع خوارزميات الذكاء الاصطناعي التدرب عليها، لا تقف عند هذا الحد، بل إنه وبعد تدريب الخوارزمية على بيانات ما، فإنه يلزم اختبار تلك الخوارزميات، مما يعني الحاجة إلى مزيد من البيانات المصنفة يدوياً، مما يعني استهلاك مزيد من الوقت والجهد والمال أيضاً.
الباحث وانج تشين «Wang Chen» شكل في العام 2021، فريق بحث من معامل الذكاء الاصطناعي بشركة تينسينت
«Tencent» الصينية، وجامعة هونج كونج «University of HongKong» شكل فريقا ليقوم بمحاولة إيجاد حل لجزء واحد من عملية تدريب واختبار الخوارزميات، وتحديداً فقد حاول الفريق حل مشكلة الاختبار تلك، ولكن عوضاً عن إيجاد طريقة لتقليل الجهد والوقت والمال، اللازمة لإعداد بيانات الاختبار الخاصة بالخوارزميات، فقد نحى الباحثون منحى آخر، وذلك بمحاولة إيجاد طريقة للاستغناء تماماً عن بيانات الاختبار.
الباحثون من شركة تينسينت وجامعة هونج كونج، قاموا بابتكار معادلات رياضية، يمكنها حساب قدرة الخوارزميات على تحليل البيانات، دون الحاجة إلى اختبار الخوارزميات على بيانات حقيقية، وقد قام الفريق البحثي باختبار طريقتهم المقترحة، على خوارزميات تلخيص النصوص، بحيث تقارن معادلاتهم الرياضية، ملخص الخوارزمية مع النص الأصلي، وبأخذ عدد من العناصر في الحسبان، تعطي المعادلة الرياضية درجة تمثل دقة الخوارزمية في تلخيص النص، قارن فريق الباحثين نتائجهم مع الطرق التقليدية في اختبار الخوارزميات، والتي تعتمد على إعطاء الخوارزميات لبيانات ملخصة مسبقاً، لمقارنة أدائها بها، ووجدوا أن معادلاتهم الرياضية لاختبار الخوارزميات دون بيانات اختبار، قدمت نتائج مقاربة بشكل كبير للطرق الأخرى.