يكتشف الذكاء الاصطناعي الأشياء في الصور باستخدام تقنيات الرؤية الحاسوبية التي تحلل السمات المرئية للصورة. تتضمن العملية عادةً استخدام شبكة عصبية تلافيفية (CNN) لتحديد الأنماط في بيانات الصورة التي تتوافق مع فئات الكائنات المختلفة. تستخرج CNN أولاً ميزات من الصورة باستخدام سلسلة من الطبقات التلافيفية والتجميعية ثم تستخدم هذه الميزات لعمل تنبؤات حول وجود كائنات مختلفة. يتم تدريب الشبكة عادةً على مجموعات بيانات كبيرة من الصور المصنفة لمعرفة كيفية التعرف على الكائنات بدقة في مجموعة متنوعة من السياقات ، ويمكنها تحقيق مستويات عالية من الدقة في اكتشاف الكائنات في الصور الجديدة. ومع ذلك ، فإن Meta تتحرك بعيدًا عن الطريقة التقليدية لاكتشاف الذكاء الاصطناعي ، مثل الذكاء الاصطناعي الجديديمكن لـ Segment Anything اكتشاف الكائنات التي لم يسبق لها مثيل في الصور.




وفقًا لورقة بحثية نشرتها عملاق الوسائط الاجتماعية ، يمكن استخدام هذا النموذج عن طريق تحديد الكائنات عن طريق النقر فوقها أو استخدام مطالبات النص الحر. ببساطة عن طريق كتابة "طائر" ، ستسلط الذكاء الاصطناعي الضوء على جميع الطيور في صورة معينة. علاوة على ذلك ، يمكن أن يعمل النموذج بالتعاون الوثيق مع طرز أخرى للمساعدة في إعادة بناء كائن ثلاثي الأبعاد أو الرسم من المناظر من سماعة رأس الواقع المختلط.


في حين أن النموذج الحالي قد يكون له قيود ، مثل فقدان التفاصيل الدقيقة وعدم الدقة في اكتشاف الحدود مثل النماذج الأخرى ، إلا أنه يمكن أن يساعد في المواقف التي يكون فيها الاعتماد فقط على بيانات التدريب أمرًا غير عملي. على سبيل المثال ، يمكن لشبكة اجتماعية استخدام التكنولوجيا لمواكبة الحجم المتزايد بسرعة من المحتوى. على الرغم من أنه قد لا يتم استخدام هذا الذكاء الاصطناعي في الأجهزة التي تتطلب اكتشافًا سريعًا ودقيقًا للأشياء ، إلا أن نماذج مثل هذه توضح إمكانية الحد من الحاجة إلى تدريب إضافي على الذكاء الاصطناعي. أتاحت Meta كل من نموذج AI ومجموعة البيانات للتنزيل بترخيص غير تجاري. ستعمل هذه الخطوة على توسيع الوصول إلى التكنولوجيا ، لأغراض البحث في المقام الأول. ومع ذلك ، فإن هذا الاختراق يظهر أن Metaيريد تعميم رؤية الكمبيوتر ، وهو يخطط بالفعل لإنشاء "شخصيات" ذكاء اصطناعي لتطبيقاته الاجتماعية ، مما يدل على أن لديه بعض المزايا الخاصة به.

Post a Comment

أحدث أقدم