يعد أداء المحولات الأساسية في مجال رؤية الكمبيوتر رائعًا للغاية، كما أن آلية الاهتمام الذاتي الخاصة به تجلب أفكارًا وأساليب جديدة لمعالجة الصور. فيما يلي بعض مجالات التطبيق الرئيسية والأمثلة المحددة:
يعد Vision Transformer (ViT) تطبيقًا مهمًا للمحول في مهام تصنيف الصور. يقوم ViT بتقسيم الصورة إلى عدة بقع صغيرة (بقع)، ثم يعامل هذه البقع كتسلسلات إدخال، ويتعرف على الميزات العامة للصورة من خلال آلية الاهتمام الذاتي. تعمل هذه الطريقة بشكل جيد على مجموعات بيانات متعددة مثل ImageNet، حتى أنها تتفوق على الشبكات العصبية التلافيفية التقليدية (CNN).
تهدف مهام الكشف عن الكائنات إلى تحديد الكائنات ومواقعها في الصور. DEtection TRansformer (DETR) هو إطار عمل مبتكر يجمع بين Transformer وCNN للتنبؤ المباشر بالمربعات المحيطة وتسميات الفئات. يعمل DETR على تبسيط عملية الكشف عن الهدف التقليدية عن طريق تحويل الكشف عن الهدف إلى مشكلة تنبؤ محددة ويحقق نتائج جيدة، خاصة في المشاهد المعقدة.
في مهمة تجزئة الصورة، يعد Segmenter نموذجًا يستند إلى محول يستخدم آلية الاهتمام الذاتي لمعالجة المعلومات على مستوى البكسل الخاصة بالصورة لتحقيق تأثيرات تجزئة عالية الدقة. بالمقارنة مع الطرق التقليدية، يستطيع Segmenter التقاط المعلومات السياقية في الصور بشكل أفضل، وبالتالي تحسين دقة نتائج التجزئة.
في مجال توليد الصور، فإن TransGAN وغيرها من نماذج شبكة الخصومة التوليدية (GAN) القائمة على المحولات قادرة على إنشاء صور عالية الجودة. تستفيد هذه النماذج من خصائص التبعية طويلة المدى لـ Transformer لإنشاء صور أكثر تفصيلاً وواقعية، وتستخدم على نطاق واسع في الإبداع الفني وتصميم الألعاب ومجالات أخرى.
يتم استخدام المحول أيضًا في مهام فهم الفيديو والتعرف على الإجراءات. من خلال معالجة العلاقة الزمنية بين إطارات الفيديو، يكون النموذج قادرًا على التقاط المعلومات الديناميكية. على سبيل المثال، يقوم TimeSformer بتقسيم مقطع فيديو إلى أجزاء زمنية ويستخدم محولًا لنمذجة كل مقطع، وتحديد الإجراءات والأحداث في الفيديو بشكل فعال.
في التعلم متعدد الوسائط، يستطيع Transformer معالجة معلومات الصورة والنص في وقت واحد، وإجراء مطابقة بين الصورة والنص وإنشاء الأوصاف. على سبيل المثال، في مهمة التعليق على الصورة، يمكن للنموذج إنشاء أوصاف مقابلة بناءً على الصورة المدخلة، مما يحسن القدرة على فهم الصورة.
تتطلب مهام الإجابة على الأسئلة المرئية (VQA) نماذج لفهم الأسئلة المصورة والنصية وإنشاء الإجابات المقابلة. يمكن لنموذج VQA المعتمد على Transformer تحليل محتوى الصورة ونص الأسئلة بشكل شامل لتقديم إجابات دقيقة. ولهذه التكنولوجيا تطبيقات مهمة في المساعدات الذكية والتفاعل بين الإنسان والحاسوب.
في التعرف البصري الدقيق، يكون المحول قادرًا على تحديد الاختلافات في الأشياء المتشابهة، مثل الأنواع المختلفة من الطيور أو السيارات، من خلال تحليل الميزات الدقيقة. من خلال آلية الاهتمام الذاتي، يمكن للنموذج التركيز بشكل أفضل على الميزات الرئيسية وتحسين دقة التعرف.
تطبيق Transformer Core في مجال رؤية الكمبيوتر يُظهر قدراته ومرونته القوية في تعلم الميزات. بالمقارنة مع الشبكات العصبية التلافيفية التقليدية، يمكن لآلية الانتباه الذاتي الخاصة بـ Transformer التقاط المعلومات السياقية العالمية بشكل فعال في الصور وهي مناسبة لمختلف المهام المرئية. مع التطور المستمر للتكنولوجيا، ستصبح آفاق تطبيق Transformer في مجال رؤية الكمبيوتر أوسع، مما يعزز التقدم والابتكار في الذكاء الاصطناعي المرئي.
+86-523 8891 6699
+86-523 8891 8266
info@tl-core.com
رقم 1، المنطقة الصناعية الثالثة، شارع ليانجكسو، مدينة تايتشو، جيانغسو، الصين 

中文简体