Advanced Course - Image Caption Generator - Lesson 8 - Build and Create Inputs & Output.

CNN models : Xception , VGG16.

Image caption generator is a process of recognizing the context of an image and annotating it with relevant captions using deep learning, and computer vision. It includes the labeling of an image with English keywords with the help of datasets provided during model training. Images dataset is used to train the CNN model and it's responsible for image feature extraction. These extracted features will be fed to the LSTM model which in turn generates the image caption.

What is CNN?
CNN is a subfield of Deep learning and specialized deep neural networks used for the recognition and classification of images. It is used to process the data represented as a 2D matrix like images. It can deal with scaled, translated, and rotated imagery. It analyzes the visual imagery by scanning them from left to right and top to bottom and extracting relevant features from that. Finally, it combines all the features for image classification.

What is LSTM?
Being a type of RNN (recurrent neural network), LSTM (Long short-term memory) is capable of working with sequence prediction problems. It is mostly used for the next word prediction purposes. Throughout the processing of inputs, LSTM is used to carry out the relevant information and to discard non-relevant information.


To build an image caption generator model we have to merge CNN with LSTM. We can drive that:

Image Caption Generator Model(CNN-RNN model) = CNN + LSTM.

CNN- To extract features from the image.

LSTM- To generate a description from the extracted information of the image.

Download the Image Caption Generators Files:
https://drive.google.com/drive/folders/1Ua6rdMiAUeKdgQkH1ppyClaUXk7zuzri?usp=sharing


دورة متقدمة - مولد تعليق الصور - الدرس 8 - تشكيل الدخل و الخرج و تهيأة المعلومات للتدريب

منشئ شرح الصورة هو عملية للتعرف على سياق الصورة والتعليق عليها بالتعليقات التوضيحية ذات الصلة باستخدام التعلم العميق ورؤية الكمبيوتر. يتضمن تسمية الصورة بالكلمات الأساسية باللغة الإنجليزية بمساعدة مجموعات البيانات المقدمة أثناء التدريب على النموذج. تُستخدم مجموعة بيانات الصور لتدريب نموذج الشبكات العصبونية البصرية وهي مسؤولة عن استخراج ميزة الصورة. سيتم تغذية هذه الميزات المستخرجة إلى نموذج مرتبط بتوليد ذاكرة قصيرة المدى الذي يقوم بدوره بإنشاء تسمية توضيحية للصورة.

ما هي الشبكات العصبونية البصرية ؟
الشبكات العصبونية البصرية هي حقل فرعي من التعلم العميق والشبكات العصبية العميقة المتخصصة المستخدمة للتعرف على الصور وتصنيفها. يتم استخدامه لمعالجة البيانات الممثلة كمصفوفة ثنائية الأبعاد مثل الصور. يمكنه التعامل مع الصور المقاسة والمترجمة والمستديرة. يقوم بتحليل الصور المرئية عن طريق مسحها ضوئيًا من اليسار إلى اليمين ومن أعلى إلى أسفل واستخراج الميزات ذات الصلة من ذلك. أخيرًا ، فهو يجمع بين جميع ميزات تصنيف الصور.

ما هو مرتبط بتوليد ذاكرة قصيرة المدى؟
نظرًا لكونه نوعًا من الشبكات العصبونية العودية (شبكة عصبية متكررة) ، فإن مرتبط بتوليد ذاكرة قصيرة المدى (ذاكرة طويلة المدى) قادرة على التعامل مع مشاكل التنبؤ بالتسلسل. يتم استخدامه في الغالب لأغراض التنبؤ بالكلمة التالية. خلال معالجة المدخلات ، يتم استخدام مرتبط بتوليد ذاكرة قصيرة المدى لتنفيذ المعلومات ذات الصلة وتجاهل المعلومات غير ذات الصلة.


لإنشاء نموذج منشئ تسمية توضيحية للصور ، يتعين علينا دمج الشبكات العصبونية البصرية مع مرتبط بتوليد ذاكرة قصيرة المدى. يمكننا أن نقود ما يلي:

نموذج مولد التسمية التوضيحية للصورة (نموذج الشبكات العصبونية البصرية - الشبكات العصبونية العودية) = الشبكات العصبونية البصرية + مرتبط بتوليد ذاكرة قصيرة المدى.

الشبكات العصبونية البصرية- لاستخراج ميزات من الصورة.

شبكات مرتبطة بتوليد ذاكرة قصيرة المدى- لإنشاء وصف من المعلومات المستخرجة من الصورة.

تحميل الملفات الخاصة بالمشروع:
https://drive.google.com/drive/folders/1Ua6rdMiAUeKdgQkH1ppyClaUXk7zuzri?usp=sharing