Интеграция мультимодальных данных в генерацию текстовых описаний: методы, вызовы и перспективы
https://doi.org/10.21686/2413-2829-2026-1-72-78
Аннотация
Современные системы искусственного интеллекта все чаще используют мультимодальные данные, комбинируя визуальную, текстовую и аудиальную информацию для решения сложных задач. Одной из ключевых областей применения таких систем является генерация текстовых описаний на основе изображений и видео. Интеграция мультимодальных данных позволяет повысить точность и выразительность создаваемых текстов, обеспечивая более полное и осмысленное представление содержимого. В статье рассматриваются современные методы интеграции мультимодальных данных в генерацию текстовых описаний, анализируются ключевые вызовы, с которыми сталкиваются исследователи, а также обсуждаются перспективные направления развития этой области. Особое внимание уделяется использованию сверточных нейронных сетей (CNN) и трансформеров для обработки визуальной информации, а также механизмов внимания и моделей последовательной генерации текста. Исследуются подходы к фьюжну данных из разных модальностей, включая раннее и позднее объединение признаков, а также мультимодальные модели, обученные на больших корпусах данных. Несмотря на значительный прогресс, интеграция мультимодальных данных сопровождается рядом вызовов, включая проблему синхронизации информации, сложности в интерпретации и контексте, ограничения в обучающих данных и др. Обсуждаются перспективные направления развития. Полученные результаты могут быть полезны для разработчиков систем компьютерного зрения, обработки естественного языка и мультимодального машинного обучения, а также для создания интеллектуальных приложений в области автоматической аннотации изображений, видеосуммаризации и человеко-машинного взаимодействия.
Об авторе
Н. А. ЧиняковРоссия
Никита Александрович Чиняков – аспирант кафедры информатики РЭУ им. Г. В. Плеханова
109992, Москва, Стремянный пер., д. 36
Список литературы
1. Baltrusaitis T., Ahuja C., Morency L.-P. Multimodal Machine Learning: A Survey and Taxonomy // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2019. – Vol. 41 (2). – P. 423–443.
2. Buolamwini J., Gebru T. Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification //Proceedings of the 1st Conference on Fairness, Accountability and Transparency. – URL: https://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf?utm_source=chatgpt.com
3. Esteva A., Kuprel B., Novoa R. A. Dermatologist-Level Classification of Skin Cancer with Deep Neural Networks. – URL: https://www.researchgate.net/publication/312890808_Dermatologist-level_classification_of_skin_cancer_with_deep_neural_networks
4. Goodfellow I., Pouget-Abadie J., Mirza M. Generative Adversarial Nets. – URL: https://www.researchgate.net/publication/263012109_Generative_Adversarial_Networks
5. Hochreiter S., Schmidhuber J. Long Short-Term Memory //Neural Computation. – 1997. – Vol. 9 (8). – P. 1735–1780.
6. Jobin A., Ienca M., Andorno R. The Global Landscape of AI Ethics Guidelines //Nature Machine Intelligence. – URL: https://www.nature.com/articles/s42256-019-0088-2?utm_source=chatgpt.com
7. Kizilcec R. F., Piech C., Schneider E. F. Deconstructing Disengagement: Analyzing Learner Subpopulations in Massive Open Online Courses. – URL: https://www.researchgate.net/publication/260265661_Deconstructing_Disengagement_Analyzing_Learner_Subpopulations_in_Massive_Open_Online_Courses
8. McCormack J., Gifford T., Hutchings P. Autonomy, Authenticity and the Role of the Artist in the Age of AI. – URL: https://www.researchgate.net/publication/331562062_Autonomy_Authenticity_Authorship_and_Intention_in_computer_generated_art
9. Nguyen H., Wang Y., Zhang J. Multimodal Sentiment Analysis: A Survey on Methods and Applications //IEEE Transactions on Affective Computing. – URL: https://arxiv.org/abs/2305.07611?utm_source=chatgpt.com
10. Rihem F. Image Captioning Using Multimodal Deep Learning Approach //Computers, Materials & Continua. – 2024. – Vol. 81 (3). – P. 3951–3968.
11. Stojkoska B. R., Avramova A. P., Chatzimisios P. Application of Wireless Sensor Networks for Indoor Temperature Regulation. – URL: https://arxiv.org/abs/1606.07386
12. Sutskever I., Vinyals O., Le Q. V. Sequence to Sequence Learning with Neural Networks. – URL: https://arxiv.org/abs/1409.3215
13. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Gomez A. N., Kaiser L., Polosukhin I. Attention is All You Need. – URL: https://arxiv.org/abs/1706.03762
14. Vinyals O., Toshev A., Bengio S., Erhan D. Show and Tell: A Neural Image Caption Generator. – URL: https://arxiv.org/abs/1411.4555
15. Zadeh A. B., Liang P. P., Poria S., Cambria E., Morency L-P. Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph. – URL: https://aclanthology.org/P18-1208/
16. Zhang Y., Liu F., Wang H., Hu Z. Multimodal Learning for Medical Image Analysis: A Survey //Medical Image Analysis. – 2023. – N 85. – P. 102759.
Рецензия
Для цитирования:
Чиняков Н.А. Интеграция мультимодальных данных в генерацию текстовых описаний: методы, вызовы и перспективы. Вестник Российского экономического университета имени Г. В. Плеханова. 2026;(1):72-78. https://doi.org/10.21686/2413-2829-2026-1-72-78
For citation:
Chinyakov N.A. Integration of Multi-Modal Data into Generation of Text Descriptions: Methods, Challenges and Prospects. Vestnik of the Plekhanov Russian University of Economics. 2026;(1):72-78. (In Russ.) https://doi.org/10.21686/2413-2829-2026-1-72-78
JATS XML




















