Preview

Вестник Российского экономического университета имени Г. В. Плеханова

Расширенный поиск

Интеграция мультимодальных данных в генерацию текстовых описаний: методы, вызовы и перспективы

https://doi.org/10.21686/2413-2829-2026-1-72-78

Аннотация

Современные системы искусственного интеллекта все чаще используют мультимодальные данные, комбинируя визуальную, текстовую и аудиальную информацию для решения сложных задач. Одной из ключевых областей применения таких систем является генерация текстовых описаний на основе изображений и видео. Интеграция мультимодальных данных позволяет повысить точность и выразительность создаваемых текстов, обеспечивая более полное и осмысленное представление содержимого. В статье рассматриваются современные методы интеграции мультимодальных данных в генерацию текстовых описаний, анализируются ключевые вызовы, с которыми сталкиваются исследователи, а также обсуждаются перспективные направления развития этой области. Особое внимание уделяется использованию сверточных нейронных сетей (CNN) и трансформеров для обработки визуальной информации, а также механизмов внимания и моделей последовательной генерации текста. Исследуются подходы к фьюжну данных из разных модальностей, включая раннее и позднее объединение признаков, а также мультимодальные модели, обученные на больших корпусах данных. Несмотря на значительный прогресс, интеграция мультимодальных данных сопровождается рядом вызовов, включая проблему синхронизации информации, сложности в интерпретации и контексте, ограничения в обучающих данных и др. Обсуждаются перспективные направления развития. Полученные результаты могут быть полезны для разработчиков систем компьютерного зрения, обработки естественного языка и мультимодального машинного обучения, а также для создания интеллектуальных приложений в области автоматической аннотации изображений, видеосуммаризации и человеко-машинного взаимодействия.

Об авторе

Н. А. Чиняков
Российский экономический университет имени Г. В. Плеханова
Россия

Никита Александрович Чиняков – аспирант кафедры информатики РЭУ им. Г. В. Плеханова 

109992, Москва, Стремянный пер., д. 36



Список литературы

1. Baltrusaitis T., Ahuja C., Morency L.-P. Multimodal Machine Learning: A Survey and Taxonomy // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2019. – Vol. 41 (2). – P. 423–443.

2. Buolamwini J., Gebru T. Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification //Proceedings of the 1st Conference on Fairness, Accountability and Transparency. – URL: https://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf?utm_source=chatgpt.com

3. Esteva A., Kuprel B., Novoa R. A. Dermatologist-Level Classification of Skin Cancer with Deep Neural Networks. – URL: https://www.researchgate.net/publication/312890808_Dermatologist-level_classification_of_skin_cancer_with_deep_neural_networks

4. Goodfellow I., Pouget-Abadie J., Mirza M. Generative Adversarial Nets. – URL: https://www.researchgate.net/publication/263012109_Generative_Adversarial_Networks

5. Hochreiter S., Schmidhuber J. Long Short-Term Memory //Neural Computation. – 1997. – Vol. 9 (8). – P. 1735–1780.

6. Jobin A., Ienca M., Andorno R. The Global Landscape of AI Ethics Guidelines //Nature Machine Intelligence. – URL: https://www.nature.com/articles/s42256-019-0088-2?utm_source=chatgpt.com

7. Kizilcec R. F., Piech C., Schneider E. F. Deconstructing Disengagement: Analyzing Learner Subpopulations in Massive Open Online Courses. – URL: https://www.researchgate.net/publication/260265661_Deconstructing_Disengagement_Analyzing_Learner_Subpopulations_in_Massive_Open_Online_Courses

8. McCormack J., Gifford T., Hutchings P. Autonomy, Authenticity and the Role of the Artist in the Age of AI. – URL: https://www.researchgate.net/publication/331562062_Autonomy_Authenticity_Authorship_and_Intention_in_computer_generated_art

9. Nguyen H., Wang Y., Zhang J. Multimodal Sentiment Analysis: A Survey on Methods and Applications //IEEE Transactions on Affective Computing. – URL: https://arxiv.org/abs/2305.07611?utm_source=chatgpt.com

10. Rihem F. Image Captioning Using Multimodal Deep Learning Approach //Computers, Materials & Continua. – 2024. – Vol. 81 (3). – P. 3951–3968.

11. Stojkoska B. R., Avramova A. P., Chatzimisios P. Application of Wireless Sensor Networks for Indoor Temperature Regulation. – URL: https://arxiv.org/abs/1606.07386

12. Sutskever I., Vinyals O., Le Q. V. Sequence to Sequence Learning with Neural Networks. – URL: https://arxiv.org/abs/1409.3215

13. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Gomez A. N., Kaiser L., Polosukhin I. Attention is All You Need. – URL: https://arxiv.org/abs/1706.03762

14. Vinyals O., Toshev A., Bengio S., Erhan D. Show and Tell: A Neural Image Caption Generator. – URL: https://arxiv.org/abs/1411.4555

15. Zadeh A. B., Liang P. P., Poria S., Cambria E., Morency L-P. Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph. – URL: https://aclanthology.org/P18-1208/

16. Zhang Y., Liu F., Wang H., Hu Z. Multimodal Learning for Medical Image Analysis: A Survey //Medical Image Analysis. – 2023. – N 85. – P. 102759.


Рецензия

Для цитирования:


Чиняков Н.А. Интеграция мультимодальных данных в генерацию текстовых описаний: методы, вызовы и перспективы. Вестник Российского экономического университета имени Г. В. Плеханова. 2026;(1):72-78. https://doi.org/10.21686/2413-2829-2026-1-72-78

For citation:


Chinyakov N.A. Integration of Multi-Modal Data into Generation of Text Descriptions: Methods, Challenges and Prospects. Vestnik of the Plekhanov Russian University of Economics. 2026;(1):72-78. (In Russ.) https://doi.org/10.21686/2413-2829-2026-1-72-78

Просмотров: 20

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2413-2829 (Print)
ISSN 2587-9251 (Online)