Innovaciones en Visión Artificial: Evaluación de ChatGPT, Gemini y Copilot para el Análisis de Imágenes
DOI:
https://doi.org/10.37431/conectividad.v6i2.284Palabras clave:
ChatGPT, Gemini, Copilot, IA, Procesamiento de Lenguaje NaturalResumen
En los últimos años los Modelos de Lenguaje de Gran Escala (LLM) han tenido un crecimiento exponencial evolucionado rápidamente, desde sus inicios cuando fueron concebidos bajo la premisa de simples herramientas que comprendían texto hasta nuestros tiempos que se han convertido en sistemas multimodales capaces de generar contenido creativo y complejo. Esta innovación se ha impulsado por los grandes avances en arquitecturas de redes neuronales y ha eso sumarle la disponibilidad de grandes conjuntos de datos. En este estudio, se tiene como objetivo principal comparar tres LLMs más usados que son: ChatGPT, Gemini y Copilot, en la ejecución de la tarea de convertir imágenes en texto (I2T). Se evaluó la capacidad que tiene cada modelo para describir de manera detallada y precisa diferentes tipos de imágenes, entre las cuales se evaluó pinturas artísticas, escenas urbanas e imágenes con instrucciones. Los resultados obtenidos muestran que los tres modelos poseen un alto nivel de desempeño, el modelo de Gemini sobresale gracias a que mostro habilidad para integrar información visual y textual de manera más eficiente. Los resultados del estudio muestran que los LLMs continúan evolucionando, con lo que podemos esperar ver avances aún más significativos en su capacidad para comprender y generar lenguaje natural. Así mismo, se espera que esta evolución permita a estos modelos verse más aplicados en la vida cotidiana de todas las personas, automatizando procesos y ayudando a mejorar el desarrollo de asistentes virtuales.
Citas
Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F., y McGrew, B. (2023). Gpt-4 technical report. arXiv e-prints. https://doi.org/arXiv:2303.08774
Devlin, J., Chang, M.-W., Lee, K., y Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv e-prints. https://doi.org/10.48550/arXiv.1810.04805
Gemini Team, Georgiev, P., Lei, V., Burnell, R., Bai, L., ......, y Vinyals, O. (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv e-prints. https://doi.org/10.48550/arXiv.2403.05530
Google. (2022). LaMDA: Language Models for Dialog Applications. arXiv e-prints. https://doi.org/10.48550/arXiv.2201.08239
Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., y Soricut, R. (2019). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. arXiv e-prints. https://doi.org/10.48550/arXiv.1909.11942
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., . . . Stoyanov, V. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv e-prints. https://doi.org/10.48550/arXiv.1907.11692
Open AI. (2020). Language Models are Few-Shot Learners. arXiv e-prints. https://doi.org/10.48550/arXiv.2005.14165
Open AI. (2023). GPT-4V(ision) System Card. https://openai.com/index/gpt-4v-system-card/. https://openai.com/index/gpt-4v-system-card/
Open AI, Anthropic AI, Zipline. (2021). Evaluating Large Language Models Trained on Code. arXiv e-prints. https://doi.org/10.48550/arXiv.2107.03374
Yang, J., Jin, H., Tang, R., Han, X., Feng, Q., Jiang, H., . . . Hu, X. (2023). Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond. https://doi.org/10.48550/arXiv.2304.13712
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2025 Instituto Superior Tecnológico Universitario Rumiñahui

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Los originales publicados en la edición electrónica bajo derechos de primera publicación de la revista son del Instituto Superior Tecnológico Universitario Rumiñahui, por ello, es necesario citar la procedencia en cualquier reproducción parcial o total. Todos los contenidos de la revista electrónica se distribuyen bajo una licencia de Creative Commons Reconocimiento-NoComercial-4.0 Internacional.