banner
Hogar / Blog / El equipo de Illinois gana el primer premio en la competencia OpenCV AI
Blog

El equipo de Illinois gana el primer premio en la competencia OpenCV AI

Aug 15, 2023Aug 15, 2023

09/08/2023

Debra Levey Larson

Crear manualmente un conjunto de datos de imágenes etiquetadas es costoso y requiere mucho esfuerzo. Motivado por reducir ambos factores, un equipo de cuatro estudiantes de la Universidad de Illinois Urbana-Champaign desarrolló una solución que automatiza el proceso de generación y anotación de datos para entrenar modelos de visión por computadora basados ​​en aprendizaje profundo.

Este año, el equipo ganó el primer premio en la pista principal de la competencia OpenCV AI 2022. Su software llamado COCOpen sigue el enfoque de etiquetado de imágenes introducido en el conjunto de datos "Objetos comunes en contexto" de Microsoft.

El software que crearon produce datos de imágenes que se utilizan para entrenar modelos para identificar y delinear objetos específicos en una escena que podría contener múltiples objetos de la misma categoría.

En el caso de uso de ejemplo en su repositorio de código, generan imágenes que contienen múltiples objetos de las categorías de dispositivos de cable y Ethernet. Estas imágenes sintéticas se pueden utilizar para entrenar un modelo de aprendizaje profundo para detectar estas categorías de objetos en imágenes nuevas que el modelo nunca antes había visto.

La creación y el etiquetado automatizados de estas imágenes de entrenamiento reducen significativamente el tiempo y los gastos asociados con este proceso. El código se puede utilizar en una variedad de aplicaciones como fabricación, logística, conducción autónoma y servicios domésticos.

Holly Dinkel , un doctorado. Estudiante del Departamento de Ingeniería Aeroespacial de UIUC, explicó que COCOpen funciona tomando imágenes simples, sin etiquetar, de objetos individuales sobre un fondo negro.

El software utiliza OpenCV para crear máscaras para estos objetos individuales según su color. Luego combina múltiples imágenes de objetos en una sola imagen utilizando el método de aumento de datos de copiar y pegar. Además, OpenCV se utiliza para aplicar mejoras que incluyen aleatorizar la orientación de un objeto o alterar su color.

Los datos generados por la biblioteca COCOpen se validan entrenando un modelo Detectron2 Mask R-CNN para detectar cables Ethernet y dispositivos de red para una aplicación de manipulación robótica.

Yash Rathod, estudiante de tercer año en el Departamento de Ciencias de la Computación, dijo que su visión para COCOpen era tomar la investigación de un laboratorio y crear una experiencia de generación de datos fácil de usar para los profesionales del aprendizaje automático.

"La idea era construir un canal donde extraigamos miles de imágenes de la nube, las preprocesemos y apliquemos las técnicas de generación de datos estudiadas en el laboratorio, para producir datos con formato COCO listos para entrenar modelos de visión por computadora", dijo.

Rathod utilizó su experiencia de un semestre en el Programa de Promoción de la Investigación de Pregrado en Ingeniería de UIUC para desarrollar y probar software para interactuar con recursos de almacenamiento de datos en la nube, originalmente Microsoft Azure y luego Box.

“La generación de datos automatizada significa que los usuarios pueden simplemente clonar un repositorio de código y seguir instrucciones mínimas de instalación y ejecución. Queremos ahorrar tiempo a los usuarios y valiosos recursos informáticos aprovechando la nube”, afirmó Rathod.

Harry Zhao , quien se graduó en mayo pasado con una licenciatura en ingeniería aeroespacial, destacó la capacidad de COCOpen para resolver problemas de visión por computadora del mundo real utilizando OpenCV con aplicaciones para muchas disciplinas. Entre algunas de las otras 45 entradas en su categoría se encontraban soluciones para desafíos médicos, ambientales y de construcción.

"La creación del conjunto de datos COCO original de Microsoft requirió 55.000 horas de trabajo en total, no todas por una sola persona, por supuesto", dijo Zhao. “Pero puede haber muchas inconsistencias. Algunas etiquetas pueden ser inexactas y deben rechazarse o perfeccionarse, lo que supone una pérdida de tiempo aún mayor. COCOpen coloca los datos en un formato que la gente puede utilizar para generar automáticamente etiquetas en imágenes”.

Zhao dijo que COCOpen está inspirado en el código y los datos que él y Dinkel crearon hace dos años durante su pasantía en el Programa de Oportunidades de Investigación de Pregrado del Illinois Space Grant Consortium.

Acerca de la complejidad del etiquetado, Zhao dijo: “Si solo nos preocupáramos por detectar o clasificar cables, simplemente diríamos: esto es un cable y esto no es un cable. Es cero o uno. Binario. La segmentación semántica es cuando sabes qué representan los píxeles.

"Digamos que tienes dos cables y te importa distinguir entre ambos porque, digamos, queremos que un robot recoja el cable azul", dijo Zhao. “Usando la segmentación semántica más simple, usaríamos la segmentación de instancias que considera múltiples instancias de un objeto. En un buen algoritmo de segmentación, no hay un número específico de objetos. Podrías tener muchos cables. No es necesario especificar”.

Jingyi Xiang , estudiante de último año del Departamento de Ingeniería Eléctrica e Informática, comenzó a estudiar la generación automática de datos durante su experiencia en el Programa de Aprendizaje de Investigación de Pregrado. Sobre la base del trabajo de Zhao, Xiang implementó el aumento de datos de copiar y pegar, una característica central de COCOpen.

"Durante mis primeras dos semanas de investigación, pasé un total de 16 horas etiquetando a mano imágenes que recopilamos anteriormente", dijo Xiang. "Etiquetar una imagen me llevó unos 10 minutos en promedio. Algunas imágenes desordenadas me llevaron hasta una hora por imagen . Las técnicas de aumento de datos en COCOpen nos permitieron escalar nuestro conjunto de datos y reducir drásticamente el tiempo de trabajo humano".

Xiang también dijo que Dinkel y Rathod hicieron un gran trabajo asegurando que la biblioteca COCOpen fuera lo más fácil de usar posible. "Aprendí mucho de ellos durante esta experiencia. En el futuro, intentaré igualar la alta calidad de COCOpen cuando abra mi propio trabajo de investigación".

Dinkel dijo que el éxito del proyecto dependía del increíble esfuerzo de cada miembro del equipo.

"Aunque COCOpen como producto surgió en el transcurso de unas pocas semanas, representa dos años de esfuerzo en la investigación de problemas en la visión por computadora", dijo Dinkel. “Este proyecto no habría sido posible sin el compromiso de cada miembro con el proyecto y con el desarrollo de hábitos de logro. Yash, Jingyi y Harry son cada uno audaz a su manera. Este proyecto fue exitoso porque cada uno adoptó una actitud de 'probar cosas', de saltar a la caja de arena y construir algo a partir de la nada”.

El equipo de Illinois, al que apodaron COCONuts, fue asesorado por AEEquipo Bretl y por Brian Coltin y Trey Smith de la NASA. Todos los miembros del equipo son parte del proyecto UIUC/NASA Representación y manipulación de objetos lineales deformables (https://github.com/RMDLO).

El esfuerzo de investigación fue apoyado por el premio 80NSSC21K1292 de Oportunidad de Investigación para Graduados en Tecnología Espacial de la NASA, el premio P200A180050-19 de Asistencia para Graduados en Áreas de Educación del Departamento de Educación de EE. UU. y el Laboratorio de Ciencias Coordinadas de UIUC.

Holly DinkelYash RathodHarry ZhaoJingyi XiangEquipo Bretl