Siempre se espera de los modelos de visión por computadora los resultados más precisos y adecuados. Para eso, es necesario entrenarlos previamente con el set de datos más amplio posible.
Sin embargo, en muchos casos, la cantidad de datos disponibles no resulta suficiente. El concepto de data augmentation en imágenes apunta precisamente a crear datos sintéticos para completar cuando haga falta.
Supongamos una aplicación que necesita identificar deterioro en el techo. Difícilmente haya en esa organización un banco de imágenes que muestre todos los niveles y tipos de deterioro posibles. La solución: crear los eventuales faltantes. Este es apenas un ejemplo. Existe una enorme cantidad de situaciones en la que se aplica este mismo concepto.
Un repaso al concepto de computer vision

Vale la pena recordar que computer vision o “visión por computadora” es una tecnología que permite a las máquinas analizar fotos y videos digitales. ¿El objetivo? Extraer sentido de ellos.
Para alcanzar ese resultado, combina exitosamente el procesamiento de imágenes con machine learning y analítica avanzada.
Así, es capaz de reconocer objetos o rostros, identificar patrones o anomalías o entender imágenes médicas, entre muchas otras aplicaciones. Incluidas muchas de las que diseñamos en nuestra área de Data & Innovation.
Su uso está cada vez más difundido en industrias como salud, entretenimiento y medios digitales, manufactura, agronegocios y, especialmente, seguridad y videovigilancia.
En todos los casos, el propósito es el mismo: aprovechar las imágenes para convertirlas en información accionable para el negocio.
Usos de data augmentation en imágenes
Entre las razones que llevan a generar datos sintéticos para entrenar modelos de computer vision aparecen el aumento tanto del tamaño del conjunto de datos como su diversidad.
En el ejemplo: podría haber disponible un centenar de fotos sobre el techo deteriorado, pero todas con un nivel similar o idéntico. Con data augmentation se amplía también esa base.
En la misma línea, la creación de datos sintéticos permite garantizar que se cubren todas las condiciones y los escenarios posibles, sin margen de error ni omisiones.
Otro uso consiste en acelerar el etiquetado, ya que se puede realizar de manera automática sobre los datos generados. Esto no siempre es posible o sencillo sobre un conjunto de datos reales.
Por último, existe un motivo ligado a la seguridad y la privacidad de los datos. Con los datos sintéticos se garantiza que los reales están protegidos. Esto aplica particularmente a los casos en que hay involucrada información confidencial.
Técnicas de data augmentation en imágenes
Existen diversas técnicas de data augmentation en imágenes. Algunas de las más probadas son:
Volteo
Consiste en girar imágenes tanto de manera horizontal como vertical. Se estima que con esta técnica es posible duplicar a cuadruplicar la cantidad original de datos.
Rotación
Consiste en rotar la imagen en diferentes ángulos, cuidando en todo momento que las dimensiones originales se conserven al final de la operación. De nuevo, se estima que el factor de aumento en la cantidad de datos es del doble al cuádruple, aunque podría ser aún mayor.
Escalado
Consiste en cambiar la escala de la imagen. Se puede hacer hacia afuera (la imagen resultante será mayor que la original). También hacia adentro (menor). El factor de aumento depende de la cantidad de escalados que se realicen sobre una misma imagen.
Recorte aleatorio
Consiste en tomar una muestra aleatoria de una sección de la imagen original. Tal como ocurre con el escalado, el factor de aumento es arbitrario.
Traslación
Implica el movimiento de la imagen a través del eje X o del eje Y, o de ambos, respecto de su posición original. Una vez más, el factor de aumento es arbitrario y dependerá del número de traslaciones que se realice por cada imagen.
Tecnologías disponibles en AWS
AWS cuenta con Amazon Bedrock, que es un servicio manejado que nos permite acceder a modelos generativos capaces de generar datos sintéticos a partir de un conjunto de datos reales y de indicaciones (o prompts como se los conoce).
Amazon Bedrock es un servicio manejado que ofrece acceso a una amplia selección de FMs (modelos fundacionales por sus siglas en inglés) que son modelos con capacidad de generar contenido nuevo y original a partir de un estímulo de entrada. Estos FMs tienen la particularidad que son modelos de alto rendimiento provistos por diferentes empresas líderes en AI (como también lo es AWS).
Amazon Rekognition es un servicio manejado que permite desarrollar capacidades y modelos de Computer Vision. Particularmente con Rekognition se pueden hacer etiquetas personalizadas mediante las cuales se realizan varios aumentos de datos para el entrenamiento de modelos, como el recorte aleatorio de la imagen, la fluctuación de los colores y los ruidos gaussianos aleatorios. En lugar de emplear miles de imágenes, debe cargar solo un reducido conjunto de imágenes de entrenamiento (habitualmente, unas pocas cientos menos) específicas para su caso de uso para la consola fácil de usar.
Conclusiones
Computer vision es una rama de la inteligencia artificial (IA) que aporta un gran valor al negocio. Para eso, extrae información accionable de imágenes y videos.
Las estrategias de data augmentation permite a las organizaciones generar set de datos sintéticos para optimizar el entrenamiento de los modelos de computer vision y obtener los mejores resultados posibles.
Resuelve tanto la necesidad de cantidad de datos, como de diversidad o de etiquetado.
El éxito, paradójicamente, quedará a la vista.
¿Tu organización necesita una ayuda experta para impulsar iniciativas basadas en computer vision? En Nubiral, tenemos la experiencia, los expertos y el conocimiento de la tecnología y de la industria para acompañarte en este camino. Esperamos tu contacto: ¡Agenda tu reunión!
Te puede interesar:
Blog • Computer Vision: oportunidades y aplicaciones
Webinar • El potencial del dark data en las organizaciones
Blog • Generative AI en Oil & Gas: cinco casos de uso de alta complejidad