IA: 5 cosas que Dall-E o Midjourney no saben hacer bien (todavía)

Dall-E, Stable Diffusion, Midjourney… la generación de imágenes a través de inteligencia artificial no ha hecho más que comenzar. Estas tres IAs son capaces de hacer cosas que hace poco más de un año nos parecerían cosa de la brujería. Durante las últimas semanas y meses, Internet no ha parado de llenarse de ejemplos de las capacidades de estas redes. Sin embargo, hoy vamos a mover el foco a otro lado, y comentaremos los puntos débiles comunes de estas inteligencias artificiales.

Letras, palabras y textos

Un recurso que se usa bastante en el mundo del videojuego es llenar los escenarios de carteles con idiomas inteligibles. Alfabetos totalmente sintéticos que parecen reales y que forman palabras que no existen. Los programadores usan este truco para ganar tiempo, pues luego no hay que localizar los assets por cada región en la que se comercializan los juegos. Pues bien, si pides a una IA que te genere un cartel con un texto, el resultado va a ser un rótulo o un párrafo con caracteres totalmente inventados, muy similar a lo que vemos en los videojuegos.

En ocasiones, la IA tratará será capaz de crear caracteres que conocemos, pero fallará al ordenar las letras, o incluso llegará a repetir alguna.

Ojos

Por norma general, los ojos se les resisten un poco a las IAs. Softwares como Midjourney o Stable Diffusion pueden llegar a generar caras humanas o de animales prácticamente perfectas. Sin embargo, hay que hacer varios intentos hasta dar con unos ojos que se vean coherentes.

Es bastante normal obtener ojos rojos, globos oculares totalmente negros o imágenes totalmente carentes de simetría. Dentro de lo aceptable, también hay resultados en los que la inteligencia artificial no termina de separar el blanco del iris y la pupila. Por suerte, existen otras inteligencias artificiales como GFPGAN, que son capaces de reparar imágenes que tienen caras raras u ojos mal resueltos.

Manos

Imagen: lewster32 (Reddit)

¿Cuántos dedos tiene una mano? Ninguna IA se aclara del todo. A las inteligencias artificiales les cuesta bastante comprender que los cinco dedos de una mano humana son distintos. Lo mismo consigues una imagen de una mano que solo tiene dos dedos. O, todo lo contrario: todo un catálogo de índices y anulares. Este problema está bastante presente en Dall-E, Stable Diffussion y Midjourney.

Pensamiento lateral y contexto

En este punto, las tres IAs principales tienen sus pros y sus contras, pero volvemos a una situación en la que hay problemas comunes. Si sacas a la IA de sus casillas, obtendrás malos resultados. ¿Quieres una imagen de una persona con tres ojos? ¿O una de un zorro de nueve colas? Pues puedes tenerlo complicado, porque la IA, en ocasiones, no va a comprender eso que le estás pidiendo. Son bastante cuadriculadas, y han sido entrenadas de tal forma que no quieren que les rompas los esquemas.

En esta misma línea, tenemos el análisis del contexto. Dall-E 2 se lleva la medalla de oro en este aspecto, pero eso no quita que haya que explicar de forma muy detenida lo que quieres que la IA te pinte. Para la IA, un huevo es una cosa, y un huevo frito es otra distinta. Tienes que describir la imagen como si se lo explicaras a un extraterrestre. De lo contrario, tendrás un resultado que te hará soltar una carcajada, tal y como me pasó a mí con la imagen que he puesto de ejemplo. Hablaremos un poco más del contexto en el bloque final de este mismo artículo, pues está estrechamente relacionado con el último punto.

Aplicación de la Censura

Cuando las GAN comenzaron a mostrar al mundo todo su potencial, rápidamente supimos que la censura iba a ser el pan nuestro de cada día. Este tema daría para hablar largo y tendido en otro artículo, pero el problema aquí no es la censura, sino la forma en la que se aplica.

Comprendemos perfectamente que una IA te impida generar una imagen pornográfica o una que invite a la autolesión. Pero no tiene ningún sentido que algo que se hace llamar «inteligencia artificial» funcione con una lista de palabras baneadas.

En inglés (que es como hay que interactuar con la IA), una misma palabra puede tener tranquilamente diez significados. Con que solo una de las acepciones esté en la lista, no vas a poder usarla. Y no estamos hablando de términos descabellados, sino de palabras normales y corrientes que usamos en el día a día. Intenté generar una textura de una hoja con muchas ramificaciones en Midjourney. Recibí un warning porque no se pueden pintar ‘venas’ en esa IA. Probé a crear un gato Maine Coon gigante que se fusionaba con las nubes —tengo una imagen con ese mismo prompt hecha en SD y no me pusieron ninguna pega—. La IA no me dejó —tras buscar en el Collins, descubrí que el término ‘Coon’ se puede usar con connotaciones racistas—. Quise generar un cuadro de una mujer renacentista cortando cebollas, pero no pude; el verbo ‘cut’ está también censurado.

La censura es el punto débil tanto de Dall-E 2 como de Midjourney. En Stable Diffusion, la censura se puede esquivar utilizando el software en tu propio ordenador. Era obvio que estos sistemas iban a tener censura, pero el propio programa debería tener herramientas para determinar qué tiene malas intenciones y qué no. Vale que no me dejes generar una foto de Lady Gaga, pero no me impidas generar a un perro con las gafas de sol de Lady Gaga. Las IA todavía tienen un largo camino en este punto, pues la censura a la que están sometidas en estos momentos carece totalmente de sentido.

ElOutput