Google I/O 2024: todas las novedades de Gemini y nuevas generadoras de imagen, video y música por IA

14 mayo, 2024 | 12:07 | Alfredo Narváez | Google

La Google I/O 2024, el evento más importante del gigante tecnológico, estuvo marcado por anuncios relacionados con la inteligencia artificial. En Unotv.com te presentamos los avances más importantes que dejó, incluyendo la llegada de Gemini 1.5 Pro y Flash.

Sundar Pichai, director ejecutivo de Google, dijo: “Si alguien nunca ha visto una I/O, es como The Eras Tour, pero con menos cambios de vestuario”. Estos fueron los anuncios estrella de Google para este año:

Gemini 1.5 Pro llega para todos, anuncian en Google I/O 2024

A través de la Google I/O 2024 se anunció que el desarrollador ampliará una versión mejorada de Gemini 1.5 Pro con 1 millón de tokens para todos los desarrolladores a nivel mundial a partir de hoy.

Asimismo, se anunció que esta herramienta ahora está disponible con Gemini Advanced en más de 35 idiomas. Por otro lado, se podrá usar una versión de 2 millones de tokens en una vista privada para desarrolladores.

Algunas funciones cotidianas disponibles con Gemini

Con Gemini 1.5 Pro en Workspace, ahora disponible en Labs, el usuario puede obtener ayuda para procesar toda la información en tu bandeja de entrada y ahorrar más tiempo.

Debido a las nuevas funciones de esta inteligencia artificial, las personas pueden archivar adjuntos en formato PDF, grabar reuniones y revisar múltiples correos electrónicos.

Esta herramienta también es capaz de crear resumenes de los correos electrónicos que llegan a Gmail y son extensos, difíciles de entender en la primera leída.

La función pretende organizar de una mejor manera los emails del usuario, con la intención de hacerle la vida más fácil al usuario para ser más eficiente en su trabajo, sin mencionar que puede redactar respuestas.

“Las aplicaciones de espacio de trabajo como Gmail, Docs y Calendar ya funcionan bien juntas. Pero Gemini para Workspace hará que trabajar entre aplicaciones sea aún más fácil; por ejemplo, reconocer un recibo en Gmail y organizarlo en Drive y Sheets”, se anunció en Google I/O 2024.

Por otro lado, Google Workspace también tiene nuevas funciones para responder preguntas de manera oportunda.

“El panel lateral en Google Workspace ahora usa el modelo Gemini 1.5 Pro. Con una ventana de contexto más larga y un razonamiento más avanzado, Gemini in Workspace ahora puede responder una variedad más amplia de preguntas y brindar respuestas más reveladoras”.
Google

Incluso se puede pedir ayuda a Gemini in Sheets para analizar gastos con Preguntas y respuestas de datos. La capacidad de organizar archivos adjuntos en Drive, generar una hoja y analizar datos se implementará en Labs a finales de este año.

Gemini 1.5 Pro está pensado para usuarios con funciones más complejas. Para usuarios de celular y que buscan funciones diarias, también se creó Gemini 1.5 Flash.

¡También llega Gemini 1.5 Flash!

Por otro lado, se anunció que, a partir de hoy, los desarrolladores de todo el mundo podrán usar Gemini 1.5 Flash, un modelo más liviano, optimizado para tareas en las que la baja latencia y el costo son lo más importante.

“A partir de hoy, los desarrolladores pueden usarlo con hasta 1 millón de tokens en Google AI Studio y Vertex AI“, se anunció en la Google I/O 2024.

Tanto Gemini 1.5 Pro como 1.5 Flash ahora están disponibles en más de 200 países y territorios, de acuerdo con Google.

Precios de Gemini 1.5 Pro y Flash

Gemini 1.5 Pro: 7 dólares por un millón de tokens
- Equivalente a casi 117 pesos mexicanos (no se ha anunciado su precio oficial para México)
Gemini 1.5 Flash: 0.35 dólares por un millón de tokens
- Equivalente a casi 6 persos mexicanos (no se ha anunciado su precio oficial para México)

Asimismo, llegarán dos nuevos modelos de Gemma. Los modelos de Gemma están disponibles para ejecutarse en tus aplicaciones y en hardware, tus dispositivos móviles o tus servicios alojados.

Cabe destacar que, ante todo lo que puede hacer Gemini, una de las medidas de seguridad adoptadas por Google es una marca de agua que haga distinguibles las imágenes creadas por IA.

Imagen 3, la IA de generación de imagen mostrada en Google I/O 2024

Google también presentó Imagen 3, el modelo de generación de imágenes más capaz de GoogleDeepMind hasta el momento.

“Entiende las indicaciones sobre la forma en que las personas escriben, crea imágenes más fotorrealistas y es nuestro mejor modelo para representar texto“, dicen los desarrolladores.

Produce imágenes con detalles increíbles, iluminación realista y menos artefactos que distraigan. Desde bocetos rápidos hasta imágenes de muy alta resolución.

[TE RECOMENDAMOS: Vids, la nueva herramienta de Google de inteligencia artificial]

Music AI Sandbox, una IA para crear música

Junto con YouTube, Google anunció la creación de Music AI Sandbox, un conjunto de herramientas de inteligencia artificial diseñada para transformar la forma en que se puede crear música.

Estas herramientas permiten a los usuarios crear nuevas secciones instrumentales desde cero, transferir estilos entre pistas y mucho más, de acuerdo con la presentación en Google I/O 2024.

Por si fuera poco, llega una IA generadora de video al Google I/O 2024

Veo es un nuevo modelo generativo de video desarrollado con inteligencia artificial, una de las nuevas funciones creadas por Google Deepmind, que aún no está disponible para el público en general.

“Con solo un mensaje de texto, imagen o video, puede crear y editar videos HQ de más de 60 segundos en diferentes estilos visuales. Únase a la lista de espera en Labs para probarlo en nuestra nueva herramienta experimental, VideoFX”.
Google

Puede crear clips de 1080p de alta calidad que pueden durar más de 60 segundos. Desde fotorrealismo hasta surrealismo y animación, puede abordar una variedad de estilos cinematográficos, según se mostró en Google I/O 2024.

Anuncian futuras funciones nuevas de Gemini y su app

Este verano, Google ampliará las capacidades multimodales en Gemini App, incluida la posibilidad de tener una conversación bidireccional profunda utilizando su voz. “Esta nueva experiencia se llama Live”, se presentó en Google I/O 2024.

“Ya sea que necesites un mejor amigo de yoga o un tutor de cálculo, en los próximos meses podrás personalizar Gemini, ahorrando tiempo cuando tengas formas específicas de interactuar con Gemini una y otra vez”.
Google

A partir de hoy, Gemini Advanced brinda acceso a nuestro modelo de IA de próxima generación, 1.5 Pro, con una ventana de contexto de 1 millón de tokens, según se anunció en la Google I/O 2024.

En las próximas semanas, llegarán nuevas capacidades de análisis de datos a Gemini Advanced. Simplemente cargue sus hojas de cálculo y Gemini podrá analizar sus datos, crear gráficos y descubrir información más rápidamente.

Anuncian futuras funciones de Gemini Nano en Google I/O 2024

Gemini Nano es una app que, si bien ya está disponible, tendrá nuevas capacidades a lo largo del año. Eso significa que el teléfono puede entender el mundo como tú lo entiendes, a través de texto, imágenes, sonidos y lenguaje hablado.

“Gemini se está volviendo más útil y consciente del contexto. Más adelante este año, podrá arrastrar y soltar imágenes generadas en Google Messages y Gmail, y hacer preguntas sobre videos y archivos PDF directamente en su dispositivo”.
Google

A finales de este año, la función de accesibilidad TalkBack recibirá un impulso con Gemini Nano, según el anuncio hecho en Google I/O 2024.

Las descripciones de las imágenes serán más claras y ricas, lo que ayudará a los usuarios ciegos y con baja visión a navegar mejor en su teléfono con comentarios hablados.

Más novedades de IA presentadas en Google I/O 2024

AI Agents, otra novedad de Google en materia de IA

Con la herramienta IA Agents de Gemini, la inteligencia artificial incluso puede mostrar, de manera precisa, las mejores cosas por hacer o incluso cuáles son los principales servicios en una ciudad a la que recientemente se mudó el usuario.

La idea de esta función es organizar la información del mundo para mostrarla a las personas de manera útil de acuerdo con sus propias necesidades.

“Los agentes de IA son sistemas inteligentes que pueden planificar varios pasos por adelantado y tomar medidas en su nombre. Todavía estamos en los primeros días, pero (junto con la multimodalidad y el contexto prolongado) los agentes tienen el potencial de acercarnos a nuestro objetivo de hacer que la IA sea útil para todos”.
Google

Google I/O 2024: nuevas mejoras en Deepmind

En la Google I/O del año pasado, se presentó Google Deepmind, una empresa que desarrolla algoritmos de aprendizaje profundo. Para este año, se anunció sus nuevas capacidades:

Convertir la visión y el lenguaje en acción para robots
Navegar por entornos virtuales 3D complejos
Resolver problemas matemáticos a nivel de Olimpíada

El Proyecto Astra, una nueva modalidad de Google para la vida cotidiana

A través de Google I/O 2024, se presentó un video en el que una persona recorre su entorno real y le hace preguntas a Gemini, la cual responde en tiempo real aspectos cómo dónde están sus lentes.

“Compartimos el Proyecto Astra: nuestro nuevo proyecto se centró en crear un futuro asistente de IA que pueda ser realmente útil en la vida cotidiana”, señaló Google este 14 de marzo.

“Ask Photos”, una de las nuevas funciones de Gemini

A través de la Google I/O 2024, se anunció la llegada de “Ask Photos“, con la que los usuarios incluso pueden pedirle a la app cuál es su número de matrícula y esta buscará alguna foto en la que aparezca esta información de manera casi inmediata.

“Ask Photos, una nueva función que llega a GooglePhotos, facilita la búsqueda en sus fotos y videos con la ayuda de los modelos Gemini. Va más allá de una simple búsqueda para comprender el contexto y responder preguntas más complejas”.
Google

Cabe destacar que, a partir de ahora, la combinación de multimodalidad y contexto prolongado en Gemini amplía los tipos de preguntas que los usuarios pueden hacer y los tipos de respuestas que obtienen.

Todo lo que puedes bucar en Google gracias a la IA

Con la llegada de AI Overviews, Gemini puede resolver hasta 10 preguntas en una, haciendo una investigación por el usuario con una comprensión multifactoral.

“La Búsqueda de Google es IA generativa a la escala de la curiosidad humana, y este es nuestro capítulo más emocionante de la Búsqueda hasta el momento”.
Sundar Pichai, Google

La búsqueda de Google permite que la inteligencia artificial “haga trabajo por usted”, desde responder sus preguntas más complejas hasta ayudarlo a hacer las cosas.

A finales de año, las descripciones generales de IA llegarán a más de mil millones de personas en la Búsqueda de Google, según se dijo en Google I/O 2024.

También se anunció que pronto se incorporaran nuevas capacidades de razonamiento de varios pasos a la Búsqueda de Google. “Divide su pregunta más importante en partes y determina qué problemas resolver y en qué orden, de modo que una investigación que podría haberle llevado minutos o incluso horas se pueda realizar en segundos”.

Gracias a las nuevas herramientas, presentadas en Google I/O 2024, también es posible realizar búsquedas a través de un video. Gemini analizará el video para responder las preguntas del usuario.

Por otro lado, en materia del uso de la inteligencia artificial en el celular, la Google I/O 2024 fue el escenario para usar la función Circle to Search, la cual puede rodear problemas de física complejos en su teléfono o tableta para obtener instrucciones paso a paso y aprender a resolverlos.

[TE RECOMENDAMOS: ¿Viste una imagen desconocida y quieres saber qué es? Ahora puedes buscarlo dibujando círculos en tu celular]

Trilliumm, el TPU de última generación de Google

“Trillium es nuestra última generación de TPU y ofrece una mejora de 4,7 veces en el rendimiento informático por chip con respecto a la generación anterior, TPU v5e”, anunció el propio Sundar Pichai.

Tal como se adelantó, la keynote Google I/O 2024 sirvió para presentar las principales novedades de la compañía tecnológica en materia de inteligencia artificial.