Google Gemini AI verbessert ChatGPT mit Multimedialen Fähigkeiten

Google hat Gemini vorgestellt, ein neues KI-Modell, das dem Bard AI-Chatbot Video-, Audio- und Bildverständnisfähigkeiten verleiht. Gemini soll Anfang 2024 in die Google Workspace-Tools integriert werden.

ADVERTISEMENT

Gemini verbessert KI-Fähigkeiten mit Multimedia

Google hat Gemini vorgestellt, ein KI-Modell, das die Fähigkeiten des Bard AI-Chatbots verbessern soll. Gemini bringt Video-, Audio- und Bildverständnisfähigkeiten in den Chatbot ein und ermöglicht es ihm, die KI-Performance in verschiedenen komplexen Aufgaben wie Zusammenfassungen von Dokumenten, Schlussfolgerungen, Planung und sogar dem Schreiben von Programmcode zu verbessern.

Obwohl Gemini zunächst in Englisch für Benutzer in vielen Ländern veröffentlicht wurde, plant Google, seine Verfügbarkeit in naher Zukunft auf andere Sprachen auszuweiten. Benutzer mit Google Pixel 8-Handys werden zu den ersten gehören, die die neuen KI-Fähigkeiten von Gemini erleben können. Die Integration von Gemini in Gmail und andere Google Workspace-Tools wird Anfang 2024 erwartet.

Gemini konzentriert sich auf die Interpretation von Multimedialen Inhalten

Gemini stellt einen bedeutenden Fortschritt bei KI-Modellen dar, indem es Fähigkeiten zur Interpretation von Multimedialen Inhalten integriert. Während textbasierte Chats wichtig sind, interagieren Menschen mit der Welt durch reichhaltige Informationen, einschließlich Sprache, Bildern und mehr. Gemini soll die Lücke zwischen traditionellen textbasierten KI-Modellen und den umfassenderen Möglichkeiten schließen, mit denen Menschen Informationen in der Welt verarbeiten und verstehen.

Durch das Training von Gemini mit Text, Programmcode, Bildern, Audio und Video gleichzeitig strebt Google an, die Fähigkeit des Modells zur effizienten Handhabung multimedialer Eingaben zu verbessern. Die vielfältigen Fähigkeiten von Gemini umfassen das korrekte Identifizieren der nächsten Form in einer Serie, das Herausfinden von Verbindungen zwischen Fotos, das Umwandeln von Balkendiagrammen in beschriftete Tabellen und sogar die Verarbeitung von handschriftlichen Physikproblemen.

Verfügbarkeit von Gemini und Zukunftspläne

Gemini ist in drei verschiedenen Versionen erhältlich, die jeweils auf unterschiedliche Rechenleistungsniveaus zugeschnitten sind. Gemini Nano läuft auf Mobiltelefonen und ermöglicht neue Funktionen auf Google Pixel 8-Handys. Gemini Pro ist für schnelle Reaktionen konzipiert und wird in den Rechenzentren von Google ausgeführt, während Gemini Ultra vorerst auf eine Testgruppe beschränkt ist und in einer neuen Version des Bard Advanced Chatbots verfügbar sein wird. Google plant, die Gemini-Ultra-Version von Bard Anfang 2024 zu veröffentlichen.

Google bemüht sich aktiv darum, Entwickler dazu zu bewegen, Gemini in ihre eigene Software und Anwendungen zu integrieren. Durch das Angebot ermäßigter Preise und die Bereitstellung von Integrationsmöglichkeiten über seine AI Studio-Web-Schnittstelle und Vertex AI möchte Google Entwickler dazu ermutigen, die Fähigkeiten von Gemini zu erkunden. Das Unternehmen plant auch die Integration von Gemini in seine eigenen Dienste wie Gmail, Google Docs, Meet und andere Teile von Google Workspace.