KI-Konzepte, mit KI erklärt

Mit KI entworfen; von mir recherchiert, redigiert und auf Fakten geprüft — wie ich schreibe.

Wenn Sie neugierig auf künstliche Intelligenz sind und schon mit Tools wie ChatGPT experimentiert haben, ist dieser Artikel für Sie. Er gibt eine knappe Einführung in zentrale KI-Konzepte.

Eine Landkarte moderner KI-Konzepte, gruppiert in drei Spalten: Generativ (große Sprachmodelle, Stable Diffusion, RETRO), Verstehen (maschinelles Sehen, semantische Suche, Dokumentenverständnis) und Bereitstellung & Interaktion (Edge AI, binarisierte neuronale Netze, konversationelle KI)

LLMs

Große Sprachmodelle (LLMs) sind KI-Modelle, die Text erzeugen und verstehen können. Sie werden auf riesigen Datensätzen aus Text und Code trainiert. Dadurch lernen sie Muster und Nuancen menschlicher Sprache und können eine breite Palette von Aufgaben übernehmen, darunter:

Text erzeugen, etwa Gedichte, Code, Skripte, Songtexte, Akkordfolgen, musikalische Ideen, E-Mails, Briefe usw.
Sprachen übersetzen
Fragen ausführlich und informativ beantworten
Text zusammenfassen
Verschiedene Arten kreativer Inhalte verfassen

LLMs entwickeln sich fortlaufend weiter und könnten verändern, wie wir mit Computern interagieren. Sie können zum Beispiel neue Arten von Chatbots ermöglichen, die natürlichere und lebendigere Gespräche mit Menschen führen.

Kurz gesagt:

LLMs sind KI-Modelle, die menschliche Sprache erzeugen und verstehen können, indem sie aus riesigen Datensätzen lernen.

Stable Diffusion

Stable Diffusion ist ein latentes Diffusionsmodell, das hochwertige Bilder erzeugen kann, manchmal auch fotorealistische, oft aus Textbeschreibungen. Die Technologie ist noch relativ jung, hat sich aber schnell zu einem der bekanntesten Text-zu-Bild-Modelle entwickelt, weil sie Bilder in vielen Stilen erzeugen kann.

Beim Training lernen Diffusionsmodelle, einen Prozess umzukehren, der Bildern Rauschen hinzufügt. Bei der Erzeugung beginnt Stable Diffusion mit zufälligem Rauschen in einem komprimierten latenten Raum und entrauscht es schrittweise, geführt vom Textprompt, bis ein Bild entsteht.

Stable Diffusion lässt sich für viele Bildaufgaben nutzen, darunter:

Concept Art erstellen
Produkte gestalten
Illustrationen erzeugen
Realistische Bilder von Personen, Orten und Dingen erstellen, die es in der realen Welt nicht gibt

Stable Diffusion entwickelt sich weiter und kann verändern, wie wir visuelle Inhalte erstellen und nutzen.

Kurz gesagt:

Stable Diffusion ist ein latentes Diffusionsmodell, das hochwertige, manchmal fotorealistische Bilder aus Textbeschreibungen erzeugen kann.

Edge AI

Edge AI bedeutet, KI-Anwendungen auf Geräten in der realen Welt auszuführen. Der Begriff kommt daher, dass die KI-Berechnung nahe am Nutzer und nahe an der Datenquelle stattfindet — am Rand des Netzwerks statt zentral in einer Cloud-Infrastruktur oder einem privaten Rechenzentrum.

Edge AI bietet eine Reihe von Vorteilen, darunter:

Geringere Latenz: Edge-AI-Anwendungen können Daten in Echtzeit verarbeiten, ohne sie erst in die Cloud und zurück senden zu müssen. Das ist wichtig, wenn kurze Reaktionszeiten entscheidend sind, etwa bei selbstfahrenden Autos oder industrieller Automatisierung.
Besserer Datenschutz und mehr Sicherheit: Edge-AI-Anwendungen können Daten direkt auf dem Gerät verarbeiten, ohne sie an einen zentralen Server zu senden. Das kann helfen, die Privatsphäre der Nutzer und sensible Daten zu schützen.
Weniger Bandbreite: Edge-AI-Anwendungen reduzieren die Datenmenge, die in die Cloud übertragen werden muss. Das kann Bandbreitenkosten senken und die Netzwerkleistung verbessern.

Edge AI ist noch relativ jung, wird aber bereits in vielen Branchen eingesetzt, darunter Fertigung, Gesundheitswesen, Einzelhandel und Verkehr.

Kurz gesagt:

Edge AI bezeichnet die Verarbeitung von KI-Algorithmen auf lokalen Geräten nahe der Datenquelle, statt in einem zentralisierten, cloudbasierten System.

BNNs

Binarisierte neuronale Netze (BNNs) sind neuronale Netze, bei denen Gewichte und Aktivierungen auf binäre Werte beschränkt werden, also entweder 1 oder -1. Das macht BNNs deutlich effizienter als klassische neuronale Netze, weil binäre Arithmetik schneller und einfacher zu implementieren ist.

In manchen Situationen erreichen BNNs eine Genauigkeit, die mit klassischen neuronalen Netzen vergleichbar ist, besonders bei einfacheren oder sorgfältig optimierten Aufgaben. Bei komplexen Aufgaben sind sie allerdings meist weniger genau — der Preis für die Effizienzgewinne.

Trotz ihrer Grenzen haben BNNs eine Reihe von Vorteilen gegenüber herkömmlichen neuronalen Netzen, darunter:

Effizienz: BNNs sind deutlich effizienter als klassische neuronale Netze, weil binäre Arithmetik schneller und einfacher zu implementieren ist.
Robustheit gegenüber Rauschen: In manchen Kontexten zeigen bestimmte Architekturen oder Anwendungen, dass BNNs robuster gegenüber Rauschen sein können, weil binäre Gewichte und Aktivierungen weniger empfindlich auf kleine Änderungen der Eingabedaten reagieren.

BNNs befinden sich noch in der Entwicklung, könnten aber die Bereitstellung von KI-Anwendungen verändern. Sie eignen sich besonders für mobile und eingebettete KI-Anwendungen, bei denen Effizienz und Robustheit wichtig sind.

Kurz gesagt:

BNNs sind eine Art neuronaler Netze, bei denen die Gewichte und Aktivierungen auf binäre Werte beschränkt sind, was sie im Allgemeinen effizienter und in manchen Kontexten widerstandsfähiger gegen Rauschen macht.

Maschinelles Sehen

Maschinelles Sehen ist ein Bereich der KI, der Computern und Systemen ermöglicht, aus digitalen Bildern, Videos und anderen visuellen Eingaben sinnvolle Informationen abzuleiten — und auf dieser Grundlage Aktionen auszuführen oder Empfehlungen zu geben.

Zu den Aufgaben des maschinellen Sehens gehören Objekterkennung, Tracking, Klassifikation und Segmentierung. Es kann auch dazu dienen, 3D-Strukturen zu schätzen, Gesten zu erkennen und Gesichtsausdrücke zu deuten.

Maschinelles Sehen wird in vielen Anwendungsbereichen eingesetzt, darunter:

Selbstfahrende Autos: Maschinelles Sehen dient dazu, andere Fahrzeuge, Fußgänger und Verkehrsschilder zu erkennen und zu verfolgen.
Sicherheit und Überwachung: Maschinelles Sehen dient dazu, Eindringlinge zu erkennen und zu identifizieren und Menschenmengen auf verdächtige Aktivitäten zu beobachten.
Medizinische Bildgebung: Maschinelles Sehen hilft bei der Diagnose, der Operationsplanung und der Unterstützung chirurgischer Eingriffe.
Robotik: Maschinelles Sehen hilft Robotern, sich in ihrer Umgebung zurechtzufinden und mit Objekten zu interagieren.
Unterhaltungselektronik: Maschinelles Sehen wird in Funktionen wie Gesichtserkennung, Augmented Reality und Bildsuche eingesetzt.

Maschinelles Sehen entwickelt sich schnell, und laufend entstehen neue Anwendungen. Es ist eine mächtige Technologie, die verändern kann, wie wir mit der Welt um uns herum interagieren.

Kurz gesagt:

Maschinelles Sehen ist ein KI-Bereich, der es Computern ermöglicht, die visuelle Welt zu verstehen.

Semantische Suche

Semantische Suche ist eine Suchtechnologie, die versucht, die Bedeutung von Suchanfragen und die Beziehungen zwischen Wörtern und Konzepten zu verstehen. Dadurch können Suchmaschinen relevantere Ergebnisse liefern, auch bei mehrdeutigen oder komplexen Anfragen.

Semantische Suchmaschinen nutzen verschiedene Techniken, um die Bedeutung von Anfragen zu verstehen, darunter:

Verarbeitung natürlicher Sprache (NLP): NLP ist ein KI-Bereich, der sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst. In der semantischen Suche kann NLP helfen, die Absicht hinter einer Suchanfrage zu erkennen.
Wissensgraphen: Wissensgraphen sind Datenbanken von Entitäten und ihren Beziehungen. Sie können helfen, den Kontext einer Anfrage und die Beziehungen zwischen den genannten Entitäten zu verstehen, um mehrdeutige Begriffe aufzulösen.

Semantische Suche entwickelt sich weiter, und Varianten davon sind bereits im Einsatz. Sie wird wichtiger, weil Suchmaschinen relevantere Ergebnisse liefern wollen.

Kurz gesagt:

Semantische Suche ist eine Art von Suchmaschinentechnologie, die versucht, die Bedeutung von Suchanfragen und die Beziehungen zwischen Wörtern und Konzepten zu verstehen.

Ein Beispiel dafür, wie semantische Suche die Qualität von Suchergebnissen verbessern kann:

Wenn Sie nach „Was ist das größte Säugetier?“ suchen, könnte eine klassische Suchmaschine Ergebnisse über den Blauwal, den Elefanten und das Nashorn liefern. Eine semantische Suchmaschine versteht eher, dass Sie nach dem größten Säugetier der Welt fragen, und priorisiert deshalb Ergebnisse über den Blauwal.

RETRO

Retrieval-Enhanced Transformers (RETRO) sind eine Art großer Sprachmodelle (LLMs), die Transformer mit dem Abruf von Informationen aus großen externen Datenbanken kombinieren. Dadurch können RETRO-Modelle informativere und umfassendere Antworten auf ein breiteres Spektrum von Prompts und Fragen erzeugen.

RETRO-Modelle rufen zunächst, ausgehend vom Prompt oder der Frage, die relevantesten Textpassagen aus der Datenbank ab. Diese Passagen konditionieren anschließend einen Transformer-Decoder, der die Antwort erzeugt.

Es hat sich gezeigt, dass RETRO-Modelle genauere und faktentreuere Ergebnisse erzielen als Modelle ohne Abruffähigkeit, besonders wenn das benötigte Wissen nicht in den Gewichten des Modells kodiert ist, aber in der Abrufdatenbank verfügbar ist.

Kurz gesagt:

RETRO-Modelle sind große Sprachmodelle, die die Stärke von Transformern mit der Fähigkeit verbinden, Informationen aus großen externen Datenbanken abzurufen.

Konversationelle KI

Konversationelle KI bezeichnet KI-Systeme, die menschliche Sprache verstehen und natürlich darauf reagieren sollen. Sie wird in Anwendungen wie Chatbots, virtuellen Assistenten und Sprachassistenten eingesetzt.

Systeme konversationeller KI nutzen verschiedene Techniken, um menschliche Sprache zu verstehen, darunter:

Verarbeitung natürlicher Sprache (NLP): NLP ist ein KI-Bereich, der sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst. NLP-Techniken können Wortarten, Beziehungen zwischen Wörtern und die Bedeutung eines Satzes analysieren.
Maschinelles Lernen (ML): ML ist eine Art von KI, bei der Computer aus Daten lernen, ohne explizit für jede Regel programmiert zu werden. ML-Techniken können Systeme konversationeller KI darauf trainieren, viele unterschiedliche Prompts und Fragen zu verstehen und zu beantworten.

Konversationelle KI entwickelt sich schnell, und ständig entstehen neue Anwendungen. Sie kann verändern, wie wir mit Computern interagieren, und diese Interaktion zugänglicher und benutzerfreundlicher machen.

Kurz gesagt:

Konversationelle KI ist eine Art von KI, die es Computern ermöglicht, menschliche Sprache zu verstehen und auf natürliche Weise darauf zu antworten.

Dokumentenverständnis

Dokumentenverständnis bezeichnet im KI-Kontext die Fähigkeit eines Computers, Informationen aus Dokumenten wie Rechnungen, Verträgen und Krankenakten zu extrahieren und zu verstehen. Das ist anspruchsvoll, weil Dokumente in unterschiedlichen Formaten, Strukturen und Layouts vorliegen können. Außerdem können die enthaltenen Informationen komplex sein und Fachwissen erfordern, etwa aus Recht oder Medizin.

KI-gestützte Systeme zum Dokumentenverständnis nutzen verschiedene Techniken, um Informationen aus Dokumenten zu extrahieren und zu verstehen, darunter:

Maschinelles Sehen: Techniken des maschinellen Sehens können Objekte wie Text, Tabellen und Bilder in Dokumenten erkennen und extrahieren.
Verarbeitung natürlicher Sprache (NLP): NLP-Techniken können die Bedeutung des Textes in einem Dokument analysieren und Schlüsselinformationen wie Datumsangaben, Namen und Beträge extrahieren.
Maschinelles Lernen (ML): ML-Techniken können Systeme zum Dokumentenverständnis darauf trainieren, Informationen aus Dokumenten zu erkennen und zu extrahieren, oft mit guter Genauigkeit.

KI-gestützte Systeme zum Dokumentenverständnis werden in vielen Branchen eingesetzt, um manuelle Dokumentenverarbeitung zu automatisieren. Das kann Zeit und Geld sparen und die Genauigkeit und Effizienz von Geschäftsprozessen verbessern.

Kurz gesagt:

Systeme zum Dokumentenverständnis nutzen maschinelles Sehen, NLP und ML, um Informationen aus Dokumenten zu extrahieren und zu interpretieren, oft mit guter Genauigkeit.

¹ Antworten erzeugt mit Google Bard, heute Gemini, und mit ChatGPT-4.0 gegengeprüft. Zusätzlich habe ich die Texte selbst gelesen und fachlich geprüft.