e2b github’s Liste der beliebtesten Agenten
Trennung von Hype und Realität
Der Frühling 2024 ist da, und es sind nicht nur die Blumen, die blühen. Es ist die Saison der AI-Agenten-Frameworks, von denen jedes verspricht, „alles zu verändern“ mehr als das letzte. Du kannst nicht durch deinen Feed scrollen, ohne auf eine flashige Demo auf einem GitHub-Repo zu stoßen, das Tausende von Sternen über Nacht gewonnen hat.
Die neueste AI-Agenten-Framework – Devika bekommt 14K Sterne in weniger als 2 Wochen
Diese Repos versprechen, dass jetzt jeder, sogar deine Oma, die immer noch Internet Explorer benutzt, eine ganze App aus einem einzigen Prompt erstellen kann. Und aus irgendeinem Grund sind die meisten dieser Demos irgendeine Variation des klassischen Snake-Spiels.
Auf der anderen Seite des Spektrums gibt es Menschen mit „exklusivem“ Zugang oder Informationen, die sie „noch nicht teilen können“. Sie deuten an, dass [insert-any-industry-here] kurz davor steht, sich für immer zu verändern. Aber sie können dir noch nicht sagen, wie oder warum.
Obwohl diese Art von Aufregung in der AI-Welt nicht selten ist, bekommt nicht jede AI-bezogene Nachricht die gleiche Aufmerksamkeit. Tatsächlich gibt es nur wenige Ankündigungen, die wirklich jedermanns Interesse wecken. Es sind immer die neuen Modellveröffentlichungen von Giganten wie OpenAI oder Claude. Und natürlich haben AI-Agenten nach der Veröffentlichung von AutoGPT bewiesen, dass auch sie die Aufmerksamkeit auf sich ziehen können.
Allerdings lösen AI-Agenten im Gegensatz zu den Modellveröffentlichungen von OpenAI, die in der Regel positive Reaktionen von der Öffentlichkeit erhalten, eine sehr polarisierende Wirkung aus. Die Menschen teilen sich in zwei Gruppen auf. Die erste Gruppe ist entweder von AI-Agenten eingeschüchtert und stellt sich bereits eine Zukunft vor, in der sie von Terminator-ähnlichen Robotern ersetzt werden, oder sie glauben fest daran, dass AI-Agenten sie reich machen werden, indem sie ihre Produktivität steigern und sie dabei unterstützen, ein superprofitables Startup zu gründen. Ja, du magst überrascht sein, aber diese beiden gehören zu derselben Gruppe von Menschen. Eine Gruppe, die AI-Agenten in der Regel etwas überbewertet.
Quelle: Vox
Auf der anderen Seite gibt es Menschen, die AI-Agenten einfach ignorieren, weil sie keinen Unterschied sehen zu, sagen wir, dem Chatten mit ChatGPT oder der Verwendung einer App, die auf LangChain mit einfachem RAG aufgebaut ist. Für sie ist das alles nur Hype, der von gierigen Influencern und noch gierigeren Unternehmen angeheizt wird.
Also, wer hat Recht? Was sind AI-Agenten eigentlich, und was kann man wirklich damit machen? Lass uns all das in diesem Artikel erkunden. Mach dir keine Sorgen, wenn du kein Experte für maschinelles Lernen bist. Dies ist eine sanfte Einführung in AI-Agenten für alle, die interessiert sind.
Die Wurzeln der Rationalität
Quelle: Autor
Im Kern ist ein Agent nur ein schickes Wort für alles, was eine Aktion ausführen kann, sei es ein Mensch, ein Tier oder sogar eine Maschine.
Die Idee von intelligenten Agenten gibt es schon seit Jahrhunderten, aber erst in letzter Zeit haben wir sie überall gesehen, vor allem dank der Debatten um selbstfahrende Autos.
Die Geschichte beginnt tatsächlich schon im alten Griechenland mit niemand anderem als Aristoteles. Ich werde nicht so tun, als wären einige seiner Überzeugungen… etwas daneben. Wie seine Überzeugung, dass Männer mehr Zähne haben als Frauen und je mehr Zähne man hat, desto länger lebt man.
Quelle: Autor
Aristoteles‘ Gedanken darüber, was es bedeutet, zu „handeln“ oder „Ziele“ zu „erreichen“, waren jedoch viel hilfreicher: „Wir überlegen nicht über Ziele, sondern über Mittel.“ Mit anderen Worten, rational zu sein bedeutet nicht, seine Ziele zu wählen, sondern den besten Weg zu finden, um sie zu erreichen.
Quelle: Autor
Diese einfache Idee löste Jahrhunderte lang Debatten über Rationalität aus und legte den Grundstein für die AI-Agenten, die wir kennen und lieben.
Einige Jahrhunderte später (im 9. Jahrhundert, um genau zu sein), popularisierte Al-Khwarizmi die schrittweise Problemlösung und wurde zum „Vater der Algebra„. Im 12. Jahrhundert wurde jemandem in Westen die Aufgabe übertragen, sein Werk „On the Calculation with Hindu Numerals“ ins Lateinische zu übersetzen. Wer auch immer der Übersetzer war, er/sie wusste offensichtlich nicht, was mit dem Namen des Autors anzufangen war und entschied sich, „Al-Khwarizmi“ als „Algoritmi“ zu übersetzen. Und so entstand das Wort Algorithmus.
Quelle: Autor
Im 13. Jahrhundert hatte ein spanischer Philosoph namens Ramon Llull eine verrückte Idee. Er kreierte eine „Maschine“ mit rotierenden Papierrollen, die mit Symbolen bedeckt waren, in der Hoffnung, dass sie grundlegende „Wahrheiten“ oder „Gesetze“ der Welt darstellen könnten. Viele betrachten ihn als den Vater oder die Wissenschaft hinter der Computerwissenschaft und -theorie.
Quelle: Autor
Llulls Konstruktion nahm nicht wirklich Fahrt auf, aber sie legte den Grundstein für die „Berechnung„.
Ein paar Jahrhunderte später, in den 1600er Jahren, brachte der legendäre Mathematiker Blaise Pascal die Dinge auf die nächste Stufe mit der weltweit ersten Taschenrechner. Plötzlich konnten Maschinen Zahlen schneller berechnen als jeder Mensch – ein entscheidender Schritt auf dem Weg zum Zeitalter der intelligenten Maschinen. Um ehrlich zu sein, wenn ich „Zahlen berechnen“ sage, meine ich, dass diese Maschine nur Additionen und Subtraktionen durchführen konnte, was zu dieser Zeit ziemlich beeindruckend war.
Quelle: Autor
Der nächste große Sprung kam im 18. Jahrhundert mit Ada Lovelace, einem mathematischen Wunderkind, das das wahre Potenzial des Rechnens erkannte. Sie schrieb das erste Computerprogramm für Charles Babbages Analytical Engine, eine dampfbetriebene Maschine, die ihrer Zeit weit voraus war. Obwohl die Engine nie ihr volles Potenzial entfalten konnte, setzte Lovelaces Vision von Maschinen, die komplexe Aufgaben bewältigen können, die Bühne für die AI-Revolution.
Quelle: Autor
Der Aufstieg der KI
Quelle: Autor
Die 1950er Jahre markierten die Geburt der künstlichen Intelligenz, wie wir sie heute kennen. 1950 veröffentlichte Alan Turing, der Vater der Informatik, eine bahnbrechende Arbeit, in der er die große Frage stellte: „Können Maschinen denken?“ Viele dachten, dass die Antwort lautet: NEIN. Um die Skeptiker zu überzeugen, schlug Turing einen Imitationstest vor (jetzt bekannt als der Turing-Test), bei dem eine Maschine versucht, einen Menschen davon zu überzeugen, dass sie auch ein Mensch ist, indem sie eine normale Konversation führt.
Quelle: Autor
Ein paar Jahre später kamen eine Gruppe von Wissenschaftlern im Dartmouth College zusammen, um eine Sommerwerkstatt abzuhalten, die die Welt verändern sollte. Sie wollten Maschinen bauen, die so denken wie wir. Diese historische Zusammenkunft, die von dem Informatiker John McCarthy geleitet wurde, läutete das Feld der KI ein. Sie glaubten, dass sie nur 2 Monate und 10 Männer brauchen würden, um eine „kluge“ Maschine zu bauen.
„Wir schlagen einen 2-monatigen, 10-köpfigen Studiengang über künstliche Intelligenz vor…
..Ein Versuch wird unternommen, um herauszufinden, wie man Maschinen dazu bringt, Sprache zu verwenden, Abstraktionen und Konzepte zu bilden, Arten von Problemen zu lösen, die derzeit dem Menschen vorbehalten sind, und sich selbst zu verbessern.„
Zur gleichen Zeit wurde eine neue Idee der „symbolischen KI“ geboren.
Symbolische KI bestand darin, Wissen durch abstrakte Symbole darzustellen und diese entsprechend strengen Regeln zu manipulieren, ähnlich wie eine super-fortgeschrittene Version von Aristoteles‘ Logik. McCarthy und seine Kumpels glaubten, dass sie, indem sie genügend dieser Symbole und Regeln kombinieren, Maschinen schaffen könnten, die vernünftig denken, planen und Probleme lösen könnten, wie Menschen.
Dieser Ansatz führte in den 50er und 60er Jahren zu einigen ziemlich beeindruckenden Systemen, wie Dendral, MYCIN die Dinge wie die Interpretation von Laborergebnissen und die Identifizierung unbekannter Moleküle tun konnten.
Symbolische KI stieß jedoch bald auf einige Hindernisse. Es stellte sich heraus, dass die reale Welt ein unordentlicher, komplizierter Ort ist, der nicht immer in strenge logische Regeln passt. Stell dir vor, du müsstest jede einzelne Regel für das Zubereiten eines Sandwiches aufschreiben! Je ehrgeizigere Probleme die symbolische KI angehen wollte, desto klarer wurden ihre Grenzen.
Ende der 1960er und Anfang der 1970er Jahre geriet das Feld in eine etwas schwierige Phase, die als der „erste KI-Winter“ bekannt ist. Die Finanzierung trocknete aus, der Fortschritt verlangsamte sich und die Menschen begannen, den großen Versprechen der menschenähnlichen KI zu misstrauen. Es war klar, dass die symbolische Logik allein nicht ausreichen würde – die Welt brauchte einen neuen Ansatz.
Umarmung der Ungewissheit
Als die Grenzen der symbolischen KI in den 1970er Jahren deutlicher wurden, begannen die Forscher, neue Wege zu erkunden, um mit der Ungewissheit und Komplexität der realen Welt umzugehen. Zwei Schlüsselideen entstanden in dieser Zeit: die Verwendung von Wahrscheinlichkeiten und der Aufstieg des maschinellen Lernens.
Quelle: Autor
Beginnen wir mit den Wahrscheinlichkeiten. In den 1980er Jahren kamen Bayes’sche Netze auf, die es KI-Systemen ermöglichten, „über Ungewissheiten zu schließen„, indem sie die Sprache der Wahrscheinlichkeit verwendeten. Statt sich auf strenge logische Regeln zu verlassen, konnten diese Netzwerke aus Daten lernen und gebildete Vermutungen anstellen, wenn sie mit unvollständigen Informationen konfrontiert wurden.
Quelle: Autor
Zur gleichen Zeit erlebte das maschinelle Lernen eine Renaissance. In den 1980er Jahren belebte eine neue Trainingsmethode namens Backpropagation neuronale Netze wieder, was es ihnen ermöglichte, komplexe Muster aus Daten zu lernen.
Diese Verschiebung hin zu wahrscheinlichkeits- und lernbasierten Ansätzen änderte das Spiel für KI-Agenten. Statt nur mit abstrakten Symbolen zu arbeiten, konnten Agenten jetzt aus Erfahrungen lernen und sich an neue Situationen anpassen. Es war, als würde man von einem starren Satz von Anweisungen zu einem flexiblen, sich ständig weiterentwickelnden Verständnis der Welt wechseln.
Dieses neue Paradigma ermöglichte Durchbrüche in zwei Schlüsselbereichen des maschinellen Lernens: Verstärkungslernen und Tiefes Lernen. Verstärkungslernen geht darum, Agenten zu befähigen, kluge Entscheidungen durch Versuch und Irrtum zu treffen, ähnlich wie man einen Welpen mit Leckerlis trainiert.
Quelle: Autor
Tiefes Lernen hingegen verwendet neuronale Netze mit vielen Schichten, um reiche, detaillierte Darstellungen von Daten zu lernen, was es Agenten ermöglicht, komplexe Aufgaben wie Bilderkennung und natürlichsprachliche Verarbeitung zu bewältigen.
Quelle: Autor
Diese Durchbrüche führten zu einer erweiterten Definition von KI-Agenten. Es ging nicht mehr nur darum, „erfolgreich ein Ziel zu erreichen„. Diese neue Definition umfasste Begriffe wie Umgebung, in der ein Agent etwas wahrnimmt und über die Welt lernt.
Quelle: Autor
Was können KI-Agenten tatsächlich tun?
Um zu klären, dieser Artikel konzentriert sich auf Agenten, die große Sprachmodelle (LLMs) als ihr „Gehirn“ verwenden. Obwohl es verschiedene Arten von Agenten gibt, wie z.B. multimodale und visuelle Agenten, heben sich LLMs aufgrund ihrer besonderen Fähigkeiten ab.
Unabhängig davon, ob sie Open Source oder geschlossen sind, verfügen alle LLMs über unterschiedliche Ausprägungen von Reflexion und Common-Sense-Reasoning, wobei einige andere übertreffen. Diese entscheidenden Fähigkeiten ermöglichen es LLM-Agenten, Pläne zu machen, sich selbst zu reflektieren und sich kontinuierlich zu verbessern, alles aufgrund der einzigartigen Eigenschaften von LLMs.
Neben den intrinsischen Fähigkeiten von LLMs gibt es fünf weitere wichtige Merkmale von Agenten:
1. Fähigkeit, autonome Aktionen auszuführen.
Agenten können Aufgaben unabhängig ausführen, Entscheidungen treffen und Aktionen durchführen, ohne ständige menschliche Intervention. Es ist jedoch ideal, einen Menschen in der Schleife zu haben, um die Kontrolle zu behalten und die Agenten in Richtung ihrer Ziele zu lenken.
2. Gedächtnis
Die Hinzufügung von Gedächtnis in einen Agenten ermöglicht Personalisierung, wodurch er verstehen und sich an individuelle Vorlieben anpassen kann. Und da sich unsere Vorlieben im Laufe unseres Lebens verändern, kann ein Agent mit Gedächtnis lernen und sich anpassen. Dies ist entscheidend für den Aufbau langfristiger Beziehungen zwischen Agenten und Nutzern.
3. Reaktivität
Um mit ihrer Umgebung zu interagieren, müssen Agenten in der Lage sein, die verfügbaren Informationen wahrzunehmen und zu verarbeiten. Diese Reaktivität ermöglicht es Agenten, auf Veränderungen zu reagieren, informierte Entscheidungen zu treffen und relevante Ausgaben auf der Grundlage der von ihnen erhaltenen Eingaben bereitzustellen. Durch die Analyse und Interpretation der Daten in ihrer Umgebung können Agenten kontextbezogene Hilfe anbieten.
4. Proaktivität
Agenten sind nicht nur in der Lage, zu „planen“, „Aufgaben zu schreiben“ und zu priorisieren, sondern sie können auch proaktive Schritte unternehmen, um diese Aufgaben mit Hilfe von Tools wie der Suche im Internet, dem Scraping von Reddit und der Verwendung von Code-Interpretern zu erledigen. Derzeit wird dies hauptsächlich über API-Aufrufe und Funktionsaufrufe durchgeführt.
5. Soziale Fähigkeiten
Agenten können mit anderen Agenten oder Menschen zusammenarbeiten, sie können Arbeit delegieren und sie sind in der Lage, „sich an ihre definierten Rollen in den Gesprächen zu halten“. Diese soziale Fähigkeit ermöglicht es Agenten, gemeinsam an gemeinsamen Zielen zu arbeiten, Arbeitslasten zu verteilen und eine kohärente Kommunikation aufrechtzuerhalten.
Was können KI-Agenten tun, was Menschen nicht können?
Der entscheidende Vorteil von KI-Agenten liegt in ihrer Fähigkeit, Informationen in großem Maßstab zu verarbeiten. Wie der KI-Forscher Stuart Russell es ausdrückt, KI-Systeme können Dinge tun „nicht wegen der Tiefe des Verständnisses, sondern wegen ihrer Größe„.
Quelle: Autor
Nehmen wir zum Beispiel an, du brauchst 100.000 Kundenbewertungen, um häufige Probleme mit einem Produkt zu identifizieren. Mit einer durchschnittlichen Lesegeschwindigkeit von 200 Wörtern pro Minute (und wenn eine durchschnittliche Kundenbewertung etwa 150 Wörter hat), würde es eine Person etwa 52 Tage dauern, um alle Bewertungen zu lesen. Zusätzlich würde eine Person viele weitere Tage brauchen, um zu analysieren, zusammenzufassen und alle wichtigen Informationen zu extrahieren. Ein KI-Agent könnte die gleiche Arbeit in einer Frage von Minuten erledigen. Darüber hinaus kann ein KI-Agent ganz einfach jede Art von Ausgabe bereitstellen, die du benötigst, sei es ein Newsletter, JSON oder eine E-Mail.
Quelle: Autor
Oder stell dir vor, du würdest gefragt, „wie sieht dein Leben in den nächsten 5 Jahren aus?“ Du könntest dir wahrscheinlich ein paar mögliche Lebenswege vorstellen, von denen jeder aus 4-5 großen Meilensteinen (z.B. heiraten, nach Europa ziehen usw.) besteht. Aber wenn du Agenten bitten würdest, gemeinsam an dieser Aufgabe zu arbeiten, würdest du viel mehr potenzielle Lebenswege bekommen und jeder würde viel mehr Details und vielfältigere Meilensteine enthalten.
Quelle: Autor
Was können KI-Agenten tun, was ein einzelnes LLM nicht kann?
„Ist das nur GPT-4 mit RAG?“ oder **“Ist das nicht das Gleiche wie das Verketten von ein paar Prompts?“ sind einige der Fragen, die ich oft bekomme. Das zeigt mir, dass die Leute die Vorteile von KI-Agenten im Vergleich zu, sagen wir, der besseren Gestaltung von Prompts eines einzelnen LLM nicht verstehen.
Lass uns also einen Blick auf die zwei Hauptgründe werfen, warum KI-Agenten besser abschneiden als ein einzelnes LLM:
1. Verbesserte Genauigkeit
Andrew Ng hat in dieser Vorlesung geteilt, dass ein agentenbasierter Workflow mit „dümmeren“ Modellen wie GPT 3.5 erheblich besser abschneidet als das Zero-Shot-Prompting von „intelligenteren“ Modellen wie GPT-4.
Quelle: Autor
Die verbesserte Genauigkeit entsteht durch Iterationen, die Agenten die Möglichkeit geben, ihre Antworten zu „überprüfen“ und „zu überarbeiten“, was zu weniger Halluzinationen führt.
Quelle: Autor
2. Auslagerung von Entscheidungen
Stell dir vor, du möchtest einen Blog über die mediterrane Kultur erstellen, aber du hast keine Ahnung, wo du anfangen sollst, da du noch nie einen Blog hattest. Um zu beginnen, müsstest du wahrscheinlich Antworten auf Fragen wie „Welche Schritte sind erforderlich, um einen erfolgreichen Blog zu starten und zu betreiben?“ und „Was ist der erste Schritt?“ finden.
Alternativ könntest du ein Team von KI-Agenten erstellen und ihnen die Aufgabe geben, den Prozess des Bloggens in kleinere Unteraufgaben aufzuteilen. Nicht nur das, sondern diese Agenten sollten auch in der Lage sein, alle Unteraufgaben zu priorisieren. Das bedeutet, dass du mehr Zeit und Energie hast, um dich auf die Strategie und andere wichtige mentale Aufgaben zu konzentrieren.
Quelle: Autor