Bau Der Ultimativen Ai Web Scraping Maschine

Mai 17, 2024

Bau der ultimativen AI-Web-Scraping-Maschine

Eines der Projekte, die ich unbedingt ausprobieren wollte, seitdem GPT4 veröffentlicht wurde, war der Versuch, einen Web-Scraper zu bauen, der Daten von jeder Website extrahieren kann. Nach einigen Wochen harter Arbeit ist die erste Version endlich bereit!

Tatsächlich habe ich versucht, dieses Projekt bereits im Januar um die Veröffentlichung von ChatGPT herum zu realisieren, aber die kleine Kontextfenstergröße und die damals noch nicht so fortschrittliche GPT3 API machten die Umsetzung fast unmöglich.

Seitdem hat sich jedoch einiges getan! GPT-4 Turbo unterstützt nun 128K TOKENS und GPT-4–32k ist auf einem Intelligenzniveau, das man durchaus mit dem von Einstein vergleichen kann. Mit diesen beiden Giganten können wir etwas wirklich MAGISCHES erschaffen.

Das Ziel ist, dass ich dem Scraper eine Frage zu einer Website stelle, und er mir direkt die Informationen liefert oder rekursiv das Internet (d.h. die Links auf der Seite) durchsucht, bis er die Antwort auf meine ursprüngliche Frage gefunden hat.

Lasst uns eintauchen!

Was ich verwenden werde

GPT-4-Turbo API
GPT-4–32k API
Crawlee (eine Web-Scraping-Bibliothek, die auf Playwright basiert, die Stealth-Funktionen für den Web-Scraping-Bot verbessert, um ihn wie einen menschlichen Nutzer erscheinen zu lassen, und eine Menge anderer nützlicher Funktionen)

Einer der ersten Gedanken, die mir beim Bau dieses Scrapers kamen, war, einfach den gesamten HTML-Code der Seite in den Kontext eines LLMs (Large Language Models) einzufügen und das Modell zu bitten, die Antwort auf die Anfrage des Nutzers auf der Seite zu finden. Das Modell hatte manchmal Erfolg, wenn der HTML-Code der Seite nicht zu lang war, aber dieser Ansatz brach häufig zusammen, wenn es um kompliziertere Seitenstrukturen ging.

Wie würdest du etwas auf einer Website suchen? Du würdest wahrscheinlich STRG+F drücken, um eine schnelle Suche nach dem gewünschten Begriff auf der Seite durchzuführen. Wir können diesen Schritt als ersten Teil unseres Algorithmus verwenden, um die Teile des HTML-Codes, die wir an GPT4 senden, einzugrenzen. GPT4 wird die Suchbegriffe vorschlagen, die wir für die STRG+F-Suche auf der Seite verwenden sollten.

Nehmen wir zum Beispiel an, du befindest dich auf der Wikipedia-Seite von Minecraft und möchtest das Veröffentlichungsdatum des Spiels herausfinden. Einige Begriffe, die du vielleicht ausprobieren würdest (von wahrscheinlich bis unwahrscheinlich):

Veröffentlichungsdatum, Veröffentlichung, veröffentlicht, Datum, Start, usw.

Anschließend würden wir diese Begriffe nehmen und eine einfache Regex-Suche auf der Seite durchführen, um die HTML-Elemente zu finden, die übereinstimmen. Anstelle dieser einfachen Suchmethode könnten wir auch einen Vektor-Suchalgorithmus verwenden. Dabei würden wir den gesamten Inhalt der Seite in Chunks aufteilen und einbetten, eine Vektor-Suche mit einer Suchanfrage und den Einbettungen durchführen und die K HTML-Elemente zurückgeben, die am besten zur Suchanfrage passen. Ich habe diesen Ansatz noch nicht ausprobiert, da ich faul bin und es mehr Arbeit erfordert, aber ich denke, dass er je nach Umsetzung gut funktionieren könnte.

Auswahl des besten einzelnen Elements

Jetzt, da wir unsere Suche durchgeführt haben, haben wir wahrscheinlich eine Menge HTML-Elemente, die wir durchgehen müssen. Wir setzen eine Token-Grenze für die Anzahl der HTML-Elemente, die wir verarbeiten wollen, um die Grenze von GPT4 nicht zu überschreiten, und laden unsere Liste von Elementen. Nun wollen wir diese Liste auf ein einziges Element reduzieren, das entweder die direkte Antwort auf das Ziel der Suche („Veröffentlichungsdatum von Minecraft?“) ist oder ein Link zu einer anderen Seite, die wahrscheinlich die Antwort enthält.

Um dies zu erreichen, nutzen wir einen weiteren GPT4-Aufruf, um das Element auszuwählen. Hier ist der Code: