All projects
Active2026

Industry Data Scraper

Recherchetool für Sales-Teams um Recherche zu potenziellen Kunden zu erleichtern. Web-Scraping in Verbindung mit AI-enhanced-Enrichment, DSGVO-konform.

PythonFastAPIPlaywrightPostgreSQLDocker

Eigentlich wollte ich nur einen Parser bauen, um die Inhalte aus der Compilerbau-Vorlesung zu vertiefen. Aus dem Parser wurde dann ein konkretes Tool mit Use-Case.

Das Tool sammelt strukturierte Unternehmensdaten aus öffentlichen Quellen über einen Playwright-gesteuerten Headless-Browser. FastAPI stellt eine REST-Schnittstelle für Jobs, Ergebnisabfragen und CSV/JSON-Export bereit. Alle Datensätze werden dedupliziert in PostgreSQL gespeichert. Die App hat einen full-functioning Payment-Flow mit eigenem Strip-Payment-Service sowie ein Credit-System zur Last- und Requestkontrolle.

Highlights

  • Playwright-Headless-Browser mit Retry, Rate-Limit-Logik
  • FastAPI-Endpunkte für Job-Steuerung und Datenexport
  • PostgreSQL-Speicherung mit Deduplizierung und Indizierung
  • Dockerisiert, läuft überall mit einem einzigen Compose-Befehl