LIVE RAG · Retrieval

PflegeLotse

DSGVO-konformer RAG-Assistent für das Pflege-Recht (SGB XI) — quellenbelegte Antworten, konversationell mit Streaming, Anti-Halluzination und Eval-Harness. Live.

Live-Demo ↗ Dokumentation ↗ Design-Präsentation ↗ Code (bald)

Problem & Kontext

Pflege-Recht ist komplex — und Antworten müssen belegbar sein

Pflegedienste und Angehörige verlieren Zeit mit der Suche im SGB XI. Ein generischer Chatbot halluziniert — bei Rechtsfragen inakzeptabel. Gebraucht wird ein Assistent, der NUR aus dem Gesetzestext antwortet, jede Aussage mit Quelle belegt und bei Unsicherheit ehrlich abbricht.

Lösung

Retrieval-Augmented Generation mit striktem Grounding

§-genaues Chunking, Retrieval über pgvector und ein Grounding-Prompt: jede Aussage wird mit dem Paragraphen belegt, bei zu schwachem Treffer bricht das System ehrlich ab (Abstention statt Halluzination). Konversationell mit Verlauf (Rückfragen) und Token-für-Token-Streaming — ohne das Grounding aufzugeben.

PflegeLotse-Oberfläche: eine Frage zur Verhinderungspflege mit quellenbelegter Antwort (§ 39, § 42a SGB XI) und Quellen-Panel.

Architektur

Clean Architecture, vier Schichten

domain

Entities, Ports & Regeln — framework-frei

application

Use-Cases: Ingest, Answer, Konversation+Streaming

infrastructure

pgvector, mistral-embed / E5, Mistral/Ollama

api

FastAPI + Jinja2/HTMX + SSE-Streaming

Process History

Vom Plan zum Deploy — sechs Phasen

01

Setup & Architektur
FERTIG

Clean-Architecture-Gerüst, Docker, CI (ruff + mypy --strict + pytest). ADR-0001: Python/HTMX statt Next.js.
02

Daten & Ingestion
FERTIG

SGB XI (gemeinfrei) geparst, §-genau gechunkt (235 §§), Embeddings → pgvector. § + Titel im Embedding hob den Recall messbar.
03

Retrieval & Grounding
FERTIG

Retrieval über pgvector, quellenbelegte Antworten, Abstention-Schwelle (Score < 0.78) — keine Halluzination.
04

Eval-Harness
FERTIG

Golden-Set (26 Fälle), Recall@k, Abstention-Accuracy und Latenz gemessen — messbar statt „gefühlt".
05

Konversation, Streaming & UI
FERTIG

Jinja2/HTMX + SSE: Verlauf (Rückfragen via Query-Rewriting), Token-für-Token-Antwort, Quellen-Panel, Cookie-Banner (TDDDG), BFSG/WCAG, Disclaimer (RDG).
06

Deploy & Doku
FERTIG

Live auf eigenem VPS via Traefik (Auto-HTTPS), leichtes Image (mistral-embed, kein torch). Projektdokumentation + Design-Präsentation öffentlich.

Ergebnisse

Messbar gemacht

85 %

Recall@5 (echte Fragen)

100 %

Abstention auf Traps · 0 Halluzinationen

~1,8 s

Latenz p50 (Ende-zu-Ende)

Gemessen gegen ein Golden-Set (26 Fälle). Details in der Projektdokumentation.

Stack & Compliance

Python 3.12FastAPIpgvectormistral-embed / E5Mistral / OllamaHTMX + SSEDockerTraefik

DSGVO & EU-AI-Act: keine personenbezogenen Daten, EU- oder lokales LLM, Quellenangabe statt frei generierter Aussagen. Disclaimer: keine Rechtsberatung (RDG).

PflegeLotse live ansehen

Live-Demo öffnen ↗ ← Alle Projekte

PflegeLotse

Pflege-Recht ist komplex — und Antworten müssen belegbar sein

Retrieval-Augmented Generation mit striktem Grounding

Clean Architecture, vier Schichten

Vom Plan zum Deploy — sechs Phasen

Setup & Architektur

Daten & Ingestion

Retrieval & Grounding

Eval-Harness

Konversation, Streaming & UI

Deploy & Doku

Messbar gemacht

PflegeLotse live ansehen