Paperless-ngx nutze ich schon seit einiger Zeit. Wirklich verstanden, wie Korrespondenten, Dokumenttypen, Tags und automatische Zuordnungen zusammenspielen, hatte ich aber lange nicht.
Dokumente lagen bei mir verteilt in Nextcloud, Paperless-ngx, auf dem Smartphone und auf dem Server. Vieles war zwar eingescannt, aber die Ordnung war eher Zufall. Erst mit der Hilfe von ChatGPT habe ich verstanden, wie Paperless-ngx intern arbeitet und wie man ein System aufbaut, das sich fast von selbst organisiert.
Wer Paperless-ngx noch nicht kennt: Das Open-Source-DMS erkennt Dokumente per OCR, indexiert den Volltext und kann Korrespondenten, Tags und Dokumenttypen automatisch vergeben. Die offizielle Dokumentation beschreibt das sehr gut in den Bereichen „Basic Usage“ und „Advanced Usage“.
Mein Ausgangspunkt: Paperless lief, aber ohne Struktur
Ich hatte Paperless-ngx bereits seit längerer Zeit produktiv im Einsatz. Neue PDFs landeten im consume-Ordner, wurden verarbeitet und waren durchsuchbar. Bis zu diesem Zeitpunkt wurden die Dateien nur abgelegt und nicht umbenannt und sortiert. Zudem hatte ich mich bisher nicht weiter damit beschäftigt, wie Korrespondenten, Dokumententypen, Tags und Archivnummern angelegt und gepflegt werden und wie die Zuordnung automatisch abläuft.
Das Ergebnis war eine Datenbank voller Dokumente mit Titeln wie scan_001.pdf oder unbekannt_dokument.

Backup und kompletter Neustart
Bevor ich etwas geändert habe, habe ich konsequent alles gesichert:
mediadbdataconsume- meine Automatisierungsskripte
Paperless-ngx selbst empfiehlt für Backups den eingebauten Exporter oder die Sicherung der Docker-Volumes.
Danach habe ich mich für einen sauberen Neustart entschieden:
- Datenbank gelöscht
- Media-Ordner geleert
- Alle PDFs erneut importiert
Das war rückblickend die beste Entscheidung. Bis auf den Consume Ordner ist vom alten Setup nichts geblieben.
Docker-Setup mit Paperless-ngx und Paperless-AI
Meine Installation läuft komplett mit Docker Compose. Docker Compose eignet sich ideal für Multi-Container-Anwendungen wie Paperless-ngx mit Redis, MariaDB, Gotenberg und Apache Tika. Wie Paperless installiert wird, erfahrt ihr in der Dokumentation von Paperless.
Zusätzlich nutze ich paperless-ai, um die Klassifizierung weiter zu verbessern.
ChatGPT als Erklärbär
Ich war am Anfang ziemlich planlos. Doch mit der Hilfe von ChatGPT, konnte ich einige Geheimnisse lüften. Beispielsweise, dass der Korrespondent der Absender des Dokuments ist, wie ich eine vorlaufende Archivnummer anlege und neue Dokumente automatisch eine neue erhalten und wie ich Tags richtig setze sowie optional einen Speicherpfad für das Dokument anlege.
Mit diesem Verständnis wurde aus einem chaotischen Setup allmählich ein strukturiertes System.
Das Ergebnis
Nach einem ersten nächtlichen Lauf meines Python-Skripts war das Ergebnis beeindruckend.
Paperless-ngx hatte automatisch:
- Titel umbenannt
- Korrespondenten gesetzt
- Tags vergeben
- Dokumenttypen erkannt
- Archivnummern erstellt
Ein Titel wie:
17-02-2023_entgeltabrechnung_baederbetriebe
ist deutlich hilfreicher als ein kryptischer Scanname.

Natürlich gab es noch einige unbekannt_dokumente, aber das waren nur noch wenige Ausnahmen.
Was sind die Features von Paperless?
Paperless-ngx organisiert und indexiert deine gescannten Dokumente mithilfe von Tags, Korrespondenten, Dokumenttypen und weiteren Metadaten.
Das System führt eine OCR-Texterkennung auf deinen Dokumenten durch, fügt bei bildbasierten PDFs und Scans durchsuchbaren Text hinzu und weist automatisch Tags, Korrespondenten und Dokumenttypen zu.
Unterstützt werden:
- PDF-Dokumente
- Bilder
- Reine Textdateien
- Office-Dokumente wie Word, Excel, PowerPoint sowie LibreOffice-Dateien
Die Unterstützung für Office-Dokumente ist optional und wird über Apache Tika bereitgestellt.
Paperless speichert deine Dokumente ganz normal als Dateien auf der Festplatte. Dateinamen und Ordnerstrukturen werden automatisch von Paperless verwaltet und können frei konfiguriert werden.
Moderne Weboberfläche
Paperless-ngx verfügt über eine moderne Single-Page-Webanwendung mit zahlreichen Funktionen:
- Dashboard mit grundlegenden Statistiken
- Direktes Hochladen von Dokumenten
- Filterung nach Tags, Korrespondenten, Dokumenttypen und weiteren Kriterien
- Individuell anpassbare Ansichten, die gespeichert und auf dem Dashboard angezeigt werden können
Leistungsfähige Volltextsuche
Dank OCR und Indexierung findest du jedes Dokument in Sekunden.
Funktionen der Suche:
- Autovervollständigung mit Begriffen aus deinen Dokumenten
- Sortierung der Treffer nach Relevanz
- Hervorhebung der passenden Textstellen
- Suche nach ähnlichen Dokumenten („More like this“)
Automatische Verarbeitung von E-Mails
Paperless-ngx kann Dokumente direkt aus E-Mail-Postfächern importieren.
Möglichkeiten:
- Mehrere E-Mail-Konten einbinden
- Individuelle Filterregeln pro Konto
- Nach dem Import E-Mails automatisch:
- verschieben
- als gelesen markieren
- als wichtig kennzeichnen
- löschen
Intelligente Dokumentenerkennung mit Machine Learning
Paperless-ngx lernt aus bereits gespeicherten Dokumenten und kann nach kurzer Zeit automatisch:
- Tags vergeben
- Korrespondenten erkennen
- Dokumenttypen zuweisen
Je mehr korrekt zugeordnete Dokumente vorhanden sind, desto besser wird die automatische Erkennung.
Optimiert für Mehrkernsysteme
Paperless-ngx verarbeitet mehrere Dokumente parallel und nutzt moderne Multi-Core-Prozessoren effizient aus.
Integrierte Systemprüfung
Ein integrierter Sanity-Checker überprüft regelmäßig, ob dein Dokumentenarchiv konsistent und technisch in Ordnung ist.
Mein Fazit
Paperless-ngx war für mich vorher einfach nur ein OCR-Archiv.
Heute ist es ein intelligentes Dokumentenmanagementsystem, das fast alles automatisch erledigt.
Der entscheidende Schritt war nicht die Installation, sondern das Verständnis der Struktur dahinter.
Dank ChatGPT habe ich endlich begriffen, wie Korrespondenten, Typen, Tags und Regeln zusammenspielen.
Und genau dadurch macht Paperless-ngx plötzlich richtig Spaß. Was nutzt ihr als DMS um eure Dokumente zu verwalten?