Paperless-ngx richtig einrichten: Mein Neustart vom digitalen Dokumentenchaos

Paperless-ngx nutze ich schon seit einiger Zeit. Wirklich verstanden, wie Korrespondenten, Dokumenttypen, Tags und automatische Zuordnungen zusammenspielen, hatte ich aber lange nicht.

Dokumente lagen bei mir verteilt in Nextcloud, Paperless-ngx, auf dem Smartphone und auf dem Server. Vieles war zwar eingescannt, aber die Ordnung war eher Zufall. Erst mit der Hilfe von ChatGPT habe ich verstanden, wie Paperless-ngx intern arbeitet und wie man ein System aufbaut, das sich fast von selbst organisiert.

Wer Paperless-ngx noch nicht kennt: Das Open-Source-DMS erkennt Dokumente per OCR, indexiert den Volltext und kann Korrespondenten, Tags und Dokumenttypen automatisch vergeben. Die offizielle Dokumentation beschreibt das sehr gut in den Bereichen „Basic Usage“ und „Advanced Usage“.  

Mein Ausgangspunkt: Paperless lief, aber ohne Struktur

Ich hatte Paperless-ngx bereits seit längerer Zeit produktiv im Einsatz. Neue PDFs landeten im consume-Ordner, wurden verarbeitet und waren durchsuchbar. Bis zu diesem Zeitpunkt wurden die Dateien nur abgelegt und nicht umbenannt und sortiert. Zudem hatte ich mich bisher nicht weiter damit beschäftigt, wie Korrespondenten, Dokumententypen, Tags und Archivnummern angelegt und gepflegt werden und wie die Zuordnung automatisch abläuft.

Das Ergebnis war eine Datenbank voller Dokumente mit Titeln wie scan_001.pdf oder unbekannt_dokument.

Paperless-ngx Korrespondenten-Tabelle mit Dokumentenverwaltung im deutschen Webinterface.
Paperless-ngx zeigt die Korrespondenten-Tabelle zur Verwaltung von Dokumentenkontakten im deutschen Webinterface.

Backup und kompletter Neustart

Bevor ich etwas geändert habe, habe ich konsequent alles gesichert:

  • media
  • dbdata
  • consume
  • meine Automatisierungsskripte

Paperless-ngx selbst empfiehlt für Backups den eingebauten Exporter oder die Sicherung der Docker-Volumes.  

Danach habe ich mich für einen sauberen Neustart entschieden:

  • Datenbank gelöscht
  • Media-Ordner geleert
  • Alle PDFs erneut importiert

Das war rückblickend die beste Entscheidung. Bis auf den Consume Ordner ist vom alten Setup nichts geblieben.

Docker-Setup mit Paperless-ngx und Paperless-AI

Meine Installation läuft komplett mit Docker Compose. Docker Compose eignet sich ideal für Multi-Container-Anwendungen wie Paperless-ngx mit Redis, MariaDB, Gotenberg und Apache Tika.  Wie Paperless installiert wird, erfahrt ihr in der Dokumentation von Paperless.

Zusätzlich nutze ich paperless-ai, um die Klassifizierung weiter zu verbessern.

ChatGPT als Erklärbär

Ich war am Anfang ziemlich planlos. Doch mit der Hilfe von ChatGPT, konnte ich einige Geheimnisse lüften. Beispielsweise, dass der Korrespondent der Absender des Dokuments ist, wie ich eine vorlaufende Archivnummer anlege und neue Dokumente automatisch eine neue erhalten und wie ich Tags richtig setze sowie optional einen Speicherpfad für das Dokument anlege.

Mit diesem Verständnis wurde aus einem chaotischen Setup allmählich ein strukturiertes System.

Das Ergebnis

Nach einem ersten nächtlichen Lauf meines Python-Skripts war das Ergebnis beeindruckend.

Paperless-ngx hatte automatisch:

  • Titel umbenannt
  • Korrespondenten gesetzt
  • Tags vergeben
  • Dokumenttypen erkannt
  • Archivnummern erstellt

Ein Titel wie:

17-02-2023_entgeltabrechnung_baederbetriebe

ist deutlich hilfreicher als ein kryptischer Scanname.

Paperless-ngx Dokumentenmanagement-Dashboard mit Dokumentenansicht, Suche, Filtern und Rechnungsarchiv.
Paperless-ngx Dokumentenmanagement mit Such- und Filterfunktionen für digitale Rechnungen und Dokumente.

Natürlich gab es noch einige unbekannt_dokumente, aber das waren nur noch wenige Ausnahmen.

Was sind die Features von Paperless?

Paperless-ngx organisiert und indexiert deine gescannten Dokumente mithilfe von Tags, Korrespondenten, Dokumenttypen und weiteren Metadaten.

Das System führt eine OCR-Texterkennung auf deinen Dokumenten durch, fügt bei bildbasierten PDFs und Scans durchsuchbaren Text hinzu und weist automatisch Tags, Korrespondenten und Dokumenttypen zu.

Unterstützt werden:

  • PDF-Dokumente
  • Bilder
  • Reine Textdateien
  • Office-Dokumente wie Word, Excel, PowerPoint sowie LibreOffice-Dateien

Die Unterstützung für Office-Dokumente ist optional und wird über Apache Tika bereitgestellt.

Paperless speichert deine Dokumente ganz normal als Dateien auf der Festplatte. Dateinamen und Ordnerstrukturen werden automatisch von Paperless verwaltet und können frei konfiguriert werden.

Moderne Weboberfläche

Paperless-ngx verfügt über eine moderne Single-Page-Webanwendung mit zahlreichen Funktionen:

  • Dashboard mit grundlegenden Statistiken
  • Direktes Hochladen von Dokumenten
  • Filterung nach Tags, Korrespondenten, Dokumenttypen und weiteren Kriterien
  • Individuell anpassbare Ansichten, die gespeichert und auf dem Dashboard angezeigt werden können

Leistungsfähige Volltextsuche

Dank OCR und Indexierung findest du jedes Dokument in Sekunden.

Funktionen der Suche:

  • Autovervollständigung mit Begriffen aus deinen Dokumenten
  • Sortierung der Treffer nach Relevanz
  • Hervorhebung der passenden Textstellen
  • Suche nach ähnlichen Dokumenten („More like this“)

Automatische Verarbeitung von E-Mails

Paperless-ngx kann Dokumente direkt aus E-Mail-Postfächern importieren.

Möglichkeiten:

  • Mehrere E-Mail-Konten einbinden
  • Individuelle Filterregeln pro Konto
  • Nach dem Import E-Mails automatisch:
    • verschieben
    • als gelesen markieren
    • als wichtig kennzeichnen
    • löschen

Intelligente Dokumentenerkennung mit Machine Learning

Paperless-ngx lernt aus bereits gespeicherten Dokumenten und kann nach kurzer Zeit automatisch:

  • Tags vergeben
  • Korrespondenten erkennen
  • Dokumenttypen zuweisen

Je mehr korrekt zugeordnete Dokumente vorhanden sind, desto besser wird die automatische Erkennung.

Optimiert für Mehrkernsysteme

Paperless-ngx verarbeitet mehrere Dokumente parallel und nutzt moderne Multi-Core-Prozessoren effizient aus.

Integrierte Systemprüfung

Ein integrierter Sanity-Checker überprüft regelmäßig, ob dein Dokumentenarchiv konsistent und technisch in Ordnung ist.

Mein Fazit

Paperless-ngx war für mich vorher einfach nur ein OCR-Archiv.

Heute ist es ein intelligentes Dokumentenmanagementsystem, das fast alles automatisch erledigt.

Der entscheidende Schritt war nicht die Installation, sondern das Verständnis der Struktur dahinter.

Dank ChatGPT habe ich endlich begriffen, wie Korrespondenten, Typen, Tags und Regeln zusammenspielen.

Und genau dadurch macht Paperless-ngx plötzlich richtig Spaß. Was nutzt ihr als DMS um eure Dokumente zu verwalten?

Schreibe einen Kommentar