DocVault – Dokumentenverwaltung

Beschreibung:

Wer kennt es nicht? Obwohl wir immer von “Digitalisierung” sprechen, so bekommen wir doch weiterhin noch ziemlich viel wichtiges Papier. Sei es per Post oder als Rechnung in einem Verkaufsgeschäft. Wie geht ihr mit solchen Dokumenten um? Ordnet ihr diese konsequent und korrekt in einen regulären Bundesordner ein?

Für mich als digital affine Person war dies immer schon ein Problem welches gelöst werden sollte. Immer wieder habe ich nach einem Tool gesucht, welches meine Bedürfnisse abdecken kann. Es sollte leicht zu bedienen sein und dennoch gewisse “Extras” mitbringen. So z.B. eine Suchfunktion für Attribute sowie eine Volltextsuchfunktion. Es soll mich auch beim digitalisierungsprozess der Dokumente unterstützen.

Leider wurde ich auch im Jahr 2019 nicht fündig. So entschloss ich mich kurzerhand selbst eine entsprechende Applikation zu entwickeln.

Konzept:

Das Konzept sieht vor, dass das System grundsätzlich nur mit PDF-Dateien arbeiten kann. PDF Dokumente, besonders dann, wenn diese im PDF-A Format vorliegen, eignen sich sehr gut zur Langzeitarchivierung. Die A-Version steht dabei, wie könnte es anders sein, für “Archive” oder “Archiv”. Dieses Format verbietet jegliche Referenzen auf externe Quellen. So muss ein PDF-A Dokument z.B. alle Schriftarten welche es selbst darstellen möchte auch selbst mitbringen. So wird versucht, einen möglichst hohen Grad an Unabhängigkeit zu erreichen.

Bedienung:

Bevor mit docVault gearbeitet werden kann, müssen zuerst die drei Verzeichnisse konfiguriert werden. Das erste “Path to monitor” gibt an, welches Verzeichnis kontinuierlich auf neue Dateien überprüft werden soll. Normalerweise ist dies das Verzeichnis, in welches der Scanner automatisch seine PDF-Dokumente speichert.

Das zweite Verzeichnis “Path to vault” ist jenes Verzeichnis, welches später das eigentliche Dokumentenarchiv enthalten soll. Dort werden die verschiedenen Verzeichnisse automatisch angelegt und verwaltet.

Das letzte Verzeichnis gibt an, wo Backups gespeichert werden sollen.

Empfehlung:

Wenn du dich nicht so gut mit Computern auskennst, dann empfehle ich dir folgende Angaben zu machen:

Path to monitor: C:/docVault/Scanner
Path to Vault: C:/docVault/MeinVault
Path for backups: C:/docVault/meineBackups

Das Konzept sieht vor, dass docVault ein bestimmtes Verzeichnis kontinuierlich auf das vorhandensein neuer PDF-Dokumente überprüft. In meinem Fall ist es ein Verzeichnis, in welches der Scanner direkt die eingescannten Dokumente als PDF-Dokument ablegt. Sobald ein neues Dokument eintrift, wird dieses in der Liste angezeigt. Nach einem Klick auf den Start button, kann nun mit der Kategorisierung begonnen werden. Es können auch mehrer Dokumente zuerst eingescannt werden. docVault arbeitet dann nach einem Klick auf Start alle Dokumente nach einander ab.

In dem nun erscheinenden Dialogfenster hat man die Möglichkeit, alle relevanten Informationen zu dem vorliegenden Dokument zu erfassen. Hier wird dem Dokument auch eine eindeutige Dokumenten Identifikationsnummer vergeben (DID). Gibt man bei den Drop-Down Menüs neue Werte ein, so werden diese automatisch intern gespreichert, und stehen beim nächsten Mal direkt in der Auswahl zur Verfügung.

Wie man sehen kann, setzt sich der neue Dokumentenname nebst der DID auch aus dem Jahr, der Kategorie sowie dem Kommentar zusammen. Dies hat einen einfachen Grund. Dokumente sollen nicht nur mittels docVault gefunden werden können, sondern auch direkt beim ansehen der Ordnerstruktur. So legt docVault auch für jede Kategorie einen eigenen Ordner an und in diesem dann jeweils das entsprechende Jahr. So kann man seine Dokumente auch ohne zuhilfenahme von docVault wieder finden. Parallel dazu führt docVault noch ein reines Archiv-verzeichnis. In diesem befinden sich die Dokumente lediglich mit ihrer DID Nummer.

Suchen:

Etwas vom wichtigsten bei einer Dokumentenverwaltung ist auf jeden Fall die Art und Weise, wie Dokumente wieder gefunden werden können. Dazu bietet docVault den Data Browser. Im DataBrowser ist es möglich, sämtliche Dokumente innert Bruchteilen von Sekunden zu durchsuchen. Dabei beschränkt sich die Suche nicht nur auf die eingegebenen Attribute. docVault führt eine echte Volltextsuche in sämtlichen archivierten Dokumenten durch!

Um dies zu lösen, wird die Suchengine lucene von Apache verwendet. Lucene ermöglicht die Indexierung tausender Daten und deren Durchsuchung innert Bruchteilen von Sekunden.

Backup:

Hat man ersteinmal viel Zeit in die Archivierung investiert, so wäre der Verlust dieser Daten eine Katastrophe. Deshalb ist es wichtig, dass regelmässig Backups durchgeführt werden. Viele an sich sehr gute Applikationen überlassen diese Aufgabe dem Anwender. Dies führt oft dazu, dass wichtige Dateien vergessen gehen, da man schlicht nicht weiss, dass diese überhaupt existieren oder zu der Anwendung dazu gehören. Deshalb war es mir ein Anliegen, diese Funktionalität von Anfang an mit an Board zu haben.

Im Hauptfenster befindet sich deshalb ein Backup-Button. Dieser erzeugt ein ZIP-File mit allen relevanten Daten. Dies beinhaltet die Datenbank von lucene, die Datenbank von docVault sowie sämtliche sich im Vault befindlichen Dokumente. Alles zu einem einzigen Zip zusammengepackt und mit Datum sowie Uhrzeit in den zuvor definierten Ordner gespeichert.

Einfacher geht es nicht mehr!

Lizenzierung:


Im “About” Dialog findest du deine persönliche UMID. UMID steht dabei für Unique Machine ID. Mit dieser UMID kannst du einen Key beantragen, mit welchem du deine Applikation aktivieren kannst. Dann erscheint oben rechts im Fenster ein grünes häckchen.

Kompatiblität:

Dank der Entwicklung in Java, ist die Software sowohl auf Windows, Mac wie auch unter Linux lauffähig. Getestet wurde sie jedoch nur unter Windows und Mac. Dabei wurden den besonderheiten von MacOS rechnung getragen und versucht, das Benutzererlebnis zu optimieren.

Ausblick:

Software wird nie ganz fertig sein. Es gibt immer etwas, dass man verbessern könnte.
Nachfolgend eine kurze Liste, was implementiert werden könnte.

  • Automatisches Backup
  • Backup zu einem entfernten Ziel (FTP, S3, WebDav…)
  • Automatisches OCR für Bilder in PDFs
  • Zusätzliche Verwaltungsfunktionen für den DataBrowser

 

Projektinformationen
Projektdatum: 06.2019
Projektstand: updates
Aktuelle Version: 1.4
Sprache: Java
Software Download
Quellen
Icon: Thalita Torres
Link to Thalita Torres

More projects