Dokumente entschärfen: was Dangerzone leistet und wo es an Grenzen stösst

13. Oktober 2024 4 Min Lesezeit Serie: malware #malware#cdr#dangerzone#dateien

Content Disarm and Reconstruction (CDR) ist das derzeit stärkste Verfahren gegen Dokumenten-Malware in PDFs und Office-Dateien. Warum Signaturscan allein nicht reicht, was Dangerzone konkret tut und welche Einschränkungen im Betrieb auftauchen.

Problem

Eine Bewerbung als PDF, eine Rechnung als Word-Datei, ein Lageplan als DWG, eine Präsentation als PowerPoint, in allen Fällen ist das Dateiformat selbst ein Container für ausführbare Inhalte. PDFs kennen JavaScript, eingebettete Formulare, Actions beim Öffnen. Office-Dokumente kennen Makros, OLE-Einbettungen, externe Referenzen. SVG kennt Script-Tags. Archivformate können Pfad-Traversal-Angriffe oder Zip-Bomben enthalten.

Ein Virenscanner findet bekannte Muster. Zero-Day-Malware und geschickt obfuskierte Payloads passieren durch jeden Scanner der Welt. Der strukturelle Schutz liegt nicht im "Erkenne das Böse", sondern im "Baue die Datei von Grund auf neu auf und verwirf alles, was nicht pure Inhaltsdarstellung ist".

Diese Klasse von Verfahren heißt Content Disarm and Reconstruction (CDR).

Kurze Antwort

Dangerzone (Open Source, entwickelt von der Freedom of the Press Foundation) ist der bekannteste freie CDR-Werkzeugkasten. Die Kern-Idee: Datei in einer Sandbox öffnen, als Abfolge von Pixel-Rasterbildern exportieren, aus den Pixeln ein neues PDF erzeugen, und dieses neue PDF ausliefern. Alles, was aktiv war, fällt weg. Das Ergebnis enthält den visuellen Inhalt, aber keinen der Code-Pfade.

Tiefgang

Der Dangerzone-Ablauf

Die aktuelle Version nutzt einen zweistufigen Sandbox-Ansatz:

Erste Konvertierung (Sandbox A): Die Originaldatei wird in einer isolierten Umgebung geöffnet. Je nach Format kommen LibreOffice (Office), pdftoppm (PDF), libtiff oder Pillow (Bilder), unoconv zum Einsatz. Das Ergebnis der ersten Stufe ist eine Serie von Pixel-Rasterbildern, ein Bild pro Seite.
Zweite Konvertierung (Sandbox B): In einer zweiten, unabhängigen Sandbox werden die Pixel-Bilder mit tesseract (OCR) mit Textlage versehen und mit img2pdf oder poppler zu einem neuen PDF zusammengeführt.

Der kritische Punkt: zwischen den zwei Sandboxen gibt es nur eine Seite mit Pixel-Daten. Ein Exploit in der ersten Sandbox hat keinen Weg, seinen Zustand in die zweite zu übertragen, Pixel sind nicht ausführbar.

Die Sandboxen laufen als Container (Docker oder Podman) oder seit neueren Versionen in einer gVisor-verstärkten Umgebung. Kein Internet-Zugang, keine Host-Dateisystem-Schreibrechte ausser dem einen Input-Pfad.

Was wegfällt

PDF-JavaScript, Actions, Formulare, eingebettete Dateien, externe Referenzen.
Office-Makros (VBA, Office Scripts), OLE-Objekte, eingebettete Dokumente, externe Datenverbindungen.
SVG-Script-Tags, externe Ressourcen-Referenzen.
EXIF- und XMP-Metadaten (teilweise bewusst beibehalten, wenn die Konfiguration es vorsieht).
Alle digitalen Signaturen des Originals (lassen sich nicht rekonstruieren, weil der Inhalt anders ist).

Was bleibt

Visueller Inhalt, als Pixel gerendert und per OCR-Layer auch wieder durchsuchbar.
Seitenanzahl und grobe Seitenreihenfolge.
Textauswahl und Copy-Paste (via OCR-Layer).

Die ehrlichen Grenzen

OCR-Qualität. Handschrift, ungewöhnliche Schriftarten, Tabellen-Strukturen leiden. Gerade für technische Dokumente (Konstruktionszeichnungen, Formulare mit ausgefüllten Feldern) ist das Resultat schlechter lesbar als das Original.

Dateigrösse. Ein gerendertes PDF ist typischerweise drei- bis zehnmal grösser als das Original. Wer viele Dokumente entschärft, sieht das im Speicherverbrauch.

Durchlaufzeit. Eine typische einseitige PDF-Datei braucht ein bis zwei Sekunden auf einer normalen CPU; eine vierzigseitige PowerPoint mit Bildern kann in den Minutenbereich laufen. Für Workflows mit hohem Volumen muss parallelisiert werden.

Nicht unterstützte Formate. Archive (ZIP, RAR, 7z), Videos, ausführbare Dateien. Dangerzone lehnt diese ab oder entpackt sie nicht rekursiv. Ergänzende Werkzeuge sind nötig.

Verlust der Edit-Fähigkeit. Ein entschärftes Dokument ist ein Pixel-PDF, kein editierbares Office-File. Empfänger, die weiterbearbeiten müssen, brauchen das Original, oder einen anderen Workflow.

Formulare und interaktive Elemente. Hyperlinks, ausfüllbare Formularfelder, Dropdown-Listen: alles weg. Für viele Workflows ist das ein echtes Minus.

Wann CDR nicht reicht

Wenn der Hash des Originals zählt (Signatur-Prüfung, Bit-genauer Archivbeweis).
Wenn der Empfänger bearbeiten muss.
Bei Formaten, die CDR-Werkzeuge nicht beherrschen (RAW-Bilder, CAD-Dateien, Spezial-Container).
Wenn Metadaten für die Beweisführung relevant sind.

In diesen Fällen ist die Alternative eine isolierte Umgebung: das Original wird nicht entschärft, sondern nur in einer Sandbox geöffnet und dort bearbeitet, ohne dass es das lokale System je berührt.

Abgelehnte Alternativen und Mythen

"Virenscanner reicht." Virenscanner erkennen Signatur-bekannte Muster. Zero-Day-Malware ist konstruiert, um nicht in diesen Signaturen zu stehen. Ein Blick auf die Erkennungsraten bei AV-Comparatives zeigt: selbst gute Scanner liegen bei brandneuen Samples im Bereich 40 bis 70 Prozent.

"VirusTotal.com als Service." VirusTotal ist für Malware-Forschung wertvoll, aber für Business-Workflows ungeeignet: Jede hochgeladene Datei geht an Google und an die angeschlossenen Forschungslabore. Für Dokumente mit Geschäftsinhalten ein Datenschutz-Problem, das die meisten Organisationen sich rechtlich nicht leisten können.

"Commercial Sanitization Gateways." Produkte wie Glasswall, Votiro, OPSWAT Deep CDR bieten kommerzielles CDR. Gut integriert, aber Closed Source, teuer und oft mit Cloud-Call. Wer unbekannte Binärlogik auf sensiblen Dokumenten laufen lassen muss, wägt das gegen Dangerzones Open-Source-Nachvollziehbarkeit.

"OCR löst alles." OCR rekonstruiert Text, nicht Struktur. Eine Tabelle wird zu einer Folge von Zeilen; eine Formel wird zu einer Pixel-Annäherung. Für Text-lastige Dokumente ist das gut, für strukturierte Formulare nicht ausreichend.

Wie Svelnor hier hilft

Svelnor Clean ist der Produkt-Pfad genau für diese CDR-Pipeline: eingehende Dokumente (per Upload, perspektivisch auch per E-Mail-Weiterleitung an eine nutzerspezifische Plus-Adresse) werden in isolierten gVisor-Sandboxen in Pixel-PDFs konvertiert, per OCR mit Textlage versehen und zurückgeliefert. Wir bauen auf der Open-Source-Dangerzone-Logik auf und erweitern sie um Durchsatz-Orchestrierung mit Queue-Backend, Mandanten-Quota und Archivanbindung für das Original. Die im Beitrag genannten Grenzen (OCR-Qualitaet, Dateigröße, verlorene Signaturen) bleiben im Produkt-Pfad bestehen und werden transparent kommuniziert.

Verifikation

Dangerzone-Projekt: dangerzone.rocks mit Source auf GitHub.
Technische Dokumentation: github.com/freedomofpress/dangerzone.
NSA-Whitepaper zu PDF-Malware: "Hiding in Plain Sight" (öffentlich zugänglich).
ISO 32000 als Basis-Spezifikation für PDF.
Testdokumente: Der test-corpus des Dangerzone-Projekts enthält gezielt bösartige PDFs, die den Konvertierungsvorgang nicht überleben.

Offene Punkte

Durchsatz. Für Organisationen mit täglich tausenden eingehender Dokumente ist die Zwei-Sandbox-Pipeline rechenintensiv. Orchestrierung (Queue, Worker-Pool) und Parallelisierung sind Pflicht.

Metadaten-Preservation. Einige Branchen (Rechtswesen, Archiv) brauchen Metadaten wie Erstellungsdatum, Autor, digitale Signaturen. CDR entfernt diese. Hier sind Kombinationsverfahren nötig: Original aufbewahren im Dunkelarchiv, CDR-Kopie in der Arbeitsumgebung.

Rekursives Entschärfen. Ein PDF-in-ZIP-in-RAR braucht mehrere CDR-Durchläufe. Die meisten Werkzeuge entpacken nicht rekursiv, wer solche Containersituationen behandelt, muss eigene Orchestrierung vor den CDR-Schritt setzen.