E-Mail-Adressen aus Word-Dokumenten (DOCX) extrahieren

Warum Word-Dokumente E-Mail-Adressen enthalten

Microsoft Word ist eines der am häufigsten ausgetauschten Dateiformate im Geschäftsverkehr. Dadurch enthalten Word-Dokumente oft E-Mail-Adressen an Stellen, an die man nicht sofort denkt:

Empfehlung

Verschicke sofort und sicher günstige Newsletter über rapidmail.

Verträge und Angebote – juristische Dokumente enthalten Kontaktdaten aller beteiligten Parteien, einschließlich E-Mail-Adressen für den Schriftverkehr.
Geschäftsberichte – Monats- oder Quartalsberichte listen oft Teammitglieder und Stakeholder mit ihren E-Mail-Adressen in Kopf- oder Fußzeilen auf.
Adresslisten und Verzeichnisse – Organisationen erstellen häufig Kontaktverzeichnisse als Word-Dokumente mit Hunderten von E-Mail-Adressen.
Besprechungsprotokolle – Teilnehmerlisten am Anfang von Protokollen enthalten E-Mail-Adressen für die Nachbereitung.
E-Mail-Signaturen in eingefügtem Text – wenn E-Mail-Verläufe zur Archivierung in Word eingefügt werden, enthält jede Signatur E-Mail-Adressen.
Anschreiben und Lebensläufe – gebündelte Bewerbungen enthalten die Kontaktdaten aller Bewerber.

Das manuelle Durchsuchen langer Word-Dokumente ist zeitaufwändig und fehleranfällig. Die folgenden Methoden automatisieren diesen Prozess.

Methode 1: Kopieren und Einfügen aus Word

Der einfachste Ansatz funktioniert für jedes Word-Dokument, das du öffnen und Text daraus auswählen kannst.

Öffne das Word-Dokument in Microsoft Word, Google Docs, LibreOffice Writer oder einem anderen Textverarbeitungsprogramm.
Wähle den gesamten Inhalt mit Strg+A (Windows/Linux) oder Cmd+A (macOS) aus.
Kopiere den markierten Text mit Strg+C / Cmd+C.
Gehe zu extract-emails.com/de und füge den Text ins Eingabefeld ein.
Das Tool erkennt sofort alle E-Mail-Adressen im eingefügten Text.

Einschränkung: Diese Methode erfasst nur Text aus dem Hauptteil des Dokuments. Inhalte in Kopf- und Fußzeilen, Textfeldern und Kommentaren werden möglicherweise nicht mit Strg+A erfasst.

Methode 2: DOCX in unser Tool hochladen (Empfohlen)

Unser Online-Tool unter extract-emails.com kann .docx-Dateien direkt im Browser lesen. Dies ist die schnellste und zuverlässigste Methode.

Besuche extract-emails.com/de.
Ziehe deine .docx-Datei per Drag & Drop in das Upload-Feld oder klicke auf „Datei auswählen“.
Das Tool liest das Dokument lokal per JavaScript – keine Daten werden auf einen Server hochgeladen.
Text wird aus allen Absätzen und Tabellen des Dokuments extrahiert.
Ein Regex-Muster durchsucht den extrahierten Text nach E-Mail-Adressen, Duplikate werden automatisch entfernt.
Die Ergebnisse werden sofort angezeigt. Du kannst sie kopieren oder herunterladen.

Datenschutz: Der gesamte Prozess läuft in deinem Browser. Dein Word-Dokument verlässt niemals dein Gerät.

Unterstützte Formate: Das Tool unterstützt .docx-Dateien (das moderne XML-basierte Format ab Word 2007). Ältere .doc-Dateien sollten zunächst als .docx gespeichert werden.

Methode 3: Python-Skript mit python-docx

Für Entwickler, Automatisierungspipelines oder die Stapelverarbeitung vieler Dokumente bietet ein Python-Skript mit python-docx volle Kontrolle.

Einfache Extraktion aus Absätzen

python-docx installieren und E-Mails extrahieren

pip install python-docx

import re
from docx import Document

def emails_aus_docx_extrahieren(docx_pfad):
    doc = Document(docx_pfad)
    text = ""

    # Text aus allen Absaetzen extrahieren
    for absatz in doc.paragraphs:
        text += absatz.text + "\n"

    pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
    emails = list(set(re.findall(pattern, text)))
    return sorted(emails)

# Beispiel
emails = emails_aus_docx_extrahieren("vertrag.docx")
for email in emails:
    print(email)

Vollständige Extraktion inkl. Tabellen

Word-Dokumente speichern Kontaktdaten häufig in Tabellen. Das erweiterte Skript durchsucht auch Tabellen, Kopf- und Fußzeilen:

import re
from docx import Document

def emails_komplett_extrahieren(docx_pfad):
    doc = Document(docx_pfad)
    textteile = []
    pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

    # Absaetze
    for absatz in doc.paragraphs:
        textteile.append(absatz.text)

    # Tabellen
    for tabelle in doc.tables:
        for zeile in tabelle.rows:
            for zelle in zeile.cells:
                textteile.append(zelle.text)

    # Kopf- und Fusszeilen
    for abschnitt in doc.sections:
        for absatz in abschnitt.header.paragraphs:
            textteile.append(absatz.text)
        for absatz in abschnitt.footer.paragraphs:
            textteile.append(absatz.text)

    volltext = "\n".join(textteile)
    emails = list(set(re.findall(pattern, volltext)))
    return sorted(emails)

emails = emails_komplett_extrahieren("bericht.docx")
for email in emails:
    print(email)

Stapelverarbeitung mehrerer Dokumente

import glob

alle_emails = set()

for docx_datei in glob.glob("dokumente/*.docx"):
    print(f"\n--- {docx_datei} ---")
    emails = emails_komplett_extrahieren(docx_datei)
    for email in emails:
        print(email)
    alle_emails.update(emails)

print(f"\n=== Insgesamt {len(alle_emails)} eindeutige E-Mails ===")
for email in sorted(alle_emails):
    print(email)

Sonderfälle behandeln

Tabellen

Kontaktlisten werden in Word häufig als Tabellen formatiert. Die python-docx-Bibliothek bietet Zugriff über doc.tables. Das vollständige Skript oben deckt diesen Fall bereits ab.

Kopf- und Fußzeilen

Firmen-E-Mail-Adressen stehen häufig im Briefkopf. Diese werden in separaten XML-Elementen innerhalb der DOCX-Datei gespeichert und sind nicht in doc.paragraphs enthalten.

Hyperlinks

Manche E-Mail-Adressen sind als mailto:-Hyperlinks gespeichert. Der angezeigte Text zeigt „Kontakt“, während der Link die eigentliche Adresse enthält:

from docx import Document
import re

def mailto_links_extrahieren(docx_pfad):
    doc = Document(docx_pfad)
    emails = set()

    for rel in doc.part.rels.values():
        if "mailto:" in str(rel._target):
            email = str(rel._target).replace("mailto:", "")
            emails.add(email)

    return sorted(emails)

Tipps für beste Ergebnisse

.doc zuerst in .docx konvertieren. Das ältere Binärformat wird von python-docx und unserem Tool nicht unterstützt.
Kopf-, Fußzeilen und Textfelder prüfen. Diese Bereiche enthalten oft wichtige E-Mail-Adressen.
Verschleierte Adressen beachten. Formate wie „name [at] domain [dot] com“ erfordern zusätzliche Regex-Muster.
Ergebnisse validieren. Prüfe die Liste auf falsch-positive Treffer wie Platzhalter (ihre.email@beispiel.de).
Datenschutz beachten. E-Mail-Adressen aus Geschäftsdokumenten unterliegen der DSGVO.
Duplikate entfernen. Alle oben genannten Methoden enthalten eine Deduplizierung.

E-Mails aus Word-Dokumenten jetzt extrahieren

Lade deine DOCX-Datei hoch oder füge den Text ein – unser kostenloses Tool findet sofort jede E-Mail-Adresse.

E-Mail Extractor öffnen