E-Mail-Adressen aus Word-Dokumenten (DOCX) extrahieren

Drei Methoden zum Auffinden von E-Mail-Adressen in Word-Dateien

← Zurück zum E-Mail Extractor

Warum Word-Dokumente E-Mail-Adressen enthalten

Microsoft Word ist eines der am häufigsten ausgetauschten Dateiformate im Geschäftsverkehr. Dadurch enthalten Word-Dokumente oft E-Mail-Adressen an Stellen, an die man nicht sofort denkt:

Empfehlung

Verschicke sofort und sicher günstige Newsletter über rapidmail.
  • Verträge und Angebote – juristische Dokumente enthalten Kontaktdaten aller beteiligten Parteien, einschließlich E-Mail-Adressen für den Schriftverkehr.
  • Geschäftsberichte – Monats- oder Quartalsberichte listen oft Teammitglieder und Stakeholder mit ihren E-Mail-Adressen in Kopf- oder Fußzeilen auf.
  • Adresslisten und Verzeichnisse – Organisationen erstellen häufig Kontaktverzeichnisse als Word-Dokumente mit Hunderten von E-Mail-Adressen.
  • Besprechungsprotokolle – Teilnehmerlisten am Anfang von Protokollen enthalten E-Mail-Adressen für die Nachbereitung.
  • E-Mail-Signaturen in eingefügtem Text – wenn E-Mail-Verläufe zur Archivierung in Word eingefügt werden, enthält jede Signatur E-Mail-Adressen.
  • Anschreiben und Lebensläufe – gebündelte Bewerbungen enthalten die Kontaktdaten aller Bewerber.

Das manuelle Durchsuchen langer Word-Dokumente ist zeitaufwändig und fehleranfällig. Die folgenden Methoden automatisieren diesen Prozess.

Methode 1: Kopieren und Einfügen aus Word

Der einfachste Ansatz funktioniert für jedes Word-Dokument, das du öffnen und Text daraus auswählen kannst.

  1. Öffne das Word-Dokument in Microsoft Word, Google Docs, LibreOffice Writer oder einem anderen Textverarbeitungsprogramm.
  2. Wähle den gesamten Inhalt mit Strg+A (Windows/Linux) oder Cmd+A (macOS) aus.
  3. Kopiere den markierten Text mit Strg+C / Cmd+C.
  4. Gehe zu extract-emails.com/de und füge den Text ins Eingabefeld ein.
  5. Das Tool erkennt sofort alle E-Mail-Adressen im eingefügten Text.

Einschränkung: Diese Methode erfasst nur Text aus dem Hauptteil des Dokuments. Inhalte in Kopf- und Fußzeilen, Textfeldern und Kommentaren werden möglicherweise nicht mit Strg+A erfasst.

E-Mail Marketing Tool

Methode 2: DOCX in unser Tool hochladen (Empfohlen)

Unser Online-Tool unter extract-emails.com kann .docx-Dateien direkt im Browser lesen. Dies ist die schnellste und zuverlässigste Methode.

  1. Besuche extract-emails.com/de.
  2. Ziehe deine .docx-Datei per Drag & Drop in das Upload-Feld oder klicke auf „Datei auswählen“.
  3. Das Tool liest das Dokument lokal per JavaScript – keine Daten werden auf einen Server hochgeladen.
  4. Text wird aus allen Absätzen und Tabellen des Dokuments extrahiert.
  5. Ein Regex-Muster durchsucht den extrahierten Text nach E-Mail-Adressen, Duplikate werden automatisch entfernt.
  6. Die Ergebnisse werden sofort angezeigt. Du kannst sie kopieren oder herunterladen.

Datenschutz: Der gesamte Prozess läuft in deinem Browser. Dein Word-Dokument verlässt niemals dein Gerät.

Unterstützte Formate: Das Tool unterstützt .docx-Dateien (das moderne XML-basierte Format ab Word 2007). Ältere .doc-Dateien sollten zunächst als .docx gespeichert werden.

Methode 3: Python-Skript mit python-docx

Für Entwickler, Automatisierungspipelines oder die Stapelverarbeitung vieler Dokumente bietet ein Python-Skript mit python-docx volle Kontrolle.

Einfache Extraktion aus Absätzen

python-docx installieren und E-Mails extrahieren
pip install python-docx
import re
from docx import Document

def emails_aus_docx_extrahieren(docx_pfad):
    doc = Document(docx_pfad)
    text = ""

    # Text aus allen Absaetzen extrahieren
    for absatz in doc.paragraphs:
        text += absatz.text + "\n"

    pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
    emails = list(set(re.findall(pattern, text)))
    return sorted(emails)

# Beispiel
emails = emails_aus_docx_extrahieren("vertrag.docx")
for email in emails:
    print(email)

Vollständige Extraktion inkl. Tabellen

Word-Dokumente speichern Kontaktdaten häufig in Tabellen. Das erweiterte Skript durchsucht auch Tabellen, Kopf- und Fußzeilen:

import re
from docx import Document

def emails_komplett_extrahieren(docx_pfad):
    doc = Document(docx_pfad)
    textteile = []
    pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

    # Absaetze
    for absatz in doc.paragraphs:
        textteile.append(absatz.text)

    # Tabellen
    for tabelle in doc.tables:
        for zeile in tabelle.rows:
            for zelle in zeile.cells:
                textteile.append(zelle.text)

    # Kopf- und Fusszeilen
    for abschnitt in doc.sections:
        for absatz in abschnitt.header.paragraphs:
            textteile.append(absatz.text)
        for absatz in abschnitt.footer.paragraphs:
            textteile.append(absatz.text)

    volltext = "\n".join(textteile)
    emails = list(set(re.findall(pattern, volltext)))
    return sorted(emails)

emails = emails_komplett_extrahieren("bericht.docx")
for email in emails:
    print(email)

Stapelverarbeitung mehrerer Dokumente

import glob

alle_emails = set()

for docx_datei in glob.glob("dokumente/*.docx"):
    print(f"\n--- {docx_datei} ---")
    emails = emails_komplett_extrahieren(docx_datei)
    for email in emails:
        print(email)
    alle_emails.update(emails)

print(f"\n=== Insgesamt {len(alle_emails)} eindeutige E-Mails ===")
for email in sorted(alle_emails):
    print(email)
E-Mail Marketing Tool

Sonderfälle behandeln

Tabellen

Kontaktlisten werden in Word häufig als Tabellen formatiert. Die python-docx-Bibliothek bietet Zugriff über doc.tables. Das vollständige Skript oben deckt diesen Fall bereits ab.

Kopf- und Fußzeilen

Firmen-E-Mail-Adressen stehen häufig im Briefkopf. Diese werden in separaten XML-Elementen innerhalb der DOCX-Datei gespeichert und sind nicht in doc.paragraphs enthalten.

Hyperlinks

Manche E-Mail-Adressen sind als mailto:-Hyperlinks gespeichert. Der angezeigte Text zeigt „Kontakt“, während der Link die eigentliche Adresse enthält:

from docx import Document
import re

def mailto_links_extrahieren(docx_pfad):
    doc = Document(docx_pfad)
    emails = set()

    for rel in doc.part.rels.values():
        if "mailto:" in str(rel._target):
            email = str(rel._target).replace("mailto:", "")
            emails.add(email)

    return sorted(emails)

Tipps für beste Ergebnisse

  • .doc zuerst in .docx konvertieren. Das ältere Binärformat wird von python-docx und unserem Tool nicht unterstützt.
  • Kopf-, Fußzeilen und Textfelder prüfen. Diese Bereiche enthalten oft wichtige E-Mail-Adressen.
  • Verschleierte Adressen beachten. Formate wie „name [at] domain [dot] com“ erfordern zusätzliche Regex-Muster.
  • Ergebnisse validieren. Prüfe die Liste auf falsch-positive Treffer wie Platzhalter (ihre.email@beispiel.de).
  • Datenschutz beachten. E-Mail-Adressen aus Geschäftsdokumenten unterliegen der DSGVO.
  • Duplikate entfernen. Alle oben genannten Methoden enthalten eine Deduplizierung.

E-Mails aus Word-Dokumenten jetzt extrahieren

Lade deine DOCX-Datei hoch oder füge den Text ein – unser kostenloses Tool findet sofort jede E-Mail-Adresse.

E-Mail Extractor öffnen

Empfehlung

Verschicke sofort und sicher günstige Newsletter über rapidmail.
DD
Über den Autor

Daniel Dorfer war fast vier Jahre im technischen Support bei GMX, einem der größten deutschen E-Mail-Anbieter, und knapp zwei Jahre bei united domains, einem führenden Domain-Hoster und Registrar. Er ist Gründungsmitglied des KIBC (KI Business Club). Diese Website wurde vollständig mit Hilfe von Claude Code (Opus 4.6) von Anthropic erstellt.

Checkdomain