Der schnellste kostenlose Weg, ein Video zu transkribieren, hängt nicht vom Tool ab, sondern davon, was im Video steckt und wer es sehen darf. Ein öffentliches YouTube-Tutorial lädst du bedenkenlos in einen Online-Konverter. Ein aufgezeichnetes Kundengespräch, ein Bewerbungsinterview oder noch unveröffentlichtes Material gehört dort nicht hin: Die meisten Gratis-Tools schicken deine Datei auf einen fremden, oft US-amerikanischen Server. Genau an dieser Frage trennen sich die Methoden.
Dieser Guide zeigt dir fünf kostenlose Wege, ein Video in Text umzuwandeln, von YouTubes eingebautem Transkript bis zur lokalen Transkription, die dein Gerät nie verlässt. Bei jeder Methode steht dabei, wann sie passt und wann nicht. Dass das kein Nischenproblem ist, sieht man auch an Threads wie diesem im Subreddit r/Studium, in dem Studierende vergleichen, wie sie aufgezeichnete Vorlesungen am besten in Text bringen.
Das Wichtigste in Kürze
- Öffentliche YouTube-Videos brauchen oft gar kein Tool: Das eingebaute Transkript liefert den Text in Sekunden, ohne Upload und ohne Software.
- Vertrauliche Aufnahmen wie Kundencalls, Interviews oder HR-Gespräche transkribierst du besser lokal auf dem eigenen Gerät, ohne Cloud-Upload und damit DSGVO-konform.
- Kostenlos heißt nicht grenzenlos: Online-Konverter und Microsoft Word deckeln Minuten, Genauigkeit oder Sprachen, und du gibst deine Datei aus der Hand.
- Die Genauigkeit steht und fällt mit der Audioqualität und der richtigen Spracheinstellung, nicht mit dem Preis des Tools.
- Das Format ist selten das Problem: MP4, MOV, WAV und MP3 verarbeiten praktisch alle Werkzeuge.
Welche Methode passt zu welchem Video?
Bevor du irgendein Tool öffnest, beantworte eine Frage: Darf der Inhalt dieses Videos einen fremden Server sehen? Daran entscheidet sich fast alles Weitere.
| Dein Video | Empfohlene Methode | Warum |
|---|---|---|
Öffentliches YouTube-Video | YouTube-Transkript (Methode 1) | Schon vorhanden, kein Upload nötig |
Dein VideoÖffentliches YouTube-Video Empfohlene MethodeYouTube-Transkript (Methode 1) WarumSchon vorhanden, kein Upload nötig | ||
Vertrauliche Aufnahme (Call, Interview) | Lokal transkribieren (Methode 2) | Die Datei bleibt auf deinem Gerät |
Dein VideoVertrauliche Aufnahme (Call, Interview) Empfohlene MethodeLokal transkribieren (Methode 2) WarumDie Datei bleibt auf deinem Gerät | ||
Vorlesung, langes Seminar | Lokal oder Word (Methode 2 oder 3) | Lange Laufzeit, Sprecherzuordnung hilft |
Dein VideoVorlesung, langes Seminar Empfohlene MethodeLokal oder Word (Methode 2 oder 3) WarumLange Laufzeit, Sprecherzuordnung hilft | ||
Eigenes Creator-Video mit Untertiteln | Video-Editor (Methode 4) | Transkript und Untertitel in einem Schritt |
Dein VideoEigenes Creator-Video mit Untertiteln Empfohlene MethodeVideo-Editor (Methode 4) WarumTranskript und Untertitel in einem Schritt | ||
Schnelle Notiz, unkritischer Inhalt | Online-Konverter (Methode 5) | Am schnellsten, direkt im Browser |
Dein VideoSchnelle Notiz, unkritischer Inhalt Empfohlene MethodeOnline-Konverter (Methode 5) WarumAm schnellsten, direkt im Browser | ||
Drei weitere Kriterien helfen bei der Wahl: die Sprache (sauberes Hochdeutsch, Dialekt oder mehrsprachig?), die Länge (Gratis-Tools haben oft ein Minutenlimit) und das Ziel. Brauchst du am Ende Untertitel, ein Protokoll oder reinen Fließtext? Wer regelmäßig ganze Meetings mitschneidet, findet im Überblick zu Videokonferenz-Tools zusätzlich passende Aufnahmewege.
Dieser Guide dreht sich um Videodateien. Geht es dir stattdessen um reine Audioaufnahmen, um ein Interview oder um die Grundlagen der Sprache-zu-Text-Erkennung, gelten teils andere Regeln, die jeweils eine eigene Anleitung abdeckt.
Methode 1: YouTube-Video transkribieren mit dem eingebauten Transkript
Für ein YouTube-Video, das du nur lesen oder zitieren willst, ist der einfachste Weg meist schon eingebaut. YouTube erzeugt für die meisten Videos automatische Untertitel und macht sie als Transkript zugänglich.
- Öffne das Video am Desktop auf youtube.com.
- Klick unter dem Video auf die drei Punkte (Mehr), dann auf „Transkript anzeigen“.
- Rechts erscheint der Text mit Zeitstempeln. Über das Menü im Transkript-Fenster kannst du die Zeitstempel ausblenden.
- Text markieren, kopieren und in dein Dokument einfügen.

Geht es um dein eigenes Video, lädst du in YouTube Studio unter „Untertitel“ die fertige Datei als SRT herunter. Das ist sauberer als Kopieren, weil Zeilenumbrüche und Timing erhalten bleiben.
Der Haken: Es funktioniert nur, wenn das Video Untertitel hat, und automatische Untertitel sitzen bei Eigennamen, Zahlen und schlechtem Ton oft daneben. Dass die automatische Erkennung Grenzen hat, sagt YouTube auch selbst. In der mobilen App fehlt die Transkript-Ansicht je nach Version, am Desktop klappt es zuverlässig. Für ein formatiertes Transkript, eine andere Sprache oder ein Video ohne Untertitel ist Methode 2 die bessere Wahl.
Methode 2: Video-Datei lokal transkribieren, ohne Cloud
Wenn die Aufnahme vertraulich ist oder du ein sauberes Transkript mit Sprecherzuordnung brauchst, transkribierst du die Videodatei direkt auf deinem Rechner. Dafür gibt es kostenlose Desktop-Programme, die ein KI-Modell (meist das quelloffene Whisper, dessen Genauigkeit in einem Forschungspapier dokumentiert ist) lokal ausführen. Weder Video noch Transkript gehen dabei ins Internet, was für personenbezogene Inhalte der Kern jeder DSGVO-konformen Verarbeitung ist.
Ein Beispiel aus dem deutschsprachigen Raum ist meetergo Log, eine kostenlose App für macOS und Windows (rund 50 MB, eine Linux-Version ist angekündigt). So gehst du vor:
- App herunterladen und öffnen. Ein Konto ist nicht nötig.
- Videodatei per Drag-and-drop in die App ziehen. Unterstützt werden MP4, WAV, MP3 und fünf weitere Formate, insgesamt über acht.
- Sprache wählen oder automatisch erkennen lassen. Über 40 Sprachen sind möglich.
- Transkription starten. Das Modell läuft auf deinem Gerät, und die Sprechererkennung (Diarization) ordnet jeden Abschnitt der richtigen Person zu.
- Ergebnis durchsuchen, automatisch zusammenfassen lassen und als Text exportieren.

Weil alles offline läuft, kannst du auch ohne Internet transkribieren, etwa im Zug. Und weil keine Serverkosten anfallen, sind Aufnahme, Transkription, Zusammenfassung und Export ohne Minutenlimit kostenlos. Das ist auch der Grund, warum dieser Weg bei sensiblen Daten dem Upload in eine US-Cloud vorzuziehen ist: Es gibt schlicht keinen Server, der unter den CLOUD Act fallen könnte. Wie meetergo Daten generell auf europäischen Servern hält, steht auf der Seite zur Sicherheit.
Ein ehrlicher Nachteil: Lokale Verarbeitung kostet Rechenzeit, und wie viel, hängt vor allem vom Modell ab. In einem eigenen Test mit einem lokalen Whisper-Modell, der Technik hinter meetergo Log, war ein rund 70 Sekunden langer deutscher Mitschnitt auf einem aktuellen Laptop in etwa drei Sekunden fertig (kleines Modell) und in rund neun Sekunden (größeres, genaueres Modell).
Kurze Clips laufen also schneller als in Echtzeit; erst sehr lange Videos mit den präzisesten Modellen brauchen auf älterer Hardware wirklich Geduld. Ein YouTube-Video musst du außerdem erst als Datei vorliegen haben, bevor du es lokal transkribierst.
Geht es dir um Live-Meetings statt um eine fertige Datei, nimmt die App den Systemton direkt mit, ohne dass ein Bot dem Call beitritt. Das vereinfacht den Datenschutz bei aufgezeichneten Google-Meet-Gesprächen spürbar. Für die reine Videoseite gibt es zusätzlich meetergo Connect.
Methode 3: Video in Microsoft Word transkribieren
Wer ohnehin mit Microsoft 365 arbeitet, hat in Word im Web eine Transkriptionsfunktion. Du lädst die Audio- oder Videodatei hoch oder nimmst direkt auf, Word erzeugt ein Transkript mit Sprecherwechseln und fügt es auf Wunsch ins Dokument ein.
So findest du die Funktion: Word im Browser öffnen, im Reiter „Start” auf den Pfeil neben „Diktieren” klicken, dann „Transkribieren” wählen und die Datei hochladen. Microsoft beschreibt die Schritte im Detail.
Der Weg ist praktisch, wenn du im Anschluss direkt in Word weiterschreibst. Er hat aber zwei Grenzen: Die Funktion setzt ein kostenpflichtiges Microsoft-365-Abo voraus, das Gratis-Word kann sie nicht. Und die Datei wird zur Verarbeitung in die Microsoft-Cloud geladen, ist also kein lokaler Weg. Bei vertraulichen Inhalten solltest du Serverstandort und Auftragsverarbeitungsvertrag prüfen, ähnlich wie bei der DSGVO-Bewertung von Microsoft Teams. Dazu kommt ein monatliches Zeitlimit von rund 300 Minuten Upload.
Methode 4: Untertitel und Transkript im Video-Editor
Wer ein Video für Social Media oder YouTube schneidet, bekommt das Transkript oft gratis im Schnittprogramm dazu. Werkzeuge wie das kostenlose DaVinci Resolve oder gängige Editoren erzeugen aus der Tonspur automatische Untertitel, die zugleich als Transkript dienen.
Der Ablauf ist überall ähnlich: Tonspur auswählen, die Funktion für automatische Untertitel oder Transkription starten, Sprache wählen, Text gegenlesen und als SRT oder reinen Text exportieren.
Das lohnt sich vor allem, wenn du am Ende sowieso eingebrannte Untertitel willst, denn dann erledigst du beides in einem Durchgang. Geht es dir nur um den Text, ist das Aufsetzen eines Schnittprogramms allerdings Overkill. Achte außerdem darauf, ob dein Editor in der Cloud oder lokal rechnet: Das steht meist in den Einstellungen und entscheidet wieder über die Datenschutzfrage.
Methode 5: Online-Konverter für „Video zu Text“
Der schnellste Weg ohne Installation sind Browser-Dienste, die „Video zu Text“ versprechen. Du lädst die Datei hoch, nach wenigen Minuten liegt das Transkript vor, häufig mit einer kostenlosen Stufe.
Die Bequemlichkeit hat einen Preis, der nicht in Euro steht:
- Gratis-Stufen deckeln die Minuten pro Datei oder pro Monat, manchmal auch die Genauigkeit.
- Deine Datei landet auf einem fremden Server, oft außerhalb der EU. Solche Drittland-Übermittlungen knüpft die DSGVO an strenge Bedingungen; bei personenbezogenen Inhalten fehlt dann oft ein Auftragsverarbeitungsvertrag, und der CLOUD Act kann greifen.
- Für ein öffentliches oder unkritisches Video ist das völlig in Ordnung und tatsächlich am schnellsten.
Die ehrliche Faustregel: Online-Konverter sind super für Material, das du auch öffentlich machen würdest. Alles andere transkribierst du besser lokal.
Aus dem Transkript mehr machen

Ein Rohtranskript ist selten das Endprodukt. Je nach Ziel verarbeitest du es weiter:
- Untertitel: als SRT oder VTT exportieren und beim Video hochladen.
- Protokoll: Aus einem Meeting-Mitschnitt wird mit etwas Struktur ein sauberes Besprechungsprotokoll.
- Notizen und Aufgaben: Entscheidungen und To-dos markieren. Gute Tools fassen daraus direkt strukturierte Meeting-Notizen zusammen.
- Reiner Text: für Blogartikel, Dokumentation oder Übersetzung als TXT oder DOCX exportieren.
Ein Tipp, der bei jeder Methode gilt: Prüfe Namen, Zahlen und Fachbegriffe von Hand. Genau dort macht automatische Spracherkennung die meisten Fehler.
Häufige Fehler beim Video transkribieren
- Vertrauliche Videos in beliebige Cloud-Tools laden. Ein Kundencall oder Bewerbungsgespräch auf einem unbekannten Server ist ein echtes Datenschutzrisiko. Kläre vorher Serverstandort und Auftragsverarbeitungsvertrag, oder transkribiere gleich lokal.
- Die Sprache falsch oder gar nicht einstellen. Erkennt das Tool Englisch statt Deutsch, wird das Ergebnis unbrauchbar. Gib die Sprache fest vor, wenn die Aufnahme nicht glasklar ist.
- Schlechtes Audio unterschätzen. Hintergrundrauschen, durcheinanderredende Sprecher und ein billiges Mikro kosten mehr Genauigkeit, als jedes Tool wieder herausholen kann.
- Automatische Untertitel ungeprüft übernehmen. Eigennamen, Zahlen und Fachbegriffe sitzen oft daneben. Im selben Test verwandelte selbst eine glasklare Aufnahme das englische Wort „Update" in Kauderwelsch wie „Argonktsleit": Gerade Anglizismen und Namen solltest du gegenlesen, bevor du das Transkript weitergibst.
- Rechte und Einwilligung vergessen. Fremde YouTube-Videos darfst du nicht beliebig weiterverwerten, und bei aufgezeichneten Gesprächen brauchst du die Zustimmung aller Beteiligten.
Videos lokal transkribieren, ohne dass eine Datei dein Gerät verlässt: meetergo Log erstellt Transkripte mit Sprecherzuordnung und Zusammenfassung direkt auf Mac oder Windows, kostenlos und ohne Cloud-Upload. meetergo Log kostenlos herunterladen.
Schluss mit US-Datenzugriff — buche EU-konform.
Schluss mit US-Datenzugriff — buche EU-konform.
Häufig gestellte Fragen
Kann ich ein YouTube-Video transkribieren, das mir nicht gehört?
Zum privaten Lesen oder Recherchieren ja, über das eingebaute Transkript. Veröffentlichen oder kommerziell weiterverwenden darfst du fremde Inhalte aber nicht ohne Erlaubnis, das berührt das Urheberrecht.
Welche Videoformate kann ich transkribieren?
Die gängigen: MP4 und MOV bei Video, WAV und MP3 bei Audio. Lokale Apps wie meetergo Log verarbeiten über acht Formate per Drag-and-drop.
Ist Video transkribieren wirklich kostenlos?
Ja, gleich mehrere Wege kosten nichts. YouTubes Transkript und lokale Whisper-Apps kennen kein Minutenlimit. Online-Konverter und Word dagegen deckeln die kostenlose Nutzung.
Wie genau ist automatische Transkription?
Bei klarem, einsprachigem Ton sehr gut. Dialekt, Fachsprache, mehrere Sprecher und Störgeräusche drücken die Qualität, und zwar unabhängig vom Preis des Tools.
Wie transkribiere ich ein Video DSGVO-konform?
Am sichersten lokal, sodass die Datei das Gerät nicht verlässt. Nutzt du einen Cloud-Dienst, achte auf einen EU-Serverstandort und einen Auftragsverarbeitungsvertrag. Mehr zum Hintergrund findest du im Überblick zur digitalen Souveränität.
Kann ich ein Video offline transkribieren?
Ja, mit einer App, die das KI-Modell lokal ausführt. Dann brauchst du kein Internet, ideal für unterwegs oder für sensible Aufnahmen.
Wie mache ich aus dem Transkript Untertitel?
Exportiere es als SRT- oder VTT-Datei und lade diese beim Video hoch. Viele Tools bieten den SRT-Export direkt an.
