Whisper Spracheingabe von Lichtbote Martin

Whisper Spracheingabe von Lichtbote Martin

Seit vielen Jahren begleitet mich das Thema Spracherkennung. Ich habe im Laufe der Zeit zahlreiche Programme getestet – doch wirklich überzeugt hat mich über viele Jahre hinweg nur eines: Dragon NaturallySpeaking von Nuance. Unter Windows 98 lief es schlichtweg perfekt. Da in den Jahren 2023 und 2024 immer mehr Programme unter Windows 98 nicht mehr funktionierten, sah ich mich schließlich 2024 gezwungen, auf Windows 11 umzusteigen – und damit war es mit Dragon leider vorbei. Zwar lässt sich Dragon auch unter Windows 11 noch über den Kompatibilitätsmodus betreiben – jedoch verursacht dies regelmäßig Probleme und das Programm läuft dabei so langsam, dass ein sinnvoller Einsatz kaum möglich ist. Nuance hat die Entwicklung für den privaten Bereich vollständig eingestellt und bietet seine Software heute ausschließlich für gewerbliche Kunden an – zu Preisen ab 800 EUR aufwärts.

Windows bietet ab Version 10 eine integrierte Spracheingabe per Tastenkombination Windows + H. Praxistauglich ist diese kaum, da sie die Aufnahme eigenständig beendet, noch während man spricht. Dasselbe Problem zeigt sich bei der Spracheingabe von Google – auch hier führt die vorzeitige Abschaltung dazu, dass die Funktion für einen ernsthaften Einsatz schlicht unbrauchbar ist.

Es gibt zwar noch weitere Programme und Ansätze mit sehr unterschiedlicher Qualität. Die einzige wirklich brauchbare Technologie, die ich abseits von Nuance gefunden habe, stammt von OpenAI und trägt den Namen Whisper. Die meisten darauf basierenden Programme sind jedoch ausschließlich in englischer Sprache verfügbar und laufen über eine Cloud – die Sprachverarbeitung findet also online statt. Die Kosten dafür liegen in der Regel bei etwa 10 EUR im Monat. Es gibt zwar auch Varianten, die sich lokal auf dem eigenen Rechner betreiben lassen – aber diese sind technisch so komplex und so schlecht dokumentiert, dass ich trotz intensiver Versuche nicht in der Lage war, sie zum Laufen zu bringen.

Nachdem ich kürzlich erfolgreich meine erste Android-App mit Antigravity von Google entwickelt hatte, reifte in mir ein neuer Gedanke: Wenn ich das geschafft habe, kann ich auch ein eigenes Windows-Programm für die Spracherkennung entwickeln. Eines, das vollständig auf Deutsch aufgebaut ist, sich unkompliziert installieren lässt und sofort einsatzbereit ist. Dank des großen Sprachmodells liefert das Programm eine sehr stabile Spracherkennung – die Gesamtgröße beträgt dabei 1,6 GB. Auf meinem Laptop mit 16 GB RAM kann die Umwandlung je nach Aufnahmelänge etwas Zeit in Anspruch nehmen. Daher habe ich zusätzlich eine kleinere Version entwickelt, die lediglich 622 MB umfasst. Diese Mini-Version arbeitet deutlich schneller, setzt jedoch eine klarere und deutlichere Aussprache voraus.

Die Bedienung ist bewusst einfach gehalten: Programm installieren, starten, Mikrofon auswählen – und schon kann es losgehen. Das Programm verfügt über zwei Schaltflächen: „Aufnahme starten“ und „Aufnahme stoppen“. Einfach auf „Aufnahme starten“ klicken, sprechen, anschließend auf „Aufnahme stoppen“ klicken – und dann dorthin klicken, wo der fertige Text erscheinen soll. Zusätzlich gibt es die Schaltfläche „Aufnahme abbrechen“ – für den Fall, dass man sich versprochen hat und die Aufnahme einfach verwerfen möchte. Die Umwandlung erfolgt innerhalb weniger Augenblicke, abhängig von der Länge der Aufnahme und der Leistung des Rechners.

Um es klar zu sagen: Ich selbst kann praktisch aufgrund meiner drei Schlaganfälle nicht mehr mit der Hand schreiben. Auch das Schreiben mit der Tastatur fällt mir schwer. Zudem bin ich nicht in der Lage, lange Diktate zu realisieren. Das Programm ist nur für Sätze und kurze Absätze gedacht.

Technisch wird die Aufnahmedauer durch die Leistung des Rechners eingeschränkt. Das liegt daran, dass das Programm die Sprache direkt auf deinem Computer umwandelt. Im Gegensatz zu Cloud-Lösungen nutzt Whisper dafür deinen eigenen Arbeitsspeicher und Prozessor. Je länger die Aufnahme ist, desto mehr Rechenleistung wird benötigt. Bei schwächeren Rechnern kann das System bei zu langen Aufnahmen überlastet werden oder die Umwandlung extrem lange dauern. Daher ist das Programm gezielt für kurze Sätze und Absätze optimiert.

Da ich selbst erhebliche finanzielle Aufwendungen für meine Gesundheit trage, stelle ich dieses Programm – anders als meinen Bestandsanzeiger für Nahrungsergänzungsmittel – nicht kostenlos zur Verfügung.

Wer Interesse hat, meldet sich einfach direkt bei mir. Ich freue mich auf Anfragen.

Hilferuf:

Bitte hilf mir

Teilen: