Die Open-Source-App Whisperboard für iPhone und iPad ermöglicht die Aufnahme und Transkription von Audioaufnahmen in Text und greift dabei auf die Whisper-Technologie von OpenAI zurück.
Auch wenn das Thema in den gängigen Medien inzwischen nicht mehr so überwiegt, ist das Thema Künstliche Intelligenz weiterhin sehr aktiv und regelmäßig finden sich neue Perlen, die auf solchen Technologien aufbauen. Um Sprachaufnahmen in geschriebenen Text umzuwandeln, gibt es für eigentlich jede Plattformen neben systemeigenen Anwendungen auch Apps von Drittentwicklern. Also eigentlich gar nicht so neu, dennoch konnte – neben ChatGPT – auch das Open-Source-Projekt Whisper von OpenAI Aufmerksamkeit erzeugen, denn im Vergleich zu bisherigen Lösungen sind Transkriptionen mit Whisper merklich präziser. Whisper wurde mit über 680.000 Stunden mehrsprachiger Audiodaten trainiert und stört sich aufgrund der Masse an Audiodaten auch nicht an Akzenten, Hintergrundgeräuschen und Fachsprachen. Die Bibliotheken stellt OpenAI kostenlos zur Verfügung, wodurch Entwickler diese in ihre Apps integrieren können.
WhisperBoard von Entwickler Igor Tarasenko ist eine solche App, die sich das Aufnehmen von Sprachnotizen und Transkribieren eben solcher auf die Fahne geschrieben hat. Die App ist dabei einfach gestrickt: Sprachaufnahmen können über den Mikrofon-Button gestartet werden, alternativ können auch Audiodateien importiert werden. Über „Transcribe“ lassen sich jene Audiofiles dann in Text umwandeln, welcher sich anschließend in die Zwischenablage kopieren oder exportieren lässt. Der Entwickler setzt von Haus aus auf die „Tiny“-Bibliothek, ihr könnt direkt in der App aber auch die größeren Sprachmodelle (Base, Small, Medium und Large) herunterladen und nutzen. Die Dateigröße variiert von 75 MB bis rund 3 GB, die Ergebnisse sind aber ungleich besser. Bereits im Medium-Modell funktioniert die Erkennung erschreckend gut und noch besser wird es, wenn man die Sprache in den Einstellungen vordefiniert. Simple App mit guter Arbeit, die kostenlos angeboten wird. Wer dem Braten nicht traut, der kann sich auch den Quellcode auf GitHub zu Gemüte führen und die App selbst kompilieren.
Quellcode GitHub
Schreibe den ersten Kommentar