Der Computer hört mit: Ein junges, internationales Startup möchte vom Wallis aus die Spracherkennung für neue Anwendungen nutzbar machen.
Hin und wieder habe ich die Gelegenheit, für Startwerk über Startups zu schreiben, die bis dahin noch keine Berichterstattung bekommen haben. Das Westschweizer Jungunternehmen Koemei gehört in diese Kategorie.
Das Tech-Startup, das seit Dezember 2010 zu den Laureaten der IMD Startup Competition gehört, ist mit einer beeindruckenden Technologie am Start. Und zwar bietet Koemei eine neuartige, besonders robust Spracherkennungssoftware. Koe-mei (gesprochen wie man es schreibt – so klärt mich CEO Temi auf) heisst übersetzt soviel wie „Meine Stimme“.
Neu an Koemei ist das Einsatzgebiet: Bisherige Spracherkennungen operieren meist auf einem limierten Vokabular und vor allem dialogisch, zum Beispiel für Sprachkommandos oder Diktate. Koemeis Toolset soll es dagegen möglich machen, Spracherkennung auch bei Gesprächen mehrerer Personen untereinander – über beliebige Themen – einzusetzen. Insbesondere zur Transkription von Meetings lässt es sich damit einsetzen. Mit einer Aufzeichnung eines Gesprächs gefüttert, liefert es eine schriftliche Fassung des Besprochenen. Das war bisher nicht möglich, da solche Software keine Personen unterscheiden konnte und mit einem natürlichen Gesprächsfluss schlicht überfordert war.
Weil die Transkription von Meetings für Firmen interessant sein könnte, soll dies auch der Hauptabsatzmarkt werden. Deshalb haben die Gründer viel Zeit darauf verwandt, Koemei mit existierenden Conferencing-Tools von Cisco, Lifesize und anderen Anbietern zu integrieren. So soll Firmenkunden der Einsatz möglichst leicht gemacht werden.
Keine Schwierigkeiten mit Akzenten
Neben den Mitschriften können Video- oder Audiodateien automatisch indexiert werden, so das man von innerhalb einer Aufzeichnung mit Volltextsuche zu einer bestimmten Stelle springen kann. Ausserdem ist die automatische Erstellung von Untertiteln wie in diesem Demovideo ist auch Bestandteil des Produkts. Die Qualität – gesetzt den Fall, dass die Captions nicht nachbearbeitet wurden – ist schon in der gezeigten frühen Version beindruckend. Witzigerweise kannte das Programm die Vokabel „iPad“ aber offenbar noch nicht – sie behilft sich konsequent mit „like pad“ oder „my pad“.
Koemei ist ein High-Profile-Spinoff eines EU-Projekts, das bereits 2002 lanciert wurde. Der Gründung voraus gingen fast acht Jahre Tüftelei an den Universitäten von Sheffield und Edinburgh sowie dem IDIAP-Forschungsinstitut, das sich ebenfalls in Martigny befindet. Das Zentrum fördert Forschung und Technologietransfer, unter anderem auf dem Gebiet Mensch-Maschine-Interaktion und besonders in der automatisierten Spracherkennung. Das IDIAP ist auch der Grund, warum das Wallis den Zuschlag als Gründungsort für Koemei erhalten hat. Bislang sind am Standort aber erst CEO Temitope Ola und CTO John Dines aktiv. Der Rest des sechsköpfigen Teams arbeitet noch vom IDIAP oder von Sheffield aus. Längerfristig soll aber das ganze Team an einem Ort zusammenarbeiten.
Die effektive Firmengründung erfolgte im Oktober 2010. Zurzeit geht das Unternehmen grad in die heisse Phase: Nach einer längeren Private Beta geht es Ende Januar in eine Public Beta. Zurzeit wird noch am Webauftritt gefeilt. Die fertige Verkaufs-, oder besser: Leasing-Version soll dann im zweiten Quartal soweit sein. Vorerst ist Koemei Sprachrepertoire auf Englisch beschränkt, dafür hat die Software aber keine Schwierigkeiten mit Akzenten – ein indischer oder texanischer Sprecher bringe das System nicht ins Schwitzen, verspricht CEO Temi. Weitere, zunächst europäische Sprachen sind für 2012 geplant.
Geschäftsmodell Saas
Das Geschäftsmodell vom Koemei wird diktiert von der Funktionsweise des Produkts und ist zweistufig. Die Analyse der Sprachdaten ist sehr rechenintensiv, weswegen Koemei in der Cloud laufen wird: Der Dienst wird als Software-as-a-Service angeboten. Angezielt sind dabei in erster Linie natürlich grössere Unternehmen und Universitäten. Daneben ist aber auch eine handliche Webapp vorgesehen, die den Dienst für Einzelpersonen verfügbar macht. Über ein Webinterface können damit einzelne Ton- oder Video-Aufzeichnungen hochgeladen werden, für die die Software eine Spracherkennung durchführt erzeugt. Temis Beispiel-Usecase dafür ist ein Dozent, der ein Transkript seiner Vorlesung erstellen möchte.
Momentan läuft die Software noch auf einer Serverfarm mit 32 Prozessoren. Spätestens für den Release planen die Gründer den Umzug zu einem Cloud-Hoster mit 500-1’000 Prozessoren.
Koemei ist zurzeit noch eigenfinanziert und verfügt über Fördermittel der KTI und anderer Institutionen, ingesamt etwas über 400’000 Franken. Momentan sind die Gründer dabei, eine erste Finanzierungsrunde zu lancieren. Ziel sind 1,2 Mio. Franken zusätzliches Kapital, wenn möglich bis zum Ende des zweiten Quartals 2011.
Wenn es tatsächlich so ist, dass das Komei Toolset die Spracherkennung mehrerer Personen zu erkennen und zuzuordnen, dann wird diese Software sicherlich ein Riesenerfolg werden. Große und besonders multinationale Unternehmen werden diese bestimmt schnell einsetzen ind nicht mehr darauf verzichten können.