Phonak Infinio Sphere, das neue Flaggschiff des Herstellers Phonak, ist derzeit ganz vorn mit dabei. Das besondere an diesem Hörsystem: Ein Chip ist für die gewöhnliche Signalverarbeitung zuständig, während ein zweiter Chip für herausfordernde Hörsituationen entwickelt wurde. Mithilfe eines Deep Neural Networks trennt letzterer Sprache von Störlärm. Über Jahre hinweg wurde dieser KI-Chip unter anderem mit 22 Millionen Klangszenen trainiert. Zwei Phonak-Experten geben spannende Einblicke in seine fast zehnjährige Entwicklung.
Deep Neural Network – aber ganz anders
Deep Neural Network – das hat man doch schon einmal gehört? Diese Methode des maschinellen Lernens ist beliebt, auch unter den Hörgeräteherstellern. Das neue DNN von Phonak ist aber ganz anders, sagt Henning Hasemann, Director Deep Learning Engineering Sonova: „Die KI-Anwendungen in Hörsystemen, die wir bis jetzt gesehen haben, beziehen sich hauptsächlich darauf, herauszufinden, in welcher Situation wir uns befinden – dazu reicht es, wenn etwa einmal pro Sekunde festgestellt wird, welche von beispielsweise acht vordefinierten Hörumgebungen nun vorliegt. Unsere KI ist jedoch ein eigenständiges Programm – eines, das Hintergrundgeräusche herausfiltert. Das ist ein ungleich schwereres Problem, denn man muss einen permanenten Audiostream mit hoher Qualität verarbeiten.“
KI macht Richtmikrofone überflüssig
Deshalb ein leistungsstarker Extra-Chip, deshalb jahrelange Entwicklung, deshalb das Training mit etwa 22 Millionen Hörbeispielen – solange, bis das DNN in der Lage war, aus jeder Situation Sprache klar herauszufiltern. Heute sei diese KI so zuverlässig, dass man nicht mehr auf Richtmikrofone angewiesen sei, führt Hasemann weiter aus. „Die Richtung spielt jetzt keine Rolle mehr, der Nutzer kann von jeder Seite angesprochen werden, egal ob von vorne, von der Seite oder von hinten.“
Der DNN-Chip der neuen Infinio Sphere-Hörsysteme, der 7,7 Milliarden Rechenoperationen pro Sekunde vornimmt, ist allerdings nicht für den dauerhaften Einsatz bestimmt. „Er wird dann aktiv, wenn man sich in einer Situation mit sehr vielen Nebengeräuschen und gleichzeitig Sprache befindet“, so Stefan Launer, Vice President Audiology & Health, Sonova. „Also zum Beispiel in einem Restaurant, auf einer Cocktailparty, überall, wo Sprache extrahiert werden muss. Das heißt, in den restlichen 80 Prozent der Zeit ist das DNN ausgeschaltet.“ Die Aktivierung erfolgt entweder automatisch oder nach Bedarf über die App.
Fast 10 Jahre – so lange dauerte die Entwicklung des neuen Phonak-Chips
„Schon zu Beginn war uns klar, dass das nichts ist, was wir schon ein Jahr später haben werden“, sagt Stefan Launer. Er erinnert sich an die Anfänge: „Vor ungefähr zehn Jahren kamen zwei Studenten der ETH Zürich auf uns zu und hatten so einen Algorithmus. Sie sind dann nach Berlin gegangen und haben ein Startup gegründet. Wir sind aber mit ihnen in engem Kontakt geblieben, haben sie unterstützt und irgendwann kamen sie zurück und meinten, sie haben da etwas ziemlich Cooles.“
Zu diesem Zeitpunkt schloss sich Henning Hasemann dem Startup an. Sie starteten mit der Entwicklung des Neuronalen Netzwerkes, das zum Ziel hatte, Hintergrundgeräusche wegzufiltern und nur die Sprache übrigzulassen. „Anfangs befand sich das Programm auf einer riesigen Serverfarm, dann auf einem Laptop, später als Prototyp auf dem Mobiltelefon und schließlich auf dem kleinen Hörgerät hinter dem Ohr“, so Hasemann.
Die größten Herausforderungen: hohe Leistung, geringer Energieverbrauch
Eine der größten Herausforderungen war dabei, die optimale Chiparchitektur zu finden. „Die Suche danach hat sich über Monate, wenn nicht Jahre hingezogen“, so Launer. Es musste das optimale Verhältnis von Energieverbrauch und Leistungsfähigkeit her. „Das war ein wesentlicher Teil der Entwicklungsarbeit und schließlich hatten wir eine Netzwerkarchitektur mit einem Stromverbrauch von 1 bis 10 Milliwatt. Am Ende geht’s eben um Recheneffizienz, da heißt es optimieren, optimieren, optimieren.“
Diese „Cutting-Edge-Technologie“, wie Launer sie nennt, bewog ein großes Wavelab zur Produktion des Chips – obwohl sich das aufgrund der geringen Auflage eigentlich gar nicht gelohnt hätte. „Ich habe das einmal ausgerechnet: Die Produktionszeit des Phonak-Chips liegt vielleicht bei ein paar Tagen in einem Jahr – das sind verschwindend geringe Stückzahlen“, erklärt Stefan Launer. „Warum der Auftrag trotzdem für das Wavelab interessant war? Der Hersteller spezifiziert seine Chiptechnologie bis 1 Volt – und wir liegen darunter. Wir sind also im Prinzip ein Versuchskaninchen. Wir bezahlen das Wavelab quasi dafür, dass es weiß, wie gut es ist.“
Ein DNN lernt wie ein echtes Gehirn
Es gibt einen Grund, warum DNNs aktuell so populär sind. Henning Hasemann erklärt: „Bei DNNs gibt es ein Phänomen: Wenn sie genug Beispiele gesehen haben, generalisieren sie. Das heißt: Wenn man ein System lange genug lehrt, was Sprache ist, was Störlärm ist und wie beides gemischt klingt, versteht es dies auch in unbekannten Hörsituationen – eben wie ein echtes Gehirn. Ein einfaches Beispiel: Es heißt immer, man soll nicht versuchen, Hunden das Apportieren nur in der Wohnung beizubringen, sonst funktioniere das nicht im Wald. Also übt man es im Wohnzimmer, man übt es im Wald, man übt es auf dem Feld – und irgendwann versteht der Hund wie Apportieren geht, auch wenn wir dann in einer völlig unbekannten Umgebung sind. Denselben Effekt sehen wir auch bei Neuronalen Netzwerken.“
Phonak-KI: das sind die Zukunftsaussichten
Dass die KI im laufenden Betrieb weiterlernt, ist deshalb nicht notwendig – zumal man hierfür noch leistungsfähigere, noch energieeffizientere Hardware benötigen würde, um zudem breiter generalisieren zu können. Diese Ressourcen möchte man, sobald es sie gibt, zukünftig lieber für andere Dinge nutzen. „Wir wollen den Chip irgendwann in jeder Situation einsetzen können, also nicht nur im Restaurant, sondern auch in leichteren Hörumgebungen“, so Henning Hasemann.
Auch Stefan Launer hat Zukunftsvisionen: „Vielleicht können wir irgendwann auch bestimmte Sprecher identifizieren. Dann kann das Gerät zum Beispiel lernen, wie die Stimmen der Kinder oder des Partners klingen, um diese gezielt herauszufiltern – aber das bringt dann noch einmal ganz andere Herausforderungen in Sachen Datenschutz mit sich.“
Der neue Phonak-Chip zeigt: Das Potenzial, das der KI-Technologie allein bei der Signalverarbeitung noch innewohnt, ist enorm. Nicht ohne Grund vergleicht Stefan Launer die Bedeutung dieses Extra-KI-Chips mit dem damaligen Sprung von Analog auf Digital. Vielleicht befinden wir uns also am Anfang einer neuen Ära, welche die Symbiose von Mensch und Technik auf ein ganz neues Level hebt.
Bleiben Sie auf dem Laufenden!
Unser Newsletter versorgt Sie alle zwei Wochen mit den relevanten News aus der Branche.