Speaker Identifier – Meudt.tech

Für ein Praktikum in Neuroinformatik habe ich mit Lutz zusammen den Speaker Identifier entwickelt. Es handelt sich dabei um ein Programm welches aus einem Audio-Datenstrom (live oder offline) die Identität der sprechenden Person ermittelt. Die Funktionalität wird mittels Algorithmen der Mustererkennung (Teilgebiet der Künstlichen Intelligenz) realisiert. Aus akustischen Rohdaten werden zunächst MFCC und LPC Merkmale extrahiert. Diese werden dann wahlweise mittels Kohonenkarten (SOM) oder k-means Clustering mit den zuvor im Modell hinterlegten Personen verglichen und so eine Wahrscheinlichkeit für die sprechende Person ermittelt. Zusätzlich zur reinen Realisierung eines Erkennens, haben wir uns noch dazu entschieden ein Visualisierungstool zu integrieren. Dieses bildet den Merkmalsraum und das Gitter der Kohonenkarte oder die Prototypen der k-means Cluster in eine 2D Ebene ab. So lässt sich schnell und einfach überprüfen ob der Lernalgorithmus zu einem plausiblen Resultat gelangt ist. Geschrieben ist der Speaker Identifier in Java 1.5