Was ist das Prinzip der automatischen Spracherkennung und welche Rolle spielt sie?

Mai. 10,2020

Das Aufkommen virtueller Assistenten wie Siri und Alexa hat automatisierte Spracherkennungssysteme in größerem Umfang eingesetzt und weiterentwickelt. Die automatische Spracherkennung (ASR) ist ein Prozess zum Konvertieren gesprochener Sprache in Text. Die Technologie wird ständig in Instant Messaging-Anwendungen, Suchmaschinen, Fahrzeugsystemen und der Heimautomation eingesetzt. Obwohl alle diese Systeme auf leicht unterschiedlichen technischen Prozessen beruhen, ist der erste Schritt in all diesen Systemen der gleiche: Sprachdaten erfassen und in maschinenlesbaren Text konvertieren. Aber wie funktioniert das ASR-System? Wie lernt es, Sprache zu erkennen? ASR-Systeme: Wie funktionieren sie? Aus einer grundlegenden Perspektive wissen wir daher, dass die automatische Spracherkennung wie folgt aussieht: Audio-Dateneingabe, Textdatenausgabe. Von der Eingabe bis zur Ausgabe müssen Audiodaten jedoch zu maschinenlesbaren Daten werden. Dies bedeutet, dass Daten über akustische Modelle und Sprachmodelle gesendet werden. Diese beiden Prozesse sind wie folgt: Das akustische Modell bestimmt die Beziehung zwischen Audiosignalen und Spracheinheiten in der Sprache, und das Sprachmodell passt den Ton an Wörter und Wortsequenzen an. Mit diesen beiden Modellen kann das ASR-System eine Wahrscheinlichkeitsprüfung des Audioeingangs durchführen, um die darin enthaltenen Wörter und Sätze vorherzusagen. Das System wählt dann die Vorhersage mit dem höchsten Konfidenzniveau aus. ** Manchmal können Sprachmodelle bestimmte Vorhersagen priorisieren, die aufgrund anderer Faktoren als wahrscheinlicher angesehen werden. Wenn die Phrase durch das ASR-System geleitet wird, führt sie Folgendes aus: Geben Sie eine Spracheingabe ein: „Hey Siri, wie spät ist es jetzt?“ Führen Sie die Sprachdaten durch das akustische Modell und zerlegen Sie sie in Sprachteile. Führen Sie die Daten durch das Sprachmodell. Textausgabedaten: "Hey Siri, wie spät ist es?" Hier ist zu erwähnen, dass das ASR-Modell nicht das einzige maschinelle Lernmodell ist, das ausgeführt wird, wenn das automatische Spracherkennungssystem Teil der Sprachbenutzeroberfläche ist. Viele automatische Spracherkennungssysteme werden in Verbindung mit NLP- (Natural Language Processing) und TTS-Systemen (Text-to-Speech) verwendet, um ihre vorgegebenen Rollen zu erfüllen. Mit anderen Worten, eine eingehende Untersuchung der Sprachbenutzeroberfläche ist ein vollständiges Thema für sich. Weitere Informationen finden Sie in diesem Artikel. Jetzt wissen Sie also, wie das ASR-System funktioniert, aber was müssen Sie erstellen? Der Schlüssel sind Daten. Etablieren Sie ein ASR-System: Die Bedeutung von Daten. Ein gutes ASR-System sollte flexibel sein. Es muss verschiedene Audioeingänge (Sprachbeispiele) erkennen und basierend auf den Daten eine genaue Textausgabe vornehmen, um entsprechend zu reagieren. Um dies zu erreichen, werden die vom ASR-System benötigten Daten als Sprachproben und transkribierte Formen bezeichnet. Es ist etwas komplizierter als dies (zum Beispiel ist der Datenmarkierungsprozess sehr wichtig und wird oft übersehen), aber um es allen klar zu machen, wird es hier vereinfacht. ASR-Systeme erfordern große Mengen an Audiodaten. Warum? Weil die Sprache kompliziert ist. Es gibt viele Möglichkeiten, dasselbe zu sagen, und die Bedeutung des Satzes ändert sich mit der Position und Betonung des Wortes. Bedenken Sie auch, dass es auf der Welt viele verschiedene Sprachen gibt. In diesen Sprachen können die Aussprache und die Wortauswahl abhängig von Faktoren wie der geografischen Lage und dem Akzent variieren. Vergessen Sie nicht, dass die Sprache auch mit Alter und Geschlecht variiert! Vor diesem Hintergrund ist es umso besser, neue Spracheingaben zu erkennen und zu klassifizieren, je mehr Sprachproben für das ASR-System bereitgestellt werden. Je mehr Samples aus einer Vielzahl von Sounds und Umgebungen entnommen werden, desto besser kann das System Sounds in diesen Umgebungen erkennen. Durch spezielle Feinabstimmung und Wartung wird das automatische Spracherkennungssystem während des Gebrauchs verbessert. Aus der grundlegendsten Sicht ist es daher umso besser, je mehr Daten vorhanden sind. Zwar bezieht sich die aktuelle Forschung auf die Optimierung kleinerer Datensätze, aber die meisten Modelle erfordern derzeit große Datenmengen, um eine gute Leistung zu erzielen. Glücklicherweise wird die Erfassung von Audiodaten dank des Datensatz-Repositorys und des dedizierten Datenerfassungsdienstes einfacher. Dies wiederum beschleunigt die technologische Entwicklung. Lassen Sie uns einen kurzen Blick auf die Bereiche werfen, in denen die automatische Spracherkennung ihre Zukunft zeigen kann. Die ASR-Technologie wurde in die Gesellschaft integriert. Virtuelle Assistenten, fahrzeuginterne Systeme und Hausautomation machen das tägliche Leben komfortabler, und das Anwendungsspektrum kann sich ebenfalls erweitern. Da immer mehr Menschen diese Dienste akzeptieren, wird sich die Technologie weiterentwickeln.

Mitteilen:

Aktuelle Artikel

Alle Blogs