Was ist Spracherkennung

Wir möchten Ihnen einen kurzen Einblick in die Funktionsweise der Spracherkennung geben und erklären, warum Sie mit indocma Vokabularen eine extremhohe Erkennungsrate erzielen. Dabei legen wir Wert auf eine einfache und verständliche und verzichten auf eine komplizierte, wissenschaftlich exakte Darstellung.

Spracherkennung basiert auf Statistik- und Wahrscheinlichkeitsberechnung. Der zugrunde liegende Erkennungsalgorithmus von Dragon NaturallySpeaking ist sehr kontextsensitiv.
Das bedeutet, bei dem Erkennungsprozess nimmt das System einen Mustervergleich mit bereits bekannten Kontexten vor.

Im Mittelpunkt dieser Analyse steht die Frage welcher Begriff kommt in welchem Umfeld wie häufig vor?
Dabei greift das System auf die Wahrscheinlichkeit von Wortkombinationen zurück. Den so genannten Trigrammen, das heißt drei im Zusammenhang vorkommende Worte.

Diese Wahrscheinlichkeitsalgorithmen lassen sich über eine Analyse bereits bestehender, zuvor ausgewählter Dokumente des Anwenders beeinflussen. Prinzipiell gilt: Je mehr Text des Anwenders dem System bekannt ist, desto genauer wird die Erkennung später sein. Aber nicht nur die Quantität, sondern auch die Qualität des zu analysierenden Textes ist für die spätere Erkennungsgenauigkeit absolut entscheidend.

Lassen Sie uns das an einem einfachen Beispiel, dem Begriff „Zervikothorakalen“ erklären. Bei einer Analyse ausgewählter Dokumente ist unter anderem der Begriff Zervikothorakal inklusive der Konjungation in folgenden Schreibweisen gefunden worden.

  Wort   Häufigkeit   Kontext  
  cervicothoracalen 2 … am cervicothoracalen Übergang …
… und cervicothoracalen Paravertebralmuskulatur …
 
  cervicothorakal 1 … und cervicothorakal. Multiple …  
  cervicothorakalem 1 … am cervicothorakalem Übergang …  
  cervicothoracalen 1 … am cervicothoracalen Übergang …  
  cervikothorakal 2 … Dornfortsätzen cervikothorakal. Im …
… und cervikothorakal. Multiple …
 
  cervicothoracalen 4 … am cervicothoracalen Übergang …
… am cervicothoracalen Übergang …
… am cervicothoracalen Übergang …
… am cervicothoracalen Übergang …
 
  zervicothoracalem 1 … am zervicothoracalem Übergang …  
  zervicothorakal 1 … Dornfortsätzen zervicothorakal. Im …  
  zervicothoracalen 2 … am zervicothoracalen Übergang …
… am zervicothoracalen Übergang …
 
  zervicothoracalen 3 … am zervicothoracalen Übergang …
… am zervicothoracalen Übergang …
… am zervicothoracalen Übergang …
 
  zervicothoracalem 2 … am zervicothoracalem Übergang …
… am zervicothoracalem Übergang …
 
  zervicothoracalen 4 … am zervicothoracalen Übergang …
… am zervicothoracalen Übergang …
… am zervicothoracalen Übergang …
… am zervicothoracalen Paravertebralmuskulatur …
 
Schaut man sich die Schreibweisen, Häufigkeiten und den Kontext an, so fällt auf, dass der Begriff „Zervikothorakalen“ in 6 verschiedenen Variationen mit den jeweiligen unterschiedlichen Häufigkeiten vorkommt. Sollten diese 6 unterschiedlichen Varationen von „Zervikothorakalen“ ins Vokabular übernommen werden, werden einer Aussprache 6 unterschiedliche Schreibweisen zugeordnet, somit würde diese Mehrdeutigkeit letztendlich zu Erkennungsdefiziten führen.

Wir, die indocma GmbH stellen vor der Vokabularanalyse zunächst erstmal sicher, dass die orthografische Textqualität gewährleistet ist. Dazu werden die anonymisierten Texte über ein eigenentwickeltes, datenbankbasiertes Programm auf eine korrekte und einheitliche Schreibweise überprüft und gegebenenfalls korrigiert.

  Wort   Häufigkeit   Kontext  
  zervikothorakal 4 … und zervikothorakal. Multiple …
… und zervikothorakal. Multiple …
… Dornfortsätzen zervikothorakal. Im …
… Dornfortsätzen zervikothorakal. Im …
 
  zervikothorakalen 16 … am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… am zervikothorakalen Übergang …
… und zervikothorakalen Paravertebralmuskulatur …
… und zervikothorakalen Paravertebralmuskulatur …
 
  zervikothorakalem 2 … am zervikothorakalem Übergang …
… am zervikothorakalem Übergang …
 
Somit ändern sich die Häufigkeiten signifikant und führen zu einer deutlich höheren Erkennungsqualität. Und die Erkennungsqualität ist letztendlich das wichtigste Qualifizierungsmerkmal der Spracherkennung.