Abschlussarbeiten

Hier finden Sie die Abschlussarbeiten der Studierenden unserer Abteilung.

Modellierung der Kontextverarbeitung beim Satzverstehen in geräuschvollen und halligen Hörkonditionen für Hörer*innen mit und ohne Hörverlust
Kristin Sprenger

Masterarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch PD Dr. Thomas Brand (Carl-von-Ossirtzky Universität Oldenburg) und Prof. Dr. Inga Holube
Eingereicht am 30. Juni 2022

Diese Masterarbeit untersucht die Verarbeitung und Nutzung von Sprachkontext beim Sprachverstehen. Der Einfluss von Kontextinformationen auf das Sprachverstehen kann mit Hilfe von Kontextparametern dreier verschiedener Kontextmodelle quantifiziert werden. Boothroyd und Nittrouer (1988) führten ein grundlegendes statistisches Modell ein, welches empirische Daten über die Sprachkontextnutzung des Menschen mit Hilfe von zwei Parametern beschreibt. Bronkhorst et al. (1993) entwickelten dieses Modell weiter, so dass es weitere Parameter gibt, die den Kontexteffekt für eine unterschiedliche Anzahl korrekt verstandener Wörter beschreiben. Das neue Kontextmodell von Smits und Zekveld (2021) basiert auf den Erkenntnissen von Boothroyd und Nittrouer sowie Bronkhorst et al., besitzt jedoch mathematisch einfachere Formeln und reduziert das Modell auf nur noch einen Parameter zur Beschreibung der Kontextnutzung. Eine wichtige Erkenntnis ist, dass die Kontextparameter der drei Modelle eng miteinander verbunden sind. Die drei Kontextmodelle wurden nachimplementiert und auf Sprachverständlichkeitsdaten verschiedener Datenbasen angewendet. Die Datenbasen umfassen Messdaten mit dem Göttinger Satztest (GÖSA) und Oldenburger Satztest (OLSA) von normalhörenden Versuchspersonen und Versuchspersonen mit Hörverlust in verschiedenen Hörkonditionen. Zu den verschiedenen Hörkonditionen gehören die Präsentation in Ruhe, im stationären Störgeräusch und im modulierten Störgeräusch, um zu untersuchen, wie der Sprachkontext zur Kompensation fehlender Informationen während des Sprachverstehens verwendet wird. Darüber hinaus wird die Auswirkung von Sprache im Nachhall auf die Satzerkennung analysiert. Dies wird durch Hinweise aus früheren Hörstudien motiviert, dass geschlossene Satztests (wie der OLSA) ein anderes Maß an Anfälligkeit für bestimmte ungünstige Hörbedingungen aufweisen als Alltagssätze (wie der GÖSA): geschlossene Satztests sind wesentlich robuster gegenüber Nachhall als Alltagssätze. Zwischen dem stationären Störgeräusch und dem modulierten Störgeräusch fanden sich keine Unterschiede in der Kontextnutzung anhand der Kontextparameter. Beim GÖSA als Sprachmaterial waren signifikant mehr Kontextinformationen verfügbar als beim OLSA. Das gegensätzliche Verhalten der Kontextnutzung von OLSA und GÖSA im Störgeräusch und Nachhall ist auf eine unterschiedliche Kontextnutzung zurückzuführen und in den Kontextparametern abzulesen. Die Kontextparameter der Kontextmodelle zeigen nur die Nutzung von a posteriori-Kontext auf.

This master thesis investigates the processing and use of speech context in speech recognition. The influence of context information on speech recognition can be quantified using context parameters from three different context models. Boothroyd and Nittrouer (1988) introduced a statistical model describing empirical data of humans’ use of speech context using two global parameters. This model has been further developed by Bronkhorst et al. (1993) so that it breaks down the global parameters to additional parameters describing the context effect for different numbers of correctly perceived words. The new context model of Smits and Zekveld (2021) is based on the findings of Boothroyd and Nittrouer as well as Bronkhorst et al., but with a simpler set of equations and reduction of the number of parameters to only one. An important knowledge is that many of the context parameters of the three models are closely related to each other. The three context models were implemented and applied to speech intelligibility data from different data bases. The databases include measurement data with the Göttinger sentence test (GÖSA) and Oldenburg sentence test (OLSA) from normal-hearing subjects and subjects with hearing loss in different listening conditions. The different listening conditions include the presentation in quiet, in steady state noise and in speech-like modulated noise in order to investigate, how speech context is used to compensate for missing information during speech recognition. Furthermore, the effect of reverberated speech on sentence recognition is analysed. This is motivated by evidence from previous auditory studies, that closed word set sentences (like the OLSA) show a different degree of susceptibility to certain adverse listening conditions than everyday sentences (like the GÖSA: closed word set sentences are much more robust against reverberation than everyday sentences. No differences in context use were found between the stationary noise and the modulated noise based on the context parameters. Significantly more context information was available with the GÖSA as speech material than with the OLSA. The contrary behavior of the context use of the GÖSA and OLSA in noise and reverberation is due to different context use and can be read in the context parameters. The context parameters of the context models only show the use of a posteriori context.

Bewertung von Messumgebung und Aufnahmequalität bei Online-Studien
Jule Pohlhausen

Masterarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Jörg Bitzer und Prof. Dr. Inga Holube
Eingereicht am 8. Mai 2022

In der heutigen Zeit spielt die Einbindung von internetbasierten Testverfahren in die Hörforschung eine wichtige Rolle. Die Möglichkeit, Proband_innen zuhause in ihrer alltäglichen Umgebung zu erreichen, zeichnet sich zunehmend als geeignete Erweiterung von klassischen Labormessungen ab. Jedoch sind Messumgebungen und Equipment individuell und weder vollständig dokumentierbar noch kontrollierbar. Hieraus ergibt sich die Notwendigkeit, die Messumgebung und Aufnahmequalität möglichst unmittelbar zu bewerten, um einschätzen zu können, ob aus akustischer Sicht eine Messung möglich ist. In einer Online-Studie wurden Hintergrundgeräusche, Sprache und Klatschen zum einen in einer möglichst ruhigen Umgebung, zum anderen in einer geräuschvollen Umgebung aufgezeichnet. Diese Aufnahmen dienten als Testmaterial für referenzfreie, objektive Bewertungsmaße. Verglichen wurden objektive Bewertungsmaße aus der Literatur mit Messgrößen, die wenig Rechenleistung erfordern und eine echtzeitnahe Einschätzung ermöglichen. Die Ergebnisse zeigen, dass für eine zuverlässige Bewertung die Aufnahme ohne weitere Signalverarbeitungsalgorithmen erfolgen sollte. Mit den vorgestellten Methoden lassen sich bezüglich der Messumgebung Hintergrundgeräusche und Halligkeit bewerten sowie bezüglich der Aufnahmequalität Übersteuerungen detektieren.

Nowadays, conducting online measurements to reach participants at home plays an important role in hearing research. However, measurement environments and the recording devices vary individually and can neither be documented nor controlled. Hence, non-intrusive, i.e., without a reference signal, low-complex quality measures are needed to ensure a required level of recording quality. In an online study, background sounds, speech and handclaps were recorded. The task was performed in an environment as quiet as possible and an artificially noisy environment. These recordings were analyzed with regard to the degrading factors clipping, background level, and reverberation and were used to develop low-complex quality measures to estimate the level of the degrading factors. It is recommended to record the signal without signal processing to achieve reliable assessments. The developed non-intrusive quality measures are capable of assessing the audio quality and environment.

Entwicklung eines Wohlklangindex für Kaffeevollautomaten mithilfe von Onlineumfragen
Lennard Quebe

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Martin Hansen und Dipl.-Ing. Johannes Epha
Eingereicht am 3. April 2022

Individuelle Präferenzen von Personen mit und ohne Hörbeeinträchtigungen bei der Selbstanpassung von Sprache im Störgeräusch unter dem Einfluss von Verzerrungen
Tobias Danneleit

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Inga Holube und Jonathan Gößwein, M.Sc. (Fraunhofer Institut für Digitale Medientechnologie IDMT, Institutsteil Hör-, Sprach- und Audiotechnologie HSA, Oldenburg)
Eingereicht am 21. März 2022

Störgeräuschbefreiungsalgorithmen können die Sprache in einer geräuschvollen Umgebung vom Störgeräusch befreien. Andererseits mögen sie das Sprachsignal auch beschädigen, was zu unerwünschten Verzerrungen des Sprachsignals führen kann. Aus der Literatur geht hervor, dass es hierfür interindividuelle Präferenzen in Form von Persönlichkeitsmerkmalen gibt. Anhand eines Selbstanpassungsverfahrens wurden mit 20 Probanden (14 normalhörend, 6 schwerhörend) die individuellen Präferenzen von Sprachverstehen im Störgeräusch unter dem Einfluss von Verzerrungen untersucht. Dafür stellten die Probanden mehrere Schieberegler (SR) zur Adjustierung des Signal-Rausch-Abstandes (engl. signal-to-noise ratio, SNR) und des Grades der Verzerrungen nacheinander ein. Für die Bestimmung der Bereiche der SR wurden die verwendeten Stimuli mithilfe des PEMO-Q-Modells und der ISO 532-2:2017 (E) vor dem Experiment evaluiert. Auf Schieberegler 1 (SR1) sollten die Probanden den SNR so einstellen, dass die Hörsituation für sie wenig anstrengend war. Entlang Schieberegler 2 (SR2; gleicher SNR-Bereich wie SR1) und Schieberegler 3 (SR3; adaptiver SNR-Bereich bez. SR1) wurde mit dem SNR gleichzeitig der Grad der Verzerrung des Sprachsignals verändert. Indem der SNR erhöht wurde, nahmen auch die Verzerrungen zu. Aus den Differenzen aus SR1 – SR2 bzw. SR1 – SR3 wurden Rückschlüsse auf Persönlichkeitsmerkmale gezogen. Eine große, positive Differenz deutet auf einen „Distortion Hater“ hin, der Verzerrungen vermeiden möchte. Eine kleine oder gar keine Differenz deutet hingegen auf einen „Noise Hater“ hin, der Verzerrungen akzeptiert, um möglichst wenig Störgeräusch wahrnehmen zu müssen. Zusätzlich wurde die Höranstrengung nicht-adaptiv mit einer Methode der kategorialen Skalierung über dem SNR, dem Grad der Verzerrungen von Sprache und der Kombination aus beidem gemessen. Die Ergebnisse zeigten, dass es Probanden anhand der gewählten Methode der Selbstanpassung möglich war, ihre präferierte Einstellung zu finden. Aus den Ergebnissen ließen sich sowohl „Distortion Haters“ als auch „Noise Haters“ klassifizieren. Für die Messungen der Höranstrengung zeigte sich ein absinkender Kurvenverlauf der Höranstrengung gegen den SNR, ein ansteigender Kurvenverlauf mit zunehmendem Grad an Verzerrungen der Sprache ohne Störgeräusch und ein V-förmiger Ver-lauf mit einem Minimum der Höranstrengung über der Kombination aus beiden Szenarien.

Noise reduction algorithms may provide a good way to improve the listening situation for the listener in a noisy environment but could also damage the speech signal. By doing so, they may introduce distortions to the speech signal. It can be assumed that there are personal traits in listeners regarding listening preferences for speech-in-noise scenarios with distortions present as well. In a self-adjusted task with 20 subjects (14 with normal-hearing, 6 hearing-impaired) personal traits were investigated by using sliders (SR) on a graphical user interface (GUI) to adjust their individually preferred setting of the signal-to-noise ratio (SNR), in some cases at the cost of distortions applied to the speech signal. To evaluate the stimuli a model for audio quality assessment (PEMO-Q) and a loudness model (ISO 532-2:2017 (E)) were used. In slider 1 (SR1) the subjects were instructed to adjust the SNR to the point where they felt very little listening effort. Whilst adjusting on slider 2 (SR2; equal SNR range as SR1) and slider 3 (SR3; adaptive SNR range depending on SR1), more distortions were applied to the speech signal when subjects would increase their SNR of choice. From the SNR differences between SR1 – SR2 and SR1 – SR3 conclusions on the personal traits could be drawn: a rather large, positive difference indicating “distortion haters”, who tried to avoid distortions, and “noise haters”, who tried to avoid listening to noise and accept distortions for that purpose. In addition, listening effort (LE) was measured non-adaptively by using a categorical scale for the subjects to evaluate the stimuli in different scenarios: SNR, speech in quiet with varying amounts of distortions applied, and a combination of both. The results show that characterizing “distortion haters” and “noise haters” was possible by using the self-adjustment method. For the LE measurements results indicate a decrease of LE with increasing SNR, an increase of LE with the increasing number of distortions applied to the speech signal, and a V-shaped course of the LE curve for the combination of both scenarios.

Evaluation smarter Gehörschutztechnologien zur Verbesserung der Sprachwahrnehmung
Helen Wolf

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Inga Holube und Dr. Axel Winneke (Fraunhofer IDMT, Institutsteil Hör-, Sprach- und Audiotechnologie)
Eingereicht am 18. März 2022

Gehörschutzsysteme sollen der Entstehung von Gehörschäden durch Einwirkung von Lärm vorbeugen. Ein Nachteil ist, dass beim Tragen von Gehörschützern die Sprachwahrnehmung aufgrund der Dämpfungswirkung der Gehörschützer erschwert wird. Somit bleiben zum einen wichtige Signale ungehört und zum anderen wird die Kommunikation miteinander behindert. In einer Studie, welche im Rahmen der anzufertigenden Bachelorarbeit durchgeführt wurde, wurden Algorithmen der blinden Quellentrennung, die in ein Forschungsgehörschutzsystem implementiert wurden und die Sprachwahrnehmung durch die Hervorhebung von Sprachanteilen verbessern sollen, untersucht. Dabei wurde die Sprachwahrnehmung beim Tragen des entwickelten Systems im Vergleich zu einem aktiven, auf dem Markt erhältlichen Gehörschutz getestet. Die Evaluation wurde mit 20 normalhörenden, deutschsprachigen Proband_innen im Alter von 20 bis 31 Jahren durchgeführt, wobei die Zielgrößen Sprachverständlichkeit, empfundene Höranstrengung und die Anforderung an das Arbeitsgedächtnis in drei industriellen Störgeräuschen mit unterschiedlichen Spektren und Zeitstrukturen erfasst wurden. Neben der Erfassung von Verhaltensdaten (Reaktionszeit und Antwortgenauigkeit) dienten EEG-Messungen zur Beurteilung der Arbeitsgedächtnisbelastung. Sprache und Störgeräusche wurden aus einem Lautsprecher in einer Hörkabine dargeboten. Die Sprachverständlichkeitsmessung wurde adaptiv mit dem Oldenburger Satztest durchgeführt, während die Höranstrengung bei konstanten SNR-Werten subjektiv anhand einer Kategorialskala bewertet wurde. Des Weiteren wurde ein n-back-Task durchgeführt, mit dem der Effekt der Gehörschutzsysteme auf die Arbeitsgedächtnisbelastung in lauten Industrieumgebungen untersucht wurde. Es wurden keine Verbesserungen der Sprachwahrnehmung mit dem Forschungsgehörschutz mit implementierter Quellentrennung festgestellt. Der Grund dafür war ein durch die verzögerte Signalverarbeitung auftretender Echoeffekt, der besonders bei hohen Sprachpegeln wahrgenommen wurde. Trotzdem deuten die Ergebnisse auf das Potenzial blinder Quellentrennung zur Verbesserung der Sprach-wahrnehmung beim Tragen von Gehörschützern hin. Auch ergaben die Messungen einen Einfluss des Störgeräuschtyps auf die erfassten Zielgrößen.

The aim of hearing protecting devices is the prevention of noise-induced hearing losses. Using hearing protectors may be disadvantageous in certain situations as the perception of speech is hindered by high damping effects of the hearing protectors themselves. Therefore, important signals are not recognized anymore and the communication with each other becomes more difficult. In a study conducted for the in-progress bachelor thesis, algorithms of blind source separation were evaluated. They were implemented in a hearing protecting system for research focusing the improvement of speech perception by the accentuation of speech signals. The system was then compared to another active hearing protector which is available on the market. The evaluation was done with 20 normal hearing participants whose mother tongue was German and who were between 20 and 31 years old. Recorded were the target variables speech recognition, subjective listening effort and working memory load in three maskers having different time and frequency spectrums. In addition to the recording of behavioural data (reaction times and response accuracy), EEG-measurements were performed. Speech perception was determined by adaptive measures of Oldenburg sentence test (german: Oldenburger Satztest), while listening effort was rated on a categorical scale using constant signal-to-noise ratios. Furthermore, an n-back task was per-formed in which the impact of the hearing protectors on working memory load in loud industry noises was investigated. No improvements in speech perception using the research hearing protector were found. This was reasoned by an echo effect which was caused by a delayed signal processing and was perceived especially in high speech levels. Nevertheless, the results suggest that the algorithm of blind source separation can improve speech perception when hearing protectors are used. Additionally, the measurements showed that the type of noise signal influences the recorded target variables.

Einsatz eines Reimtestverfahrens zur Ermittlung der Sprachverständlichkeit bei Cochlea-Implantat-Nutzern
Vanessa Mazur

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Inga Holube und Prof. Dr. Uwe Baumann, Klinikum der J.W. Goethe-Universität, Frankfurt/Main
Eingereicht am 16. März 2022

Die Qualität der Einstellung des Prozessors zur Ansteuerung von Cochlea-Implantat-(CI)-Systemen wird in der Regel mit Sprachtestverfahren überprüft. Beispielsweise bei Einsatz des Freiburger Sprachtests bleibt hierbei unklar, welche Parameter der Einstellung des Prozessors für eine Verbesserung der Verständlichkeit von einsilbigen Prüfwörtern verändert werden sollten. In einer ersten Studie wurde das Phonemverstehen bei CI-Trägern (13 unilateral, fünf bilateral versorgt) getestet. Als Sprachmaterial wurde das Reimtestverfahren nach Sotscheck (1982) gewählt. Die Prüfwörter wurden über einen Freifeldlautsprecher in einer schallisolierten Hörprüfkabine dargeboten. Als Ergebnis zeigte sich, dass ein größeres Vokal- als Konsonantenverstehen vorhanden war. In einer zweiten Studie wurde untersucht, ob Veränderungen der CI-Einstellung Auswirkungen auf die Ergebnisse des Reimtests nach Sotscheck haben und welcher der betrachteten Parameter am meisten verändert wurde. Es nahmen zehn unilateral und drei bilateral versorgte Patienten (Altersdurchschnitt: 60,6 Jahre) aus dem Routinebetrieb teil. Es zeigte sich eine Tendenz der Verbesserung des Phonemverstehens bei größerer Einstellungsänderung. Es fiel auf, dass die T-Level in der Anpassung mehr verändert wurden als die C-Level und somit einen Einfluss auf das Phonemverstehen haben.

The quality of the processor setting for the control of cochlear implant (CI) systems is usually checked with speech test procedures. For example, when using the Freiburg speech test, it remains unclear, which parameters of the processor setting should be changed to improve the recognition of monosyllabic test words. In a first study phoneme recognition in CI users (13 unilaterally, five bilaterally fitted) was tested. The rhyme test procedure according to Sotscheck (1982) was chosen as speech material. It was presented via a free-field loudspeaker in a sound-insulated listening booth. The result of the test was a better recognition of vowels than consonants. A second study was conducted to find out which changes in CI settings had an effect on the results of the Sotscheck rhyme test and which of the parameters considered have mostly changed. Ten unilaterally and three bilaterally fitted patients (age average: 60.6 years) from routine surveillance were participating. There was a tendency of improvement in phoneme recognition with higher changes in settings. It was recognized that the T-levels have changed more than the C-levels in the adjustment, thus having an effect on phoneme recognition.

Weiterentwicklung eines Spracherkennungsalgorithmus für einen geringen Wortschatz und dessen Evaluation
Jordan Alwon

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Jörg Bitzer und Christian Rollwage M.Sc.
Eingereicht am 9. März 2022

Für die Steuerung moderner Geräte über die Stimme ist die Spracherkennung eine Schlüsseltechnik, welche es ermöglicht intelligente Geräte wie Smartphones oder Smart Speaker kontaktlos zu steuern. Zu dieser Spracherkennung zählen auch solche mit geringem Wortschatz, welche sich durch die Detektion bestimmter Wörter oder Phrasen für die Aktivierung des Gerätes nutzen lassen. Mit steigender Popularität von Geräten mit Sprachsteuerung steigt auch das Bedürfnis solche Geräte zu personalisieren. Parnami und Lee (2020) stellten ein System vor, welches es ermöglicht Schlüsselwörter mit nur wenig Aufwand auszutauschen. Dieses System könnte ermöglichen Schlüsselworterkenner durch den Nutzer anzupassen. Diese Arbeit behandelt die Evaluation und Weiterentwicklung des Spracherkennungsalgorithmus von Parnami und Lee. Dabei wird gezeigt, dass der Schlüsselworterkenner gut zwischen Schlüsselwörtern unterscheiden kann, jedoch ein Defizit in der Klassifikation von unbekannten Signalen aufweist. Die daraus resultierende hohe Falsch-Negativ-Rate lässt darauf schließen, dass der Algorithmus nicht für die Sprachsteuerung geeignet ist. Mit der Weiterentwicklung der Vorhersagemethode wird gezeigt, dass eine Klassifikation von unbekannten Wörtern auch ohne eine vorherige Definition dieser durchgeführt werden kann.

Speech recognition is a key technology for device control via voice. It enables handless control of smart devices such as smartphones or smart speakers. This speech recognition also includes those with a small vocabulary, which can be used to activate the device by detecting certain words or phrases. With the increasing popularity of devices with voice control, the desire to personalize such devices also increases. Parnami und Lee (2020) presented a system that makes it possible to exchange keywords with little effort. This system could allow users to customize the keyword recognizers. This work deals with the evaluation and further development of the speech recognition algorithm by Parnami and Lee. It is shown that the keyword recognizer is good at distinguishing between keywords, but has a deficit in the classification of unknown signals. The resulting high false-negative rate suggests that the algorithm is not suitable for voice control. With the further development of the prediction method, it is shown that a classification of unknown words can also be carried out without a prior definition of them.

Einfluss der Insertionstiefe auf die Frequenzwahrnehmung von Cochlea-Implantat-Tragenden
Nathalie Wilken

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Inga Holube und Dr. Jana Müller (Evangelisches Krankenhaus Oldenburg)
Eingereicht am 26. Februar 2022

Cochlea-Implantat-Tragende (CI-Tragende) besitzen im Vergleich zu normalhörenden Menschen eine veränderte Frequenzwahrnehmung. Im Rahmen dieser Bachelorarbeit wurde untersucht, inwieweit die Insertionstiefe des Elektrodenträgers die Frequenzwahrnehmung von CI-Tragenden beeinflusst. Dabei stand der Vergleich der beiden CI-Hersteller MED-EL und Cochlear im Vordergrund, da MED-EL mit einem längeren Elektrodenträger wirbt. Die Versuchspersonen (VPn) bestanden aus einseitig ertaubten CI-Tragenden mit einem maximal mittelschweren Hörverlust im relevanten Frequenzbereich auf dem Gegenohr, damit ein Frequenzvergleich zwischen dem nicht-implantierten und dem implantierten Ohr erfolgen kann. Um die Frequenz des tiefsten wahrnehmbaren Klanges der VPn zu bestimmen, wurde ein Messverfahren aus vorangegangener Literatur ausgewählt. Die VPn konnten mithilfe eines Drehreglers die Frequenz des akustisch dargebotenen Tones steuern und auf die Frequenz des CIs anpassen, sodass sich eine Matching-Frequenz ergab. Für ein aussagekräftiges Ergebnis wurden 15 VPn mit einem Implantat des Herstellers MED-EL und 15 VPn mit einem Implantat von Cochlear gemessen. Die MED-EL-VPn erreichten signifikant tiefere Matching-Frequenzen als die Cochlear-VPn. Dies wird auf die signifikant größere Insertionstiefe der MED-EL-Elektrodenträger zurückgeführt. Ein Zusammenhang zwischen der Matching-Frequenz und der Ertaubungs- oder Implantationsdauer wurde nicht gefunden.

Cochlear implant users (CI users) have an altered frequency perception compared to normal hearing people. This bachelor thesis investigated to what extent the insertion depth of the electrode array influences the frequency perception of CI users. The focus was on the comparison of the two CI manufacturers MED-EL and Cochlear, since MED-EL advertises a longer electrode array. The subjects (VPn) consisted of unilaterally deafened CI users with a maximum moderately severe hearing loss in the relevant frequency range on the opposite ear, so that a frequency comparison between the non-implanted and the implanted ear can be made. To determine the frequency of the lowest perceptible sound of the VPn, a measurement procedure was selected from previous literature. The VPn were able to use a rotary control to control the frequency of the acoustically presented sound and match it to the frequency of the CI, resulting in a matching frequency. For a meaningful result, 15 VPn were measured with an implant from the manufacturer MED-EL and 15 VPn with an implant from Cochlear. The MED-EL VPn achieved significantly lower matching frequencies than the cochlear VPn. This is attributed to the significantly greater insertion depth of MED-EL electrode arrays. A correlation between matching frequency and deafness or implantation duration was not found.

Sprachverstehen im Fernsehen – Evaluation von Technologien zur Verringerung der Höranstrengung von Personen mit Hörbeeinträchtigung
Julia Thomas

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Inga Holube und Dr. Jan Rennies-Hochmuth (Fraunhofer Institut für Digitale Medientechnologie IDMT Institutsteil Hör-, Sprach- und Audiotechnologie HSA, Oldenburg)
Eingereicht am 22. Februar 2022

Das Verstehen von Dialogen in Film und Fernsehen ist für Menschen mit Hörminderung eine große Herausforderung. In dieser Untersuchung wurden daher Technologien analysiert, die auf eine Verringerung der Höranstrengung abzielen und bereits für normalhörende Menschen eine signifikante Verbesserung erreicht hatten. Als Stimuli dienten Audioaufnahmen von Sendungen verschiedener öffentlich-rechtlicher Sender. Die Signale wurden mit Algorithmen zur blinden Quellentrennung, die den Dialog von den Hintergrundgeräuschen trennen, bezüglich des Signal-Rausch-Verhältnisses (engl. Signal-to-Noise Ratio, SNR) modifiziert. Dabei wurden unterschiedliche Arten der Signalmanipulation durchgeführt. Diese beinhalteten eine adaptive Absenkung des Hintergrunds, die durch die Vorhersage eines Modells gesteuert wurde und nur dann in das Originalsignal eingriff, wenn die Höranstrengung zu hoch war. Dadurch wurde die ursprüngliche Klanggestaltung so wenig wie möglich beeinflusst. Da neben der Höranstrengung für Anwendungen im Bereich der Fernsehsignale auch die Sprach- und Klangqualität von sehr großer Bedeutung ist, umfasste die Evaluation die Bewertung dieser Größen mittels einer an das MUSHRA-Verfahren angelehnten Methodik bei Personen mit Hörbeeinträchtigung. Instrumentelle Maße für Audioqualität und Höranstrengung dienten dabei zum einen zur Auswahl von Audioausschnitten, die eine starke Veränderung der Audioqualität bzw. der Höranstrengung durch die Algorithmen erwarten ließen. Zum anderen wurden die verarbeiteten Audiosignale auch mit den Maßen bewertet, um die modellbasierte Vorhersagbarkeit der Ergebnisse zu analysieren. Die Auswertungen der modellgestützten Studien zeigten, dass die Ergebnisse des PEMO-Q-Modells vom SNR der Signale abhängig sind. Zudem wurde deutlich, dass die Messdaten der Höranstrengung normalhörender Personen durch das LEAP-Modell gut abbildet werden können. Bezüglich der Audioqualität, die über das PEMO-Q-Modell ermittelt wurde, ist dies z. T. jedoch nicht der Fall. Die Probandenstudie mit Personen mit Hörminderung bestätigte die Möglichkeit zur Verringerung der Höranstrengung durch die Nutzung entsprechender Algorithmen. Allerdings muss der Eingriff in das Signal zu den Präferenzen der Probanden passen sowie von ausreichender Größe sein. Anderenfalls nehmen die Personen keine Verbesserung des Signals wahr oder bevorzugen das Originalsignal. Außerdem zeigte der geschätzte SNR der selbsteingestellten Mischungsverhältnisse große interindividuelle Abweichungen. Dies deutet darauf hin, dass die Möglichkeit zur individuellen Einstellung des SNRs intensiv genutzt wurde und somit von Interesse war.

Understanding dialogues in movies and television is a major challenge for hearing-impaired people. This thesis analyzed technologies that aim to reduce listening effort, which had already been shown to provide a significant improvement for normal-hearing people. The stimuli were audio recordings of different public TV broadcasters’ programs. The signals were modified with respect to the signal-to-noise ratio (SNR) using algorithms for blind source separation, which separated dialog from background noise. Different types of signal manipulation were performed. These included adaptive attenuation of the background level. This process was controlled by model prediction and only intervened in the original signal in case the listening effort was rated too high. In this way, the original sound design was affected as little as possible. Since, in addition to listening effort, speech quality and sound quality are also very important in the context of TV broadcast signals, the evaluation of hearing-impaired people included an assessment of all these variables using a method based on the MUSHRA procedure. On the one hand, instrumental measures of audio quality and listening effort were used to select audio excerpts that were expected to show a clear change in audio quality or listening effort resulting from the algorithms. On the other hand, the processed audio signals were also evaluated with these measures to analyze the model-based predictability of the results. The evaluations of the model-based study showed that the results of the PEMO-Q model depend on the SNR of the signals. In addition, it became clear that the outcomes regarding the listening effort of normal-hearing subjects could be well predicted by the LEAP model. However, this was not always the case with respect to audio quality, which was determined using the PEMO-Q model. The experimental study with hearing-impaired individuals confirmed the possibility of reducing the listening effort by using appropriate algorithms. However, the intervention in the signal must match the subjects’ preferences as well as be of sufficient magnitude. Otherwise, subjects do not perceive any improvements or prefer the original signal. In addition, the estimated SNR of the self-adjusted signal showed large interindividual deviations. This indicates that the opportunity to individually adjust the SNR was intensively used, which implies that it was of interest.

Entwicklung und Evaluation eines neuronalen Netzes zur objektiven Bestimmung der Höranstrengung
Daniel-José Alcala Padilla

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Jörg Bitzer und Christian Rollwage M.Sc.
Eingereicht am 15. Februar 2022

Ziel dieser Arbeit ist die Entwicklung eines neuronalen Netzes zur objektiven Bestimmung der Höranstrengung. Dieses wird auf die Bewertungen eines bereits bestehenden Systems (LEMaß) hin trainiert, um dieselben Bewertungen mit dem neuronalen Netz bei einer niedrigeren Latenz erzeugen zu können. Im Training werden ca. 1000 Stunden deutschsprachige Daten verwendet, denen unter anderem Hall und Störgeräusche beigemischt sind. Das neuronale Netz arbeitet primär mit time-channel separated convolutions, die eine vergleichsweise niedrige Anzahl an Netzparametern erfordern. Somit ist es günstiger bzgl. der benötigten Rechenleistung und zeitlich effizienter als vergleichbare Netzstrukturen. Mit deutscher Sprache werden insgesamt akzeptable Ergebnisse erreicht. Die Korrelation zum LE-Maß beträgt zwischen 0,85 und 0,9. Zu von Probanden getätigten Bewertungen der Höranstrengung wird im Mittel eine Korrelation zwischen 0,76 und 0,85 erreicht. Aus einer Evaluation mit englischsprachigen Daten ließen sich keine eindeutigen Schlüsse ziehen, da sie auf fehlerhaft erzeugten Labels beruht. Es wird von einer ausreichenden Verkürzung der Latenz ausgegangen, obwohl hierzu keine Messung erfolgt. Vorschläge zur weiteren Verbesserung der Latenz sowie der Performance des Netzes liegen vor.

The goal of this work is the development of a neural network for objective predictions of listening effort. The network is trained on outputs of an existing system for predicting listeing effort (LEMaß). The goal of thiswork is to attain a neural network of similar performance and reduced latency compared to LE-Maß. Training occurs using roughly 1000 hours of german speech, augmented with noise and reverb. The proposed network is mainly comprised of time-channel separated convolutions, which allow for a low number of parameters. Therefore inference is computationally less expensive and less time-consuming when compared to similar models. Performance with german speech is overall satisfactory. Concerning LE-Maß, the network yields a correlation of 0,85 to 0,9. Mean scores and subject ratings correlate at 0,76 to 0,85. A secondary evaluation using english speech fails due to invalid labels. Improvements in latency are not measured but are expected to suffice concerning the intended purpose of the model. Recommendations for further improving both latency and overall performance are given.

Vergleich von Methoden zur experimentellen Bestimmung des objektiven Okklusionseffekts am Beispiel eines offenen Im-Ohr-Hörsystems
Nele Hauenschild

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Matthias Blau und Prof. Dr. Inga Holube
Eingereicht am 15. Februar 2022

Das Verschließen des Gehörgangs durch Ohrpassstücke von Hörsystemen u. ä. führt zum Okklusionseffekt, der für die Nutzerinnen des Ohrpasstücks ein unangenehmes Gefühl verursachen kann. Im Rahmen des Teilprojektes C1 des Sonderforschungsbereichs 1330 „HAPPAA“ werden mit Hilfe eines akustisch transparenten Im-Ohr-Hörsystems neue elektroakustische Modelle und Algorithmen der Signalverarbeitung, z. B. zur Reduktion des Okklusionseffektes, entwickelt. Basierend auf den Ergebnissen aus 20 Probandinnen-Messungen des individuellen Okklusionseffektes des o. g. Hörsystems werden in der vorliegenden Bachelorarbeit die simultane und die sukzedane Messmethode zur Erhebung eben dieses miteinander verglichen. Die Anregung erfolgte durch eigene Sprache. Zur Auswertung dieser Messungen werden sowohl Leistungsdichtespektren als auch Übertragungsfunktionen am Trommelfell zwischen offenem und verschlossenem Zustand und zwischen dem inneren und äußeren Mikrofon des Im-Ohr-Hörsystems herangezogen. Es wird gezeigt, dass die Verwendung von simultaner und sukzedaner Messmethode durchaus vergleichbare Ergebnisse erzielt.

Occluding the ear canal by using earpieces leads to an occlusion effect, which leaves the users with an uncomfortable feeling. In the C1 project of the Collaborative Research Center 1330 „HAPPA“ new electroacoustic models and algorithms are being developed with the help of an acoustically transparent earpiece, e.g. to reduce the occlusion effect. Based on the findings from an experiment on the individual occlusion effect of this earpiece with 20 subjects, in this Bachelor’s thesis the simultaneous and the successive methods for measuring the occlusion effect are compared. For stimulation the subjects’ own voice was used. To evaluate the findings, the Power-Spectral-Densities as well as the transferfunctions at the eardrum are being compared between open and occluded ear and between inner and outer microphone of the earpiece. It is shown that using the simultaneous and the successive method can lead to similar conclusions.

Evaluierung und Optimierung von Verfahren zur Erkennung von Folgetonhörnern unter Berücksichtigung der Komplexität und Vorhersagbarkeit der Algorithmen
David-Benjamin Groß-Vondrlik

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Jörg Bitzer und Moritz Brandes M.Sc.
Eingereicht am 10. Februar 2022

Evaluation von Gehörgangsmikrofonen für automatische Spracherkennung in lauten Umgebungen
Merle Meyer

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Jörg Bitzer und Matthias Stennes M.Sc.
Eingereicht am 9. Februar 2022

Lärm ist Bestandteil vieler heutiger Arbeitsplätze, gerade in Branchen der Industrie und Produktion. Dies ermöglicht nur eine stark eingeschränkte verbale Kommunnikation zwischen Mitarbeitern. Durch die Verwendung typischer Gehörschütze wird das Gehör des Trägers vor möglicher lärmbedingter Schädigung geschützt, indem das Ohr verschlossen wird. Dies führt zum Erliegen jeglicher verbaler Kommunnikation. Eine Lösung bietet ein intelligenter Gehöschutz, ausgestattet mit Mikrofonen sowohl an der äußeren Oberfläche, als auch im Gehörgang des Trägers, zur Aufnahme von Eigensprache. Diese kann über Funk an Mitarbeiter geschickt werden. Zugleich ermöglicht dies eine sprachgesteuerte Bedienung von Maschienen und Anlagen. Ein Vergleich der Außenund Gehörgangsmikrofonierung zeigt einen deutlichen Vorteil des Gehörgangsmikrofons für die Spracherkennung in Situationen mit externem Störgeräusch. Der Vergleich wurde auf einem Datenset mit den Texten „Nordwind und Sonne“, sowie „Die Natur“, mit einem allgemeinen Modell eines Spracherkenners durchgeführt. Als Bewertungsgrundlage wurde die Word-Error- Rate verwendet. Abschließend wurde die Evaluation an einem anwendungsnahen Beispiel und einem auf das Vokabular angepassten Language Modell wiederholt. Die Ergebnisse bestätigen den Nutzen der Gehörgangsmikrofonierung.

Noise is an inevitable part of many of the today’s workplaces, especially in fields of industry and production. This allows only limited verbal communication betweeen employees. Typical hearing protectors prevent noise-induced hearing damage by occluding the ear. This leads to the elimination of all verbal communication. A solution is offered by smart hearing protectors, equipped with microphones both outside and inside of the occluded ear canal for recording the own voice of the person wearing the device. The audiodata can then be send to coworkers via wireless. At the same time this offers a possibility for voice-controlled operation of machines and systems. A comparison of the microphones inside and outside of the occluded ear canal shows a clear advantage of the microphone in the ear canal for automatic speech recognition in situations where external noise is present. The comparison was carried out on a data set containing the texts enquoteNordwind und Sonne, and „Die Natur“, with a general language model. The word-error-rate was used as indicator of performance. Finally, the evaluation was repeated on an application-oriented example with a language model adapted to the vocabulary. The results confirmed the benefits of the ear canal microphone.

Zusammenhang zwischen Lautheitsskalierung und Freiburger Sprachtest bei Cochlea-Implantat-Patienten
Alina Kleinow

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Inga Holube und Dipl.-Ing. Tobias Oberhoffner (Klinik und Poliklinik für Hals-Nasen-Ohrenheilkunde, Kopf- und Halschirurgie „Otto Körner“, Universitätsmedizin Rostock)
Eingereicht am 17. Januar 2022

In dieser Studie wurde untersucht, ob ein Zusammenhang zwischen der kategorialen Lautheitsskalierung (KLS) und dem Freiburger Sprachtest, kurz Freiburger, vorlag. Für die Auswertung der Ergebnisse der KLS wurden die Lautheiten für 5 (=b „sehr leise“) bzw. 25 CU (=b „mittel“) und für den Freiburger (Freiburger Mehrsilbertest (FBM): Hörverlust für Zahlen (HVZ) und bei 65 dB SPL, Freiburger Einsilbertest (FBE): bei 50, 65, 80 dB SPL) betrachtet. Die Auswertung erfolgte zu den Zeitpunkten der Erstanpassung (EAP), einen Monat, drei Monate und sechs Monate nach EAP. Um einen möglichen Zusammenhang zu untersuchen, wurden die CI-Träger anhand eines präoperativ errechneten Hoppe-Scores in zwei Gruppen eingeteilt (Hoppe-Score erreicht (He) und Hoppe-Score nicht erreicht (Hne)). 26 der 33 CI Träger (78,8 %) überschritten ihren individuellen Hoppe-Score. Bei den Ergebnissen des Freiburgers schnitt die Gruppe He signifikant besser ab als die Gruppe Hne. Zusätzlich konnte die Gruppe He beim FBE bei 65 und 80 dB SPL signifikante Verbesserungen über der Zeit erzielen. Bei der Untersuchung auf einen möglichen Zusammenhang wurden keine signifikanten Unterschiede bei der Skalierung der KLS für 5 als auch für 25 CU zwischen den beiden Gruppen festgestellt. Diese Ergebnisse lassen keine Schlussfolgerung auf einen Zusammenhang zwischen der KLS und dem Freiburger zu.

This study investigated whether there was a correlation between the Categorical Loud-ness Scaling (KLS) and the Freiburg Speech Test. For the evaluation of the KLS results, the loudnesses for 5 („very quiet“) and 25 CU („medium“) and for the Freiburg Speech Test (Freiburg polysyllabels (FBM): hearing loss for numbers (HVZ) and at 65 dB SPL, Freiburg monosyllabels (FBE): at 50, 65, 80 dB SPL) were considered. The evaluation was done at the time of initial fitting (EAP), one month, three months, and six months after EAP. To investigate a possible correlation, the CI users were divided into two groups (Hoppe score achieved (He) and Hoppe score not achieved (Hne)) on the basis of a preoperatively calculated Hoppe score. 26 of the 33 CI users (78,8%) exceeded their individual Hoppe score. There was no significant difference between the two groups in the course of the individual frequencies for 5 and 25 CU. In the Freiburg results, the He group performed significantly better than the Hne group. In addition, for the FBE at 65 and 80 dB SPL, group He showed significant improvements over time. When tested for a possible relationship, no significant differences were found in loudness scaling for both 5 and 25 CU between the two groups. These results do not allow to draw a conclusion about a relationship between the KLS and the Freiburg Speech Test.

Vergleich von Messverfahren für die Dämpfung von Raumschallfeldern bei tiefen Frequenzen
Svenja Stops

Bachelorarbeit im Studiengang Hörtechnik und Audiologie
Betreut durch Prof. Dr. Matthias Blau und Dr.-Ing. Volker Wittstock (Physikalisch-Technische-Bundesanstalt Arbeitsgruppe 1.72 Angewandte Akustik)
Eingereicht am 14. Januar 2022

In dieser Bachelorarbeit wird das Problem der Messung von Dämpfung von Raumschallfeldern bei tiefen Frequenzen erörtert. Zur Ergänzung bestehender Messverfahren wird eine umsetzbare Messmethode entwickelt. Die Grundlage für die Nachhallzeitmessungen in dieser Arbeit bildet die DIN EN ISO 3382-2:2008. Alle Messungen finden in einem Modellraum im Maßstab 1:10 statt. Dadurch ist es möglich im hörbaren Frequenzbereich (50 Hz bis 1 kHz) zu arbeiten. Im Rahmen der Arbeit ist ein spezielles Messsignal entwickelt worden, das anders als die bekannten Signale für die Nachhallzeitmessung ohne Frequenzbandfilterung auskommt. Entsprechend dazu verwendet auch die selbst designte Analysesoftware keine Filterung. Im Vergleich mit den klassischen Methoden zur Dämpfungsmessung wird deutlich, dass für die Messung bei tiefen Frequenzen das Sinusabklingexperiment überzeugende Ergebnisse liefert.

In this bachelor thesis, the problem of measuring the damping of sound fields in rooms at low frequencies is discussed. In comparison with existing measurement methods, a practicable measurement method is being developed. The basis for the reverberation time measurements in this work is DIN EN ISO 3382-2:2008. All measurements take place in a model room on a scale of 1:10. This makes it possible to work in the audible frequency range (50 Hz to 1 kHz). As part of the work a special measurement signal was developed. Unlike the known signals for reverberation time measurement this one does not require frequency band filtering. Accordingly, the self-designed analysis software does not use any filtering. In comparison with the classical methods of damping measurement, it becomes clear that measuring the damping of low frequencies is possible due to the sinus-decay-experiment.