<h3>THESIS DEFENSE:  Multimodal and Deep Learning for Robust Speech Recognition</h3>


<p><b>Speaker:</b> Xue Feng</p>

<p><b>Speaker Affiliation:</b> MIT CSAIL</p>

<p><b>Host:</b> Jim Glass</p>

<p><b>Host Affiliation:</b> MIT CSAIL</p>
 
<p><b>Date:</b> Friday, August 25, 2017</p>

<p><b>Time:</b>  2:00 PM to 3:00 PM</p>


<p><b>Location:</b> 32-D463 (Stata Center - Star Conference Room)</p>

<p><p>Automatic speech recognition (ASR) decodes speech signals into text. While ASR can produce accurate word recognition in clean environments, system performance can degrade dramatically when noise and reverberation are present. In this thesis, speech denoising and model adaptation for robust speech recognition are studied, and four novel methods are introduced to improve ASR robustness. First, a robust ASR system using multi-channel information from microphone arrays is proposed. The second area of research investigated a speech feature denoising and dereverberation method via deep denoising autoencoders (DDA). The proposed framework learns a stochastic mapping from corrupted features to their clean counterparts. The third area of research developed a method to incorporate heterogeneous multi-modal data with a DNN-based acoustic model for a hybrid DNN-HMM ASR system. The final area of research explored the use of a low-dimensional environmentally-aware feature derived from the total acoustic variability space. Our evaluations demonstrate that ASR performance is significantly improved by adapting ASR systems with the proposed feature. The proposed feature also yields promising results on environment identification tasks.</p>

<p>Thesis Advisor:  Jim Glass
<br />Thesis Committee:  Regina Barzilay, Vivienne Sze, Victor Zue</p></p>

<p>Relevant URL: </p>

<p>For more information please contact: Marcia G. Davidson, 617-253-3049, <a href="mailto:marcia@csail.mit.edu">marcia@csail.mit.edu</a></p>