طراحی تخمین‌گر بیشینه درستنمایی در بهسازی گفتار مبتنی بر کتاب کد با نسبت سیگنال به نویز منفی

نوع مقاله : مقاله پژوهشی

نویسنده

پژوهشگاه ارتباطات و فناوری اطلاعات

چکیده

در این مقاله تخمین‌گر جدیدی برای بهسازی گفتار با روش سنتز مبتنی بر کتاب کد ارائه می‌شود. در روش بهسازی گفتار مبتنی بر کتاب کد، جداسازی نویز و گفتار از یکدیگر انجام شده و با انتخاب بهینه اندیس‌های کتاب کد گفتار، سیگنال گفتار بهسازی شده سنتز می‌شود. از این رو با این روش می‌توان گفتارهای نویزی، با نسبت سیگنال به نویز کمتر از صفر دسیبل را بهسازی نمود. البته در این روش انتخاب صحیح اندیس‌های کتاب کد بسیار مهم است. از این رو در این مقاله تخمین‌گر بیشینه درست‌نمایی با اعمال وزن‌های بهبود دهنده کیفیت شنیداری، برای گفتار و نویز طراحی می‌شود. رابطه به دست آمده برای این تخمین‌گر به عنوان تابع فاصله در طراحی کتاب‌های کد نیز استفاده می‌شود. این روش برای گوینده-های مختلف و نویزهای گوناگون شبیه‌سازی شد. نتایج نشان می‌دهد که گفتار بهسازی شده با استفاده از تخمین گر بیشینه درست نمایی با وزن‌های کیفیت شنیداری نسبت به تخمین‌گر فاصله اقلیدسی، کیفیت شنیداری بهتری دارد. همچنین روش ارائه شده در برخورد با نویزهای غیرایستان یا ایستان و نسبت سیگنال به نویز منفی(یا مثبت) موفق‌تر از روش‌های دیگر عمل می‌کند. هزینه بهسازی با کیفیت برتر در این روش، نیاز به زمان نسبتاً طولانی برای بهسازی است.

کلیدواژه‌ها


عنوان مقاله [English]

Designing Maximum Likelihood Estimator in the Codebook Based Speech Enhancement with Negative Signal to Noise Ratio

نویسنده [English]

  • Roghayeh Doost
ICT Research Institute of Iran, Tehran, Iran
چکیده [English]

This paper presents a new estimator for the speech enhancement using codebook. Codebook-based speech enhancement method separates the noise and speech from each other and synthesizes the enhanced speech signal by optimally selecting the speech codebook indexes. This method can enhance the noisy speech with signal to noise ratio of less than zero decibel. In this method it is very important to select the correct codebook indexes. Therefore, in this paper, the maximum likelihood estimator is proposed for speech and noise by applying auditory quality-enhancing weights. The relation of this estimator is also used as a distance function in the design of codebooks. This method is simulated for different speakers and noises. The results show the proposed maximum likelihood estimator leads to better speech enhancement than the euclidean distance estimator. The proposed method is also more successful in dealing with non-stationary or stationary noises and negative or positive SNRs than other methods. The cost of the superior quality enhancement in this method is the requirement to a relatively time-consuming signal processing.

کلیدواژه‌ها [English]

  • Speech Enhancement
  • Codebook
  • Signal to Noise Ratio
  • Speech Synthesis