A bit more on the ability of adaptation of speech signals

Dora M. Ballesteros L.; Juan M. Moreno A.

doi:10.17533/udea.redin.15042

Autores/as

Dora M. Ballesteros L. Universidad Militar Nueva Granada https://orcid.org/0000-0003-3864-818X
Juan M. Moreno A. Universidad Politecnica de Catalunya

DOI:

https://doi.org/10.17533/udea.redin.15042

Palabras clave:

señales de voz, coeficientes wavelet, índice de similitud, habilidad de adaptación

Resumen

Las técnicas tradicionales de procesamiento digital de señal incluyen mejoramiento, fitrado, codificación, compresión e identificación. Recientemente ha sido presentada una nueva hipótesis de procesamiento de señal conocida como la habilidad de adaptación de las señales de voz, en la que una señal de voz (original) puede sonar similar a otra señal de voz (objetivo) si los coeficientes wavelet de la primera son re-ubicados. Esta hipótesis es verdadera si se cumplen unas condiciones que han sido definidas teóricamente. En este artÌculo presentamos la idea básica detrás de la hipótesis de adaptación y adicionalmente probamos la hipótesis en cuatro casos: señales de voz del mismo género e idioma, señales de voz del mismo género pero en diferente idioma, señales en el mismo idioma pero con diferente género, y finalmente, señales de voz que difieren tanto en el idioma como en el género. Una vez realizadas las pruebas, se estableció que la hipótesis de adaptación es válida incluso si el género (Femenino o Masculino) del hablante o el idioma del mensaje entre las dos señales (original y objetivo) no es el mismo.

|Resumen

= 349 veces | PDF

= 89 veces|

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Dora M. Ballesteros L., Universidad Militar Nueva Granada

Departamento de Ingeniería de Telecomunicación. Departamento de Ingeniería Electrónica, Universidad Politécnica de Cataluña.

Juan M. Moreno A., Universidad Politecnica de Catalunya

Departamento de Ingeniería Electrónica.

Citas

Y Hu, P. Loizou. “Speech enhancement based on wavelet thresholding the multitaper spectrum”. IEEE Transactions on Speech and Audio Processing. Vol. 12. 2004. pp. 59- 67. DOI: https://doi.org/10.1109/TSA.2003.819949

Y. Ghanbari, M. Karami. “A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets”. Speech Communication. Vol. 48. Issue 8. 2006. pp. 927-940. DOI: https://doi.org/10.1016/j.specom.2005.12.002

Yu Shao, C. Hong. “A Generalized Time-Frequency Subtraction Method for Robust Speech Enhancement Based on Wavelet Filter Banks Modeling of Human Auditory System”. IEEE Transactions on Systems, Man, and Cybernetics. Vol. 37. 2007. pp.877-889. DOI: https://doi.org/10.1109/TSMCB.2007.895365

S. Senapati, S. Chakroborty, G. Saha. “Speech enhancement by joint statistical characterization in the Log Gabor Wavelet domain”. Speech Communication. Vol. 50, 2008. pp. 504-518. DOI: https://doi.org/10.1016/j.specom.2008.03.004

M. Eshaghi, M. Karami. “Voice activity detection based on using wavelet packet”. Digital Signal Processing. Vol. 20. 2010. pp. 1102-1115. DOI: https://doi.org/10.1016/j.dsp.2009.11.008

C. Hsieh, E. Lai, Y. Wang. “Robust speech features based on wavelet transform with application to speaker identification”. IEEE Proceedings Vision, Image and Signal Processing. Vol. 149. 2002. pp. 108- 114. DOI: https://doi.org/10.1049/ip-vis:20020121

O. Farooq, S. Datta. “Wavelet-based denoising for robust feature extraction for speech recognition”. Electronics Letters. Vol.39. 2003. pp. 163-165. DOI: 10.1049/el:20030068 DOI: https://doi.org/10.1049/el:20030068

E. Avci, Z. Hakan Akpolat. “Speech recognition using a wavelet packet adaptive network based fuzzy inference system”. Expert Systems with Applications. Vol. 31. 2006. pp. 495-503. DOI: https://doi.org/10.1016/j.eswa.2005.09.058

J. Hung, H. Fan. “Subband Feature Statistics Normalization Techniques Based on a Discrete Wavelet Transform for Robust Speech Recognition”. IEEE Signal Processing Letters. Vol. 16. 2009. pp. 806-809. DOI: https://doi.org/10.1109/LSP.2009.2024113

S. Joseph, P. Babu. Speech compression using wavelet transform. International Conference on Recent Trends in Information Technology (ICRTIT). 2011. DOI: https://doi.org/10.1109/ICRTIT.2011.5972258

M. Osman, N. Al, H. Magboub, S. Alfandi. Speech compression using LPC and wavelet. Second International Conference on Computer Engineering and Technology (ICCET). 2010. DOI: https://doi.org/10.1109/ICCET.2010.5485348

Z. Dan, M. Shengqian. Speech Compression with Best Wavelet Packet Transform and SPIHT Algorithm. Second International Conference on Computer Modeling and Simulation. 2010.

R. Veldhuis, H. He. “Time-scale and pitch modifications of speech signals and resynthesis from the discrete short-time Fourier transform”. Speech Communication, Vol. 18. 1996. pp. 257-279. DOI: https://doi.org/10.1016/0167-6393(95)00044-5

D. Ballesteros, J. Moreno. “On the ability of adaptation of speech signals and data hiding”. Expert Systems with Applications. Vol. 39. 2012. pp. 12574-12579. DOI: https://doi.org/10.1016/j.eswa.2012.05.027

D. Ballesteros, J. Moreno. “Highly transparent steganography model of speech signals using Efficient Wavelet Masking”. Expert Systems with Applications. Vol. 39. 2012. pp. 9141-9149. DOI: https://doi.org/10.1016/j.eswa.2012.02.066

S. Mallat. Wavelets and Filters Banks. A wavelet tour of signal processing. 2nd Edition. Ed. Academic Press. Second Edition. 1999. pp. 255-264.

J. Benesty, C. Jingdong, H. Yiteng. “On the Importance of the Pearson Correlation Coefficient in Noise Reduction”. IEEE Transactions on Audio, Speech, and Language Processing. 2008. pp. 757-765. DOI: https://doi.org/10.1109/TASL.2008.919072

J. Benesty, C. Jingdong, H. Yiteng, I. Cohen. “Pearson Correlation Coefficient, in: Noise Reduction in Speech Processing”. Springer Topics in Signal Processing. Vol. 2. 2009. pp. 1-4. DOI: https://doi.org/10.1007/978-3-642-00296-0_5