Un poco más de la habilidad de adaptación de las señales de voz
DOI:
https://doi.org/10.17533/udea.redin.15042Palabras clave:
señales de voz, coeficientes wavelet, índice de similitud, habilidad de adaptaciónResumen
Las técnicas tradicionales de procesamiento digital de señal incluyen mejoramiento, fitrado, codificación, compresión e identificación. Recientemente ha sido presentada una nueva hipótesis de procesamiento de señal conocida como la habilidad de adaptación de las señales de voz, en la que una señal de voz (original) puede sonar similar a otra señal de voz (objetivo) si los coeficientes wavelet de la primera son re-ubicados. Esta hipótesis es verdadera si se cumplen unas condiciones que han sido definidas teóricamente. En este artÌculo presentamos la idea básica detrás de la hipótesis de adaptación y adicionalmente probamos la hipótesis en cuatro casos: señales de voz del mismo género e idioma, señales de voz del mismo género pero en diferente idioma, señales en el mismo idioma pero con diferente género, y finalmente, señales de voz que difieren tanto en el idioma como en el género. Una vez realizadas las pruebas, se estableció que la hipótesis de adaptación es válida incluso si el género (Femenino o Masculino) del hablante o el idioma del mensaje entre las dos señales (original y objetivo) no es el mismo.
Descargas
Citas
Y Hu, P. Loizou. “Speech enhancement based on wavelet thresholding the multitaper spectrum”. IEEE Transactions on Speech and Audio Processing. Vol. 12. 2004. pp. 59- 67. DOI: https://doi.org/10.1109/TSA.2003.819949
Y. Ghanbari, M. Karami. “A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets”. Speech Communication. Vol. 48. Issue 8. 2006. pp. 927-940. DOI: https://doi.org/10.1016/j.specom.2005.12.002
Yu Shao, C. Hong. “A Generalized Time-Frequency Subtraction Method for Robust Speech Enhancement Based on Wavelet Filter Banks Modeling of Human Auditory System”. IEEE Transactions on Systems, Man, and Cybernetics. Vol. 37. 2007. pp.877-889. DOI: https://doi.org/10.1109/TSMCB.2007.895365
S. Senapati, S. Chakroborty, G. Saha. “Speech enhancement by joint statistical characterization in the Log Gabor Wavelet domain”. Speech Communication. Vol. 50, 2008. pp. 504-518. DOI: https://doi.org/10.1016/j.specom.2008.03.004
M. Eshaghi, M. Karami. “Voice activity detection based on using wavelet packet”. Digital Signal Processing. Vol. 20. 2010. pp. 1102-1115. DOI: https://doi.org/10.1016/j.dsp.2009.11.008
C. Hsieh, E. Lai, Y. Wang. “Robust speech features based on wavelet transform with application to speaker identification”. IEEE Proceedings Vision, Image and Signal Processing. Vol. 149. 2002. pp. 108- 114. DOI: https://doi.org/10.1049/ip-vis:20020121
O. Farooq, S. Datta. “Wavelet-based denoising for robust feature extraction for speech recognition”. Electronics Letters. Vol.39. 2003. pp. 163-165. DOI: 10.1049/el:20030068 DOI: https://doi.org/10.1049/el:20030068
E. Avci, Z. Hakan Akpolat. “Speech recognition using a wavelet packet adaptive network based fuzzy inference system”. Expert Systems with Applications. Vol. 31. 2006. pp. 495-503. DOI: https://doi.org/10.1016/j.eswa.2005.09.058
J. Hung, H. Fan. “Subband Feature Statistics Normalization Techniques Based on a Discrete Wavelet Transform for Robust Speech Recognition”. IEEE Signal Processing Letters. Vol. 16. 2009. pp. 806-809. DOI: https://doi.org/10.1109/LSP.2009.2024113
S. Joseph, P. Babu. Speech compression using wavelet transform. International Conference on Recent Trends in Information Technology (ICRTIT). 2011. DOI: https://doi.org/10.1109/ICRTIT.2011.5972258
M. Osman, N. Al, H. Magboub, S. Alfandi. Speech compression using LPC and wavelet. Second International Conference on Computer Engineering and Technology (ICCET). 2010. DOI: https://doi.org/10.1109/ICCET.2010.5485348
Z. Dan, M. Shengqian. Speech Compression with Best Wavelet Packet Transform and SPIHT Algorithm. Second International Conference on Computer Modeling and Simulation. 2010.
R. Veldhuis, H. He. “Time-scale and pitch modifications of speech signals and resynthesis from the discrete short-time Fourier transform”. Speech Communication, Vol. 18. 1996. pp. 257-279. DOI: https://doi.org/10.1016/0167-6393(95)00044-5
D. Ballesteros, J. Moreno. “On the ability of adaptation of speech signals and data hiding”. Expert Systems with Applications. Vol. 39. 2012. pp. 12574-12579. DOI: https://doi.org/10.1016/j.eswa.2012.05.027
D. Ballesteros, J. Moreno. “Highly transparent steganography model of speech signals using Efficient Wavelet Masking”. Expert Systems with Applications. Vol. 39. 2012. pp. 9141-9149. DOI: https://doi.org/10.1016/j.eswa.2012.02.066
S. Mallat. Wavelets and Filters Banks. A wavelet tour of signal processing. 2nd Edition. Ed. Academic Press. Second Edition. 1999. pp. 255-264.
J. Benesty, C. Jingdong, H. Yiteng. “On the Importance of the Pearson Correlation Coefficient in Noise Reduction”. IEEE Transactions on Audio, Speech, and Language Processing. 2008. pp. 757-765. DOI: https://doi.org/10.1109/TASL.2008.919072
J. Benesty, C. Jingdong, H. Yiteng, I. Cohen. “Pearson Correlation Coefficient, in: Noise Reduction in Speech Processing”. Springer Topics in Signal Processing. Vol. 2. 2009. pp. 1-4. DOI: https://doi.org/10.1007/978-3-642-00296-0_5
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2018 Revista Facultad de Ingeniería

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Los artículos disponibles en la Revista Facultad de Ingeniería, Universidad de Antioquia están bajo la licencia Creative Commons Attribution BY-NC-SA 4.0.
Eres libre de:
Compartir — copiar y redistribuir el material en cualquier medio o formato
Adaptar : remezclar, transformar y construir sobre el material.
Bajo los siguientes términos:
Reconocimiento : debe otorgar el crédito correspondiente , proporcionar un enlace a la licencia e indicar si se realizaron cambios . Puede hacerlo de cualquier manera razonable, pero no de ninguna manera que sugiera que el licenciante lo respalda a usted o su uso.
No comercial : no puede utilizar el material con fines comerciales .
Compartir igual : si remezcla, transforma o construye a partir del material, debe distribuir sus contribuciones bajo la misma licencia que el original.
El material publicado por la revista puede ser distribuido, copiado y exhibido por terceros si se dan los respectivos créditos a la revista, sin ningún costo. No se puede obtener ningún beneficio comercial y las obras derivadas tienen que estar bajo los mismos términos de licencia que el trabajo original.