# Instalación de bibliotecas para procesamiento de audio
## Adrián Arnaiz Rodríguez

**Elegiremos las bibliotecas mejores y que más nos ayudan a la extracción de características para el procsamiento de audio con el objetivo de la detección de la enfermedad del Parkinson a través de la voz. Se ha conseguido una instalación satisfactoria con Google Colaboratory y Python 3.6.7**

**De la recopilación de herramientas realizada en pasos anteriores hemos elegido las siguientes:**

In [9]:
!python --version

Python 3.6.7


## Praat - Parselmouth

Esta librería será utilizada para varias tareas:
- Quitar los silencios iniciales y finales de cada audio
- Dividir el audio en voiced sounds/unvoiced sounds
- Extraer medidas prosódicas fundamentales: medidas asociadas a jitter, shimmer, PPQ, $F$0,...
- HNR, NHR

In [1]:
pip install praat-parselmouth --upgrade

Collecting praat-parselmouth
  Using cached https://files.pythonhosted.org/packages/96/da/bde2a65f9eb1314e6f11a738d285374a30c390d1303dfdf6d021c3db0f2b/praat_parselmouth-0.3.2.post2-cp27-cp27mu-manylinux1_x86_64.whl
Installing collected packages: praat-parselmouth
  Found existing installation: praat-parselmouth 0.3.2
    Uninstalling praat-parselmouth-0.3.2:
      Successfully uninstalled praat-parselmouth-0.3.2
Successfully installed praat-parselmouth-0.3.2


In [1]:
import parselmouth
print(parselmouth.PRAAT_VERSION)
print(parselmouth.PRAAT_VERSION_DATE)
print("A 29/03/19 se ha instalado la versión 6.0.37 con release date 03/02/18")

6.0.37
3 February 2018
A 29/03/19 se ha instalado la versión 6.0.37 con release date 03/02/18


## Disvoice
#### Localización: https://github.com/jcvasquezc/DisVoice 
Módulo de python del grupo de investigadores que lidera **J. R. Orozco-Ayozave** y concretamente encontrado en el Github de **J. C. Vásquez-Correa**. Este módulo es el equivalente al *Erlagen Prosody Module* que se define en [1](#erlangenpm) y es utilizado en [2](#orozco16) para sacar las medidas prosódicas. Según se puede ver en su documentación, es el módulo que utiliza [3](#neurospeech) para su funcionamiento interno.
Esta librería será utilizada para varias tareas:
- Extraer las medidas prosódicas y sus estadísticos: basadas en la duración, energía y frecuencia fundamental.
- Extraer medidas de fonnación como jitter, shimmer, APQ, PPQ...
- Extraer MFCC, BBE, $F$1, $F$2 y medidas derivadas de estas

### Observaciones (IMPORTANTE)
Tras clonar el repositorio de DISVOICE, **hay que comentar líneas de código que utilicen Kaldi, ya que no lo usamos y nos ahorramos su instalación.** Por ejemplo: Disvoice/phonation/phonation.py lineas 71,316 y 330.
El entorno funciona bien utilizando Google Colaboratory (LINUX) y Python 3.6.7.
No en windows no funciona comando Praat. No en python 2 ya que Disvoice está codificado para Python 3.x.


#### Artículos:
[1](#erlangenpm) V. Zeibler, J. Adelhardt, A. Batliner, C. Frank, E. N€oth, R. Shi, and H. Niemann, “The prosody module,” in SmartKom: Foundations of Multimodal Dialogue Systems, Cognitive Technologies Series (Springer, Berlin, 2006), pp. 139–152 

[2](#orozco16) Orozco-Arroyave, J. R., Hönig, F., Arias-Londoño, J. D., Vargas-Bonilla, J. F., Daqrouq, K., Skodda, S., ... & Nöth, E. (2016). Automatic detection of Parkinson's disease in running speech spoken in three different languages. The Journal of the Acoustical Society of America, 139(1), 481-500.

**[3](#neurospeech) J. R. Orozco-Arroyave, J. C. Vásquez-Correa et al. "NeuroSpeech: An open-source software for Parkinson's speech analysis." Digital Signal Processing (2017).**

In [2]:
!git clone https://github.com/jcvasquezc/DisVoice

Cloning into 'DisVoice'...
remote: Enumerating objects: 336, done.[K
Receiving objects:   0% (1/336)   Receiving objects:   1% (4/336)   Receiving objects:   2% (7/336)   Receiving objects:   3% (11/336)   Receiving objects:   4% (14/336)   Receiving objects:   5% (17/336)   Receiving objects:   6% (21/336)   Receiving objects:   7% (24/336)   Receiving objects:   8% (27/336)   Receiving objects:   9% (31/336)   Receiving objects:  10% (34/336)   Receiving objects:  11% (37/336)   Receiving objects:  12% (41/336)   Receiving objects:  13% (44/336)   Receiving objects:  14% (48/336)   Receiving objects:  15% (51/336)   Receiving objects:  16% (54/336)   Receiving objects:  17% (58/336)   Receiving objects:  18% (61/336)   Receiving objects:  19% (64/336)   Receiving objects:  20% (68/336)   Receiving objects:  21% (71/336)   Receiving objects:  22% (74/336)   Receiving objects:  23% (78/336)   Receiving objects:  24% (81/336)   Receiving objects:  25% (84/336) 

In [3]:
!DisVoice/install.sh

Collecting pysptk
[?25l  Downloading https://files.pythonhosted.org/packages/af/f3/6962e72cb91913f5ae96077feb7cd8ad1342d3fc991ff3e4e8e253ef0302/pysptk-0.1.16.tar.gz (421kB)
[K    100% |████████████████████████████████| 430kB 12.2MB/s 
Building wheels for collected packages: pysptk
  Building wheel for pysptk (setup.py) ... [?25ldone
[?25h  Stored in directory: /root/.cache/pip/wheels/66/da/9f/bd9cd0b3a8887cd1129fac311750654437f71dd0f05c404fa6
Successfully built pysptk
Installing collected packages: pysptk
Successfully installed pysptk-0.1.16
Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following package was automatically installed and is no longer required:
  libnvidia-common-410
Use 'sudo apt autoremove' to remove it.
The following additional packages will be installed:
  libasound2-plugins libgail-common libgail18 libgtk2.0-0 libgtk2.0-bin
  libgtk2.0-common liborc-0.4-0 libpulsedsp libspeexdsp1 libtdb1
  libwebrtc-audio-proc

### Ejemplos de uso
Aquí mostramos como se ejecutan los scripts de este repositorio, cuyos resultados estarán en los ficheros .txt establecidos de salida

In [7]:
!cd DisVoice/phonation; pwd;dir2=$(pwd); python phonation.py $dir2"/001_a1_PCGITA.wav" "featuresAdyn.txt" "dynamic"

/content/DisVoice/phonation
Processing audio 1 from 1 /content/DisVoice/phonation/001_a1_PCGITA.wav
Jitter= 96
Shimmer 96
APQ 84
PPQ 90
DF0 95
DDF0 94
Energy 96
degree unvoiced 4.0


In [11]:
import os
os.system('cd DisVoice/phonation; pwd;dir2=$(pwd); python phonation.py $dir2"/001_a1_PCGITA.wav" "featuresAdyn.txt" "dynamic"')

0

In [12]:
!cd DisVoice/prosody; pwd;dir2=$(pwd); python prosody.py $dir2"/001_ddk1_PCGITA.wav" "featuresDDK.txt" "static"

/content/DisVoice/prosody
Processing audio 1 from 1 /content/DisVoice/prosody/001_ddk1_PCGITA.wav
[  0.        80.56113   80.63963   80.67595   80.87003   81.02154
  81.02322   81.845955  81.9138    82.001434  82.074036  82.107376
  82.15354   82.25918   82.26426   82.264275  82.264435  82.26457
  82.26484   82.272224  82.29845   82.31923   82.40165   82.69085
  82.82203   82.910614  82.94396   82.9459    82.94855   82.952805
  82.967995  83.013626  83.01604   83.042564  83.1169    83.11691
  83.11736   83.11821   83.15582   83.22661   83.23853   83.28817
  83.3151    83.33382   83.34818   83.436935  83.4389    83.44079
  83.5118    83.55467   83.56648   83.60366   83.67888   83.75379
  83.91766   84.271866  84.280624  84.29241   84.321304  84.38605
  84.43281   84.43467   84.44654   84.44698   84.47154   84.47659
  84.73026   84.9172    84.95975   85.308174  88.15486   88.39855
  88.406525  88.50748   88.59795   88.98744   89.0287    89.03312
  89.03673   89.69158   89.69593   89.7322