# Ejecución Scripts de Disvoice desde Python en Windows
## Adrián Arnaiz
**Debido a la complejidad del uso de rutas, de cambios en el código de disvoice para que funionara en Windows y de temas de comandos para el sistema dentro de Jupyter notebook se realiza este notebook explicativo del funcionamiento de los scripts de Disvoice.**
<a id="index"></a>
1. [Precondiciones](#precon)
2. [Cómo ejecutar scripts](#como)
3. [Tipos de scripts](#tipos)
4. [Ejecución con directorios completos](#directorios)

## 1. Precondiciones (Ejecutar Instalación_de_librerías.ipynb) <a id="precon"></a>
Haber clonado el repositorio https://github.com/jcvasquezc/Disvoice y ejecutado el install.sh (o pasos equivalentes para Windows) y haber añadido los siguientes cambios:
 - Instalación de Microsoft Visual Studio c++ 2017 **Build Tools**
 - **Comentar** líneas que utilizan **Kaldi** en estructura de Disvoice:
     - phonation.py lineas 71, 316, 330. Ejemplo: `#from kaldi_io import write_mat, write_vec_flt`
     - Más líneas en glotal.py y articulation.py
 - (*Windows*) En praat_functions.py, cuando construyye los comandos **cambiar `praat` por `..\\praat\\praat.exe`**. Esto es debido a que en windows prat es un ejecutable que se encuentra en la carpeta DisVoice/praat y nuestro script se ejecuta desde /Disvoice/phonation (y articulation o prosody)
 - El detalle específico de los cambios se encuentra en https://github.com/AdrianArnaiz/DisVoice/commit/330c67fc3b7e9ab59bf4f06e5df3c79f8ff18165 
 ------------------------

In [1]:
# Definimos esta función para que nos ayude a contar el número de ccas que saca cada script (numero de palabras que contiene el archivo.
import numpy as np
import os
def dimension_de_ccas(filename):
    return np.loadtxt(filename).shape

In [2]:
#Creamos directorio que contendrá los ficheros de características para esta prueba
!mkdir CaracteristicasExtradidas

----------

## 2. Cómo ejecutar los scripts <a id="como"></a>
#### 2.0 - estructura general de la ejecución de scripts
`python phonation.py <file_or_folder_audio> <file_features.txt> [dynamic_or_static (default static)] [plots (true or false) (default false)] [kaldi output (true or false) (default false)]`. 

`python phonation.py <audio_ruta_relativa_a_lugar_de_ejecución> <file_features.txt_ruta_relativa_a_vuv_praat.praat> `

En nuestro caso kaldi output siempre tendrá que ser false y plots opcionalmente también, ya que lo que nos interesa es el fichero de salida de las ccas del audio.

Otra característica es que la ejecución es de scripts de pyhton, por lo que tenemos dos maneras de ejecutarlos:
 - En Jupyter Notebook con `!comando`. Ejemplo: `!python phonation.py <file_or_folder_audio> <file_features.txt>...`. En este caso hay una salida por pantalla que sería la salida por la consola.
 - En todo entrono python con la biblioteca **os** que nos permite interpretar cadenas de texto y ejecutar comandos del sistema en python. Ejemplo:
 
 `import os
 os.system('python phonation.py <file_or_folder_audio> <file_features.txt>...')`. 
 
 **Esta es la manera óptima para nosotros,  ya que no nos interesa la salida por pantalla y además es la manera que permite trabajar con comandos en funciones o clases python.**

#### 2.1 - Ejecutar  desde la propia carpeta de los scripts
Primero debemos ir al directorio que contiene el script y ejecutarlo con las siguientes rutas:

`!cd Disvoice\phonation & python phonation.py "AUDIO:ruta_relativa_respecto_a_/Disvoice/praat/vuv_praat.praat" "FichSalidaCCAS:ruta_relativa_respecto_a_/Disvoice/phonation/phonation.py" "static" "false"`

 - En el siguiente ejemplo podemos ver como los audios que están en `src/Pc-Gita` son referenciados en el script desde `/src/Disvoice/praat/vuv_praat.praat` y por ello se establece la ruta `../../Pc-Gita...`.
 - También vemos como la el fichero de características lo guardamos en `/src/CaracteristicasExtradidas/CCAS.txt` y al script lo pasamos como una ruta relativa desde `src//Disvoice/phonation/phonation.py` y por ello pasamos `../../CaracteristicasExtradidas/CCAS.txt`.

In [3]:
#Ejecución con ! en notebook
!cd Disvoice\phonation & python phonation.py "../../PC-GITA/vowels/pd/A/AVPEPUDEA0017a1.wav" "../../CaracteristicasExtradidas/CCAS17.txt" "static" "false"

Processing audio 1 from 1 ../../PC-GITA/vowels/pd/A/AVPEPUDEA0017a1.wav
frame 0 from 155>0%
frame 1 from 155>1%
frame 2 from 155->1%
frame 3 from 155->2%
frame 4 from 155-->3%
frame 5 from 155--->3%
frame 6 from 155--->4%
frame 7 from 155---->5%
frame 8 from 155----->5%
frame 9 from 155----->6%
frame 10 from 155------>7%
frame 11 from 155------->7%
frame 12 from 155------->8%
frame 13 from 155-------->9%
frame 14 from 155--------->9%
frame 15 from 155--------->10%
frame 16 from 155---------->10%
frame 17 from 155---------->11%
frame 18 from 155----------->12%
frame 19 from 155------------>12%
frame 20 from 155------------>13%
frame 21 from 155------------->14%
frame 22 from 155-------------->14%
frame 23 from 155-------------->15%
frame 24 from 155--------------->16%
frame 25 from 155---------------->16%
frame 26 from 155---------------->17%
frame 27 from 155----------------->18%
frame 28 from 155------------------>18%
frame 29 from 155------------------>19%
frame 30 from 155----------

In [4]:
#Ejecución con os.system: no hay salida por pantalla pero sí que genera los mismos ficheros
import os
comando = 'cd Disvoice\phonation & python phonation.py '
comando+= '"../../PC-GITA/vowels/pd/A/AVPEPUDEA0020a1.wav" "../../CaracteristicasExtradidas/CCAS20.txt" "static" "false"'
os.system(comando)

0

In [5]:
#Contenido del fichero de salida
!type CaracteristicasExtradidas\CCAS20.txt

3.305785123966942241e+00 -8.043087694630814133e-02 -3.408913806333187940e-02 3.418554300226391840e-01 3.889722498495153946e+00 6.913167540820976953e+00 2.096782631816953013e-01 -1.100416193629574124e+01 1.001950586628114870e+00 8.226026387135975115e-01 3.650431055688849735e-01 4.630125525735817149e+00 4.680842951698417131e+00 1.727851294497167456e-01 1.371104375935152886e+00 1.646187914125199159e+00 3.280678278888011778e-01 2.708339805650706200e+00 1.179818709050218128e+00 7.893074982223079461e-01 1.101157677008089752e+00 -6.835350200620129435e-01 8.823408345629545124e+00 3.608615226065025716e+00 1.305871349885580912e+01 3.520998680431108419e+00 3.127565725524488194e+00 3.433562903043248404e+00 4.278296463635409275e+00


#### 2.2 - Ejecutar desde ruta actual

**No es posible** ya que se crea la carpeta **tempfiles** en el mismo directorio desde donde ejecutamos (en este caso se crearía en /src). Posteriormente, las funciones de Praat y demás funciones de Disvoice están configuradas para que la carpeta tempfiles esté en el directorio /src/Disvoice a la misma altura que los directorios articulation/ phonation/ y prosody/. Debido a ello, cuando buscan en ese directorio no encuentran lo esperado.

Aunque se podría retocar el código de Disvoice para ello, consideramos que es un cambio demasiado grande (cambios en multitud de funciones, haciendo a su vez la necesidad de más cambios en cadena para la concordancia de ) comparándolo con la anterior solución como es el correcto uso de las rutas.

-----------


## 3. Diferentes tipos de scripts que contiene Disvoice <a id="tipos"></a>


### Tenemos tres modulos principales
En cada uno de estos 3 módulos tenemos uno o varios scripts que nos sacan una serie de características cada uno:
<a id="index"></a>
1. [Phonation](#phonation)
    >* phonation.py
    >* glottal.py
2. [Articulation](#articulation)
    >* articulation.py
3. [Prosody](#prosody)
    >* prosody.py

Comentar que para cada script tenemos 2 opciones de ejecución: **static** o **dynamic**. 
  - ***static***: devuelve un vector con las características del audio
  - ***dynamic***: devuelve una matriz con las características del audio computadas frame por frame. Devuelve otro archivo con con el ID de qué audio es cada frame computado, por si se analiza más de un audio a la vez saber a qué audio corresponde cada conjunto de frames. En static no hace falta ya que 1 fila (1 vector) -> 1 audio.

#### 3.1 Phonation <a id="phonation"></a>
----
Contiene dos scripts que nos sacarán diferentes características:
>* phonation.py
>* glottal.py

##### 3.1.1 Phonation.py
Con este script sacamos las características de perturbación de la fonación. 

***Audios en los que se usa:***

 >- **Vocales sostenidas**
 >- **Discurso corrido: voiced segments** (partes con habla de palabras, frases, monologos).

***Las características extraídas son:***
>1. Primera derivada de la Frecuencia Fundamental.
2. Segunda derivada de la Frecuencia Fundamental.
3. Jitter.
4. Shimmer.
5. APQ (Amplitude perturbation quotient). 
6. PPQ (Pitch perturbation quotient).
7. Logaritmic Energy.

***Modos:***
> * **static:** Devuelve vector de 29 características ( 7 ccas x 4 [media, std, curtosis y oblicuidad] + grado de unvoiced)
* **dynamic:** Matriz de 7 ccas por cada window (hace proceso de windowing de 40ms con overlap de 20 ms). También devuelve un archivo con el ID de qué audio es cada frame computado, por si se analiza más de un audio a la vez saber a qué audio corresponde cada conjunto de frames. En static no hace falta ya que 1 fila (1 vector) -> 1 audio.

**Ejemplos**

In [6]:
#static
comando = 'cd Disvoice\phonation & python phonation.py '
comando+= '"../../PC-GITA/vowels/pd/A/AVPEPUDEA0021a1.wav" "../../CaracteristicasExtradidas/CCAS21.txt" "static" "false"'
os.system(comando)

0

In [7]:
!type CaracteristicasExtradidas\CCAS21.txt

2.010050251256281229e+00 3.462014580976082168e-01 1.623319077388318127e-02 9.871618124684339302e-01 1.886427163913735772e+00 4.575400742977532964e+00 1.520670070342175606e+00 -1.509786019629283160e+01 9.322304007476176935e+00 1.329020088479410866e+01 6.013095817389015885e+00 2.472245594599774332e+00 3.906273865396112654e+00 5.333387199063941431e+00 3.160316133833199537e+00 2.459844748691298211e+00 4.451116552404938385e-03 7.855357093294633053e+00 2.191242669434751100e+00 1.676155216795216285e+00 4.201363561460517815e+00 6.107278603181380827e-01 6.412303800900004092e+01 3.205726657860834194e+01 6.286168808745587455e+01 9.387081486729801583e+00 7.237938462057151412e+00 1.985530207075560583e+01 3.017309661765494866e+00


In [8]:
assert dimension_de_ccas('CaracteristicasExtradidas\CCAS21.txt')[0] == 29

In [9]:
#dynamic
comando = 'cd Disvoice\phonation & python phonation.py '
comando+= '"../../PC-GITA/vowels/pd/A/AVPEPUDEA0022a1.wav" "../../CaracteristicasExtradidas/CCAS22.txt" "dynamic" "false"'
os.system(comando)

0

In [10]:
!type CaracteristicasExtradidas\CCAS22.txt

4.857143929414604600e-01 -3.536118172010560556e-01 2.037716260011021574e-01 0.000000000000000000e+00 6.674226941562543480e+00 1.545915535378649563e+00 -1.095043580560213847e+01
-2.630627999325412247e-01 -7.487771928740016847e-01 1.413124215058399191e-01 2.625092967650755060e+00 5.023380072393245355e-01 1.169743062236932696e+00 -1.085954448944466755e+01
-1.824299191997056369e-01 8.063288073283558788e-02 7.756197818078448825e-02 2.406335220346522696e+00 8.272412307936651832e-01 4.052352646581893203e-01 -1.079450478020638649e+01
1.001300894975116762e-01 2.825600086972173131e-01 5.430591516574857502e-01 1.968819725738069071e+00 1.301923048727828736e+01 5.048645162325340330e-01 -1.149144544583733385e+01
-7.010723905360407571e-01 -8.012024800335524333e-01 5.781802907721126372e-01 2.005279350288768914e+00 2.633504121815044563e+00 4.174630998213098576e-01 -1.132608002050518792e+01
7.464126833610293943e-01 1.447485073897070151e+00 2.837252448745379296e-01 1.130248361071861662e+00 4.756333529929

In [11]:
assert dimension_de_ccas('CaracteristicasExtradidas\CCAS22.txt')[1] == 7 # (frames, ccas x frame)

#### 3.1.2 glottal.py
Con este script sacamos las características de fonación derivadas de la reconstrucción de la fuente glotal. 

***Audios en los que se usa:***

 >- **Vocales sostenidas**

***Las características extraídas son:***
>1. Variabilidad del tiempo entre instantes de cierre glótico (GCI).
2. Coeficiente de apertura promedio (OQ).
3. Variabilidad del cociente de apertura (OQ).
4. Cociente de amplitud promedio normalizado (NAQ).
5. Variabilidad del cociente de amplitud normalizado (NAQ). 
6. Promedio H1H2: diferencia entre primeros armónicos.
7. Variabilidad H1H2.
8. Promedio del factor de riqueza armónica (HRF)
9. Variabilidad de la HRF

***Modos:***
> * **static:** Devuelve vector de 36 características ( 9 ccas x 4 [media, std, curtosis y oblicuidad])
* **dynamic:** Matriz de 9 ccas por cada frame (frames de 200ms)

**Ejemplos**

In [12]:
#static - tarda medio minuto en ejecutarse
comando = 'cd Disvoice\phonation & python glottal.py '
comando+= '"../../PC-GITA/vowels/pd/A/AVPEPUDEA0023a1.wav" "../../CaracteristicasExtradidas/CCAS23.txt" "static" "false"'
os.system(comando)

0

In [13]:
!type CaracteristicasExtradidas\CCAS23.txt

2.144112986492751141e-04 5.043949076973391898e-03 8.072573062366876192e-04 3.895312475112818196e-01 3.934405181980692862e-02 1.210777010647720253e+01 3.370801747663341619e+00 -1.563441347067069032e+01 5.369626355469500822e+01 1.989330765379233661e-04 5.982683284954281233e-04 2.904362419727473765e-04 6.877789861091773704e-02 2.401578099331342850e-02 1.533636325302133896e+00 6.612292988915513536e-01 4.247822466082115511e+01 2.328078620903130513e+02 9.716568619321602762e-01 -4.409374325284161622e-01 6.474340963251229430e-01 -1.189439326378625428e-01 6.797388041769639733e-01 -7.332487366357213210e-01 1.382007058777376951e-01 -4.831060277345687659e+00 4.897949595427915526e+00 2.373014894557317067e+00 2.738474896513941381e+00 2.107025459945319756e+00 1.504653106343517566e+00 2.682350409491504273e+00 3.360035947518329902e+00 2.221869102498031712e+00 2.458445191438457655e+01 2.500708903369939407e+01


In [14]:
assert dimension_de_ccas('CaracteristicasExtradidas\CCAS23.txt')[0] == 36

#### 3.2 Articulation <a id="articulation"></a>
----
Contiene un único scripts que nos sacará diferentes características: articulation.py

##### 3.2.1 articulation.py

Con este script sacamos las características de la articulación. 

***Audios en los que se usa:***

 >- **Discurso continuo**

***Las características extraídas son 122 en total, en resumen son:***
>* 1-22  : Las 22 **BBE** en onset (Bark band energies).
* 23-58  : Las 12 **MFCC** en onset (normal, primera y segunda derivada).
* 59-80  : Las 22 **BBE** en en offset transitions.
* 81-116 : Las 12 **MFCC** en offset (normal, primera y segunda derivada).
* 117-122: **Primera y segunda formante de frecuencia** (normal, primera y segunda derivada).

***Modos:***
> * **static:** Devuelve vector de 488 características ( 122 ccas x 4 [media, std, curtosis y oblicuidad])
* **dynamic:** Matriz de 58 ccas [*22 BBEs, 12 MFCC, 12DMFCC, 12 DDMFCC*] por cada frame de 40 ms. **Devuelve 2 archivos, para las 58 ccas en onset y para las 58 ccas en offset: ccasonset.txt y ccasoffset.txt**. También  devuelve un archivo con el ID de qué audio es cada frame computado, por si se analiza más de un audio a la vez saber a qué audio corresponde cada conjunto de frames. En static no hace falta ya que 1 fila (1 vector) -> 1 audio.

**Ejemplos**

In [15]:
#static
comando ='cd Disvoice\\articulation & python articulation.py '
comando+= '"../../PC-GITA/read-text/pd/AVPEPUDEA0024_readtext.wav" "../../CaracteristicasExtradidas/CCAS24.txt" "static" "false"'
os.system(comando)

0

In [16]:
!type CaracteristicasExtradidas\CCAS24.txt

-1.904254584205895551e+00 -1.692414751960456210e+00 -2.174518471927441521e+00 -2.696143228236512979e+00 -3.062345612388025717e+00 -3.634492957132958946e+00 -4.155684461175920497e+00 -4.250789175194000791e+00 -4.201806403010612811e+00 -4.221525679078355964e+00 -4.252807354056683309e+00 -4.253924159815774431e+00 -4.309314010530602701e+00 -4.315996656601344128e+00 -3.978499255640131960e+00 -4.099814884797750913e+00 -4.009272138789022222e+00 -4.492480827382661523e+00 -5.169915401480939643e+00 -5.159974120239822604e+00 -5.073561044815447119e+00 -5.258139679872066985e+00 -3.194366798172115995e+00 2.275629810570670930e+00 -5.110903144847110946e-01 3.297318218330789197e+00 1.591446544953643460e+00 -2.938419881983323378e+00 -1.123268583187586600e+00 1.339824733910899290e+00 -1.300105720469697079e+00 -3.575048606459279910e+00 -9.936168916337787538e-01 -1.291941855586561105e-01 1.082051699631196128e-04 2.634697060581754971e-03 -7.065127109310775748e-03 9.767187158863037399e-03 -7.5349968578826732

In [17]:
assert dimension_de_ccas('CaracteristicasExtradidas\CCAS24.txt')[0] == 488

In [18]:
#dynamic
comando ='cd Disvoice\\articulation & python articulation.py '
comando+= '"../../PC-GITA/read-text/pd/AVPEPUDEA0025_readtext.wav" "../../CaracteristicasExtradidas/CCAS25.txt" "dynamic" "false"'
os.system(comando)

0

In [19]:
!type CaracteristicasExtradidas\CCAS25onset.txt #también existe CCAS25offset.txt

-1.529051030636014774e+00 -8.928834436629448090e-01 -1.433445857792284617e+00 -1.662044075789024244e+00 -2.012709233234332817e+00 -1.490405091862704978e+00 -2.158373669720464072e+00 -2.219285671327589693e+00 -2.115854117457250716e+00 -3.129652603677220313e+00 -2.043083116572187219e+00 -2.124808990754524007e+00 -3.246366319121551047e+00 -3.273915932169816578e+00 -3.364126192027129925e+00 -4.549600154569168886e+00 -4.985973536051028887e+00 -5.658338723235836198e+00 -5.322930585991796804e+00 -5.650629447481102297e+00 -5.655436818733911686e+00 -5.979914312098453699e+00 -4.116060988063896531e+00 4.733271407741612258e+00 -6.551471082517749345e+00 4.014089052571091720e+00 7.622482698600303586e-01 -1.163121497901729695e+00 1.199600246348189181e+00 -3.860680288528848259e+00 4.304026365531605336e+00 -1.578231098764254492e+00 3.420069833380351421e-01 -1.714116880744301685e+00 -2.456136975888632001e-01 -5.630689061152773789e-01 -1.106958097779060957e+00 -3.085462372916731866e-01 3.1003909637846334


CaracteristicasExtradidas\CCAS25onset.txt


El sistema no puede encontrar el archivo especificado.
Error mientras se procesaba: #tambi‚n.
El sistema no puede encontrar el archivo especificado.
Error mientras se procesaba: existe.
El sistema no puede encontrar el archivo especificado.
Error mientras se procesaba: CCAS25offset.txt.


In [20]:
assert dimension_de_ccas('CaracteristicasExtradidas\CCAS25onset.txt')[1] == 58 # (frames, ccas x frame)

#### 3.3 Prosody <a id="prosody"></a>
-----
Contiene un único scripts que nos sacará diferentes del discurso basadas en la duración, la frecuencia fundamental, la energía y **medidas de la composición en lo relativo a voiced segments y unvoiced segments**: prosody.py.

##### 3.2.1 prosody.py

***Audios en los que se usa:***

 >- **Discurso continuo**

***Las características estáticas extraídas son 38 en total, en resumen son:***
>* 1-4, 14-16  : Medidas de la frecuencia fundamental.
* 5-7, 33-38  : medidas de energía.
* 9-13, 17-32  : medidas de Voiced-Unvoiced y pausas.

***Modos:***
> * **static:** Devuelve vector de las 38 ccas antes definidas.
* **dynamic:** Matriz de 13 ccas para cada Voiced segment *[1-Duración, 6 coeficientes del polinomiao de Lagrange para modelar el contorno de $F$0 y los 6 mismos coeficientes para modelar el contorno de la energía]*. También devuelve un archivo con el ID de qué audio es cada frame computado, por si se analiza más de un audio a la vez saber a qué audio corresponde cada conjunto de frames. En static no hace falta ya que 1 fila (1 vector) -> 1 audio.

**Ejemplos**

In [21]:
#static
comando ='cd Disvoice\prosody & python prosody.py '
comando+= '"../../PC-GITA/read-text/pd/AVPEPUDEA0026_readtext.wav" "../../CaracteristicasExtradidas/CCAS26.txt" "static" "false"'
os.system(comando)

0

In [22]:
!type CaracteristicasExtradidas\CCAS26.txt 

1.786277465820312500e+02 2.292700767517089844e+01 6.507911147798917284e+01 2.515357666015625000e+02 -3.099709161645615296e+01 1.483015385255896845e+01 -5.689125204665569591e+00 1.174398120963006553e+00 4.805000000000000000e+02 3.599371472910235639e+02 1.233118027011156803e+00 3.280952380952380736e+02 3.670813981046535446e+02 -6.833720749461543731e-01 1.207227742031481199e+00 9.770866919080087598e+01 6.603773584905660021e-01 1.498412698412698063e+01 6.256206554121153396e-02 9.374379344587884244e-01 1.419548872180451005e+00 9.473684210526317484e-02 1.951922129594313438e-02 3.456352295576325950e-01 6.204867407025652426e+00 3.800771374620221632e+00 2.525181817191891609e-01 1.580000000000000071e+00 8.999999999999999667e-02 8.999999999999999667e-02 2.999999999999999889e-02 1.899999999999999911e+00 -1.300054065719503660e-01 -9.021370784785909258e-02 5.592229051801677997e+02 9.650585155494272038e-02 4.635451775792811979e+00 4.226036161169447247e+00


In [23]:
assert dimension_de_ccas('CaracteristicasExtradidas\CCAS26.txt')[0] == 38

In [24]:
#dynamic
comando ='cd Disvoice\prosody & python prosody.py '
comando+= '"../../PC-GITA/read-text/pd/AVPEPUDEA0027_readtext.wav" "../../CaracteristicasExtradidas/CCAS27.txt" "dynamic" "false"'
os.system(comando)

0

In [25]:
!type CaracteristicasExtradidas\CCAS27.txt 

1.600000000000000033e-01 -1.035987666909710385e-04 -4.478259367541873731e-03 1.623728283554613794e-01 -1.332630777959433077e+00 1.796580163265776076e+00 1.147743216593094502e+02 5.847856493240042794e-04 -1.802795228968600769e-02 1.715516404732647937e-01 -3.474278857129327602e-01 -2.227826159864455757e+00 -1.680128097764905348e+01
2.899999999999999800e-01 1.177260551985950885e-06 -3.503139053195018652e-04 2.674462549954349788e-02 -8.289915849937631309e-01 1.073931153900241142e+01 1.705775073396575863e+02 -1.927761572362053576e-05 8.614191081582692200e-04 -4.162292395897534969e-03 -2.462055045075758342e-01 2.118108941540048029e+00 -1.513434055461403815e+01
5.899999999999999689e-01 5.387501408379075123e-08 -3.149097806130495182e-05 2.629154606741070880e-03 -7.370461051919366402e-02 3.556859046340495878e-01 1.561992873359832288e+02 4.156591521881511626e-06 -6.221812830884199726e-04 3.234085892268100809e-02 -6.870612576377810310e-01 5.362784915474987812e+00 -2.738804035298765527e+01
1.30000

In [26]:
assert dimension_de_ccas('CaracteristicasExtradidas\CCAS27.txt')[1] == 13 # (frames, ccas x frame)

--------

## 4. Ejecución con directorios completos <a id="directorios"></a>
**Este conjunto de scripts nos ofrece la posibilidad de trabajar con directorios completos de audios en vez de tener que ir realizando uno por uno los análisis como hemos realizado anteriormente.**

Respecto a la ejecución con el parámetro **static** el funcionamiento es sencillo: En el archivo de ccas de salida, cada línea es el vector de medidas de un archivo. Antes nos devolvía solo una línea y ahora una para cada audio.

Sin embargo para **dynamic** es algo más complejo: Ahora cogen sentido los archivos que contienen los ID generados en las ejecuciones Dynamic (FramexFrame o windowed). El archivo de características contendrá todos seguidos el análisis de cada conjunto de frames de cada audio (en cada línea el análisis de un frame). Con un audio era más sencillo, ya que todos los frames eran del mismo audio. Con el directorio completo, suponiendo que tenemos 50 audios, cada audio 20 frames y de cada frame se sacan 10 ccas tendríamos una matriz de 1000x10. 

Sin embargo esto no es tan sencillo, ya que no todos los audios tienen los mismos frames: **Ahí entra en juego el archivo con los ID. El archivo con los ID contiene en cada línea un número que identifica a qué audio pertenece el frame de la misma línea en el archivo de características. Ejemplo: Si en la línea 150 del archivo de IDs aparece el número 3, significa que la el frame analizado en la línea 150 del archivo de características pertenece al audio número 3**


In [27]:
#Borramos el directorio que contiene los ficheros de características para esta prueba
!rmdir CaracteristicasExtradidas /S /Q

In [28]:
#Creamos directorio que contendrá los ficheros de características para esta prueba
!mkdir CaracteristicasExtradidas

### Ejecutamos un ejemplo, sacar las características prosódicas *estáticas* de los pacientes con parkinson del tipo de audio read_text:

In [29]:
#static
comando ='cd Disvoice\prosody & python prosody.py '
comando+= '"../../PC-GITA/read-text/pd/" "../../CaracteristicasExtradidas/CcasDirectorio.txt" "static" "false"'
os.system(comando)

0

In [30]:
dim = dimension_de_ccas('CaracteristicasExtradidas\CcasDirectorio.txt')
print(dim)
print('Numero de audios que contiene el directorio: ',dim[0])
print('Número de características para cada audio: ',dim[1])
assert dim[0] == 50 #Comprobamos que analiza los 50 audios de ese directorio
assert dim[1] == 38 #Comprobamos que analiza las 38 ccas estaticas antes descritas para cada audio

(50, 38)
Numero de audios que contiene el directorio:  50
Número de características para cada audio:  38


In [31]:
!type CaracteristicasExtradidas\CcasDirectorio.txt

9.865094757080078125e+01 1.472146701812744141e+01 4.774007240617387282e+01 1.429436950683593750e+02 -3.164421326142499424e+01 1.520278377837929185e+01 -6.832042776894780900e+00 1.520238370019094676e+00 2.943478260869565020e+02 1.924403032666521653e+02 1.586335690454707681e+00 2.945833333333333144e+02 3.371569758864391133e+02 3.640988476179288780e-01 3.327013973054439688e+00 4.060135532651193557e+01 6.408529741863074891e-01 7.327102803738316794e+00 1.200897867564534316e-01 8.799102132435465684e-01 1.373029772329246834e+00 1.873905429071804074e-01 3.783358246575146272e-02 1.947188449314256331e-01 7.989210697549112616e+00 5.096739665120695761e+00 2.836316512313936666e-01 7.600000000000000089e-01 1.499999999999999944e-01 2.000000000000000042e-02 1.000000000000000021e-02 1.521739130434782705e+00 1.085451924104977595e-01 5.477759464380868581e-02 1.665473471197109120e+03 -3.146464866129376758e-02 5.667404430366575596e+00 3.912611335572532489e+00
2.142657318115234375e+02 2.958317756652832031e+

### Ejecutamos un ejemplo, sacar las características prosódicas *dinámicas* de los pacientes con parkinson del tipo de audio read_text:

In [32]:
#dynamic
comando ='cd Disvoice\prosody & python prosody.py '
comando+= '"../../PC-GITA/read-text/pd/" "../../CaracteristicasExtradidas/CcasDynDirectorio.txt" "dynamic" "false"'
os.system(comando)

0

In [33]:
dim = dimension_de_ccas('CaracteristicasExtradidas\CcasDynDirectorio.txt')
print(dim)
print('Frames total de los 50 audios: ',dim[0])
print('Número de características para cada audio: ',dim[1])
assert dim[1] == 13 #Comprobamos que analiza las 13 ccas dinámicas antes descritas para cada audio

(1228, 13)
Frames total de los 50 audios:  1228
Número de características para cada audio:  13


In [34]:
!type CaracteristicasExtradidas\CcasDynDirectorio.txt

4.000000000000000222e-01 6.041065791009889022e-05 -5.424013962062234663e-03 1.586373165087310300e-01 -1.722404491715635366e+00 7.320950439830865797e+00 7.911177488146036296e+01 -3.680820872274200964e-06 6.259321738038657731e-04 -3.575897182581977418e-02 8.050241008947246479e-01 -5.997716878004945684e+00 -1.315342536125525008e+01
4.400000000000000022e-01 2.843015088378665893e-06 -3.005878029573202633e-04 9.223297882977671974e-03 -6.015375431444759668e-02 -6.173710438440318526e-01 1.110027352120824560e+02 -1.796371210439574134e-06 6.533006503717739830e-05 3.435089411651410986e-03 -1.763956316613882469e-01 2.240807438054328138e+00 -2.449384553658241259e+01
8.999999999999999667e-02 2.911060711818581111e-03 -5.739609207423459342e-02 3.778279318356992378e-01 -9.187305887791690218e-01 6.049543277503568461e-01 8.273720492482607369e+01 -3.635277702940571763e-03 5.916233399559389650e-02 -3.160687062952302617e-01 7.602214928112445147e-01 -2.998120447325955062e+00 -2.372326897768098419e+01
8.99999

In [35]:
!type CaracteristicasExtradidas\CcasDynDirectorioID.txt

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
14
14
14
14
14
14
14
14
14
14
14
15
15
15
15
15
15
15
15
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17

-------------

In [36]:
#Borramos el directorio que contiene los ficheros de características para esta prueba
!rmdir CaracteristicasExtradidas /S /Q