# Extracción de características
## Adrián Arnaiz Rodríguez

**En este notebook vamos a realizar la extracción de los diferentes tipos de características de los diferentes tipos de audio** 

Tiempo de ejecución aproximado: 40 minutos

<a id="index"></a>
## Índice de contenido

0. [Introducción](#intro)
1. [Extraer medidas de fonación de voiced frames](#fona)
    >- [Extraer para Frase](#fonfra): Guardado en variable numpy `fon_rt_ccas`
    >- [Extraer para Palabras](#fonpal): Guardado en variable numpy `fon_w_palabra_ccas`
    >- [Extraer para Vocales](#fonvoc): Guardado en variable numpy `fon_v_vocal_ccas`
    
    
2. [Extraer medidas de articulación de transiciones](#arti)
    >- [Extraer para Frase](#artifra): Guardado en variable numpy `art_rt_ccas`
    >- [Extraer para Palabras](#artipal): Guardado en variable numpy `art_w_palabra_ccas`
    
    
    
3. [Extracción medidas prosódicas de audios completos](#proso)
    >- [Extraer para Frase](#prosofra): Guardado en variable numpy `prs_rt_ccas`
    
4. [Limpieza de datos](#limp)

## Glosario de variables
#### CADA VARIABLE SERÁ GUARDADA EN LA CARPETA CaracteisticasExtraidas EN FORMATO NUMPY.
* **fon_rt_ccas** : matriz numpy de ccas y target para características de fonación sobre la frase.
* **fon_words_ccas** : diccionario que contiene los datos de fonación y dataframe para cada palabra
 >* ***fon_w_atleta_ccas*** : matriz numpy de ccas y target para características de fonación sobre la palabra atleta
 * ***fon_w_campana_ccas*** : matriz numpy de ccas y target para características de fonación sobre la palabra campana
 * ***fon_w_braso_ccas*** : matriz numpy de ccas y target para características de fonación sobre la palabra braso
 * ***fon_w_gato_ccas*** : matriz numpy de ccas y target para características de fonación sobre la palabra gato
 * ***fon_w_petaka_ccas*** : matriz numpy de ccas y target para características de fonación sobre la palabra petaca
* **fon_vowels_ccas** : diccionario que contiene los datos de fonación y dataframe para cada vocal
 >* ***fon_v_A_ccas*** : matriz numpy de ccas y target para características de fonación sobre la vocal A
 * ***fon_v_E_ccas*** : matriz numpy de ccas y target para características de fonación sobre la vocal E
 * ***fon_v_I_ccas*** : matriz numpy de ccas y target para características de fonación sobre la vocal I
 * ***fon_v_O_ccas*** : matriz numpy de ccas y target para características de fonación sobre la vocal O
 * ***fon_v_U_ccas*** : matriz numpy de ccas y target para características de fonación sobre la vocal U
 
 
* **art_rt_ccas** : matriz numpy de ccas y target para características de articulación sobre la frase.
* **art_words_cas** : diccionario que contiene los datos de articulación y dataframe para cada palabra
 >* ***art_w_atleta_ccas*** : matriz numpy de ccas y target para características de articulación sobre la palabra atleta
 * ***art_w_campana_ccas*** : matriz numpy de ccas y target para características de articulación sobre la palabra campana
 * ***art_w_braso_ccas*** : matriz numpy de ccas y target para características de articulación sobre la palabra braso
 * ***art_w_gato_ccas*** : matriz numpy de ccas y target para características de articulación sobre la palabra gato
 * ***art_w_petaka_ccas*** : matriz numpy de ccas y target para características de articulación sobre la palabra petaca
 
 
* **prs_rt_ccas** : matriz numpy de ccas y target para características de fonación sobre la frase.

------------------

# 0. Introducción <a id="intro"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>
* Se extraerán las características explicadas en otros notebooks con la librería de scripts también anteriormente comentada DisVoice.
* Será necesario ver los Notebooks de Instalación de librerías.ipynb y Ejemplo ejecución scripts Disvoice.ipynb para entender este proceso.
* Los ficheros de las características extraídas se guardarán en ficheros de texto en el directorio *CaracteristicasExtradidas* y también en variables de este notebook.
* **Se etiquetarán con 1 las personas con PD y 0 las personas sanas.**

### Estriuctura de carpetas para los audios
**Los audios deberán estar estructurados de esta manera para la correcta extracción de las características.**
```
.
PC-GITA
│   
└───read-text
│   │
│   └───hc
│   │    │   AVPEPUDEAC0001_readtext.wav
│   │    │    ...
│   │   
│   └───pd
│        │   AVPEPUDEA0001_readtext.wav
│        │    ...  
│
└───words
│   │
│   └───atleta
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_atleta.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_atleta.wav
│   │         │   ...    
│   └───braso
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_braso.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_braso.wav
│   │         │   ...  
│   └───campana
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_campana.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_campana.wav
│   │         │   ...  
│   └───gato
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_gato.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_gato.wav
│   │         │   ...  
│   └───petaka
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_petaka.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_petaka.wav
│   │         │   ...
│           
└───vowels
│   │
│   └───a
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_a1.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_a1.wav
│   │         │   ...    
│   └───e
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_e1.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_e1.wav
│   │         │   ...  
│   └───i
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_i1.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_i1.wav
│   │         │   ...  
│   └───o
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_o1.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_o1.wav
│   │         │   ...  
│   └───u
│   │    │   
│   │    └── hc   
│   │    │    │   AVPEPUDEAC0001_u1.wav
│   │    │    │   ...
│   │    │
│   │    └── pd
│   │         │   AVPEPUDEA0001_u1.wav
│   │         │   ... 
```


### Medidas extraídas para cada tipo de audio:
**Se extaerá para cada vocal un conjunto de medidas de fonación.**
> * **5 subsets de características** (1 por vocal).

**Se extaerá para la frase 3 conjuntos de medidas diferentes: fonación, articulación y prosodia.**
> * Frase: *“Ayer fui al medico. Qué le pasa? Me preguntó. Yo le dije: Ay doctor! Donde pongo el dedo me duele. Tiene la una rota? Sí. Pues ya sabemos que es. Deje su cheque a la salida.”*
* **3 subsets de características.**

**Se extaerá para cada palabra 2 conjuntos de medidas diferentes: fonación y articulación.**
> * Se eligen las **N** palabras que mejor resultado dan en los papers relacionados con nuestro dataset
* Palabras: atleta, campana, gato, petaka, braso.
* **2 x 5 = 10 subsets de características.**

--------

In [1]:
import os
import numpy as np
import pandas as pd

In [2]:
!mkdir CaracteristicasExtraidas

Ya existe el subdirectorio o el archivo CaracteristicasExtraidas.


### Creamos una función para añadir el target a una matriz de características

In [3]:
def add_target(ccas, parkinson):
    return np.hstack((ccas,np.ones((ccas.shape[0],1)))) if parkinson else np.hstack((ccas,np.zeros((ccas.shape[0],1))))

### Creamos una función general para extraer las ccas de un tipo de audio concreto
Sacamos las ccas de los sanos y las etiquetamos. Lo mismo para PD y finalmente concatenamos ambas. Los tipos de audio son como ya sabemos: read_text, cada una de las vocales por separado y cada una de las palabras por separado.

Será implementada de la manera siguiente:
* Se pasará como ruta la carpeta del tipo de audio que contiene tanto a los pacientes de Parkinson como a los sanos -> carpetas *PC-GITA/read_text, PC-GITA/words/atleta, PC-GITA/words/braso, ..., PC-GITA/vowels/a, ..., PC-GITA/vowels/u.*
* Se extraerán las ccas para el directorio de los sanos (hc) y son etiquetadas.
* Se extraerán ccas para el directorio de PD y son etiquetadas.
* Se concatenan ambas ya que pertenecen al mismo tipo de audio y se devuelve en formato numpy.

In [4]:
def extraccion_ccas_directorio(script, audios, ccashc, ccaspd):
    '''
    Devuelve en numpy las medidas que saca script de los audios en audios que se guardan en el fichero ccas.
    Recorre para un tipo de audio primero los sanos y los etiqueta y posteriormente hace lo mismo con los PD.
    Finalmente los concatena.
    
    script: Nombre del script a ejecutar, solo nombre.
    audios: ruta del directorio de audios a analizar respecto a src/.
    ccashc: nombre del fichero que se guardará en el directorio CaracteristicasExtradidas para hc.
    ccaspd: nombre del fichero que se guardará en el directorio CaracteristicasExtradidas para pd.
    '''
    #Extraemos las características para las personas sanas
    comando = 'cd Disvoice\\'+script +' & python '+script+'.py '
    comando+= '"../../'+audios+'hc/" "../../CaracteristicasExtraidas/'+ccashc+'" "static" "false"'
    os.system(comando)
    hc = np.loadtxt("CaracteristicasExtraidas/"+ccashc)
    hc = add_target(hc, False)
    assert hc[:,hc.shape[1]-1].all()==0 #aseguramos que etiquetamos de manera correcta
    
    #Extraemos las características para personas con PD
    comando = 'cd Disvoice\\'+script +' & python '+script+'.py '
    comando+= '"../../'+audios+'pd/" "../../CaracteristicasExtraidas/'+ccaspd+'" "static" "false"'
    os.system(comando)
    pd = np.loadtxt("CaracteristicasExtraidas/"+ccaspd)
    pd = add_target(pd, True)
    assert pd[:,pd.shape[1]-1].all()==1
    
    #Devolvemos todo el conjunto entero junto
    return np.concatenate((pd, hc))

----------------

# 1. Extracción medidas de fonación de voiced frames <a id="fona"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

***Las características extraídas son:***
>1. Primera derivada de la Frecuencia Fundamental.
>2. Segunda derivada de la Frecuencia Fundamental.
>3. Jitter.
>4. Shimmer.
>5. APQ (Amplitude perturbation quotient). 
>6. PPQ (Pitch perturbation quotient).
>7. Logaritmic Energy.


**Devolveremos un vector de 29 características ( 7 ccas x 4 [media, std, curtosis y oblicuidad] + grado de unvoiced) para cada audio mas la clase etiquetada**

### 1.1 Extracción de medidas de fonación para la frase <a id="fonfra"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>
Hay una única frase de la que sacar las ccas. Extraeremos por separado las ccas para pacientes con PD y sanos, las etiquetaremos y concatenaremos en el mismo array numpy.

In [5]:
def phonation_readtext_extraction():
    '''
    Llamamos a la función de extracción de características con las rutas necesarias
    '''
    return extraccion_ccas_directorio('phonation', 'PC-GITA/read-text/', 'fon_rt_hc.txt' , 'fon_rt_pd.txt' )

In [6]:
#Extraemos las características
fon_rt_ccas = phonation_readtext_extraction()

In [7]:
#Comprobamos que ha sacado correctamente las 30 ccas de los 100 audios
assert fon_rt_ccas.shape == (100,30)
fon_rt_ccas.shape

(100, 30)

In [8]:
#creamos dataframe para su visualización
name_rt = os.listdir('PC-GITA/read-text/pd')+os.listdir('PC-GITA/read-text/hc')
df_fon_rt = pd.DataFrame(fon_rt_ccas,index=name_rt)
df_fon_rt.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEA0001_readtext.wav,47.354497,-0.005707,-0.007779,1.630282,8.190893,32.758808,4.134344,-19.626952,19.318609,28.32916,...,3.781642,-0.553159,97.958139,49.517681,105.650373,19.460173,3.602998,21.295403,3.06425,1.0
AVPEPUDEA0002_readtext.wav,60.719755,-0.189985,0.086745,1.660882,5.255105,27.100553,1.684301,-19.849612,12.257329,18.606828,...,4.299101,-0.446872,37.915146,50.008291,47.555251,10.194625,2.956199,29.47937,3.332653,1.0
AVPEPUDEA0003_readtext.wav,70.859873,-0.177025,0.073833,4.266775,6.641371,29.664078,9.46343,-20.589,34.915154,51.385173,...,1.805939,-0.59624,18.435485,14.201973,18.532819,15.927707,8.018131,5.938839,2.626804,1.0
AVPEPUDEA0005_readtext.wav,40.776699,-0.053806,0.027011,1.642578,3.094962,25.693517,1.701782,-23.105223,6.617079,8.986915,...,2.634452,-0.033504,20.906621,15.087082,28.273603,15.114491,2.949794,10.76623,3.722285,1.0
AVPEPUDEA0006_readtext.wav,38.046272,-0.192405,-0.0014,2.967045,6.988513,36.936626,5.03078,-20.326623,24.608083,36.717864,...,3.275213,-0.539254,23.817789,23.367797,24.367555,18.798747,2.471496,15.036681,2.524611,1.0


In [9]:
#Guardamos las ccas en numpy
np.save('CaracteristicasExtraidas/fon_rt_ccas',fon_rt_ccas)

--------

### 1.2 Extracción de medidas de fonación para las palabras <a id="fonpal"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>
Se extraerá un subset para cada una de las palabras que mejor funcionan.

**En la función recorremos las palabras de las que queremos extraer las características. Para cada una extraemos su matriz de ccas en numpy y en DataFrame de panda. Devuelve un diccionario con cada palabra como clave. Ese diccionario contiene otro diccionario cuya clave es numpy o panda dependiendo del formato que queramos los datos**.

Para ello utilizamos la función anteriormente definida que extraía características de un tipo de audio en concreto. En esta función recorremos words y pasamos el directorio de cada palabra a esa función. Esta función recibe únicamente las palabras y se encarga de llamar a la función anterior con la ruta completa para esa palabra.

`fon_words_ccas = { 'atleta': {'numpy': [[1,2..],[3,2..]], 'dataframe': pd.DF },
                    'petaka': {'numpy': [[7,5..],[4,9..]], 'dataframe': pd.DF }                                                              }`

In [10]:
def phonation_word_extraction(palabras):
    '''
    Llamamos a la función de extracción de características con las rutas necesarias
    '''
    ccas_palabras = dict()
    for p in palabras:
        ccas_palabras[p] = dict()
        ccas_palabras[p]['numpy'] = extraccion_ccas_directorio('phonation', 'PC-GITA/words/'+p+'/', 'fon_w_'+p+'_hc.txt' , 'fon_w_'+p+'_pd.txt' )
        names= os.listdir('PC-GITA/words/'+p+'/hc')+os.listdir('PC-GITA/words/'+p+'/pd')
        ccas_palabras[p]['dataframe'] = pd.DataFrame(ccas_palabras[p]['numpy'],index=names)
        print('Palabras analizadas: ',ccas_palabras.keys())
    return ccas_palabras

In [11]:
words=['atleta','campana','gato','petaka','braso']
fon_words_ccas = phonation_word_extraction(words)

Palabras analizadas:  dict_keys(['atleta'])
Palabras analizadas:  dict_keys(['atleta', 'campana'])
Palabras analizadas:  dict_keys(['atleta', 'campana', 'gato'])
Palabras analizadas:  dict_keys(['atleta', 'campana', 'gato', 'petaka'])
Palabras analizadas:  dict_keys(['atleta', 'campana', 'gato', 'petaka', 'braso'])


In [12]:
fon_words_ccas.keys()

dict_keys(['atleta', 'campana', 'gato', 'petaka', 'braso'])

##### 1.2.1 Atleta

In [13]:
fon_w_atleta_ccas = fon_words_ccas['atleta']['numpy']

In [14]:
assert fon_w_atleta_ccas.shape == (100,30)
fon_w_atleta_ccas.shape

(100, 30)

In [15]:
df_fon_w_atleta  = fon_words_ccas['atleta']['dataframe']
df_fon_w_atleta.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEAC0001atleta.wav,18.421053,0.285241,-0.196322,4.533919,11.874999,55.842411,7.901011,-18.989862,24.684448,32.292064,...,1.290374,0.080361,12.455922,8.448043,11.595593,5.755796,2.680769,3.505538,2.252209,1.0
AVPEPUDEAC0003atleta.wav,10.638298,-1.169188,0.103527,2.532537,7.296007,45.579086,1.943815,-21.973092,9.564502,14.609875,...,1.852322,0.22579,5.843683,7.556421,5.959262,4.726696,1.853771,5.950978,2.248074,1.0
AVPEPUDEAC0004atleta.wav,26.829268,-4.721141,0.483907,5.1181,12.973178,38.410097,3.849163,-18.853685,26.124336,36.895186,...,1.356947,-0.545566,11.513932,5.744068,12.380044,6.653936,1.661161,3.741067,1.97968,1.0
AVPEPUDEAC0005atleta.wav,9.090909,0.206915,0.25183,2.620395,7.944106,31.906242,2.334178,-18.519147,6.54599,8.343124,...,1.281527,-0.144054,5.109,5.425163,6.162951,5.07317,2.065755,3.909663,1.943616,1.0
AVPEPUDEAC0006atleta.wav,20.0,2.361873,-2.788237,2.952008,10.417688,38.949784,2.030222,-18.424822,16.441447,16.573857,...,4.194862,-0.712647,27.773775,21.329313,30.650956,12.796573,2.662251,20.925368,2.29236,1.0


In [16]:
np.save('CaracteristicasExtraidas/fon_w_atleta_ccas',fon_w_atleta_ccas)

##### 1.2.2 Campana

In [17]:
fon_w_campana_ccas = fon_words_ccas['campana']['numpy']

In [18]:
assert fon_w_campana_ccas.shape == (100,30)
fon_w_campana_ccas.shape

(100, 30)

In [19]:
df_fon_w_camapana = fon_words_ccas['campana']['dataframe']
df_fon_w_camapana.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEAC0001campana.wav,36.111111,0.080752,-0.05703,2.292564,11.344103,53.025245,2.919628,-21.938459,5.767943,7.873333,...,1.090742,-0.314687,12.079409,6.814757,11.863031,13.6315,3.8573,2.957334,1.832502,1.0
AVPEPUDEAC0003campana.wav,20.833333,-1.700599,0.308581,1.973195,6.712366,29.755195,1.532372,-20.96814,8.712301,12.050142,...,2.535204,-0.277687,22.140771,13.712286,24.333073,13.40141,3.292963,9.012146,2.659339,1.0
AVPEPUDEAC0004campana.wav,7.692308,-1.099441,0.078492,2.516509,6.253893,24.767495,2.322106,-17.093912,13.5666,18.471332,...,2.529991,-1.032006,23.014362,13.977856,24.259075,22.80803,2.446699,8.707525,2.977752,1.0
AVPEPUDEAC0005campana.wav,8.888889,-0.268639,0.42545,2.195646,7.224871,24.273877,1.359143,-14.619941,5.963235,7.29388,...,2.415459,-0.872777,11.431008,12.071839,15.625026,5.640449,2.466156,8.20655,2.682079,1.0
AVPEPUDEAC0006campana.wav,11.904762,0.127168,0.359829,1.828797,8.716763,29.033149,1.270521,-16.501062,5.655759,6.083868,...,1.460622,-1.028094,3.986445,4.661156,3.576029,3.511097,2.476472,4.615365,3.094675,1.0


In [20]:
np.save('CaracteristicasExtraidas/fon_w_campana_ccas',fon_w_campana_ccas)

##### 1.2.3 Gato

In [21]:
fon_w_gato_ccas = fon_words_ccas['gato']['numpy']

In [22]:
df_fon_w_gato = fon_words_ccas['gato']['dataframe'].head()
df_fon_w_gato.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEAC0001gato.wav,35.714286,-0.132816,0.088312,3.400799,11.962853,69.510038,4.138013,-21.394191,6.720007,8.760115,...,0.404782,0.374567,7.589824,4.304503,7.361894,6.731458,1.860846,1.945449,1.836905,1.0
AVPEPUDEAC0003gato.wav,11.764706,-1.481415,0.10365,1.84924,7.226504,34.775083,1.476448,-20.73642,6.705696,8.309307,...,1.268391,-0.458729,6.421289,6.180636,4.7298,4.804695,1.817457,3.605124,2.201262,1.0
AVPEPUDEAC0004gato.wav,15.151515,-0.567084,-0.162615,3.736072,11.628516,28.158416,3.570296,-15.617167,15.085284,22.082937,...,1.314953,-0.932641,10.377994,6.542074,10.863032,6.687177,1.919011,3.234373,2.84217,1.0
AVPEPUDEAC0005gato.wav,20.0,0.489166,-0.459989,3.674601,6.27787,48.35038,3.166484,-19.619419,8.662262,10.586535,...,1.178421,0.114534,3.816006,4.053765,3.765308,19.405096,2.591095,3.53499,1.726443,1.0
AVPEPUDEAC0006gato.wav,50.0,3.810208,-5.324596,12.848059,13.249471,63.868059,17.140259,-23.934892,40.849847,62.334449,...,-0.214104,0.817852,3.98639,2.506314,2.931764,4.567053,0.0,1.418598,2.20474,1.0


In [23]:
np.save('CaracteristicasExtraidas/fon_w_gato_ccas',fon_w_gato_ccas)

##### 1.2.4 Petaka

In [24]:
fon_w_petaka_ccas = fon_words_ccas['petaka']['numpy']

In [25]:
df_fon_w_petaka = fon_words_ccas['petaka']['dataframe'].head()
df_fon_w_petaka.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEAC0001petaka.wav,32.352941,-1.266673,0.30341,6.392095,13.030796,67.411691,10.930095,-20.70688,20.2189,30.61372,...,0.209618,-0.18894,5.735193,2.919723,4.432669,13.519451,2.127067,1.626672,1.579387,1.0
AVPEPUDEAC0003petaka.wav,17.307692,-1.368437,0.005868,1.981933,7.548247,37.4852,1.628591,-20.078759,9.477471,13.181716,...,2.550677,-0.294573,18.652746,12.100869,20.207919,14.146445,1.833285,9.105975,2.061692,1.0
AVPEPUDEAC0004petaka.wav,20.588235,0.117942,-0.251632,3.909597,13.581578,46.26473,4.705697,-18.045136,19.300851,29.879406,...,1.111425,-0.907567,9.421227,5.65637,9.774895,4.947844,1.604154,2.886165,2.616977,1.0
AVPEPUDEAC0005petaka.wav,5.714286,-0.672007,0.363064,2.691794,9.366891,34.959033,2.101683,-15.91172,6.501012,10.272915,...,1.679211,-0.54299,6.855697,6.296593,6.725598,12.420536,2.129083,5.166924,2.197412,1.0
AVPEPUDEAC0006petaka.wav,36.842105,-1.92188,2.514074,4.387731,12.204263,53.006188,4.724431,-22.194765,18.411441,23.522655,...,1.590359,-0.106691,8.111448,4.829992,7.580289,5.453405,1.623575,4.440254,2.035368,1.0


In [26]:
np.save('CaracteristicasExtraidas/fon_w_petaka_ccas',fon_w_petaka_ccas)

##### 1.2.5 Braso

In [27]:
fon_w_braso_ccas = fon_words_ccas['braso']['numpy']

In [28]:
df_fon_w_braso = fon_words_ccas['braso']['dataframe'].head()
df_fon_w_braso.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEAC0001braso.wav,32.142857,-0.11078,0.086738,3.130274,9.693696,40.976125,3.786831,-21.112819,6.829099,10.22756,...,0.809449,0.013557,8.744266,5.243259,8.239567,3.225292,2.557039,1.953104,1.476354,1.0
AVPEPUDEAC0003braso.wav,25.581395,-1.385528,0.072503,1.739348,6.717029,28.952111,1.272719,-18.327523,6.793879,7.290114,...,1.403156,-0.593889,5.406713,4.907273,4.988961,14.59719,3.169078,4.264452,2.598584,1.0
AVPEPUDEAC0004braso.wav,34.482759,0.171147,-1.735628,5.295113,6.496307,19.562791,5.29799,-12.563444,44.2008,77.524694,...,2.297895,-1.190961,8.87044,8.328932,7.804028,3.721334,2.012193,7.293244,3.274232,1.0
AVPEPUDEAC0005braso.wav,10.526316,-0.316763,0.106327,2.081114,5.97233,18.557148,1.689554,-15.67446,4.943386,6.662045,...,2.263367,-1.189991,5.143816,6.326002,5.98575,3.004717,4.291544,9.306862,4.043858,1.0
AVPEPUDEAC0006braso.wav,11.428571,2.448313,0.106762,8.685659,10.003833,30.284252,14.218691,-15.18497,34.039983,52.103759,...,1.725044,-0.687895,5.922104,4.531641,4.418364,5.286855,2.956448,6.792904,2.687614,1.0


In [29]:
np.save('CaracteristicasExtraidas/fon_w_braso_ccas',fon_w_braso_ccas)

----------

### 1.3 Extracción de medidas de fonación para las vocales <a id="fonvoc"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>
Se extraerá un subset para cada una de las vocales.

**En la función recorremos las vocales de las que queremos extraer las características. Para cada una extraemos su matriz de ccas en numpy y en DataFrame de panda. Devuelve un diccionario con cada vocal como clave. Ese diccionario contiene otro diccionario cuya clave es numpy o panda dependiendo del formato que queramos los datos**.

Para ello utilizamos la función anteriormente definida que extraía características de un tipo de audio en concreto. En esta función recorremos las vocales y pasamos el directorio de cada vocal a esa función. Esta función recibe únicamente las vocales y se encarga de llamar a la función anterior con la ruta completa para esa vocal.

`fon_vowels_ccas = { 'a': {'numpy': [[1,2..],[3,2..]], 'dataframe': pd.DF },
                    'e': {'numpy': [[7,5..],[4,9..]], 'dataframe': pd.DF }                                                              }`

In [30]:
def phonation_vowel_extraction(vowels):
    '''
    Llamamos a la función de extracción de características con las rutas necesarias
    '''
    ccas_vocales = dict()
    for v in vowels:
        ccas_vocales[v] = dict()
        ccas_vocales[v]['numpy'] = extraccion_ccas_directorio('phonation', 'PC-GITA/vowels/'+v+'/', 'fon_v_'+v+'_hc.txt' , 'fon_v_'+v+'_pd.txt' )
        names= os.listdir('PC-GITA/vowels/'+v+'/pd')+os.listdir('PC-GITA/vowels/'+v+'/hc')
        ccas_vocales[v]['dataframe'] = pd.DataFrame(ccas_vocales[v]['numpy'],index=names)
        print('Vocales analizadas: ',ccas_vocales.keys())
    return ccas_vocales

In [31]:
fon_vowels_ccas = phonation_vowel_extraction(['A','E','I','O','U'])

Vocales analizadas:  dict_keys(['A'])
Vocales analizadas:  dict_keys(['A', 'E'])
Vocales analizadas:  dict_keys(['A', 'E', 'I'])
Vocales analizadas:  dict_keys(['A', 'E', 'I', 'O'])
Vocales analizadas:  dict_keys(['A', 'E', 'I', 'O', 'U'])


##### 1.3.1 A

In [32]:
fon_v_A_ccas = fon_vowels_ccas['A']['numpy']

In [33]:
fon_v_A_ccas.shape #300,30

(300, 30)

In [34]:
df_fon_v_A = fon_vowels_ccas['A']['dataframe']
df_fon_v_A.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEA0001a1.wav,4.0,-0.017814,0.004243,0.898627,3.032452,4.648212,0.668709,-14.751413,1.23964,1.751464,...,4.357566,-0.51292,9.415425,14.560379,17.695555,6.383365,6.125903,29.274636,2.898741,1.0
AVPEPUDEA0001a2.wav,7.575758,0.057441,-0.006711,0.827288,3.577324,7.756585,0.514281,-14.413528,1.299031,1.592269,...,0.97044,-2.202506,9.910547,16.684706,14.228784,7.722304,2.002853,3.510056,8.905952,1.0
AVPEPUDEA0001a3.wav,13.559322,0.042804,-0.022058,0.638619,2.84977,3.292649,0.508543,-13.686811,1.026477,1.408492,...,2.122054,-1.463436,13.861951,9.043746,23.601886,20.861799,2.739996,8.471639,5.597328,1.0
AVPEPUDEA0002a1.wav,3.378378,-0.069233,0.008791,1.366845,2.779318,8.104563,1.688259,-17.504165,11.748073,16.069388,...,4.265613,-0.084546,65.847848,33.713666,66.927727,10.016257,4.504486,19.752824,2.939292,1.0
AVPEPUDEA0002a2.wav,2.515723,0.780995,-0.004776,0.662663,3.43617,5.841312,0.777539,-12.326739,7.693535,10.81664,...,6.665147,-1.201951,146.140797,75.12058,150.749076,5.430136,5.820222,47.864447,3.939899,1.0


In [35]:
np.save('CaracteristicasExtraidas/fon_v_A_ccas',fon_v_A_ccas)

##### 1.3.2 E

In [36]:
fon_v_E_ccas = fon_vowels_ccas['E']['numpy']

In [37]:
fon_v_E_ccas.shape

(300, 30)

In [38]:
df_fon_v_E = fon_vowels_ccas['E']['dataframe']
df_fon_v_E.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEA0001e1.wav,2.985075,0.266384,-0.072445,1.621993,4.324866,12.146878,1.340276,-12.269635,3.888893,6.305703,...,5.776937,0.24631,24.847442,30.662977,26.740693,4.518857,2.810229,39.053747,2.676888,1.0
AVPEPUDEA0001e2.wav,11.47541,0.019782,0.01645,0.579281,3.125543,4.673648,0.35881,-8.677905,0.725156,0.902138,...,0.873505,-0.237529,2.445009,2.914433,2.522707,7.638741,6.632816,2.913718,2.254376,1.0
AVPEPUDEA0001e3.wav,4.347826,0.381891,-0.037388,0.903352,3.872181,6.14363,0.607128,-9.05567,1.550795,1.856773,...,2.126601,-1.371907,16.433966,10.915831,25.347529,2.002964,4.05345,9.592078,5.048571,1.0
AVPEPUDEA0002e1.wav,2.01005,-0.08065,0.017728,0.306272,2.21528,5.658112,0.186955,-14.481149,1.184917,1.346626,...,3.271963,-0.21136,31.979843,21.550348,52.103066,11.457506,5.987284,22.393309,1.7604,1.0
AVPEPUDEA0002e2.wav,1.481481,-0.024335,0.041512,0.443543,3.424847,8.269669,0.189118,-14.545133,1.386745,1.058432,...,1.949727,0.182318,9.945418,6.789154,22.022025,8.693337,3.112674,8.824002,1.715206,1.0


In [39]:
np.save('CaracteristicasExtraidas/fon_v_E_ccas',fon_v_E_ccas)

##### 1.3.3 I

In [40]:
fon_v_I_ccas = fon_vowels_ccas['I']['numpy']

In [41]:
fon_v_I_ccas.shape

(300, 30)

In [42]:
df_fon_v_I = fon_vowels_ccas['I']['dataframe']
df_fon_v_I.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEA0001i1.wav,3.333333,-0.004289,-0.015161,0.545584,5.166905,9.651977,0.348493,-8.384728,0.770005,0.830617,...,1.520971,-0.459819,6.595975,6.527356,12.160127,6.414052,2.269538,5.688578,2.217184,1.0
AVPEPUDEA0001i2.wav,3.508772,-0.066665,-0.032478,0.597441,5.313901,11.338679,0.366672,-10.778655,0.87306,1.047881,...,2.492552,0.323148,3.879175,6.343534,4.818789,5.988088,4.814465,10.101646,1.704267,1.0
AVPEPUDEA0001i3.wav,8.695652,-0.032446,-0.117862,0.67171,3.573438,3.868014,0.323324,-9.191039,1.1179,0.98715,...,2.235688,-0.453188,4.989073,5.389075,4.814813,10.316157,2.230339,8.418515,2.745254,1.0
AVPEPUDEA0002i1.wav,1.190476,-0.028073,0.023346,0.308072,1.882154,4.114759,0.189694,-12.829858,0.965109,0.854356,...,1.886629,0.4018,10.318764,4.999147,19.807914,13.298749,21.267212,7.82946,2.940388,1.0
AVPEPUDEA0002i2.wav,4.123711,0.262279,0.055379,0.601112,4.418824,16.276967,0.213465,-13.950713,1.636681,1.157322,...,1.29561,-0.10285,2.214828,4.677655,2.51869,7.327418,2.498166,4.862085,2.180251,1.0


In [43]:
np.save('CaracteristicasExtraidas/fon_v_I_ccas',fon_v_I_ccas)

##### 1.3.4 O

In [44]:
fon_v_O_ccas = fon_vowels_ccas['O']['numpy']

In [45]:
fon_v_O_ccas.shape

(300, 30)

In [46]:
df_fon_v_O = fon_vowels_ccas['O']['dataframe']
df_fon_v_O.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEA0001o1.wav,26.923077,0.28129,0.218549,1.401044,4.567942,6.797829,0.552423,-9.193784,2.653898,3.869008,...,1.871625,-0.756632,12.525237,22.189207,13.609423,3.23324,2.620675,7.001014,2.41748,1.0
AVPEPUDEA0001o2.wav,10.344828,0.224527,-0.395055,1.049032,4.02884,9.066434,0.53635,-9.789576,2.394951,2.729812,...,2.670462,-0.381782,31.615588,31.393687,39.549724,7.480166,3.044684,12.710413,2.339134,1.0
AVPEPUDEA0001o3.wav,14.583333,0.330002,-0.056068,0.841763,3.418677,6.419167,0.555776,-8.179939,1.932765,2.627549,...,3.545901,0.269266,25.066127,15.241358,31.026934,4.622642,2.653733,15.333164,2.804006,1.0
AVPEPUDEA0002o1.wav,1.550388,0.063389,0.021587,0.389443,3.288481,8.014793,0.194088,-14.174082,1.107721,0.906102,...,2.202972,-0.265079,3.512836,3.346485,4.401081,6.505364,3.428268,10.19401,1.742016,1.0
AVPEPUDEA0002o2.wav,1.449275,0.141347,0.021911,0.52595,3.334717,9.549523,0.236166,-13.891284,1.651655,1.186142,...,0.957911,0.37274,4.26369,3.434855,5.048038,8.729001,4.693553,3.36267,2.444471,1.0


In [47]:
np.save('CaracteristicasExtraidas/fon_v_O_ccas',fon_v_O_ccas)

##### 1.3.5 U

In [48]:
fon_v_U_ccas = fon_vowels_ccas['U']['numpy']

In [49]:
fon_v_U_ccas.shape

(300, 30)

In [50]:
df_fon_v_U = fon_vowels_ccas['U']['dataframe']
df_fon_v_U.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
AVPEPUDEA0001u1.wav,9.333333,-0.317405,0.040163,1.157943,3.126702,8.524032,1.04021,-14.927971,3.601924,6.110281,...,5.928303,0.790913,30.577264,32.818346,30.391692,5.449458,2.868458,40.972512,3.323052,1.0
AVPEPUDEA0001u2.wav,8.064516,-0.226008,-0.236102,0.821155,4.443021,7.605541,0.353248,-9.581425,1.617935,1.117683,...,2.28387,-0.522348,11.20671,5.644826,11.910515,10.80576,2.678562,9.668057,2.609382,1.0
AVPEPUDEA0001u3.wav,4.444444,-0.131252,-0.10461,0.82783,5.91475,9.517301,0.319971,-8.777185,1.268458,0.719845,...,0.534791,-0.761018,4.40712,7.049301,6.069321,4.455636,4.167256,2.235674,2.298717,1.0
AVPEPUDEA0002u1.wav,2.173913,0.064888,0.014078,0.418041,2.417473,8.982295,0.194458,-16.436014,1.320483,0.906454,...,1.591697,0.339926,4.446022,3.610041,5.333722,10.142732,4.48143,6.170781,2.051971,1.0
AVPEPUDEA0002u2.wav,1.6,-0.008553,-0.007997,0.597209,2.643596,7.760842,0.280442,-16.0977,1.869715,1.554933,...,1.091978,0.816681,3.416797,4.132482,3.905127,19.663733,3.471341,3.587961,3.093957,1.0


In [51]:
np.save('CaracteristicasExtraidas/fon_v_U_ccas',fon_v_U_ccas)

-------------------
# 2. Extracción medidas de articulación de transiciones <a id="arti"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

***Las características extraídas son 122 en total, en resumen son:***
>* 1-22  : Las 22 **BBE** en onset (Bark band energies).
>* 23-58  : Las 12 **MFCC** en onset (normal, primera y segunda derivada).
>* 59-80  : Las 22 **BBE** en en offset transitions.
>* 81-116 : Las 12 **MFCC** en offset (normal, primera y segunda derivada).
>* 117-122: **Primera y segunda formante de frecuencia** (normal, primera y segunda derivada).

**Devolveremos vector de 488 características (122 ccas x 4 [media, std, curtosis y oblicuidad]) para cada audio mas la clase etiquetada**

### 2.1 Extracción medidas de articulación para la frase <a id="artifra"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

In [52]:
def articulation_readtext_extraction():
    return extraccion_ccas_directorio('articulation', 'PC-GITA/read-text/', 'art_rt_hc.txt' , 'art_rt_pd.txt' )

In [53]:
art_rt_ccas = articulation_readtext_extraction()

In [54]:
assert art_rt_ccas.shape == (100,489)
art_rt_ccas.shape

(100, 489)

In [55]:
#creamos dataframe para su visualización
df_art_rt = pd.DataFrame(art_rt_ccas,index=name_rt)
df_art_rt.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,479,480,481,482,483,484,485,486,487,488
AVPEPUDEA0001_readtext.wav,-0.972145,-0.20531,-0.161909,-0.275934,-0.604004,-1.430262,-2.16542,-2.413479,-2.535179,-2.442796,...,3.894063,3.928199,3.474598,2.960558,7.847319,7.60253,2.933172,6.561664,6.217477,1.0
AVPEPUDEA0002_readtext.wav,-1.971437,-1.45891,-1.555107,-2.361928,-2.916185,-3.548485,-3.776835,-3.712033,-4.031614,-4.074135,...,5.225379,3.596415,6.92113,3.853243,8.611255,8.160646,3.285926,5.888915,5.40643,1.0
AVPEPUDEA0003_readtext.wav,-0.728441,0.092558,0.017427,-0.416538,-0.794355,-1.402062,-2.011884,-2.315733,-2.612073,-2.623852,...,3.691375,2.472584,4.516062,2.551708,5.668177,5.313435,3.19194,5.462161,5.000019,1.0
AVPEPUDEA0005_readtext.wav,-1.85978,-1.229264,-1.813251,-2.617949,-3.209924,-3.710714,-3.891381,-4.204557,-4.393836,-4.472015,...,9.918851,8.970473,11.840243,2.84871,8.552415,7.798932,2.847207,5.474695,5.747304,1.0
AVPEPUDEA0006_readtext.wav,-1.384242,-0.770924,-0.875593,-1.33913,-1.770028,-2.355479,-2.834722,-3.295922,-3.470413,-3.464596,...,4.07439,4.471695,5.076893,3.173316,9.488526,7.642441,2.883986,9.65909,6.230004,1.0


In [56]:
np.save('CaracteristicasExtraidas/art_rt_ccas',art_rt_ccas)

### 2.1 Extracción medidas de articulación para las palabras <a id="artipal"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

Se extraerá un subset para cada una de las palabras que mejor funcionan.

**En la función recorremos las palabras de las que queremos extraer las características. Para cada una extraemos su matriz de ccas en numpy y en DataFrame de panda. Devuelve un diccionario con cada palabra como clave. Ese diccionario contiene otro diccionario cuya clave es numpy o panda dependiendo del formato que queramos los datos** 

`art_words_ccas = { 'atleta': {'numpy': [[1,2..],[3,2..]], 'dataframe': pd.DF }
                    'petaka': {'numpy': [[7,5..],[4,9..]], 'dataframe': pd.DF }                                                              }`

In [57]:
def articulation_word_extraction(palabras):
    '''
    Llamamos a la función de extracción de características con las rutas necesarias
    '''
    ccas_palabras = dict()
    for p in palabras:
        ccas_palabras[p] = dict()
        ccas_palabras[p]['numpy'] = extraccion_ccas_directorio('articulation', 'PC-GITA/words/'+p+'/', 'art_w_'+p+'_hc.txt' , 'art_w_'+p+'_pd.txt' )
        names= os.listdir('PC-GITA/words/'+p+'/pd')+os.listdir('PC-GITA/words/'+p+'/hc')
        ccas_palabras[p]['dataframe'] = pd.DataFrame(ccas_palabras[p]['numpy'],index=names)
        print('Palabras analizadas: ',ccas_palabras.keys())
    return ccas_palabras

In [58]:
art_words_ccas = articulation_word_extraction(words)

Palabras analizadas:  dict_keys(['atleta'])
Palabras analizadas:  dict_keys(['atleta', 'campana'])
Palabras analizadas:  dict_keys(['atleta', 'campana', 'gato'])
Palabras analizadas:  dict_keys(['atleta', 'campana', 'gato', 'petaka'])
Palabras analizadas:  dict_keys(['atleta', 'campana', 'gato', 'petaka', 'braso'])


In [59]:
art_words_ccas.keys()

dict_keys(['atleta', 'campana', 'gato', 'petaka', 'braso'])

#### 2.2.1 Atleta

In [60]:
art_w_atleta_ccas = art_words_ccas['atleta']['numpy']

In [61]:
art_w_atleta_ccas.shape #100,489

(100, 489)

In [62]:
df_art_w_atleta = art_words_ccas['atleta']['dataframe']
df_art_w_atleta.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,479,480,481,482,483,484,485,486,487,488
AVPEPUDEA0001atleta.wav,-0.458526,0.247367,0.082068,-0.051045,-0.008606,-0.354432,-0.972224,-1.500885,-1.637076,-1.286998,...,1.5,1.5,1.5,7.843228,14.646687,6.912806,2.212703,9.786446,4.928601,1.0
AVPEPUDEA0002atleta.wav,-1.851409,-1.003442,-0.914021,-2.293021,-2.598507,-2.885318,-3.25989,-3.935411,-4.143373,-4.143215,...,1.5,1.5,1.5,6.435271,9.655181,8.804328,6.186128,7.244863,6.275001,1.0
AVPEPUDEA0003atleta.wav,-1.002793,0.100985,-0.161204,-0.962765,-1.268199,-1.785118,-2.026196,-1.84941,-2.388525,-2.588304,...,3.306604,2.415954,3.17748,7.944986,8.024922,8.956395,2.712019,23.242524,13.790142,1.0
AVPEPUDEA0005atleta.wav,-1.855044,-0.428815,-1.025263,-3.17449,-4.388247,-4.037081,-4.915855,-5.00134,-4.655133,-3.485183,...,0.0,0.0,0.0,3.8774,5.667165,4.886761,5.213992,12.708467,7.403668,1.0
AVPEPUDEA0006atleta.wav,-1.251726,-0.122642,-0.319747,-0.427723,-0.497777,-0.893422,-1.200629,-1.781687,-2.384604,-2.196336,...,1.880995,2.719866,1.996257,2.018859,5.065993,6.05989,4.323796,12.7531,6.475931,1.0


In [63]:
np.save('CaracteristicasExtraidas/art_w_atleta_ccas',art_w_atleta_ccas)

#### 2.2.2 Campana

In [64]:
art_w_campana_ccas = art_words_ccas['campana']['numpy']

In [65]:
art_w_campana_ccas.shape #100,489

(100, 489)

In [66]:
df_art_w_campana = art_words_ccas['campana']['dataframe']
df_art_w_campana.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,479,480,481,482,483,484,485,486,487,488
AVPEPUDEA0001campana.wav,-0.471654,0.535608,0.083101,-0.172132,-0.136814,0.48479,0.246492,-0.783314,-0.362429,-0.505851,...,1.91522,1.986314,1.816592,4.805321,11.181221,8.429333,2.292547,8.004164,4.233595,1.0
AVPEPUDEA0002campana.wav,-2.225299,-0.767011,-0.911396,-2.478248,-3.273889,-3.991852,-4.400573,-4.252759,-4.552975,-4.531359,...,1.00321,1.530357,2.083025,1.522853,5.48842,4.281794,2.34692,11.538864,5.766307,1.0
AVPEPUDEA0003campana.wav,-0.136018,0.067514,-0.265946,-1.130575,-2.441393,-2.822276,-2.335095,-1.598213,-2.125841,-2.456236,...,0.0,0.0,0.0,6.455389,10.215203,5.623232,3.0377,15.271388,7.716095,1.0
AVPEPUDEA0005campana.wav,-0.94815,0.123588,-0.827304,-3.558547,-4.212578,-4.445701,-4.294352,-4.629878,-4.71014,-4.936813,...,0.0,0.0,0.0,4.661924,7.003138,6.731856,3.259783,10.002517,6.614313,1.0
AVPEPUDEA0006campana.wav,-1.592012,-0.257911,-0.009943,-0.215626,-0.939117,-1.369015,-1.321274,-1.536949,-1.853885,-2.124322,...,1.5,1.5,1.5,1.393299,4.950742,3.376363,3.107946,18.255028,9.870878,1.0


In [67]:
np.save('CaracteristicasExtraidas/art_w_campana_ccas',art_w_campana_ccas)

#### 2.2.3 Gato

In [68]:
art_w_gato_ccas = art_words_ccas['gato']['numpy']

In [69]:
art_w_gato_ccas.shape #100,489

(100, 489)

In [70]:
df_art_w_gato = art_words_ccas['gato']['dataframe']
df_art_w_gato.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,479,480,481,482,483,484,485,486,487,488
AVPEPUDEA0001gato.wav,-1.106171,0.033331,-0.272391,-0.526249,-0.505,-1.626968,-2.712717,-2.625202,-3.010363,-2.964602,...,2.532994,2.814476,2.494508,13.960945,11.087413,11.031241,3.20294,6.593169,4.391134,1.0
AVPEPUDEA0002gato.wav,-1.433537,-0.090529,-0.701224,-2.292211,-3.674148,-4.199474,-4.008582,-3.975033,-4.225096,-4.710511,...,0.0,0.0,0.0,2.260293,10.781502,10.818871,3.003798,9.363234,6.727704,1.0
AVPEPUDEA0003gato.wav,0.309173,1.053399,0.822667,-0.066076,-0.639669,-1.092364,-1.763518,-1.919325,-2.071399,-1.857623,...,1.678106,2.146666,2.781949,7.700041,8.932069,8.062519,2.953932,14.826938,10.816025,1.0
AVPEPUDEA0005gato.wav,-0.043889,0.745712,-0.349943,-0.660897,-0.895528,-1.21507,-1.632888,-2.757301,-2.978056,-1.918816,...,1.964158,2.129143,2.076211,6.923358,6.14301,5.976347,4.081922,6.721997,4.721892,1.0
AVPEPUDEA0006gato.wav,-0.859312,0.027482,-0.156511,-0.424391,-0.466353,-0.833212,-1.325818,-1.998335,-2.35048,-2.528469,...,2.928679,2.438313,2.471029,4.671429,10.383597,9.986445,2.938734,12.084992,7.22567,1.0


In [71]:
np.save('CaracteristicasExtraidas/art_w_gato_ccas',art_w_gato_ccas)

#### 2.2.4 Petaka

In [72]:
art_w_petaka_ccas = art_words_ccas['petaka']['numpy']

In [73]:
art_w_petaka_ccas.shape #100,489

(100, 489)

In [74]:
df_art_w_petaka = art_words_ccas['petaka']['dataframe']
df_art_w_petaka.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,479,480,481,482,483,484,485,486,487,488
AVPEPUDEA0001petaka.wav,-1.129002,-0.067017,0.168198,0.16792,-0.007655,0.054223,-0.639227,-1.015786,-1.267424,-1.424031,...,1.785072,2.198414,2.04049,8.792154,8.204759,8.51596,4.208614,11.15232,5.846535,1.0
AVPEPUDEA0002petaka.wav,-2.40959,-1.341176,-1.47875,-2.063751,-2.875522,-3.165564,-3.06991,-3.610752,-3.845297,-3.779156,...,2.143608,1.671593,1.913537,4.234755,10.629864,7.42329,5.35334,7.964865,7.357514,1.0
AVPEPUDEA0003petaka.wav,-1.244391,-0.227889,-0.447312,-1.236119,-1.597922,-2.313851,-2.341648,-2.768414,-3.24288,-3.255259,...,2.49342,2.470763,2.47263,7.351453,9.371404,9.020813,1.932192,17.339724,7.66132,1.0
AVPEPUDEA0005petaka.wav,-0.170202,0.161851,-1.267213,-2.793285,-2.404906,-2.870078,-2.710047,-2.588792,-2.950574,-3.430779,...,0.0,0.0,0.0,1.799084,4.092706,4.066156,2.296109,5.809753,3.30198,1.0
AVPEPUDEA0006petaka.wav,-0.87019,0.578071,0.526816,0.196878,0.125098,-0.456573,-0.552789,-0.932616,-1.418885,-1.65954,...,2.862681,2.446737,2.413078,3.375264,11.211392,9.925066,3.813289,11.493289,7.500968,1.0


In [75]:
np.save('CaracteristicasExtraidas/art_w_petaka_ccas',art_w_petaka_ccas)

#### 2.2.5 Braso

In [76]:
art_w_braso_ccas = art_words_ccas['braso']['numpy']

In [77]:
art_w_braso_ccas.shape #100,489

(100, 489)

In [78]:
df_art_w_braso = art_words_ccas['braso']['dataframe']
df_art_w_braso.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,479,480,481,482,483,484,485,486,487,488
AVPEPUDEA0001braso.wav,-1.218158,-0.469886,-0.853476,-1.256542,-1.875752,-2.834973,-3.561578,-3.208877,-3.562339,-3.941331,...,1.5,1.5,1.5,2.873734,5.16137,3.997386,2.310696,6.547303,4.728132,1.0
AVPEPUDEA0002braso.wav,-3.033357,-1.572085,-1.344772,-2.623157,-3.104809,-3.740772,-3.774169,-4.175138,-4.437387,-4.609118,...,1.9856,1.972007,1.925478,4.108609,15.802846,9.171505,3.324955,10.494225,5.339146,1.0
AVPEPUDEA0003braso.wav,-0.62701,0.473941,-0.095389,-0.467714,-0.624892,-1.521704,-2.279317,-2.131836,-2.120375,-2.221458,...,1.433696,2.128342,2.753147,1.971155,10.56531,4.720395,2.624992,13.158263,6.896368,1.0
AVPEPUDEA0005braso.wav,-0.766644,-0.149377,-1.236403,-3.99799,-4.751051,-4.246055,-3.922882,-4.489519,-5.185802,-5.552953,...,0.0,0.0,0.0,5.523216,7.937758,4.81731,4.039769,9.846522,4.976661,1.0
AVPEPUDEA0006braso.wav,-0.721298,0.57248,-0.133337,-1.455347,-2.357069,-2.513016,-2.413161,-3.053141,-2.965964,-2.504891,...,1.0,1.0,1.0,9.896888,22.061352,15.298044,4.056501,9.304931,5.473721,1.0


In [79]:
np.save('CaracteristicasExtraidas/art_w_braso_ccas',art_w_braso_ccas)

-------------------
# 3. Extracción medidas prosódicas de audios completos<a id="proso"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

***Las características estáticas extraídas son 38 en total, en resumen son:***
>* 1-4, 14-16  : Medidas de la frecuencia fundamental.
>* 5-7, 33-38  : medidas de energía.
>* 9-13, 17-32  : medidas de Voiced-Unvoiced y pausas.

**Devolveremos un vector con esas 38 características para cada audio mas la clase etiquetada**

### 3.1 Extracción medidas prosódicas para la frase<a id="prosofra"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

In [80]:
def prosody_readtext_extraction():
    return extraccion_ccas_directorio('prosody', 'PC-GITA/read-text/', 'prs_rt_hc.txt' , 'prs_rt_pd.txt' )

In [81]:
prs_rt_ccas = prosody_readtext_extraction()

In [82]:
assert prs_rt_ccas.shape == (100,39)
prs_rt_ccas.shape

(100, 39)

In [83]:
#creamos dataframe para su visualización
df_prs_rt = pd.DataFrame(prs_rt_ccas,index=name_rt)
df_prs_rt.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,29,30,31,32,33,34,35,36,37,38
AVPEPUDEA0001_readtext.wav,98.650948,14.721467,47.740072,142.943695,-31.644213,15.202784,-6.832043,1.520238,294.347826,192.440303,...,0.02,0.01,1.521739,0.108545,0.054778,1665.473471,-0.031465,5.667404,3.912611,1.0
AVPEPUDEA0002_readtext.wav,214.265732,29.583178,73.904606,312.322998,-38.635469,15.968303,-5.772594,0.573883,641.333333,504.326173,...,0.03,0.02,2.222222,-0.004868,-0.003446,875.438822,0.046571,4.431381,2.892295,1.0
AVPEPUDEA0003_readtext.wav,174.49176,41.742733,86.826559,247.10553,-34.667951,11.195155,-8.68872,0.994676,211.2,171.960926,...,0.02,0.01,1.681818,-0.273016,-0.1295,811.427448,0.030159,5.449815,4.202233,1.0
AVPEPUDEA0005_readtext.wav,142.964218,20.473455,60.160068,223.531647,-36.132715,16.780249,-6.384829,0.582333,953.333333,586.78976,...,0.02,0.01,2.444444,0.072357,0.05691,1364.304912,-0.05513,5.847741,5.214519,1.0
AVPEPUDEA0006_readtext.wav,188.205597,31.562254,76.146763,267.453766,-28.924906,13.049571,-7.730608,1.990017,290.967742,247.234443,...,0.02,0.01,1.75,-0.447878,-0.261524,476.303027,-0.042464,6.037625,5.55106,1.0


In [84]:
np.save('CaracteristicasExtraidas/prs_rt_ccas',prs_rt_ccas)

-------------

# 4. Limpieza de datos <a id="limp"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>
Otra etapa importante dentro de la extracción de características son los pasos de limpieza de datos. En este paso se intentará solucionar todos los problemas con datos ruidosos o inexistentes. En nuestro caso, controlaremos los NaN producidos por los scripts de extracción de características.
### Enfoque de limpieza
1. Primero debemos **identificar en que sets de datos** se producen estos Nan.
2. Después debemos **identificar en qué audios y atributos** se producen los Nan
3. A partir de aquí tenemos dos enfoques
    > 1. Eliminar las instancias defectuosas.
    > 2. Sustituir el atributo por otro (media del atributo, media del atributo para su clase...)

#### Identificamos los sets de datos y audios en los que se producen los Nan
Devolvemos un diccionario con:
1. **clave = archivo numpy que contienen nan.**
2. **Valor= lista de 4 elementos:**
> 1. Set de ids de audios con Nan.
> 2. Número de audios con Nan.  
> 3. % de audios con nan de PD.
> 4. Lista de listas donde se identifica cada Nan concreto = [[idAud, idAtr],[idAud, idAtr]]

`dic['file.npy'] = [ {8,56}, 2, 0.5, [[8,2],[8,17],[56,3]] ]`

In [85]:
def identificadorNan(verbose=False):
    sets_ccas = [d for d in os.listdir('CaracteristicasExtraidas') if d.endswith('.npy')]
    ruta_ccas = './CaracteristicasExtraidas/'
    dic_nans = dict()
    for ccas in sets_ccas:
        data = np.load(ruta_ccas+ccas)
        if np.isnan(data).any():
            nan = np.argwhere(np.isnan(data))
            audiosconNaN = set(np.argwhere(np.isnan(data))[:,0])
            dic_nans[ccas] =  [audiosconNaN, len(audiosconNaN), len(np.where( np.array(list(audiosconNaN)) > 49 )[0])/len(audiosconNaN),nan]
            if verbose:
                print('\n--------------\n',ccas)
                print('\t(Audios, atrib): ',data.shape)
                print('\tAudios con NaN: ',audiosconNaN)
                print('\tNumero de audios con NaN: ',len(audiosconNaN))
                print('\t% de Nan en audios PD: ',dic_nans[ccas][2])
            
    return dic_nans

In [86]:
dc=identificadorNan(True)


--------------
 fon_w_atleta_ccas.npy
	(Audios, atrib):  (100, 30)
	Audios con NaN:  {7}
	Numero de audios con NaN:  1
	% de Nan en audios PD:  0.0

--------------
 fon_w_braso_ccas.npy
	(Audios, atrib):  (100, 30)
	Audios con NaN:  {65, 19, 78}
	Numero de audios con NaN:  3
	% de Nan en audios PD:  0.6666666666666666

--------------
 fon_w_gato_ccas.npy
	(Audios, atrib):  (100, 30)
	Audios con NaN:  {7, 10, 11, 17, 19, 20, 23, 30, 31, 33, 38, 41, 46, 48, 65, 68, 69, 77, 78, 84, 86, 87, 92, 95}
	Numero de audios con NaN:  24
	% de Nan en audios PD:  0.4166666666666667

--------------
 fon_w_petaka_ccas.npy
	(Audios, atrib):  (100, 30)
	Audios con NaN:  {27, 63, 95, 7}
	Numero de audios con NaN:  4
	% de Nan en audios PD:  0.5


In [87]:
#Ejemplo de pared idAudio-idAtrib donde hay un nan
dc['fon_w_braso_ccas.npy'][3]

array([[19,  5],
       [19, 12],
       [19, 19],
       [19, 26],
       [65,  5],
       [65, 12],
       [65, 19],
       [65, 26],
       [78,  5],
       [78, 12],
       [78, 19],
       [78, 26]], dtype=int64)

### Tratamiento de los Nan
Se ha optado por eliminar los audios que contienen nan. Se han identificado audios con nan en 4 de los 18 subsets de características y en la mayoría de ellos hay menos de 5 audios que contienen Nan. Concluimos que es un subconjunto pequeño de instancias y que puede ser completamente eliminada. 
Hay un único caso, las características de fonación de la palabra gato, donde hay más audios con atributos nan: 24 audios que contienen nan. También seguiremos la misma estrategia de eliminación de instancias con valores desconocidos.

In [88]:
def tratamiento_nan(dic_nan):
    '''Borramos de cada conjunto de caracerísticas las intancias con nan.'''
    for arch in dic_nan:
        ruta_ccas = './CaracteristicasExtraidas/'
        data = np.load(ruta_ccas+arch)
        data = np.delete(data, list(dic_nan[arch][0]), 0)
        np.save(ruta_ccas+arch, data)


In [89]:
tratamiento_nan(dc)

In [90]:
def ver(dic_nan):
    '''Vemos las nuevas dimensiones de los conjuntos de características 'limpiados' '''
    for arch in dic_nan:
        ruta_ccas = './CaracteristicasExtraidas/'
        data = np.load(ruta_ccas+arch)
        print(arch, data.shape)

In [91]:
ver(dc)

fon_w_atleta_ccas.npy (99, 30)
fon_w_braso_ccas.npy (97, 30)
fon_w_gato_ccas.npy (76, 30)
fon_w_petaka_ccas.npy (96, 30)
