# 1. Creamos diccionario de metadatos

In [1]:
import pandas as pd
import pickle as pk
import numpy as np
from sklearn.utils import Bunch

In [2]:
#Creamos el diccionario con la estructura indicada
filepath = 'PC-GITA/PCGITA_metadata.csv'
dic_audios_inf = dict()
with open(filepath) as fp:
    cnt = 0
    for line in fp:
        line = line.split(';')[:8]
        if not line[0].startswith('AVP'):
            line[0]=line[0][3:]
        dic_audios_inf[line[0]]=dict()
        dic_audios_inf[line[0]]['UPDRS'] = 0 if line[1]=='' else int(line[1])
        dic_audios_inf[line[0]]['UPDRS_SPEECH'] = 0 if line[2]=='' else int(line[2])
        dic_audios_inf[line[0]]['HY'] = 0 if line[3]=='' else int(line[3][0])
        dic_audios_inf[line[0]]['SEX'] = 0 if line[4]=='M' else 1
        dic_audios_inf[line[0]]['AGE'] = int(line[5])
fp.close()
metadata_df = pd.DataFrame(dic_audios_inf).transpose()
metadata_df.head(10)

Unnamed: 0,AGE,HY,SEX,UPDRS,UPDRS_SPEECH
AVPEPUDEA0001,64,2,0,28,1
AVPEPUDEA0002,72,1,1,19,0
AVPEPUDEA0003,75,3,1,52,2
AVPEPUDEA0005,65,2,0,32,1
AVPEPUDEA0006,66,2,1,28,1
AVPEPUDEA0007,55,2,1,30,1
AVPEPUDEA0008,60,2,1,29,1
AVPEPUDEA0009,57,3,1,41,1
AVPEPUDEA0010,51,3,1,38,2
AVPEPUDEA0011,55,3,1,43,2


# 2. DISVOICE
## 2.1. Adición a características ya extraídas

**Anteriormente hemos extraido características y limpiado**.

**Debemos identificar en qué conjuntos de datos hemos borrado alguna instancia (limpieza de NaN) para volver a sacar esos datos.**

**En los conjuntos que no hayamos borrado ninguna instancia, podremos ahorrarnos la reextracción**

In [3]:
import cargaDatosEdSx as loader

In [4]:
re_extract = []
completos = []
for ld in dir(loader):
    if ld.startswith('load'): 
        forma = eval("loader."+str(ld)+'()[\'data\']').shape
        if forma[0]==100 or forma[0]==300:
            completos.append(ld)
        else:
            re_extract.append(ld)


In [29]:
completos

['load_art_rt',
 'load_art_w_atleta',
 'load_art_w_braso',
 'load_art_w_campana',
 'load_art_w_gato',
 'load_art_w_petaka',
 'load_fon_rt',
 'load_fon_v_A',
 'load_fon_v_E',
 'load_fon_v_I',
 'load_fon_v_O',
 'load_fon_v_U',
 'load_fon_w_campana',
 'load_prs_rt']

In [30]:
re_extract

['load_fon_w_atleta',
 'load_fon_w_braso',
 'load_fon_w_gato',
 'load_fon_w_petaka']

Como las ccas están sacadas primero para sanos y luego para PD, debemos invertir el orden del array de labels:

In [31]:
np.array(metadata_df['UPDRS'])

array([28, 19, 52, 32, 28, 30, 29, 41, 38, 43,  6, 61, 28, 44, 50, 30, 42,
       20, 14, 93, 53, 21, 13, 19, 75, 40, 30, 19, 23, 40,  9, 67, 15, 54,
       51, 71, 40, 40, 53, 28, 38, 57, 23, 33, 30, 53, 45, 65, 21, 29,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
      dtype=int64)

In [32]:
global_updrs = np.array(metadata_df['UPDRS'][:])

global_updrs_speech = np.array(metadata_df['UPDRS_SPEECH'][:])

global_hy = np.array(metadata_df['HY'][:])

In [33]:
np.repeat(global_hy,3)

array([2, 2, 2, 1, 1, 1, 3, 3, 3, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 3, 3, 3, 2, 2, 2, 3, 3, 3, 2, 2,
       2, 2, 2, 2, 3, 3, 3, 2, 2, 2, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 1, 1,
       1, 1, 1, 2, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 4, 4, 4, 3, 3, 3, 3, 3, 3, 2, 2, 2, 3, 3, 3, 3, 3,
       3, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 1, 1, 1, 2, 2, 2, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], d

In [28]:
for c in completos:
    bunch = eval("loader."+str(c)+'()')
    forma = bunch['data'].shape
    if forma[0]==100:
        bunch['UPDRS'] = global_updrs
        bunch['UPDRS_SPEECH'] = global_updrs_speech
        bunch['HY'] = global_hy
    elif forma[0]==300:
        bunch['UPDRS'] = np.array(np.repeat(global_updrs,3))
        bunch['UPDRS_SPEECH'] = np.array(np.repeat(global_updrs_speech,3))
        bunch['HY'] = np.array(np.repeat(global_hy,3))
    else:
        print('FALLO')
    pickle_out = open('CaracteristicasExtraidas\Regression\Orozco\\'+c[5:]+'_ccas.bunch',"wb")
    pk.dump(bunch, pickle_out)
    pickle_out.close()

## 2.2. Extraccion ccas Disvoice para 4 datasets

In [34]:
from extractorCcas import ExtractorCaracteristicas
re_extract

['load_fon_w_atleta',
 'load_fon_w_braso',
 'load_fon_w_gato',
 'load_fon_w_petaka']

Extraemos las características

In [35]:
def phonation_word_extraction(palabras):
    '''
    Llamamos a la función de extracción de características con las rutas necesarias
    '''
    ccas_palabras = dict()
    for p in palabras:
        extractor = ExtractorCaracteristicas('PC-GITA/words/'+p+'/','CaracteristicasExtraidas/Regression/Orozco/', dic_audios_inf)
        ccas_palabras[p]= extractor.extraccion_ccas_directorio('phonation', 'fon_w_'+p+'_hc.txt' , 'fon_w_'+p+'_pd.txt', ['AGE','SEX'] )
        print('Palabras analizadas: ',ccas_palabras.keys())
    return ccas_palabras

In [36]:
words=['atleta','gato','petaka','braso']
fon_words_ccas = phonation_word_extraction(words)
for k in fon_words_ccas:
    np.save('CaracteristicasExtraidas/Regression/Orozco/fon_w_'+k+'_ccas',fon_words_ccas[k])

Directorio de características ya existente, no se crea nuevo.
Palabras analizadas:  dict_keys(['atleta'])
Directorio de características ya existente, no se crea nuevo.
Palabras analizadas:  dict_keys(['atleta', 'gato'])
Directorio de características ya existente, no se crea nuevo.
Palabras analizadas:  dict_keys(['atleta', 'gato', 'petaka'])
Directorio de características ya existente, no se crea nuevo.
Palabras analizadas:  dict_keys(['atleta', 'gato', 'petaka', 'braso'])


Limpiamos los datos y Creamos objeto bunch con datos, label binaria, y labels numéricas (UPDRS, UPDRS speech e HY), teniendo en cuenta los índices de datos que hemos borado a la hora de obtener los labels.

In [37]:
ex = ExtractorCaracteristicas('daigual','CaracteristicasExtraidas/Regression/Orozco/')
dc = ex.identificadorNan('CaracteristicasExtraidas/Regression/Orozco/', True)

Directorio de características ya existente, no se crea nuevo.

--------------
 fon_w_atleta_ccas.npy
	(Audios, atrib):  (100, 32)
	Audios con NaN:  {7}
	Numero de audios con NaN:  1
	% de Nan en audios PD:  0.0

--------------
 fon_w_braso_ccas.npy
	(Audios, atrib):  (100, 32)
	Audios con NaN:  {65, 19, 78}
	Numero de audios con NaN:  3
	% de Nan en audios PD:  0.6666666666666666

--------------
 fon_w_gato_ccas.npy
	(Audios, atrib):  (100, 32)
	Audios con NaN:  {7, 10, 11, 17, 19, 20, 23, 30, 31, 33, 38, 41, 46, 48, 65, 68, 69, 77, 78, 84, 86, 87, 92, 95}
	Numero de audios con NaN:  24
	% de Nan en audios PD:  0.4166666666666667

--------------
 fon_w_petaka_ccas.npy
	(Audios, atrib):  (100, 32)
	Audios con NaN:  {27, 63, 95, 7}
	Numero de audios con NaN:  4
	% de Nan en audios PD:  0.5


In [38]:
ex.tratamiento_nan('CaracteristicasExtraidas/Regression/Orozco/', dc)
ex.identificadorNan('CaracteristicasExtraidas/Regression/Orozco/', True)

{}

In [39]:
for dtst in dc:
    data = np.load('CaracteristicasExtraidas/Regression/Orozco/'+dtst)
    
    attributes = data[:,:-1]
    label_binary = data[:,-1]
    
    labels_limpias = metadata_df.drop(metadata_df.index[ list(dc[dtst][0])])
    
    updrs = np.array(labels_limpias['UPDRS'])
    updrs_speech = np.array(labels_limpias['UPDRS_SPEECH'])
    hy =  np.array(labels_limpias['HY'])
    
    bunch = Bunch(data = attributes, 
                  target = label_binary, 
                  UPDRS = updrs, 
                  UPDRS_SPEECH = updrs_speech, 
                  HY = hy )
    
    pickle_out = open('CaracteristicasExtraidas\Regression\Orozco\\'+dtst[:-4]+'.bunch',"wb")
    pk.dump(bunch, pickle_out)
    pickle_out.close()
    
    print(dtst)
    print(attributes.shape)
    print(label_binary.shape)
    print(updrs.shape)
    print('--------------')

fon_w_atleta_ccas.npy
(99, 31)
(99,)
(99,)
--------------
fon_w_braso_ccas.npy
(97, 31)
(97,)
(97,)
--------------
fon_w_gato_ccas.npy
(76, 31)
(76,)
(76,)
--------------
fon_w_petaka_ccas.npy
(96, 31)
(96,)
(96,)
--------------


Borramos temporales

In [40]:
import os
for f in os.listdir('CaracteristicasExtraidas\Regression\Orozco\\'):
    if f.endswith('npy') or f.endswith('txt'):
        os.remove('CaracteristicasExtraidas\Regression\Orozco\\'+f)

In [41]:
bn = pk.load(open(r'CaracteristicasExtraidas\Regression\Orozco\fon_w_petaka_ccas.bunch','rb'))
print(type(bn))
for k in bn.keys():
    print(bn[k].shape)

<class 'sklearn.utils.Bunch'>
(96, 31)
(96,)
(96,)
(96,)
(96,)


---------