# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Processamento de Linguagem Natural</font>


## Mini-Projeto 3
### Reconhecimento da Fala - Detectando Emoções em Arquivos de Áudio com Inteligência Artificial
### Parte 1 - Preparação dos Dados, Treinamento e Avaliação do Detector de Emoções com Machine Learning

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Este é um Mini-Projeto especial. 

Vamos trabalhar com uma das tarefas mais complexas em Inteligência Artificial: extrair emoções a partir da voz em arquivos de áudio.

Detectar emoções é uma das estratégias de Marketing mais importantes no mundo de hoje. Você pode personalizar aplicações para fornecer tratamentos diferentes para um indivíduo de acordo com a emoção detectada na voz de uma pessoa. Esse tipo de aplicação é um dos pilares para uma solução completa de IA.

Alguns exemplos de aplicações desse tipo de solução, incluem:

- Uma central de atendimento que toca músicas diferentes de acordo com a emoção detectada na voz do cliente. 

- Um carro autônomo que desacelera quando alguém está com raiva ou com medo. 

- Assistente pessoal que reage de acordo com a emoção detectada na voz.

- Aplicações de Marketing que oferecem diferentes produtos ou opções de acordo com a emoção do cliente.

- Assistente Virtual, que pode ser uma Enfermeira Virtual ou mesmo um Professor de Inglês, e que reage de acordo com a voz do interlocutor.

Entre outros exemplos.

Usaremos a biblioteca Librosa em Python para processar e extrair recursos dos arquivos de áudio. Librosa é um pacote Python para análise de música e áudio. Ele fornece os componentes necessários para criar sistemas de recuperação de informações musicais. 

Usando a biblioteca librosa, conseguimos extrair recursos através do MFCC (Mel Frequency Cepstral Coefficient). Os MFCCs são coeficientes amplamente usado no reconhecimento automático de fala. 

Também separamos a voz de mulheres e homens usando os identificadores fornecidos no dataset, como forma de deixar o modelo de reconhecimento de voz ainda mais preciso e personalizado.

Cada arquivo de áudio fornece muitos recursos, que são basicamente uma matriz de muitos valores. A esses recursos, iremos atribuir rótulos especificando o gênero da voz no áudio e a emoção detectada.

Como este projeto é um grande esforço de trabalho, ele foi dividido em 3 partes:

- **Parte 1 - Preparação dos Dados, Treinamento e Avaliação do Detector de Emoções com Machine Learning**
- **Parte 2 - Preparação dos Dados, Treinamento e Avaliação do Detector de Emoções com Deep Learning**
- **Parte 3 - Detecção e Classificação de Emoções em Arquivos de Áudio**

Este projeto pode ser facilmente adaptado aos seus próprios projetos. Tudo que você precisa é providenciar arquivos de áudio gravados com pessoas com diferentes emoções. Usaremos um dataset público para nosso trabalho.

Esta é a Parte 1. Aprenda e divirta-se.

## Dataset

Para construir nossa aplicação, usaremos arquivos de áudio disponíveis publicamente neste web site:

The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)

https://zenodo.org/record/1188976

Faça download do arquivo **Audio_Song_Actors_01-24.zip** (225 MB). Descompacte e coloque o conteúdo (24 pastas) dentro do diretório **dados**, no mesmo diretório onde está este Jupyter Notebook.

São 1440 arquivos de áudio com 60 falas por ator x 24 atores = 1440.   

Caso tenha dificuldades com o download, disponibilizamos o arquivo no Titan, na pasta: /media/datasets/PLN/Cap03

#### Organização dos Dados

Cada arquivo de áudio tem o seguinte formato: '03-02-03-02-02-02-01.wav'

Os pares de valores representam uma informação definida no Encoding abaixo:

- Modalidade (01 = AV total, 02 = somente vídeo, 03 = somente áudio).
- Canal vocal (01 = fala, 02 = música).
- Emoção (01 = neutro, 02 = calmo, 03 = feliz, 04 = triste, 05 = zangado, 06 = medroso, 07 = nojo, 08 = surpreso).
- Intensidade emocional (01 = normal, 02 = forte). Obs: Não há intensidade forte para a emoção "neutra".
- Declaração (01 = "As crianças estão conversando na porta", 02 = "Os cães estão sentados na porta").
- Repetição (01 = 1ª repetição, 02 = 2ª repetição).
- Ator (01 a 24. Os atores ímpares são homens, os atores pares são mulheres).

As falas são em inglês, mas são sempre as mesmas frases, ditas por atores homens e mulheres e com diferentes emoções e intensidades.

Por exemplo. Considere o arquivo: '03-01-06-01-02-01-12.wav'

Esse arquivo é:

- Somente áudio (03) 
- Discurso (01) 
- Medo (06) 
- Intensidade normal (01) 
- Declaração "cães" (02) 
- 1ª repetição (01) 
- 12º ator (12) Mulher

Alguns termos comuns relacionados ao som:

**Audio Frame**

Um frame de áudio, ou amostra, contém informações de amplitude (volume) naquele momento específico. Para produzir som, dezenas de milhares de frames são reproduzidos em sequência para produzir frequências.

**Bit Rate**

Refere-se à qualidade do fluxo do áudio. É medido em Kilobitspersec (kbps ou k). A taxa de bits não é de bits (dados) codificados por segundo ou o não, mas de bits transmitidos ou recebidos por segundo. Maior taxa de bits com mais taxa de amostragem, requer alta largura de banda e produz boa qualidade de áudio.

**Taxa de Amostragem (Sampling Rate)**

Taxa de amostragem (às vezes chamada frequência de amostragem ou Fs) é o número de pontos de dados adquiridos por segundo. Uma taxa de amostragem de 2000 amostras / segundo significa que 2000 pontos de dados discretos são adquiridos a cada segundo. Isso pode ser chamado de frequência de amostra de 2000 Hertz.

In [None]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [None]:
# Instala pacote librosa
!pip install -q librosa

In [None]:
# Instala pacote xgboost
!pip install -q xgboost

In [None]:
# Imports
import joblib
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import librosa as lr
import librosa.display
import IPython.display as ipd
import seaborn as sns
import xgboost
import sklearn
from glob import glob
from joblib import dump, load
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix
%matplotlib inline

In [None]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

## Carregando os Dados

Acesse o site do Projeto The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS):

https://zenodo.org/record/1188976

Faça download do arquivo **Audio_Song_Actors_01-24.zip** (225 MB). Descompacte e coloque o conteúdo (24 pastas) dentro do diretório **dados**, no mesmo diretório onde está este Jupyter Notebook.

São 1440 arquivos de áudio com 60 áudios por ator x 24 atores = 1440.     

In [None]:
# Executaremos um loop em 24 pastas. O nome das pastas segue o mesmo padrão:

# Actor_01
# Actor_24

# Vamos checar o código ao final do nome da pasta para obter o caminho completo e 
# então coletar o nome de cada arquivo.

# Define o diretório raiz onde estão os diretórios com os arquivos de áudio
dir_raiz = 'dados'

# Dicionários para receber os resultados do loop
arquivos = {}
taxa_amostragem = {}

# Loop pelo diretório com os arquivos de áudio
for itens in range(1,25):
    if len(str(itens)) == 1:
        audio_dir = dir_raiz + '/Actor_' + str('0') + str(itens)
    else:
        audio_dir = dir_raiz + '/Actor_' + str(itens)
    
    # Armazena o caminho para todos os arquivos de um diretório
    audio_files = glob(audio_dir + '/*.wav')
    
    # Armazena o caminho e a taxa de amostragem de cada arquivo na pasta
    for i in range(len(audio_files)):
        x = audio_files[i]
        audio, sfreq = lr.load(audio_files[i], sr = None)
        arquivos[x] = len(audio) / sfreq
        taxa_amostragem[x] = sfreq

In [None]:
# Obtém as taxas de amostragem dos arquivos
[taxa_amostragem[i] for i in list(taxa_amostragem.keys())[:10]]

In [None]:
# Verifica se todas as taxas de amostragem são iguais
all(value == 48000 for value in taxa_amostragem.values())

In [None]:
# Cria um dataframe para receber a lista de caminhos dos arquivos
arquivos_audio = pd.DataFrame()

In [None]:
# Carrega o dataframe
for keys, values in arquivos.items():
    arquivos_audio.at[keys,'lengthoffile'] = values   

In [None]:
# Visualiza os dados
arquivos_audio.head()

In [None]:
# Cria uma função para retornar os arquivos de áudio e a taxa de amostragem de cada arquivo
def extrai_audio_data(file):
    audio, sfreq = lr.load(file, sr = None)
    return audio, sfreq

In [None]:
# Vamos verificar o shape dos arquivos de áudio e taxa de amostragem
audio, sfreq = extrai_audio_data(arquivos_audio.index[0])
print(f'\nShape da Série Representando o Áudio (y): {audio.shape} \nTaxa de Amostragem (sr): {sfreq}')

<li>y é a série temporal representando o áudio e tem o formato: np.ndarray [shape=(n,)]</li>

<li>sr é o sampling rate de y, tendo o formato: number > 0 [scalar]</li>

Agora preparamos o dataset para exploração e treinamento do modelo.

<b> MFCC </b>

O primeiro passo em qualquer sistema de reconhecimento automático de fala é extrair recursos, ou seja, identificar os componentes do sinal de áudio que são bons para identificar o conteúdo linguístico e descartar todas as outras coisas que carregam informações como ruído de fundo, interferências, etc.

O ponto principal a entender sobre a fala é que os sons gerados por um ser humano são filtrados pelo formato do trato vocal, incluindo língua, dentes, etc. Esse formato determina qual som é produzido. Se pudermos determinar a forma com precisão, isso deve nos dar uma representação precisa do fonema que está sendo produzido. A forma do trato vocal se manifesta no espectro de potência de curto espaço de tempo, e o trabalho dos MFCCs é representar com precisão esse espectro. 

Os Coeficientes Cepstrais de Frequência Mel (MFCCs) são um recurso amplamente usado no reconhecimento automático de fala e alto-falante. Eles foram introduzidos por Davis e Mermelstein na década de 1980 e têm sido o estado da arte desde então. Antes da introdução dos MFCCs, os Coeficientes de Previsão Linear (LPCs) e os Coeficientes Cepstrais de Previsão Linear (LPCCs) eram o principal tipo de recurso para reconhecimento automático de fala, especialmente com classificadores HMM. 

A escala mel, com nome derivado da palavra melodia (melody), é uma escala logarítmica perceptual deﬁnida por (STEVENS; VOLKMANN; NEWMAN,1937) que tem por objetivo manter os tons de frequência equidistantes tomando como referência 40 dB acima do limite de percepção humana em 1000 Hz. 

Os Coeficientes de Frequência Mel-Cepstrais (MFCC - Mel Frequency Cepstral Coefficients) são calculados sobre uma janela, isto é, número de amostras. O som é onda e não se pode derivar nenhum recurso colhendo uma única amostra (número), daí a janela. Na prática, nosso conjunto de dados de áudio será tratado como ums série temporal.

![title](imagens/mfcc.jpeg)

Para calcular o MFCC, a transformação rápida de Fourier (FFT - Fast Fourier Transform) é usada e isso exige exatamente que o comprimento de uma janela seja fornecido. Na biblioteca librosa, os itens abaixo estão implícitos especificamente:

- Comprimento da janela da FFT: 2048 
- Número de amostras entre frames sucessivos: 512 

Se um coeficiente cepstral tem um valor positivo, ele representa um som sonorante, pois a maioria da energia espectral nos sons sonorantes está concentrada nas regiões de baixa frequência.

Por outro lado, se um coeficiente cepstral tem um valor negativo, ele representa um som fricativo, pois a maioria das energias espectrais nos sons fricativos está concentrada em altas frequências.

Os coeficientes de ordem inferior contêm a maioria das informações sobre a forma espectral geral da função de transferência do filtro de fonte.

O coeficiente de ordem zero indica a potência média do sinal de entrada.

O coeficiente de primeira ordem representa a energia espectral de distribuição entre baixas e altas frequências.

O reconhecimento da fala com IA passa pela compreensão de como funciona o som e a voz e separamos esses materiais abaixo. Recomendamos a leitura antes de prosseguir:

<a href="https://www.researchgate.net/publication/272351208_Componentes_Mel_Cepstrais">Componentes Mel Cepstrais</a>

<a href="http://www.cs.columbia.edu/~julia/courses/CS6998-2019/%5B09%5D%20Automatic%20Speech%20Recognition.pdf">Automatic Speech Recognition</a>

In [None]:
# Cria uma função para extrair o MFCC de um dado arquivo
def mfcc_extract(file):
    audio, sfreq = extrai_audio_data(file)
    mfccs = librosa.feature.mfcc(audio, sr = sfreq)
    return mfccs

In [None]:
# Cria uma lista vazia
list_data_frame = []

In [None]:
# Considere o arquivo: '03-01-06-01-02-01-12.wav'

# Esse arquivo é:

# Somente áudio(03) 
# Discurso(01) 
# Medo(06) 
# Intensidade normal(01) 
# Declaração "cães"(02) 
# 1ª repetição(01) 
# 12º ator(12) Mulher.

# Vamos fazer um loop e extrair os detalhes acima de todos os arquivos.

# Loop por cada arquivo
for file_path in arquivos_audio.index:
    
    # Chamamos a função de extração mfcc para retornar coeficientes e dados mfcc
    data = mfcc_extract(file_path)
    
    # Transformamos os dados no formato (n samples, n features)
    frame = pd.DataFrame(data.T, columns = ['mfcc' + str(x) for x in range(0,20)])
    
    # Extraímos gênero do ator do arquivo usando o encoding
    frame['ID_ATOR_SEXO'] = file_path[33:35]
    
    # Extraímos o código da emoção do arquivo usando o encoding
    frame['ID_EMOCAO'] = file_path[21:23]
    
    # Extraímos a intensidade da emoção do arquivo usando o encoding
    frame['ID_INTENSIDADE_EMOCIONAL'] = file_path[24:26]
    
    # Inclui na lista
    list_data_frame.append(frame)

Agora preparamos o dataframe final.

In [None]:
# Concatena os elementos da lista em um dataframe
df_dados_audio = pd.concat(list_data_frame, ignore_index = True)

In [None]:
# O dataset está quase pronto. 
# Precisamos apenas incluir os labels para compreender o que temos em cada arquivo de áudio.
df_dados_audio.head()

In [None]:
# Define o label para o gênero da voz a partir do código de gênero, sendo ímpar para masculino e par para feminino
df_dados_audio["LABEL_GENERO"] = list(map(lambda x: 'homem' if int(x)%2 == 1 else 'mulher', 
                                        df_dados_audio.ID_ATOR_SEXO))

In [None]:
# Label para a emoção
df_dados_audio['LABEL_EMOCAO'] = df_dados_audio.ID_EMOCAO.map({'01':'neutro',
                                                               '02':'calmo',
                                                               '03':'feliz',
                                                               '04':'triste',
                                                               '05':'zangado',
                                                               '06':'medo',
                                                               '07':'nojo',
                                                               '08':'surpreso'})

In [None]:
# Intensidade emocional normal ou forte 
df_dados_audio['LABEL_INTENSIDADE'] = df_dados_audio.ID_INTENSIDADE_EMOCIONAL.map({'01':'normal',
                                                                                   '02':'forte'})

In [None]:
# Gênero e emoção da voz no áudio
df_dados_audio['LABEL_GENERO_EMOCAO'] = df_dados_audio['LABEL_GENERO'] + "_" + df_dados_audio['LABEL_EMOCAO']
df_final = df_dados_audio

In [None]:
# Shape
df_final.shape

In [None]:
# Tipos de Dados
df_final.dtypes

In [None]:
# Visualizando os dados
df_final.head()

In [None]:
# Visualizando os dados
df_final.tail()

Os dados estão prontos. Vamos fazer uma análise exploratória.

## Análise Exploratória

In [None]:
# Verificando a distribuição de arquivos de áudio por gênero do ator
sns.countplot(x = 'LABEL_GENERO', data = df_final)

In [None]:
# Verificando a distribuição de arquivos de áudio por emoção do ator
sns.countplot(x = 'LABEL_EMOCAO', data = df_final)

In [None]:
# Verificando a distribuição de arquivos de áudio por gênero/emoção do ator
plt.figure(figsize = (12,4))
sns.countplot(x = 'LABEL_GENERO_EMOCAO', data = df_final)
plt.xticks(rotation = 45)

Vamos usar clusters K-Means para ver se clusters distintos podem ser formados com os dados e visualizar os clusters usando PCA em duas dimensões para escolher clusters ideais para descrever os dados.

In [None]:
# Vamos padronizar os dados e deixá-los na mesma escala. Criamos o objeto scaler:
z_scaler = StandardScaler()

In [None]:
# Aplicamos o objeto scaler
# Observe que não aplicamos o scaler às variáveis categóricas que criamos anteriormente
df_final_scaled = z_scaler.fit_transform(df_final[df_final.columns[:-7]].values)

In [None]:
# Visualiza uma amostra dos dados
df_final_scaled[0]

Para usar o algoritmo K-Means, precisamos escolher o melhor de K. Vamos usar o método elbow para isso, testando diversos valores de k. O valor de k representa o número ideal de clusters para agrupar os dados.

In [None]:
# Função para encontrar o melhor valor de k
def busca_melhor_k(k = 2):
    kmeans = KMeans(n_clusters = k, random_state = 0).fit(df_final_scaled)
    return kmeans.inertia_

In [None]:
# Cria um dicionário para receber o resultado da busca
dict_k = {}

In [None]:
# Loop pelos valores de k pesquisados
for i in range(2,10):
    dict_k[i] = busca_melhor_k(i)

In [None]:
# Imprime o resultado
for k, ss in dict_k.items() :
    print(f'Para cada valor de k = {k}, Silhouette Coefficient = {ss}')

In [None]:
# Um Plot ajuda a visualizar melhor qual o valor de k ideal para a clusterizção
plt.figure(figsize = (12,5))
plt.plot(list(dict_k.keys()), list(dict_k.values()), marker = 'D')
plt.xlabel('K')
plt.ylabel('Silhouette Coefficient')
plt.show()

Como visto no gráfico de elbow acima, é muito difícil obter um bom valor para K. Vamos então usar PCA para visualizar diferentes clusters K-Means. Nosso objetivo é visualizar a organização e agrupamento dos dados, o que é bem complicado por conta da alta dimensionalidade.

Vamos usar PCA (Redução de Dimensionalidade) para visualizar os clusters.

In [None]:
# Lista de marcadores
marker = ['.',',','o','v','^','<','>','1','2','3','4','8','s','p','P','*','h','H','+','x','X','D','d','|','_']

In [None]:
# Objeto PCA com 2 componentes principais
pca_obj = PCA(n_components = 2)

In [None]:
# Função para aplicar o PCA
def aplica_pca(valor_k = 2):
    
    # Cria os clusters K-Means
    clusters = KMeans(valor_k).fit_predict(df_final_scaled)
    
    # Aplica PCA
    componentes = pca_obj.fit_transform(df_final_scaled)
    
    # Retorna o cluster e os dados transformados com PCA
    return clusters, componentes

In [None]:
# Plot dos dados transformados com PCA
def plot_pca(df, k):
    plt.figure(figsize = (20,15))
    _ = sns.lmplot(x = 'Primeiro Componente PCA', 
                   y = 'Segundo Componente PCA',
                   data = df,
                   hue = 'Cluster',
                   fit_reg = False,
                   legend = False,
                   palette = "Set2",
                   markers = marker[:k])
    plt.title(f'Representação dos Clusters de Dados com PCA Para K = {k}')
    plt.tight_layout()
    plt.show()

In [None]:
# Para diferentes valores de k de 2 a 10, criamos o cluster em cada k, transformamos os dados com PCA e criamos o plot
for n_clusters in range(2, 10):
    clusters, pca_transf = aplica_pca(n_clusters)
    df_pca = pd.DataFrame({'Cluster':list(clusters),
                           'Primeiro Componente PCA':pca_transf[:,0],
                           'Segundo Componente PCA':pca_transf[:,1]})
    plot_pca(df_pca, n_clusters)

Podemos ver pelos gráficos acima que existem alguns limites bem definidos, mesmo com maior número de clusters. Os dados estão bem organizados e podemos passar para a construção dos modelos de Machine Learning para criação do classificador para detectar emoções na voz dos arquivos de áudio.

## Machine Learning

### Modelo 1 - Prever o gênero do ator no áudio

Vamos criar o modelo para prever o sexo do ator no áudio.

In [None]:
# Gerando o valor de x (sem os labels)
X = df_final[df_final.columns[:-7]].values

In [None]:
# Aplicando Label Encoder para converter a string em representação numérica
y = LabelEncoder().fit_transform(df_final['LABEL_GENERO'])

In [None]:
# Divisão em dados de treino e de teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size = 0.33, stratify = y, shuffle = True)

In [None]:
# Shape
X_treino.shape

In [None]:
# Shape
y_treino.shape

In [None]:
# Shape
X_teste.shape

In [None]:
# Shape
y_teste.shape

In [None]:
# Aplicamos o scaler nos dados de treino
fitted = z_scaler.fit(X_treino)

# E transformamos dados de treino e de teste
X_treino = fitted.transform(X_treino)
X_teste = fitted.transform(X_teste)

Criamos agora uma lista de classificadores para avaliar o desempenho de vários classificadores nos dados usando métricas como matriz de confusão e acurácia.

In [None]:
# Dicionário de algoritmos de classificação
classificadores = {'XGboost':XGBClassifier(),
                   'DecisonTree':DecisionTreeClassifier(),
                   'RandomForest':RandomForestClassifier()}

In [None]:
# Função para treinar cada classificador de gênero e avaliar a performance 
def treina_avalia_genero(classificadores, X_treino, X_teste, y_treino, y_teste):
    
    # Loop pelo dicionário de classificadores
    for k, clf in classificadores.items():
        
        print("\nIniciando o Treinamento do Modelo " + k + "...")
        
        # Treina o modelo
        clf.fit(X_treino, y_treino)
        
        # Faz a previsão
        y_pred = clf.predict(X_teste)
        
        # Calcula a acurácia
        acc = accuracy_score(y_teste, y_pred)
        print(f'\nA Acurácia do Classificador {k} é {acc}')
        
        # Cria a Confusion Matrix
        cm = confusion_matrix(y_teste, y_pred)
        print(f'\nConfusion Matrix')
        print(cm)
        
        # Salva o modelo em disco
        dump(clf, 'modelos/modelo_' + k + '_genero.joblib') 
        print("\nModelo " + k + " salvo em disco.")

In [None]:
# Executa a função
treina_avalia_genero(classificadores, X_treino, X_teste, y_treino, y_teste)   
print("\nTreinamento Concluído.")

Como podemos ver acima, o classificador Random Forest fez um trabalho melhor na previsão de gênero do que o Xgboost e a árvore de decisão sem ajuste de hiperparâmetros.

### Modelo 2 - Prever gênero e emoção do ator no áudio

Vamos criar o modelo para prever a emoção e o gênero do ator no áudio.

In [None]:
# Gerando o valor de x (sem os labels)
X1 = df_final[df_final.columns[:-7]].values

In [None]:
# Aplicando Label Encoder para converter a string em representação numérica
y1 = LabelEncoder().fit_transform(df_final['LABEL_GENERO_EMOCAO'])

In [None]:
# Divisão em dados de treino e de teste
X1_treino, X1_teste, y1_treino, y1_teste = train_test_split(X1, y1, test_size = 0.33, stratify = y, shuffle = True)

In [None]:
# Shape
X1_treino.shape

In [None]:
# Shape
y1_treino.shape

In [None]:
# Shape
X1_teste.shape

In [None]:
# Shape
y1_teste.shape

In [None]:
# Aplicamos o scaler nos dados de treino
fitted = z_scaler.fit(X1_treino)

# E transformamos dados de treino e de teste
X1_treino = fitted.transform(X1_treino)
X1_teste = fitted.transform(X1_teste)

In [None]:
# Função para treinar cada classificador de gênero e emoção e avaliar a performance 
def treina_avalia_genero_emocao(classificadores, X_treino, X_teste, y_treino, y_teste):
    
    # Loop pelo dicionário de classificadores
    for k, clf in classificadores.items():
        
        print("\nIniciando o Treinamento do Modelo " + k + "...")
        
        # Treina o modelo
        clf.fit(X_treino, y_treino)
        
        # Faz a previsão
        y_pred = clf.predict(X_teste)
        
        # Calcula a acurácia
        acc = accuracy_score(y_teste, y_pred)
        print(f'\nA Acurácia do Classificador {k} é {acc}')
        
        # Cria a Confusion Matrix
        cm = confusion_matrix(y_teste, y_pred)
        print(f'\nConfusion Matrix')
        print(cm)
        
        # Salva o modelo em disco
        dump(clf, 'modelos/modelo_' + k + '_genero_emocao.joblib') 
        print("\nModelo " + k + " salvo em disco.")

In [None]:
# Executa a função
treina_avalia_genero_emocao(classificadores, X1_treino, X1_teste, y1_treino, y1_teste) 
print("\nTreinamento Concluído.")

Como vemos, o desempenho é melhor com RandomForest para prever a emoção e gênero do ator no áudio.

### Modelo 3 - Prever gênero do ator no áudio usando componentes PCA

Vamos verificar se aplicando a redução de dimensionalidade aos dados conseguimos melhorar a performance do modelo.

In [None]:
# Cria o objeto PCA com 20 componentes
pca1 = PCA(n_components = 20)

In [None]:
# Usamos X_treino criado para o Modelo 1
X_treino.shape

In [None]:
# Aplica o PCA aos dados de treino 
pca_feature = pca1.fit(X_treino)

In [None]:
pca_feature

In [None]:
# Plot
plt.figure(figsize = (12, 4))
plt.plot(pca_feature.explained_variance_ratio_, marker = 'o', label = 'Taxa de Variância Explicada')
plt.plot(pca_feature.explained_variance_ratio_.cumsum(), marker = 'o', label = 'Taxa Acumulada de Variância Explicada')
plt.legend()
plt.ylabel('Variância')
plt.xlabel('Número de Componentes Principais')
plt.title('Variância vs Número de Componentes Principais')
plt.xticks(np.arange(0, 20, step = 1))

Como vemos no gráfico (linha laranja), 15 componentes explicam mais de 95% da variação nos dados. Vamos então usar 15 componentes ao invés de 20 variáveis explicativas para treinar o modelo.

In [None]:
# Vamos gravar os componentes
componentes = pca_feature.fit_transform(X_treino)

In [None]:
# Visualiza os dados
componentes

In [None]:
# Confere o tipo
type(componentes)

In [None]:
# Vamos conveter o array em dataframe
componentes_df = pd.DataFrame(componentes)

In [None]:
# Confere o tipo
type(componentes_df)

In [None]:
# Vamos ajustar o índice
componentes_df.index = pd.RangeIndex(start = 0, stop = len(componentes_df.index), step = 1)

In [None]:
# Print do índice
print(componentes_df.index)

In [None]:
# Visualiza os dados
componentes_df.head()

Vamos extrair 15 componentes e treinar o modelo.

In [None]:
# Extraindo 15 componentes para x
Xpca_treino = componentes_df[componentes_df.columns[0:15]].values

In [None]:
# Definindo y
ypca_treino = y_treino

In [None]:
# Para os dados de teste, usamos o que havia sido definido para o Modelo 1
Xpca_teste = X_teste
ypca_teste = y_teste

In [None]:
len(Xpca_treino)

In [None]:
len(ypca_treino)

In [None]:
len(Xpca_teste)

In [None]:
len(ypca_teste)

In [None]:
# Função para treinar cada classificador de gênero e avaliar a performance usando componentes PCA
def treina_avalia_genero_pca(classificadores, X_treino, X_teste, y_treino, y_teste):
    
    # Loop pelo dicionário de classificadores
    for k, clf in classificadores.items():
        
        print("\nIniciando o Treinamento do Modelo " + k + "...")
        
        # Treina o modelo
        clf.fit(X_treino, y_treino)
        
        # Faz a previsão
        y_pred = clf.predict(X_teste)
        
        # Calcula a acurácia
        acc = accuracy_score(y_teste, y_pred)
        print(f'\nA Acurácia do Classificador {k} é {acc}')
        
        # Cria a Confusion Matrix
        cm = confusion_matrix(y_teste, y_pred)
        print(f'\nConfusion Matrix')
        print(cm)
        
        # Salva o modelo em disco
        dump(clf, 'modelos/modelo_' + k + '_genero_pca.joblib') 
        print("\nModelo " + k + " salvo em disco.")

In [None]:
# Treinamento e avaliação do modelo
treina_avalia_genero_pca(classificadores, Xpca_treino, Xpca_teste, ypca_treino, ypca_teste)
print("\nTreinamento Concluído.")

Vemos que o desempenho diminui reduzindo o número de recursos para prever o gênero. Vamos ficar com a primeira versão do modelo e na Parte 2 tentamos melhorar o desempenho com Deep Learning.

# Fim