# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Processamento de Linguagem Natural</font>


## Mini-Projeto 3
### Reconhecimento da Fala - Detectando Emoções em Arquivos de Áudio com Inteligência Artificial
### Parte 3 - Detecção e Classificação de Emoções em Arquivos de Áudio

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.7.6


Este é um Mini-Projeto especial. 

Vamos trabalhar com uma das tarefas mais complexas em Inteligência Artificial: extrair emoções a partir da voz em arquivos de áudio.

Detectar emoções é uma das estratégias de Marketing mais importantes no mundo de hoje. Você pode personalizar aplicações para fornecer tratamentos diferentes para um indivíduo de acordo com a emoção detectada na voz de uma pessoa. Esse tipo de aplicação é um dos pilares para uma solução completa de IA.

Alguns exemplos de aplicações desse tipo de solução, incluem:

- Uma central de atendimento que toca músicas diferentes de acordo com a emoção detectada na voz do cliente. 

- Um carro autônomo que desacelera quando alguém está com raiva ou com medo. 

- Assistente pessoal que reage de acordo com a emoção detectada na voz.

- Aplicações de Marketing que oferecem diferentes produtos ou opções de acordo com a emoção do cliente.

- Assistente Virtual, que pode ser uma Enfermeira Virtual ou mesmo um Professor de Inglês, e que reage de acordo com a voz do interlocutor.

Entre outros exemplos.

Usaremos a biblioteca Librosa em Python para processar e extrair recursos dos arquivos de áudio. Librosa é um pacote Python para análise de música e áudio. Ele fornece os componentes necessários para criar sistemas de recuperação de informações musicais. 

Usando a biblioteca librosa, conseguimos extrair recursos através do MFCC (Mel Frequency Cepstral Coefficient). Os MFCCs são coeficientes amplamente usado no reconhecimento automático de fala. 

Também separamos a voz de mulheres e homens usando os identificadores fornecidos no dataset, como forma de deixar o modelo de reconhecimento de voz ainda mais preciso e personalizado.

Cada arquivo de áudio fornece muitos recursos, que são basicamente uma matriz de muitos valores. A esses recursos, iremos atribuir rótulos especificando o gênero da voz no áudio e a emoção detectada.

Como este projeto é um grande esforço de trabalho, ele foi dividido em 3 partes:

- **Parte 1 - Preparação dos Dados, Treinamento e Avaliação do Detector de Emoções com Machine Learning**
- **Parte 2 - Preparação dos Dados, Treinamento e Avaliação do Detector de Emoções com Deep Learning**
- **Parte 3 - Detecção e Classificação de Emoções em Arquivos de Áudio**

Este projeto pode ser facilmente adaptado aos seus próprios projetos. Tudo que você precisa é providenciar arquivos de áudio gravados com pessoas com diferentes emoções. Usaremos um dataset público para nosso trabalho.

Esta é a Parte 3. Aprenda e divirta-se.

In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [3]:
# Instala o pyaudio
!pip install -q pyaudio

In [19]:
# Imports
import wave
import pyaudio
import librosa
import numpy as np
import pandas as pd
import sklearn
from sklearn.preprocessing import LabelEncoder
from keras import backend as K
from keras.models import load_model
from keras.optimizers import RMSprop

In [5]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

pandas  1.1.4
sklearn 0.23.2
numpy   1.19.3
pyaudio 0.2.11
librosa 0.7.2
Data Science Academy


In [6]:
# Carregamos um arquivo de áudio
X, sample_rate = librosa.load('arquivos/03-02-06-02-02-02-24.wav', 
                              res_type = 'kaiser_fast',
                              duration = 3,
                              sr = 22050*2,
                              offset = 0.5)

In [7]:
# Convertemos a sample rate para array NumPy
sample_rate = np.array(sample_rate)

In [8]:
# Carregamos o modelo pré-treinado
model = load_model('modelos/detecta_emotion.h5')

In [9]:
# Preparamos o otimizador
opt = RMSprop(lr = 0.0001, decay = 1e-6)

In [10]:
# Compilamos o modelo
model.compile(loss = 'categorical_crossentropy', optimizer = opt, metrics = ['accuracy'])

In [11]:
# Preparamos o encoder para o novo arquivo de áudio carregado anteriormente
lb = LabelEncoder()

In [12]:
# Carregamos as classes
lb.classes_ = np.load('labels/label_classes.npy', allow_pickle = True)

In [13]:
# Extraímos as features
features = np.mean(librosa.feature.mfcc(y=X, sr=sample_rate, n_mfcc=13),axis=0)
features_df= pd.DataFrame(data=features)
features_stacked = features_df.stack().to_frame().T
features_expanded= np.expand_dims(features_stacked, axis=2)

In [14]:
# Fazemos as previsões com o modelo treinado
predictions = model.predict(features_expanded, batch_size=512, verbose=1)



In [15]:
# Obtemos a previsão de maior probabilidade
predictions_mod = predictions.argmax(axis=1)

In [16]:
# Convertemos para inteiro
preds_flat = predictions_mod.astype(int).flatten()

In [17]:
# Transformamos com o encoder
predictions_array = (lb.inverse_transform((preds_flat)))

In [18]:
# Aqui está a previsão do nosso modelo para o arquivo de áudio
predictions_array

array(['female_fearful'], dtype=object)

Use outros arquivos de áudio e teste a aplicação!

# Fim