### Plano de Avalicação Dell Academy Trilha de Machine Learning

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn 
import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer # módulo para fazer o Bag of words
import scipy.sparse
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split, KFold, cross_val_score, cross_val_predict 
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
from wordcloud import WordCloud
%matplotlib inline
import nltk
nltk.download("all")
from nltk import tokenize
from string import punctuation

In [133]:
conda install -c conda-forge wordcloud

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... done

# All requested packages already installed.


Note: you may need to restart the kernel to use updated packages.


## Leitura do dataset de teste

In [None]:
df_test = pd.read_csv("datasets/test.csv")
df_test.head()

## Leitura do dataset de treino

In [None]:
df_train = pd.read_csv("datasets/train.csv")
df_train.head()

## Concatenando os datasets para otimizar a análise exploratória

In [None]:
df_unido = pd.concat([df_test, df_train], ignore_index=True)
df_unido.head()

In [None]:
# Visão resumida do DF
df_unido.info()

## Visão geral do DF com Pandas Profilling

**Atualizando o pandas profiling**

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
#import sys

#!"{sys.executable}" -m pip install -U pandas-profiling[notebook]
#!jupyter nbextension enable --py widgetsnbextension

In [None]:
# Importando biblioteca Standart
from pathlib import Path

# Instalando pacotes
import pandas as pd
from ipywidgets import widgets

# Pacotes para trabalhar com o Profiling
from pandas_profiling import ProfileReport
from pandas_profiling.utils.cache import cache_file

In [None]:
# Gerando os relatórios do DF
profile = ProfileReport(
    df_unido, title="IMDB Dataset", html={"style": {"full_width": True}}, sort=None
)

In [None]:
# A interface de widgets do notebook
#profile.to_widgets()

In [None]:
# Usando o relatório em um HTML iframe 
profile.to_notebook_iframe()

**Análise**

Com o relatório acima podemos concluir que os dados estão balanceados...

**Adicionando a coluna (clf_num) para a classificação numérica dos sentimentos**

Legenda numérica para a coluna `clf_num`

Sentimento negativo = 0

Sentimento positivo = 1

In [None]:
# Armazenando na variável "classificacao" e substituindo os valores "neg" e "pos" da coluna sentiment pelos números 0 e 1 respectivamente
classificacao = df_unido["sentiment"]. replace(["neg", "pos"], [0,1])

In [None]:
# Adicionando a coluna "clf_num" ao dataframe chamando a variável "classificacao"
df_unido["clf_num"] = classificacao
df_unido.head()

In [None]:
df_unido.dtypes

In [None]:
# Soma dos valores NaN em relação as linhas (por isso o shape está setado em 0), multiplicado por 100
df_unido.isnull().sum()/df_unido.shape[0]*100

# Tratando o texto

## Bag of words

**Vetorizando os dados de teste e treino**

In [None]:
vetorizador = CountVectorizer(max_features=10) # Pegando as 10 dimensões mais aparecem em cada linha do DF
bow = vetorizador.fit_transform(df_unido.text)
print(bow.shape) # Mostando o tamanho do vetor, foma da matriz

**Conclusão**

Cada resenha do corpus foi representada por um vetor de 10 dimensões

Após o processo de bag of words foi retornado uma matriz esparsa tamanho 2x2.

In [None]:
vetorizador.get_feature_names()  

In [None]:
# Visualizando o DF com o sparse DataFrame do sklearn. Ele irá interpretar e plotar a matriz 
matriz_esparsa = pd.DataFrame.sparse.from_spmatrix(bow, columns=vetorizador.get_feature_names())

In [None]:
matriz_esparsa

## Dividindo o DF em treino e teste

In [None]:
# Passando como parâmetro a coluna de classificão "clf_num" e o Bag of words
X_train, X_test, y_train, y_test = train_test_split(bow, df_unido.clf_num,random_state=50)

## Regressão Logística

In [None]:
regressao_logistica = LogisticRegression()
model = regressao_logistica.fit(X_train, y_train)
predicted = regressao_logistica.predict(X_test)
print("Regressão Logística:", model.score(X_test, y_test))

**Análise**

O modelo consegue obter uma taxa de acerto das predições de 60%

In [None]:
# Cálculo de todas as métricas
print("Acurácia:", model.score(X_test, y_test))
print("Kappa:", metrics.cohen_kappa_score(y_test, predicted))
print("Todas:", metrics.precision_recall_fscore_support(y_test, predicted))

## Matriz de Confusão

In [None]:
# Definindo Matriz de Confusão
matriz_confusao = metrics.confusion_matrix(y_test, predicted)
print(matriz_confusao)

In [None]:
# Plotando Matriz de Confusão
plt.figure(figsize=(9,9))
sns.heatmap(matriz_confusao, annot=True, fmt=".3f", linewidths=.5, square = True, cmap = 'Blues_r');
plt.ylabel('Rótulo atual');
plt.xlabel('Rótulo previsto');
all_sample_title = 'Accuracy Score: {0}'. format(model.score(X_test, y_test))
plt.title(all_sample_title, size = 15)

**Análise**

As métricas acima foram calculadas basedas nas 10 dimensões mais frequentes em cada linha do DF, isto nos mostra que as palavras que mais aparecem neste recorte do DataFrame são conectivos (artigos, pronome demostrativo, preposições e parte de links) que não acrescentam neste momento de análise relevência semântica o que justifica o baixo valor de acuracácia e demais métricas. Portanto, é necessário realizar a retirada destas palavras através de técnicas de remoção de stopwords para que os valores sejam melhorados.

In [None]:
# Função para classificação do texto
# Onde: df_texto = df_unido, coluna_text = text, coluna_classificacao = clf_num do DF original

def classificacao_texto(df_texto, coluna_text, coluna_classificacao):
    vetorizar = CountVectorizer(lowercase=False, max_features=50)
    bow = vetorizar.fit_transform(df_texto[coluna_text])
    
# Dividindo em treino e teste
    X_train, X_test, y_train, y_test = train_test_split(bow, df_texto[coluna_classificacao],random_state=50)

# Regressão Logística
    regressao_logistica = LogisticRegression()
    regressao_logistica.fit(X_train, y_train)
    return regressao_logistica.score(X_test, y_test)

# Chamada da função     
print(classificacao_texto(df_unido, "text", "clf_num"))

In [None]:
# Utilizando listcomprehension para armazenar na variável "palavras" todas as frases do df_unido para mais adiante plotar a wordcloud
# O "join" foi utilizado para juntar as frases e separar por espaço
palavras = ' '.join([texto for texto in df_unido.text]) 
# Verificando o tamanho da lista
len(palavras)

## WordCLoud | Nuvem de Palavras

In [None]:
# Gerando a nuvem de palavras
word_cloud = WordCloud(width=800, height=500,
                      max_font_size=110,
                      collocations=False, # para calcular as palavras pela frequência
                      background_color="white",
                      ).generate(palavras)

**Plotando a imagem da nuvem de palavras**

In [None]:
# Definindo o tamamnho da imagem
plt.figure(figsize=(10,7)) 
# O conteúdo da imagem é o que está armazenado na variável "word_cloud". 
# O parâmetro interpolation setado em 'bilinear' torna a visualização mais nítida
plt.imshow(word_cloud, interpolation='bilinear') 
# Removendo a numeraçao dos eixos x e y
plt.axis("off") 
# Exibindo a imagem
plt.show()

**Análise**

No primeiro momento observa-se que a palavra filme "`movie`" tem bastante relevância dentro do corpus, no entanto há muitas palavras que não nos dão muitas informações. Por isso, podemos como estratégia para melhorar a análise, plotar as wordclouds separadas pelos sentimentos negativos e positivos.

**Visualização da wordcloud para frases positivas e negativas**

In [None]:
# Consultando todas as sentenças classificadas com sentimento positivo :"pos", "1"
df_unido.query("sentiment == 'pos'")

In [None]:
# Consultando todas as sentenças classificadas com sentimento negativo :"neg", "0"
df_unido.query("sentiment == 'neg'")

## Função para gerar as nuvens de palavras separadas por sentimento negativo e positivo 

In [None]:
# Função que irá retornar somente os sentimentos negativos para em seguida ser plotado na wordcloud
def nuvem_negativa(df_texto, coluna_text):
    texto_negativo = df_texto.query("sentiment == 'neg'")
    palavras = ' '.join([texto for texto in texto_negativo[coluna_text]]) 


    # Gerando a nuvem de palavras
    word_cloud = WordCloud(width=800, height=500,
                          max_font_size=110,
                          collocations=False,  # Collocations setado como False para calcular as palavras pela frequência
                          background_color="white").generate(palavras)
    
    # Plotando a imagem
    plt.figure(figsize=(10,7)) 
    plt.imshow(word_cloud, interpolation='bilinear') 
    plt.axis("off") 
    plt.show()    

In [None]:
# Plotanto somente os sentimentos negativos da coluna "text"
nuvem_negativa(df_unido, "text")

**Análises**


Observa-se ...

In [None]:
# Função que irá retornar somente os sentimentos positivos para em seguida ser plotado na wordcloud
def nuvem_positiva(df_texto, coluna_text):
    texto_positivo = df_texto.query("sentiment == 'pos'")
    palavras = ' '.join([texto for texto in texto_positivo[coluna_text]]) 


    # Gerando a nuvem de palavras
    word_cloud = WordCloud(width=800, height=500,
                          max_font_size=110,
                          collocations=False, # Collocations setado como False para calcular as palavras pela frequência
                          background_color="white").generate(palavras)
    
    # Plotando a imagem
    plt.figure(figsize=(10,7)) 
    plt.imshow(word_cloud, interpolation='bilinear') 
    plt.axis("off") # "axis" setado como "off" para não aparecer os números na wordcloud
    plt.show()    

In [None]:
# Plotanto somente os sentimentos positivos da coluna "text"
nuvem_positiva(df_unido, "text")

**Análises**


Observa-se...

# Trabalhando com NLTK 

### TOKENIZAÇÃO

Calculando a frequência de cada palavras atavés da técnica de *`tokenização`*

In [None]:
# Tokenização de todo o corpus (separação por palavras) 
token_espaco = tokenize.WhitespaceTokenizer()
token_df = token_espaco.tokenize(palavras) # variável "palavras" armazenda todas as frases do meu corpus

In [None]:
# Calculando a frequência
freq_palavras = nltk.FreqDist(token_df)
freq_palavras

In [None]:
# Criando um DF para armazenar as palavras e suas frequências de ocorrência no corpus para melhorar a visualização
df_freq = pd.DataFrame({"palavra": list(freq_palavras.keys()),
                       "frequencia": list(freq_palavras.values())})

In [None]:
# Chamando o DataFrame com a frequência das palavras
df_freq.head()

In [None]:
# Mostrando as 10 palavras com maior frequência utilizando o método "nlargest"
df_freq.nlargest(columns = "frequencia", n = 10)

**Análise**

Ao impirmir as palavras com maior frequência no DataFrame constata-se que são palavras de classe gramatical (artigo, conjunção, preposição, verbo, pronome pessoal e pronome demonstrativo) que em sua maioria não possuem relevância semântica suficiente que justifique sua permanência no copus de análise. Portanto, deve-se proceder com a remoção através da técnica de remoção de stopwors.

In [None]:
def histograma(df_texto, coluna_text, quantidade):
     
    palavras = ' '.join([texto for texto in df_texto[coluna_text]])     
    token_df = token_espaco.tokenize(palavras)
    freq_palavras = nltk.FreqDist(token_df)
    df_freq = pd.DataFrame({"palavra": list(freq_palavras.keys()),
                       "frequencia": list(freq_palavras.values())})
   
    df_freq = df_freq.nlargest(columns = "frequencia", n = quantidade)
    plt.figure(figsize=(12,8))
    ax = sns.barplot(data = df_freq, x = "palavra", y = "frequencia")
    ax.set(ylabel = "contagem")
    plt.show()
               

histograma(df_unido, "text", 10)

## Removendo Stopwords

In [None]:
df_unido.head()

In [None]:
# Armazenando na variável "stopwords" a lista de stopwords do corpus do inglês
stopwords = nltk.corpus.stopwords.words("english")

# Armazena a frase tokenizada (que foi processada), em uma lista
frase_processada = list()

# Retiranto as stopwords de cada frase/linha da coluna "text" do DataFrame 
for resenha in df_unido.text:
    frase_nova = list()
    palavra_texto = token_espaco.tokenize(resenha)
    for palavra in palavra_texto:
        if palavra not in stopwords:
            frase_nova.append(palavra)
            
    frase_processada.append(' '. join(frase_nova)) # Juntando todas as frases
    
# Criando uma coluna com a frase processada, isto é, após a remoção das stopwords
df_unido["processamento_1"] = frase_processada    

In [None]:
df_unido.head()

In [None]:
# Aplicando a função 'classificacao_texto' na coluna "processamento_1" utilizando como base a coluna da classificação dos sentimentos 'clf_num' 
acuracia_processamento_1 = classificacao_texto(df_unido, "processamento_1", "clf_num")
print(acuracia_processamento_1)

In [None]:
# Histograma - Plotando as palavras mais frequentes após a remoção das stopwords
histograma(df_unido, "processamento_1", 10)

**Análise**

Após a remoção das stopwords e passando para a função "`classificacao_texto`" como parâmetro a coluna "`processamento_1`" que contém as frases processadas/tratadas, podemos fazer um comparativo dos resultados obtidos na primeira classificação com esta última. Observamos que a primeira (Regressão Logística) obteve a acurácia de `0.65072` e a segunda o valor de `0.71352`, um aumento de `0,0628` no total de acerto. Estes resultados poderão ser melhorados conforme avançamos no tratamento do corpus, esta foi somente a primeira parte. 

## Removendo as pontuações das palavras do dataset

In [None]:
# Pontuações que serão removidas do corpus 
punctuation

In [None]:
token_pontuacao = tokenize.WordPunctTokenizer()
token_frase = token_pontuacao.tokenize(palavras)

In [None]:
# Inserindo as pontuações em uma lista cada um sendo separado como elemento único
pontuacao = list()
for ponto in punctuation:
    pontuacao.append(ponto)
    
# Inserindo a pontuação na lista de stopwords
pontuacao_stopwords = pontuacao + stopwords

# Iterando sobre a lista (texto) que já passou pelo primeiro tratamento e que está armazenado na coluna "processamento_1" 
frase_processada2 = list()
for resenha in df_unido["processamento_1"]:
    frase_nova2 = list()
    palavras_texto2 = token_pontuacao.tokenize(resenha)
    for palavra in palavras_texto2:
        if palavra not in pontuacao_stopwords:
            frase_nova2.append(palavra)
    frase_processada2.append(' '.join(frase_nova2))
            
df_unido["processamento_2"] = frase_processada2

In [None]:
# Analisando se a remoção das stopwords funcionou
df_unido.head()

**Comparando a remoção das pontuações na linha de índice "0" das colunas "processamento_1 e processamento_2"**

In [None]:
df_unido["processamento_1"][0]

In [None]:
df_unido["processamento_2"][0]

In [None]:
# Plotanto somente os sentimentos negativos da coluna "text"
nuvem_negativa(df_unido, "processamento_2")

In [None]:
# Plotanto somente os sentimentos positivos da coluna "text"
nuvem_positiva(df_unido, "processamento_2")

In [None]:
histograma(df_unido, "processamento_2", 10)

In [None]:
# Aplicando a função 'classificacao_texto' na coluna "processamento_2" utilizando como base a coluna da classificação dos sentimentos 'clf_num' 
acuracia_processamento_2 = classificacao_texto(df_unido, "processamento_2", "clf_num")
print("Acurácia 2: ", acuracia_processamento_2)
print("Acurácia 1: " , acuracia_processamento_1)

**Análise**

Podemos observar no gráfico acima que após o processso de remoção das pontuações não houve uma mudança significativa no cálculo da acurácia, pelo contrário, houve uma leve redução nesse valor indo de `0.71352` para `0.71288`. 

Observando as posições das 10 palavras mais frequentes do dataset percebemos que a palavra `"I"` saiu da primeira posição na ordem de maior frequência cedendo espaço para `"br"` que vinha logo em seguida. Já a palavra `"like"` passou da sétima posição para a décima do histograma em ordem de maior frequência.

# Normalização de textos 

Passando o DataFrame para minúsculo

In [None]:
frase_processada3 = list()
for resenha in df_unido["processamento_2"]:
    frase_nova3 = list()
    resenha = resenha.lower()
    palavras_texto3 = token_pontuacao.tokenize(resenha)
    for palavra in palavras_texto3:
        if palavra not in pontuacao_stopwords:
            frase_nova3.append(palavra)
    frase_processada3.append(' '.join(frase_nova3))
            
df_unido["processamento_3"] = frase_processada3

In [None]:
df_unido.head()

In [None]:
df_unido["text"][0]

In [None]:
df_unido["processamento_3"][0]

In [None]:
histograma(df_unido, "processamento_3", 10)

In [None]:
nuvem_negativa(df_unido, "processamento_3")

In [None]:
nuvem_positiva(df_unido, "processamento_3")

In [None]:
acuracia_processamento_3 = classificacao_texto(df_unido, "processamento_3", "clf_num")
print("Acurácia 3: ", acuracia_processamento_3)
print("Acurácia 2: ", acuracia_processamento_2)

**Análise**

Através do histograma referente ao `"tratamento_3"`, isto é, a tranformação das palavras maiúsculas do corpus para palavras minúscula, podemos perceber que, por exemplo, a palavra `"film"` que no `"processamento_2"` estava na posição 7 na ordem de maior frequência do DataFrame, subiu para a posição 5. Isto nos mostra que a sua relevância está crescendo e destacando-se nos gráficos como podemos perceber também na nuvem de palavras negativas e positivas. Além da palavra "film" outras começam a aparecer com maior destaque nas wordclouds, a saber, `"worse" e "horror"` (sentimentos negativos) e `"great" e "good"` (sentimentos positivos).

Com  relação a acurácia dos dois últimos passos de tratamento do texto, isto é, do "tratamento_2" para o "tratamento_3" houve uma melhora de apenas cinco décimos na taxa de acerto. Comparemos logo em seguida: `Acurácia 3:  0.71752`|
`Acurácia 2:  0.71288`

## Stemmer

In [None]:
stemmer = nltk.stem.RSLPStemmer()

In [None]:
frase_processada4 = list()
for resenha in df_unido["processamento_3"]:
    frase_nova4 = list()
    palavras_texto4 = token_pontuacao.tokenize(resenha)
    for palavra in palavras_texto4:
        if palavra not in pontuacao_stopwords:
            frase_nova4.append(stemmer.stem(palavra))
    frase_processada4.append(' '.join(frase_nova4))
            
df_unido["processamento_4"] = frase_processada4

In [None]:
df_unido.head()

In [None]:
histograma(df_unido, "processamento_4", 10)

In [None]:
acuracia_processamento_4 = classificacao_texto(df_unido, "processamento_4", "clf_num")
print("Acurácia 4: ", acuracia_processamento_4)
print("Acurácia 3: ", acuracia_processamento_3)