# Projeto 1 - Ciência dos Dados

Nome: Guilermo Kuznietz

Nome: Jonas Bonfá Pelegrina

Atenção: Serão permitidos grupos de três pessoas, mas com uma rubrica mais exigente. Grupos deste tamanho precisarão fazer um questionário de avaliação de trabalho em equipe

___
Carregando algumas bibliotecas:

In [1]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os

In [2]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
/Users/guigokuznietz/Desktop/P1-CDADOS2021.2


Carregando a base de dados com os tweets classificados como relevantes e não relevantes:

In [13]:
filename = 'Coleta/base.xlsx'

In [14]:
train = pd.read_excel(filename)
train.tail()

Unnamed: 0,Treinamento,Classificacao
295,la música da vida,0
296,alexa play me odio by matias candia,0
297,cemre:vocês queriam tanto que eu aparecesse qu...,0
298,@karnecita alexa: https://t.co/tc5hbjcuuy,0
299,"alexa, da mis clases híbridas.",0


In [15]:
test = pd.read_excel(filename, sheet_name = 'Teste')
test.head(5)

Unnamed: 0,Teste,Classificacao
0,eu odeio quando eu peço pra alexa tocar a musi...,1
1,alexa play digital dash,1
2,muito bom conversar com a alexa,1
3,perguntei pra alexa se podia chamar ela de jar...,1
4,e a alexa que tá fazendo elogios antes de dar ...,1


___
## Classificador automático de sentimento


<img src="img/alexa_logo.png" alt="Alexa logo" width="500" height="600">

Nosso projeto busca entender o uso da Alexa no mercado brasileiro como os usuário interagem com ela e quais são as principais reações sobre o produto.

Exemplos de casos relevantes:
- Alexa,como está o dia hoje?
- Eu e minha família adoramos a Alexa
- A Alexa me entende como vivia antes sem ela?

Exemplos de casos irrelevante:
- Queria comprar uma Alexa
- Eu amo minha amiga que chama Alexa
- Tenho quatro filhas: Beatriz,Maria e Alexa

___
### Montando um Classificador Naive-Bayes

Considerando apenas as mensagens da planilha Treinamento, ensine  seu classificador.

In [16]:
import pandas as pd
import numpy as np
from IPython.display import display
pd.options.display.max_rows = 13

In [17]:
#Limpeza de mensagens removendo os caracteres especiais
import re 


def cleanup(text):
    """
        Função de limpeza muito simples que troca alguns sinais básicos por espaços
    """
    #import string
    punctuation = '[!-.:?;@]' # Note que os sinais [] são delimitadores de um conjunto.
    pattern = re.compile(punctuation)
    text_subbed = re.sub(pattern, '', text)
    return text_subbed
    

In [18]:
cleanup('@duda_barroso1 alexa, o que tenho pra hj?')

'duda_barroso1 alexa o que tenho pra hj'

In [19]:
#RELEVANTE
train_relevante = train.loc[train['Classificacao'] == 1,'Treinamento']
lista = []
lista_relevante = []

for i in range(0,len(train_relevante)):
    lista.append(cleanup(train_relevante[i]).split())

for lista1 in lista:
    for palavra in lista1:
        if "https" not in palavra:
            lista_relevante.append(palavra)

#RELEVANTE
train_irrelevante = train.loc[train['Classificacao'] == 0,'Treinamento']
lista = []
lista_irrelevante = []

for frase in train_irrelevante:
    lista.append(cleanup(frase).split())

for lista1 in lista:
    for palavra in lista1:
        if "https" not in palavra:
            lista_irrelevante.append(palavra)

**Verificando as frequências**

In [20]:
# RELEVANTE - FREQUENCIA ABSOLUTA
serie_relevante = pd.Series(lista_relevante)
serie_relevante.value_counts()

alexa         156
a              89
eu             59
e              46
pra            45
             ... 
quase           1
vc              1
kkkkkkk         1
nãooooo         1
disciplina      1
Length: 796, dtype: int64

In [21]:
# RELEVANTE - FREQUENCIA RELATIVA
serie_relevante = pd.Series(lista_relevante)
serie_relevante_relativa = serie_relevante.value_counts(True)

In [22]:
# IRRELEVANTE - FREQUENCIA ABSOLUTA
serie_irrelevante = pd.Series(lista_irrelevante)
serie_irrelevante.value_counts()

alexa        86
de           47
a            41
e            36
que          30
             ..
bahtoyunu     1
chataaaa      1
crédito       1
deixa         1
deitei        1
Length: 951, dtype: int64

In [23]:
# IRRELEVANTE - FREQUENCIA RELATIVA
serie_irrelevante = pd.Series(lista_irrelevante)
serie_irrelevante_relativa = serie_irrelevante.value_counts(True)

In [24]:
# TRANSFORMANDO EM UM GRANDE TEXTO

livro_relevante = " ".join(lista_relevante)

livro_irrelevante = " ".join(lista_irrelevante)

In [25]:
# JUNTANDO TODAS AS PALAVRAS
todas_palavras = livro_relevante + livro_irrelevante
todas_palavras = todas_palavras.split()
series_todas_palavras = pd.Series(todas_palavras)
series_todas_palavras_relativas = series_todas_palavras.value_counts(True)
print(series_todas_palavras_relativas)

alexa       0.060553
a           0.032663
de          0.022613
e           0.020603
eu          0.019849
              ...   
serviços    0.000251
onde        0.000251
gataaa      0.000251
eller       0.000251
deitei      0.000251
Length: 1535, dtype: float64


**PROBABILIDADES**

In [26]:
serie_relevante_relativa['alexa']

0.07482014388489208

In [27]:
serie_irrelevante_relativa['alexa']

0.04535864978902954

**P(R) E P(I)**

In [28]:
probR = len(serie_relevante) / len(series_todas_palavras)
print(f"A probabilidade de ser relevante é {probR}")

A probabilidade de ser relevante é 0.5238693467336684


In [29]:
probI = len(serie_irrelevante) / len(series_todas_palavras)
print(f"A probabilidade de ser irrelevante é {probI}")

A probabilidade de ser irrelevante é 0.4763819095477387


**Frequência Absoluta das palavras nos Tweets relevantes**

In [30]:
livro_relevante_series = pd.Series(livro_relevante.split())
livro_relevante_series = livro_relevante_series.value_counts()
soma_relevantes = livro_relevante_series.sum()
print('Palavras Relevantes,totais:',soma_relevantes)
print('Palavras Relevantes,não repetidas: ',len(livro_relevante_series))

Palavras Relevantes,totais: 2085
Palavras Relevantes,não repetidas:  796


**Frequência Absoluta das palavras nos Tweets irrelevantes**

In [31]:
livro_irrelevante_series = pd.Series(livro_irrelevante.split())
livro_irrelevante_series = livro_irrelevante_series.value_counts()
soma_irrelevantes = livro_irrelevante_series.sum()
print('Palavras Relevantes,totais:',soma_irrelevantes)
print('Palavras Relevantes,não repetidas: ',len(livro_irrelevante_series))

Palavras Relevantes,totais: 1896
Palavras Relevantes,não repetidas:  951


**FREQUÊNCIA ABSOLUTA TOTAL** <br>
Frequencia Absoluta com relevantes e irrelevantes juntas

In [32]:
print("O total de palavras na base é de:",len(series_todas_palavras))

O total de palavras na base é de: 3980


**Começando a calcular**

In [33]:
test

Unnamed: 0,Teste,Classificacao
0,eu odeio quando eu peço pra alexa tocar a musi...,1
1,alexa play digital dash,1
2,muito bom conversar com a alexa,1
3,perguntei pra alexa se podia chamar ela de jar...,1
4,e a alexa que tá fazendo elogios antes de dar ...,1
...,...,...
195,@alexa_sasmaz_ aytaç e cemre é que nem vinho q...,0
196,@kyujijiq gn alexa!,0
197,"@denisemustafa @tdbem nesse ponto de ""entendim...",0
198,"@helnikfvs alexa tocar pra essa pessoa ""seu pr...",0


In [34]:
#LIMPANDO A BASE DE TESTE
for linha in range (0,len(test)):
    test.iloc[linha,0] = cleanup(test.iloc[linha,0])
    test.iloc[linha,0] = re.sub(r'http\S+', '', test.iloc[linha,0])
test.tail(100)

Unnamed: 0,Teste,Classificacao
100,vem aí a smart tv da amazon\n\n a empresa anun...,0
101,aaaaa meu deus tô ansiosaaaaa,0
102,1 pessoa acaba de visitar seu perfil,0
103,ianmdo faz parte todos ficamos chateados e sur...,0
104,os trabalhos da alexa com a petra sao muito bons,0
...,...,...
195,alexa_sasmaz_ aytaç e cemre é que nem vinho qu...,0
196,kyujijiq gn alexa,0
197,denisemustafa tdbem nesse ponto de entendiment...,0
198,helnikfvs alexa tocar pra essa pessoa seu prob...,0


In [35]:
#Limpeza OK,nessa caso,faremos daqui a pouco
#Suavização OK
frase = cleanup(test.iloc[20,0])
frase_quebrada = frase.split()
palavras_frase = pd.Series(frase_quebrada)
contador_palavras = len(palavras_frase)

In [36]:
#SUAVIZAÇÃO DE LAPLACE SEGUINDO MODELO DO MONKEY LEARN
#RELEVANTE
frase_d_relevante = 1
for palavra in palavras_frase:
    if palavra in livro_relevante_series:
        frase_d_relevante = frase_d_relevante * (livro_relevante_series[palavra] + 1) / (soma_relevantes + len(todas_palavras))
    else:
        frase_d_relevante = frase_d_relevante * 1 / (soma_relevantes + len(todas_palavras))

In [37]:
#SUAVIZAÇÃO DE LAPLACE SEGUINDO MODELO DO MONKEY LEARN
#IRRELEVANTE
# O for tem problema ser o mesmo?
frase_d_irrelevante = 1
for palavra in palavras_frase:
    if palavra in livro_irrelevante_series:
        frase_d_irrelevante = frase_d_irrelevante * (livro_irrelevante_series[palavra] + 1) / (soma_irrelevantes + len(todas_palavras))
    else:
        frase_d_irrelevante = frase_d_irrelevante * 1 / (soma_irrelevantes + len(todas_palavras))

In [38]:
#Agora nós devemos classificar se esse é 0 ou 1?
p_relevante_d_frase = probR * frase_d_relevante
print(p_relevante_d_frase)

3.138769922622404e-22


In [39]:
p_irrelevante_d_frase = probI * frase_d_irrelevante
print(p_irrelevante_d_frase)

3.0844270901305302e-24


In [40]:
p_relevante_d_frase > p_irrelevante_d_frase

True

In [41]:
test.iloc[linha,0]

'denisemustafa tdbem tenho um google aqui tbm mas comprei na gringa tem um tempo e uso mais em ingles que em pt mas habilitei as 2 linguagens acho ruim a interação  comparando com o que foi desenvolvido pra alexa uma amiga tem e funciona bem pelo que vi'

In [42]:
a = []
for linha in range (0,len(test)):
    frase = test.iloc[linha,0]
    frase_quebrada = frase.split()
    palavras_frase = pd.Series(frase_quebrada)
    contador_palavras = len(palavras_frase)
    
    #RELEVANTE
    frase_d_relevante = 1
    for palavra in palavras_frase:
        if palavra in livro_relevante_series:
            frase_d_relevante = frase_d_relevante * (livro_relevante_series[palavra] + 1) / (soma_relevantes + len(todas_palavras))
        else:
            frase_d_relevante = frase_d_relevante * 1 / (soma_relevantes + len(todas_palavras))
    #IRRELEVANTE
    frase_d_irrelevante = 1
    for palavra in palavras_frase:
        if palavra in livro_irrelevante_series:
            frase_d_irrelevante = frase_d_irrelevante * (livro_irrelevante_series[palavra] + 1) / (soma_irrelevantes + len(todas_palavras))
        else:
            frase_d_irrelevante = frase_d_irrelevante * 1 / (soma_irrelevantes + len(todas_palavras))
            
    p_relevante_d_frase = probR * frase_d_relevante
    p_irrelevante_d_frase = probI * frase_d_irrelevante
    if p_relevante_d_frase > p_irrelevante_d_frase:
        a.append(True)
    else:
        a.append(False)
test["Automático"] = a

In [43]:
test.tail(10)

Unnamed: 0,Teste,Classificacao,Automático
190,alwayscharlison boa noite jojo feliz um ano💜👻🦋🎸,0,True
191,alwayscharlison n0stupidpeople como dizia luis...,0,True
192,alexa play luca era gay by povia,0,False
193,blackautie nisso a alexa me salva só falo em v...,0,True
194,hellencrissb portalaytacsbr sim infelizmente,0,False
195,alexa_sasmaz_ aytaç e cemre é que nem vinho qu...,0,False
196,kyujijiq gn alexa,0,False
197,denisemustafa tdbem nesse ponto de entendiment...,0,True
198,helnikfvs alexa tocar pra essa pessoa seu prob...,0,True
199,denisemustafa tdbem tenho um google aqui tbm m...,0,True


In [44]:
print('Comentários positivos/relevantes sobre a Alexa:', len(test.loc[test['Automático'] == True,:]))
print('Comentários negativos/irrelevantes sobre a Alexa:', len(test.loc[test['Automático'] == False,:]))

Comentários positivos/relevantes sobre a Alexa: 155
Comentários negativos/irrelevantes sobre a Alexa: 45


In [45]:
exatidao = 0
for linha in range(len(test)):
    if test['Classificacao'][linha] == test['Automático'][linha]:
        exatidao = exatidao + 1
print('Nossa exatidão:',(exatidao/200)*100)

Nossa exatidão: 65.5


In [46]:
table = pd.crosstab(test['Classificacao'],test['Automático'], normalize = True)*100
table

Automático,False,True
Classificacao,Unnamed: 1_level_1,Unnamed: 2_level_1
0,19.0,31.0
1,3.5,46.5


In [49]:
print('Verdadeiros Negativos:',table[1][0],'%')
print('Falsos Negativos:',table[0][0],'%')
print('Verdadeiros Positivos:',table[1][1],'%')
print('Falsos Positivos:',table[0][1].round(1),'%')

Verdadeiros Negativos: 31.0 %
Falsos Negativos: 19.0 %
Verdadeiros Positivos: 46.5 %
Falsos Positivos: 3.5 %


___
### Concluindo

Nosso classificador tem uma acurácia de 65.5% 

Sendo 46,5% e 31% de acurácia em ser relevante ou irrelevante respectivamente.

___
### Qualidade do Classificador a partir de novas separações dos tweets entre Treinamento e Teste

Caso for fazer esse item do Projeto

___
## Aperfeiçoamento:

Trabalhos que conseguirem pelo menos conceito B vão evoluir em conceito dependendo da quantidade de itens avançados:

* IMPLEMENTOU outras limpezas e transformações que não afetem a qualidade da informação contida nos tweets. Ex: stemming, lemmatization, stopwords
* CORRIGIU separação de espaços entre palavras e emojis ou entre emojis e emojis
* CRIOU categorias intermediárias de relevância baseadas na probabilidade: ex.: muito relevante, relevante, neutro, irrelevante, muito irrelevante. Pelo menos quatro categorias, com adição de mais tweets na base, conforme enunciado. (OBRIGATÓRIO PARA TRIOS, sem contar como item avançado)
* EXPLICOU porquê não pode usar o próprio classificador para gerar mais amostras de treinamento
* PROPÔS diferentes cenários para Naïve Bayes fora do contexto do projeto
* SUGERIU e EXPLICOU melhorias reais com indicações concretas de como implementar (indicar como fazer e indicar material de pesquisa)
* FEZ o item 6. Qualidade do Classificador a partir de novas separações dos tweets entre Treinamento e Teste descrito no enunciado do projeto (OBRIGATÓRIO para conceitos A ou A+)

___
## Referências

[Naive Bayes and Text Classification](https://arxiv.org/pdf/1410.5329.pdf)  **Mais completo**

[A practical explanation of a Naive Bayes Classifier](https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/) **Mais simples**