# Projeto 1 - Ciência dos Dados

Nome: Felipe Catapano

Nome: Rafael Eli Katri

Nome: Natan Kron Goldenberg Lewi

Atenção: Serão permitidos grupos de três pessoas, mas com uma rubrica mais exigente. Grupos deste tamanho precisarão fazer um questionário de avaliação de trabalho em equipe

___
Carregando algumas bibliotecas:

In [1]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import nltk
from nltk.corpus import stopwords
import os

In [None]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Carregando a base de dados com os tweets classificados como relevantes e não relevantes:

In [2]:
filename = 'Minecraft.xlsx'

In [3]:
train = pd.read_excel(filename)
train = train.loc[:,['Treinamento','Rafa','Classificação']]
train.columns = ['Tweet','Integrante','Classificação']
train.head(5)

Unnamed: 0,Tweet,Integrante,Classificação
0,partiu jogar ❤️\n\n#minecraft,Rafa,2
1,"@guilovespink ah sim, eu tenho meu projetinho ...",Rafa,3
2,agr vai ser tudo na base do mais profundo ódio...,Rafa,0
3,@vinimonteuro @azulgreatcat minecraft comes al...,Rafa,0
4,vou fazer casinha no minecraft\n\nalguem tem x...,Rafa,2


In [4]:
test = pd.read_excel(filename, sheet_name = 'Teste')
test = test.loc[:,['Teste','Unnamed: 14','Classificador']]
test.columns = ['Tweet','Integrante','Classificação']
test.head(5)

Unnamed: 0,Tweet,Integrante,Classificação
0,agr. ta indo. minecraft. se. ela. apaga meu m...,Natan,1
1,"@cups_gu pra mim o melhor jogo é minecraft, ma...",Natan,1
2,@junnotfound_ @alguem_aitlgd @mineperfeito ele...,Natan,2
3,eu passei o dia inteiro jogando minecraft jss ...,Natan,3
4,lol ache uma partida rapido se nn vou ficar a ...,Natan,1


___
## Classificador automático de sentimento


O produto escolhido foi o videojogo Minecraft, desenvolvido pela empresa Mojang. Escolhemos esse jogo devido ao alto volume de tweets que ele movimenta, graças à forte comunidade que o sustenta.
Classificamos os tweets entre 4 graus de classificação, em ordem crescente de relevância:
- O primeiro (0) seria de tweets que não são coesos e não possuem relevância ao jogo.
- O próximo (1) é composto de tweets que não tem foco no Minecraft, mas o jogo tem certa relevância no texto.
- O nível 2 é formado por tweets cujo principal tema é Minecraft, mas não entra em termos técnicos do jogo.
- Por fim, o nível 3 é formado de tweets centrados em Minecraft, os quais descrevem aspectos técnicos do jogo.

___
### Montando um Classificador Naive-Bayes

Considerando apenas as mensagens da planilha Treinamento, ensine  seu classificador.

In [5]:
# Transforma o texto dos tweets em minúsculo para padronizar palavras idênticas que tenham variação nesse quesito:

train["Tweet"].str.lower()

# Separa o texto de cada tweet em palavras:

lista = list()

for el in train["Tweet"]:
    # Tira espaços extras
    limpando = " ".join(el.split())
    words = limpando.split()
    lista.append(words)

train["Palavras"] = lista

# Filtra caracteres especiais e stopwords:

charstop = ['?','!','.',',','(',')','[',']','{','}','<','>','-',':','|','┃']

palavrastop = ['a','o','as','os','umas','uns','eu','voce','pra','ele','ela','elas','eles','agnt','um','do','de','da','das','dos','e','na','no','em','meu','para','pela','pelo','que','q']

lista = list()

for el in train['Palavras']:
    liste = []
    for x in el:
        if any(char in charstop for char in x):
            for stp in charstop:
                x = x.replace(stp,"")
        if x != "" and (x not in palavrastop and x not in stopwords.words('portuguese')):
            liste.append(x)
    lista.append(liste)

train['Filtrado'] = lista

train

Unnamed: 0,Tweet,Integrante,Classificação,Palavras,Filtrado
0,partiu jogar ❤️\n\n#minecraft,Rafa,2,"[partiu, jogar, ❤️, #minecraft]","[partiu, jogar, ❤️, #minecraft]"
1,"@guilovespink ah sim, eu tenho meu projetinho ...",Rafa,3,"[@guilovespink, ah, sim,, eu, tenho, meu, proj...","[@guilovespink, ah, sim, projetinho, modpack, ..."
2,agr vai ser tudo na base do mais profundo ódio...,Rafa,0,"[agr, vai, ser, tudo, na, base, do, mais, prof...","[agr, vai, ser, tudo, base, profundo, ódio, nu..."
3,@vinimonteuro @azulgreatcat minecraft comes al...,Rafa,0,"[@vinimonteuro, @azulgreatcat, minecraft, come...","[@vinimonteuro, @azulgreatcat, minecraft, come..."
4,vou fazer casinha no minecraft\n\nalguem tem x...,Rafa,2,"[vou, fazer, casinha, no, minecraft, alguem, t...","[vou, fazer, casinha, minecraft, alguem, xbox,..."
...,...,...,...,...,...
445,essa é pra voce sonysta que gosta de vendinhas...,Natan,3,"[essa, é, pra, voce, sonysta, que, gosta, de, ...","[sonysta, gosta, vendinhas, saiba, jogo, conso..."
446,q odio eu tive insônia hj… por culpa de minecraft,Natan,0,"[q, odio, eu, tive, insônia, hj…, por, culpa, ...","[odio, insônia, hj…, culpa, minecraft]"
447,@edit_by_fresh bom dia p quem foi hackeado no ...,Natan,2,"[@edit_by_fresh, bom, dia, p, quem, foi, hacke...","[@edit_by_fresh, bom, dia, p, hackeado, minecr..."
448,“só disse isso pra tu olhar o twitter dnv” dis...,Natan,0,"[“só, disse, isso, pra, tu, olhar, o, twitter,...","[“só, disse, olhar, twitter, dnv”, disse, feli..."


In [6]:
# Stemming: retirar sufixos para se aproximar da raíz da palavra

# Inicializando objeto de stemming do nltk
stemmer = nltk.stem.RSLPStemmer()

lista = []

for el in train['Filtrado']:
    liste = []
    for x in el:
        # aplicando o stemming
        novo = stemmer.stem(x)
        liste.append(novo)
    lista.append(liste)

train['Stemming'] = lista

train['Stemming']

0                            [part, jog, ❤️, #minecraft]
1      [@guilovespink, ah, sim, projet, modpack, tbm,...
2      [agr, vai, ser, tud, bas, profund, ódi, nunc, ...
3      [@vinimonteur, @azulgreatcat, minecraft, com, ...
4      [vou, faz, cas, minecraft, algu, xbox, minecraft]
                             ...                        
445    [sonyst, gost, vend, saib, jog, consol, vend, ...
446                   [odi, insôn, hj…, culp, minecraft]
447    [@edit_by_fresh, bom, dia, p, hacke, minecraft...
448    [“só, diss, olh, twitt, dnv”, diss, felip, fel...
449    [9/6, 0403, pedr, fal, pic, man, to, vend, min...
Name: Stemming, Length: 450, dtype: object

In [7]:
# Probabilidade de cada classificação

total = len(train['Stemming'])

p = []
prel = []


for i in range(0,4):
    stringx = ''
    x = train.loc[train['Classificação'] == i,:]['Stemming'] 
    px = len(x)/total
    p.append(px)
    for el in x:
        for palavra in el:
            stringx += palavra + ' '
    todas_palavras = stringx.split()
    tabela = pd.Series(todas_palavras).value_counts(True)
    prel.append(tabela)
    


p0,p1,p2,p3 = p
prel0,prel1,prel2,prel3 = prel


for el in p:
    print(el)

print(prel0)


0.2
0.29555555555555557
0.3
0.20444444444444446
minecraft    0.066318
jog          0.032286
fal          0.007853
fic          0.007853
ser          0.006981
               ...   
desert       0.000873
#fandom      0.000873
bot          0.000873
mommy        0.000873
sony         0.000873
Length: 745, dtype: float64


In [8]:
# Montando o classificador:

def classifica(tweet):
    probFraseDado0 = 1
    probFraseDado1 = 1
    probFraseDado2 = 1
    probFraseDado3 = 1
    for palavra in tweet:
        try:
            probFraseDado0 *= prel0[palavra]
        except:
            pass
        try:
            probFraseDado1 *= prel1[palavra]
        except:
            pass
        try:
            probFraseDado2 *= prel2[palavra]
        except:
            pass
        try:
            probFraseDado3 *= prel3[palavra]
        except:
            pass
    lis = [probFraseDado0 * p0,probFraseDado1 * p1,probFraseDado2 * p2,probFraseDado3 * p3]
    maxim = max(lis)
    for i in range(0,4):
        if lis[i] == maxim:
            return i 

print(classifica(['jog','batata','steve']))
        

1


___
### Verificando a performance do Classificador

Agora você deve testar o seu classificador com a base de Testes.

In [9]:
# Filtrando os tweets de teste

# Transforma o texto dos tweets em minúsculo para padronizar palavras idênticas que tenham variação nesse quesito:

test["Tweet"].str.lower()

# Separa o texto de cada tweet em palavras:

lista = list()

for el in test["Tweet"]:
    # Tira espaços extras
    limpando = " ".join(el.split())
    words = limpando.split()
    lista.append(words)

test["Palavras"] = lista

# Filtra caracteres especiais e stopwords:

charstop = ['?','!','.',',','(',')','[',']','{','}','<','>','-',':','|','┃']

palavrastop = ['a','o','as','os','umas','uns','eu','voce','pra','ele','ela','elas','eles','agnt','um','do','de','da','das','dos','e','na','no','em','meu','para','pela','pelo','que','q']

lista = list()

for el in test['Palavras']:
    liste = []
    for x in el:
        if any(char in charstop for char in x):
            for stp in charstop:
                x = x.replace(stp,"")
        if x != "" and (x not in palavrastop and x not in stopwords.words('portuguese')):
            liste.append(x)
    lista.append(liste)

test['Filtrado'] = lista

# Stemming: retirar sufixos para se aproximar da raíz da palavra

lista = []

for el in test['Filtrado']:
    liste = []
    for x in el:
        # aplicando o stemming
        novo = stemmer.stem(x)
        liste.append(novo)
    lista.append(liste)

test['Stemming'] = lista

In [10]:
# Classificando os tweets do teste:

lista = []

for el in test['Stemming']:
    nota = classifica(el)
    lista.append(nota)

test['Classificação atribuída'] = lista

test
     

Unnamed: 0,Tweet,Integrante,Classificação,Palavras,Filtrado,Stemming,Classificação atribuída
0,agr. ta indo. minecraft. se. ela. apaga meu m...,Natan,1,"[agr., ta, indo., minecraft., se., ela., apaga...","[agr, ta, indo, minecraft, apaga, mundo, juro,...","[agr, ta, ind, minecraft, apag, mund, jur, vou...",2
1,"@cups_gu pra mim o melhor jogo é minecraft, ma...",Natan,1,"[@cups_gu, pra, mim, o, melhor, jogo, é, minec...","[@cups_gu, mim, melhor, jogo, minecraft, oq, j...","[@cups_gu, mim, melhor, jog, minecraft, oq, jo...",0
2,@junnotfound_ @alguem_aitlgd @mineperfeito ele...,Natan,2,"[@junnotfound_, @alguem_aitlgd, @mineperfeito,...","[@junnotfound_, @alguem_aitlgd, @mineperfeito,...","[@junnotfound_, @alguem_aitlgd, @mineperfeit, ...",0
3,eu passei o dia inteiro jogando minecraft jss ...,Natan,3,"[eu, passei, o, dia, inteiro, jogando, minecra...","[passei, dia, inteiro, jogando, minecraft, jss...","[pass, dia, int, jog, minecraft, js, vid]",3
4,lol ache uma partida rapido se nn vou ficar a ...,Natan,1,"[lol, ache, uma, partida, rapido, se, nn, vou,...","[lol, ache, partida, rapido, nn, vou, ficar, t...","[lol, ach, part, rap, nn, vou, fic, tatd, term...",0
...,...,...,...,...,...,...,...
232,saudades da vic falando que eu to igual minecr...,Catapano,1,"[saudades, da, vic, falando, que, eu, to, igua...","[saudades, vic, falando, to, igual, minecraft,...","[saudad, vic, fal, to, igual, minecraft, cham,...",3
233,@lilithphile imagina os kookmin no minecraft d...,Catapano,1,"[@lilithphile, imagina, os, kookmin, no, minec...","[@lilithphile, imagina, kookmin, minecraft, da...","[@lilithphil, imagin, kookmin, minecraft, dand...",0
234,@bolovodeovo @joaovitokkkkk como se tu nunca t...,Catapano,0,"[@bolovodeovo, @joaovitokkkkk, como, se, tu, n...","[@bolovodeovo, @joaovitokkkkk, nunca, jogado, ...","[@bolovodeov, @joaovitokkkkk, nunc, jog, minec...",0
235,tô tentando zerar minecraft (pela primeira vez...,Catapano,3,"[tô, tentando, zerar, minecraft, (pela, primei...","[tô, tentando, zerar, minecraft, primeira, vez...","[tô, tent, zer, minecraft, prim, vez, tô, so, ...",2


___
### Concluindo

___
### Qualidade do Classificador a partir de novas separações dos tweets entre Treinamento e Teste

Caso for fazer esse item do Projeto

___
## Aperfeiçoamento:

Trabalhos que conseguirem pelo menos conceito B vão evoluir em conceito dependendo da quantidade de itens avançados:

* IMPLEMENTOU outras limpezas e transformações que não afetem a qualidade da informação contida nos tweets. Ex: stemming, lemmatization, stopwords
* CORRIGIU separação de espaços entre palavras e emojis ou entre emojis e emojis

✔️ CRIOU categorias intermediárias de relevância baseadas na probabilidade: ex.: muito relevante, relevante, neutro, irrelevante, muito irrelevante. Pelo menos quatro categorias, com adição de mais tweets na base, conforme enunciado. (OBRIGATÓRIO PARA TRIOS, sem contar como item avançado)
* EXPLICOU porquê não pode usar o próprio classificador para gerar mais amostras de treinamento
* PROPÔS diferentes cenários para Naïve Bayes fora do contexto do projeto
* SUGERIU e EXPLICOU melhorias reais com indicações concretas de como implementar (indicar como fazer e indicar material de pesquisa)
* FEZ o item 6. Qualidade do Classificador a partir de novas separações dos tweets entre Treinamento e Teste descrito no enunciado do projeto (OBRIGATÓRIO para conceitos A ou A+)

___
## Referências

[Naive Bayes and Text Classification](https://arxiv.org/pdf/1410.5329.pdf)  **Mais completo**

[A practical explanation of a Naive Bayes Classifier](https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/) **Mais simples**