# Projeto 1 - Ciência dos Dados

Nome: Felipe Catapano

Nome: Rafael Eli Katri

Nome: Natan Kron Goldenberg Lewi

Atenção: Serão permitidos grupos de três pessoas, mas com uma rubrica mais exigente. Grupos deste tamanho precisarão fazer um questionário de avaliação de trabalho em equipe

___
Carregando algumas bibliotecas:

In [1]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os

In [None]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Carregando a base de dados com os tweets classificados como relevantes e não relevantes:

In [2]:
filename = 'Minecraft.xlsx'

In [3]:
train = pd.read_excel(filename)
train = train.loc[:,['Treinamento','Rafa','Classificação']]
train.columns = ['Tweet','Integrante','Classificação']
train.head(5)

Unnamed: 0,Tweet,Integrante,Classificação
0,partiu jogar ❤️\n\n#minecraft,Rafa,2
1,"@guilovespink ah sim, eu tenho meu projetinho ...",Rafa,3
2,agr vai ser tudo na base do mais profundo ódio...,Rafa,0
3,@vinimonteuro @azulgreatcat minecraft comes al...,Rafa,0
4,vou fazer casinha no minecraft\n\nalguem tem x...,Rafa,2


In [4]:
test = pd.read_excel(filename, sheet_name = 'Teste')
test = test.loc[:,['Teste','Unnamed: 14','Classificador']]
test.columns = ['Tweet','Integrante','Classificação']
test.head(5)

Unnamed: 0,Tweet,Integrante,Classificação
0,agr. ta indo. minecraft. se. ela. apaga meu m...,Natan,1
1,"@cups_gu pra mim o melhor jogo é minecraft, ma...",Natan,1
2,@junnotfound_ @alguem_aitlgd @mineperfeito ele...,Natan,2
3,eu passei o dia inteiro jogando minecraft jss ...,Natan,3
4,lol ache uma partida rapido se nn vou ficar a ...,Natan,1


___
## Classificador automático de sentimento


O produto escolhido foi o videojogo Minecraft, desenvolvido pela empresa Mojang. Escolhemos esse jogo devido ao alto volume de tweets que ele movimenta, graças à forte comunidade que o sustenta.
Classificamos os tweets entre 4 graus de classificação, em ordem crescente de relevância:
- O primeiro (0) seria de tweets que não são coesos e não possuem relevância ao jogo.
- O próximo (1) é composto de tweets que não tem foco no Minecraft, mas o jogo tem certa relevância no texto.
- O nível 2 é formado por tweets cujo principal tema é Minecraft, mas não entra em termos técnicos do jogo.
- Por fim, o nível 3 é formado de tweets centrados em Minecraft, os quais descrevem aspectos técnicos do jogo.

___
### Montando um Classificador Naive-Bayes

Considerando apenas as mensagens da planilha Treinamento, ensine  seu classificador.

In [6]:
# Transforma o texto dos tweets em minúsculo para padronizar palavras idênticas que tenham variação nesse quesito:

train["Tweet"].str.lower()

# Separa o texto de cada tweet em palavras:

lista = list()

for el in train["Tweet"]:
    # Tira espaços extras
    limpando = " ".join(el.split())
    words = limpando.split()
    lista.append(words)

train["Palavras"] = lista

# Filtra caracteres especiais e stopwords:

charstop = ['?','!','.',',','(',')','[',']','{','}','<','>','-',':','|','┃']

palavrastop = ['a','o','as','os','umas','uns','eu','voce','pra','ele','ela','elas','eles','agnt','um','do','de','da','das','dos','e','na','no','em','meu','para','pela','pelo','que','q']

lista = list()

for el in train['Palavras']:
    liste = []
    for x in el:
        if any(char in charstop for char in x):
            for stp in charstop:
                x = x.replace(stp,"")
        if x != "" and x not in palavrastop:
            liste.append(x)
    lista.append(liste)

train['Filtrado'] = lista

train

Unnamed: 0,Tweet,Integrante,Classificação,Palavras,Filtrado
0,partiu jogar ❤️\n\n#minecraft,Rafa,2,"[partiu, jogar, ❤️, #minecraft]","[partiu, jogar, ❤️, #minecraft]"
1,"@guilovespink ah sim, eu tenho meu projetinho ...",Rafa,3,"[@guilovespink, ah, sim,, eu, tenho, meu, proj...","[@guilovespink, ah, sim, tenho, projetinho, mo..."
2,agr vai ser tudo na base do mais profundo ódio...,Rafa,0,"[agr, vai, ser, tudo, na, base, do, mais, prof...","[agr, vai, ser, tudo, base, mais, profundo, ód..."
3,@vinimonteuro @azulgreatcat minecraft comes al...,Rafa,0,"[@vinimonteuro, @azulgreatcat, minecraft, come...","[@vinimonteuro, @azulgreatcat, minecraft, come..."
4,vou fazer casinha no minecraft\n\nalguem tem x...,Rafa,2,"[vou, fazer, casinha, no, minecraft, alguem, t...","[vou, fazer, casinha, minecraft, alguem, tem, ..."
...,...,...,...,...,...
445,essa é pra voce sonysta que gosta de vendinhas...,Natan,3,"[essa, é, pra, voce, sonysta, que, gosta, de, ...","[essa, é, sonysta, gosta, vendinhas, saiba, jo..."
446,q odio eu tive insônia hj… por culpa de minecraft,Natan,0,"[q, odio, eu, tive, insônia, hj…, por, culpa, ...","[odio, tive, insônia, hj…, por, culpa, minecraft]"
447,@edit_by_fresh bom dia p quem foi hackeado no ...,Natan,2,"[@edit_by_fresh, bom, dia, p, quem, foi, hacke...","[@edit_by_fresh, bom, dia, p, quem, foi, hacke..."
448,“só disse isso pra tu olhar o twitter dnv” dis...,Natan,0,"[“só, disse, isso, pra, tu, olhar, o, twitter,...","[“só, disse, isso, tu, olhar, twitter, dnv”, d..."


In [9]:
# Stemming: retirar sufixos para se aproximar da raíz da palavra

sufixos = ['ar','er','ir','ndo','mente','ado','ido','s','ho','ha','ou']

lista = []

for el in train['Filtrado']:
    liste = []
    for x in el:
        i = 1 
        for su in sufixos:
            leng = len(su)
            # Garante que a raíz tenha mais de um caractere para minimizar o número de inconsistências
            if x[(len(x)-len(su)):] == su and (len(x) - len(su) > 1):
                liste.append(x[:(len(x)-len(su))])
                break
            elif i == len(sufixos):
                liste.append(x)
            i +=1   
    lista.append(liste)

train['Stemming'] = lista

train['Stemming']
        

0                          [partiu, jog, ❤️, #minecraft]
1      [@guilovespink, ah, sim, ten, projetin, modpac...
2      [agr, vai, ser, tudo, base, mai, profu, ódio, ...
3      [@vinimonteuro, @azulgreatcat, minecraft, come...
4      [vou, faz, casin, minecraft, alguem, tem, xbox...
                             ...                        
445    [essa, é, sonysta, gosta, vendinha, saiba, jog...
446    [odio, tive, insônia, hj…, por, culpa, minecraft]
447    [@edit_by_fresh, bom, dia, p, quem, foi, hacke...
448    [“só, disse, isso, tu, olh, twitt, dnv”, disse...
449    [9/6, 0403, pedrin, fal, pica, mano, to, ve, m...
Name: Stemming, Length: 450, dtype: object

___
### Verificando a performance do Classificador

Agora você deve testar o seu classificador com a base de Testes.

___
### Concluindo

___
### Qualidade do Classificador a partir de novas separações dos tweets entre Treinamento e Teste

Caso for fazer esse item do Projeto

___
## Aperfeiçoamento:

Trabalhos que conseguirem pelo menos conceito B vão evoluir em conceito dependendo da quantidade de itens avançados:

* IMPLEMENTOU outras limpezas e transformações que não afetem a qualidade da informação contida nos tweets. Ex: stemming, lemmatization, stopwords
* CORRIGIU separação de espaços entre palavras e emojis ou entre emojis e emojis

✔️ CRIOU categorias intermediárias de relevância baseadas na probabilidade: ex.: muito relevante, relevante, neutro, irrelevante, muito irrelevante. Pelo menos quatro categorias, com adição de mais tweets na base, conforme enunciado. (OBRIGATÓRIO PARA TRIOS, sem contar como item avançado)
* EXPLICOU porquê não pode usar o próprio classificador para gerar mais amostras de treinamento
* PROPÔS diferentes cenários para Naïve Bayes fora do contexto do projeto
* SUGERIU e EXPLICOU melhorias reais com indicações concretas de como implementar (indicar como fazer e indicar material de pesquisa)
* FEZ o item 6. Qualidade do Classificador a partir de novas separações dos tweets entre Treinamento e Teste descrito no enunciado do projeto (OBRIGATÓRIO para conceitos A ou A+)

___
## Referências

[Naive Bayes and Text Classification](https://arxiv.org/pdf/1410.5329.pdf)  **Mais completo**

[A practical explanation of a Naive Bayes Classifier](https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/) **Mais simples**