# **Descrição do projeto do Módulo de NLP**


No projeto do módulo de NLP vamos tentar resolver um problema de classificação de textos. Você escolherá um de três datasets cujo objetivo é classificar em um conjunto de classes. Você deverá utilizar três metodologias ensinadas em nossas aulas para poder classificar esses textos. A seguir, mais detalhes do projeto para que você possa resolver.


Os produtos finais deste projeto será um Notebook Python. As seções seguintes detalham como você deve proceder para gerar o código e a última seção deve especificar a estrutura que seu notebook deve seguir.

## 1. Dados
Você poderá escolher três tarefas para resolver no projeto. A seguir existe a breve descrição de cada tarefa e um link para onde você poderá baixar os dados. 

O corpus UTL é um corpus com críticas de filmes e apps coletadas automaticamente de sites. As classes são: positiva ou negativa. Assim o usuário pode ter gostado ou não gostado do produto. Referência: https://github.com/RogerFig/UTLCorpus 
O corpus UOL AES-PT é um corpus de redações no estilo do ENEM. Cada redação possui um tópico e um conjunto de redações relacionadas. Nesse corpus, existem vários tópicos e suas respectivas redações. O objetivo é predizer a nota final de cada redação de acordo com o grupo de notas 0, 200, 400, 600, 800 e 1000. Para mais informações e download dos dados, acesse o link: https://github.com/evelinamorim/aes-pt .
O corpus TweetSentBr é um corpus em português de tweets. Cada tweet está rotulado com uma das classes: positivo, negativo e neutro. Para mais informações e download do corpus, acesse o link https://bitbucket.org/HBrum/tweetsentbr/src/master/ .

## 2. Representação
Vimos durante a nossa aula diversas forma de representar um documento de texto. Você vai usar cada uma dessas representações e compará-las. A seguir temos a listagem das representações que devem ser usadas para representar seu texto.
Representação TF-IDF. Você pode usar tanto o gensim quanto o scikit para montar esta representação, mas lembre-se que é importante fazer o pré-processamento dos textos.
Representação com o word2vec. O modelo poderá ser o apresentado na aula 03 ou algum outro modelo pré-treinado como os existentes no repositório http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc . Neste caso, cada documento deverá ser representado pelo vetor que resultar da média dos vetores de todas as palavras que o compõem. Em outras palavras, se D é composto pelas palavras w1, w2, …, wn, e seus vetores embeddings são v1, v2, …, vn, então a representação do documento de D será v = (v1 + v2 + … + vn) / n. 
Extração de features do texto. Você deve pensar em ao menos 10 features para extrair do documento e que o possam representar. Aqui vão algumas sugestões: número de palavras, número de verbos, número de conjunções, número de palavras negativas, número de palavras fora do vocabulário, quantidades de entidades do tipo PESSOA, quantidade de entidades do tipo LOCAL, etc.

Lembrando que você deve dividir seu conjunto em treino e teste. No TF-IDF, você só pode aplicar o método fit no conjunto de treino. Uma sugestão é dividir 80% do conjunto de dados para treino e 20% para teste. Essa divisão é aleatória, mas você pode usar o método train_test_split para essa divisão. O exemplo a seguir mostra como usar esse método:

from sklearn.model_selection import train_test_split


 X_train, X_test, y_train, y_test = train_test_split(
...    X, y, test_size=0.20, random_state=42)

## 3. Visualização dos dados

Também vimos que embora o nosso texto apresente dimensionalidade maior que 2D, é possível visualizar em apenas duas dimensões usando técnicas de redução de dimensionalidade. Vimos duas técnicas de redução de dimensionalidade, o PCA e o t-SNE. Assim, pede-se que você utilize as duas técnicas para gerar uma visualização dos seus dados e considere as classes para colorir as instâncias. 

Sugere-se utilizar a biblioteca yellowbrick para gerar as visualizações, devido sua simplicidade. Mas caso tenha interesse em gerar visualizações mais interativas e mais bonitas, você pode utilizar a biblioteca seaborn. Para uma galeria dos gráficos que o seaborn é capaz de fazer, acesse o link https://seaborn.pydata.org/examples/index.html . Apenas acrescentando em seu código import seaborn as sns; sns.set() , também é possível deixar o gráfico com cores mais bonitas. Todas essas bibliotecas precisam do matplotlib, que já está importado no exemplo da aula.

Aqui você deve fazer a visualização apenas do seu conjunto de treino.
## 4. Classificadores

Escolha dois classificadores que você possua mais familiaridade no scikit-learn para poder classificar os seus dados. Você deve executar cada um dos classificadores nas três representações escolhidas. 

Você pode usar o k-nn como um dos métodos. Outros métodos estão disponíveis no scikit, como por exemplo o SVM e o RandomForest.

## 5. Métricas de avaliação

Para os corpus TweetSentBR e UTL, pede-se que se use a matriz de confusão, a precisão, o recall e o f-1 para reportar a acurácia dos seus classificadores. No caso do corpus UOL AES-PT pede-se que se use o erro médio apenas.



# Estrutura

Estrutura do Notebook

O seu notebook deve ser dividido por seções que possuam  uma célula do tipo Markdown. Nesta célula deve ter o título da seção antecedida por um marcador do tipo #. O título de cada seção deverá ser como a lista abaixo. Além do título, é possível que a seção demande a descrição de resultados ou outro tipo de texto. Nestes casos, coloque o texto junto à célula do título. Se houver código solicitado para a seção, então as células restantes devem ser de código solicitado.  
O relatório deve ser organizado nas seguintes seções:





1.   Tarefa e Dados

2.   Classificadores

3.   Resultados

4.   Resultados


## 1 - Tarefa e Dados: 
Descreva a tarefa escolhida e os dados. Escreva código que leia os dados e calcule e imprima quantas instâncias os dados têm. Também, seu código deve calcular a média de tokens por instância, isto é, quantos tokens, na média cada documento do seu conjunto de dados possui. Imprima esse único número.

Você poderá escolher três tarefas para resolver no projeto. A seguir existe a breve descrição de cada tarefa e um link para onde você poderá baixar os dados.

O corpus UTL é um corpus com críticas de filmes e apps coletadas automaticamente de sites. As classes são: positiva ou negativa. Assim o usuário pode ter gostado ou não gostado do produto. Referência: https://github.com/RogerFig/UTLCorpus.

O corpus UOL AES-PT é um corpus de redações no estilo do ENEM. Cada redação possui um tópico e um conjunto de redações relacionadas. Nesse corpus, existem vários tópicos e suas respectivas redações. O objetivo é predizer a nota final de cada redação de acordo com o grupo de notas 0, 200, 400, 600, 800 e 1000. Para mais informações e download dos dados, acesse o link: https://github.com/evelinamorim/aes-pt.

O corpus TweetSentBr é um corpus em português de tweets. Cada tweet está rotulado com uma das classes: positivo, negativo e neutro. Para mais informações e download do corpus, acesse o link https://bitbucket.org/HBrum/tweetsentbr/src/master/.

A base escolhido é a do corpus UTL é um corpus com críticas de filmes e apps coletadas automaticamente de sites. As classes são: positiva ou negativa. Assim o usuário pode ter gostado ou não gostado do produto. Referência: https://github.com/RogerFig/UTLCorpus.

## Importanto as bibliotecas necessárias

In [116]:
### # montando o drive do google onde o corpus se encontra
from google.colab import drive
drive.mount('/content/drive')

### Entrando no diretório
%cd drive/MyDrive/Colab Notebooks/NLP/trabalho

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
[Errno 2] No such file or directory: 'drive/MyDrive/Colab Notebooks/NLP/trabalho'
/content/drive/MyDrive/Colab Notebooks/NLP/trabalho


In [117]:
import nltk
nltk.download('punkt')

%matplotlib inline
#nltk.download('punkt')
nltk.download('stopwords')
#nltk.download('wordnet')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [118]:
import pandas as pd
import numpy as np

import time # usado para calcular o tempo de processamento de algumas partes do código
import string # usado para concatenar string no stop words


from nltk.tokenize import word_tokenize

# REPRESENTAÇÕES
from gensim.models import Word2Vec
from gensim.models import TfidfModel
from gensim.corpora import Dictionary # para uso do TF-IDF
from gensim import corpora


## Abrindo o arquivo

In [119]:
# abrindo o arquivo localmente
# df_util = pd.read_csv(r'C:\Users\Herica\Documents\Herica\Pos\GitHub\base\NLP\UTLCorpus.csv')
# df_util.head(3)

In [120]:
# abrindo o arquivo no colab
df_util = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/UTLCorpus.csv')
df_util.head(3)

Unnamed: 0.1,Unnamed: 0,domain,object,author,text,likes,unlikes,stars,date,collect_date,replies,favorite,want_see,recommend,see,internal_id
0,0,movies,007-cassino-royale-t23,0,Um dos melhores do 007,0,0,3.5,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,0
1,1,movies,007-cassino-royale-t23,1,"assisti só pela metade..do meio ao fim, o film...",0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,1
2,2,movies,007-cassino-royale-t23,2,foi um dos filmes mais violentos q já vi. mas ...,0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,2


**DESCRIÇÃO DAS FEATURES**

domain -> identifica se os regisgros estão relacionados a avaliação de filmes ou de apps

object -> identificação do filme

author -> pessoa que fez a avaliação

text -> texto escrito pelo author sobre sua avaliação

likes -> qtde de likes que a avaliação do author recebeu

unkes -> qtde de unlikes que a avaliação do author recebeu

stars	date	-> qtde de estrelas que a avaliação recebeu

collect_date	-> data da avaliação

replies	favorite	-> qtde de replicas favoritadas

want_see	-> qtde de 'quero ver'

recommend	-> se é recomendado

see	-> qtde de 'já vi' recebido

internal_id -> código interno do dataset


# Analisando os dados

## Descrição dos dados

In [121]:
print ('Tamanho da base')
print ('Qtde de linhas: ', df_util.shape[0], ' Qtde de features/colunas: ', df_util.shape[1])

Tamanho da base
Qtde de linhas:  2881589  Qtde de features/colunas:  16


In [122]:
df_util.describe()

Unnamed: 0.1,Unnamed: 0,author,likes,unlikes,stars,replies,favorite,want_see,recommend,see,internal_id
count,2881589.0,2881589.0,2881589.0,2881589.0,2881589.0,1839851.0,1839851.0,1839851.0,0.0,1839851.0,2881589.0
mean,1440794.0,70848.66,3.275024,0.0,3.542358,0.1717813,0.2504051,0.01329238,,0.9630774,775660.0
std,831843.2,123797.4,51.98818,0.0,1.737904,0.7363074,0.4332464,0.1145238,,0.1885717,499559.6
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,0.0
25%,720397.0,3917.0,0.0,0.0,3.0,0.0,0.0,0.0,,1.0,360198.0
50%,1440794.0,17490.0,0.0,0.0,4.0,0.0,0.0,0.0,,1.0,720397.0
75%,2161191.0,59395.0,2.0,0.0,5.0,0.0,1.0,0.0,,1.0,1119453.0
max,2881588.0,541000.0,20146.0,0.0,5.0,142.0,1.0,1.0,,1.0,1839850.0


In [123]:
print ('Tipos dos dados')
df_util.dtypes

Tipos dos dados


Unnamed: 0        int64
domain           object
object           object
author            int64
text             object
likes             int64
unlikes           int64
stars           float64
date             object
collect_date     object
replies         float64
favorite        float64
want_see        float64
recommend       float64
see             float64
internal_id       int64
dtype: object

In [124]:
df_util.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2881589 entries, 0 to 2881588
Data columns (total 16 columns):
 #   Column        Dtype  
---  ------        -----  
 0   Unnamed: 0    int64  
 1   domain        object 
 2   object        object 
 3   author        int64  
 4   text          object 
 5   likes         int64  
 6   unlikes       int64  
 7   stars         float64
 8   date          object 
 9   collect_date  object 
 10  replies       float64
 11  favorite      float64
 12  want_see      float64
 13  recommend     float64
 14  see           float64
 15  internal_id   int64  
dtypes: float64(6), int64(5), object(5)
memory usage: 351.8+ MB


## Escolhendo quais tipos de registros serão utilizados

In [125]:
# Verificando quais os tipos da feature domain
df_util.domain.unique()

array(['movies', 'apps'], dtype=object)

In [126]:
print ('Qtde de movies:', len(df_util[df_util['domain'] == 'movies']))
print ('Qtde de apps:',  len(df_util[df_util['domain'] == 'apps']))

Qtde de movies: 1839851
Qtde de apps: 1041738


In [127]:
# Selecionando somente o registros do tipo movies
df_movies = df_util[df_util['domain'] == 'movies']

## Selecionando as features de interesse e deletando registros

In [128]:
df_movies.head(3)

Unnamed: 0.1,Unnamed: 0,domain,object,author,text,likes,unlikes,stars,date,collect_date,replies,favorite,want_see,recommend,see,internal_id
0,0,movies,007-cassino-royale-t23,0,Um dos melhores do 007,0,0,3.5,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,0
1,1,movies,007-cassino-royale-t23,1,"assisti só pela metade..do meio ao fim, o film...",0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,1
2,2,movies,007-cassino-royale-t23,2,foi um dos filmes mais violentos q já vi. mas ...,0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,2


In [129]:
df_movies = df_movies[['object', 'text', 'likes','stars','favorite' ]]
df_movies.head(3)

Unnamed: 0,object,text,likes,stars,favorite
0,007-cassino-royale-t23,Um dos melhores do 007,0,3.5,0.0
1,007-cassino-royale-t23,"assisti só pela metade..do meio ao fim, o film...",0,4.0,0.0
2,007-cassino-royale-t23,foi um dos filmes mais violentos q já vi. mas ...,0,4.0,0.0


In [130]:
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1839851 entries, 0 to 1839850
Data columns (total 5 columns):
 #   Column    Dtype  
---  ------    -----  
 0   object    object 
 1   text      object 
 2   likes     int64  
 3   stars     float64
 4   favorite  float64
dtypes: float64(2), int64(1), object(2)
memory usage: 84.2+ MB


In [131]:
# analisando a qtde de filmes avaliados
df_movies['object'].value_counts()

cisne-negro-t16349                               7839
os-vingadores-t15324                             7059
as-vantagens-de-ser-invisivel-t29850             6940
batman-o-cavaleiro-das-trevas-ressurge-t19914    6413
a-origem-t10852                                  5801
                                                 ... 
santo-en-la-frontera-del-terror-t45276              1
aardvark-t119704                                    1
femmes-femmes-t60215                                1
the-hagstone-demon-t108162                          1
livre-e-facil-t223988                               1
Name: object, Length: 4203, dtype: int64

In [132]:
df_movies[['object', 'text']].describe(include='O')

Unnamed: 0,object,text
count,1839851,1838895
unique,4203,1697979
top,cisne-negro-t16349,Usuário temporariamente bloqueado por infringi...
freq,7839,6824


### Verificando e deletando registros nulos

In [133]:
df_movies.isnull().sum()

object        0
text        956
likes         0
stars         0
favorite      0
dtype: int64

In [134]:
# deletando os registros nulos
qtde_anterior_nulos = df_movies.shape[0]
df_movies.dropna(subset=['text'], inplace = True)
qtde_pos_exclusao_nulos = df_movies.shape[0]

print ("Antes:", qtde_anterior_nulos, 'Depois:', qtde_pos_exclusao_nulos, 'Diferença:', qtde_anterior_nulos-qtde_pos_exclusao_nulos)

Antes: 1839851 Depois: 1838895 Diferença: 956


In [135]:
# Validando a exclusão
df_movies.isnull().sum()

object      0
text        0
likes       0
stars       0
favorite    0
dtype: int64

In [136]:
# deletando os registros cujo texto do filme é "Usuário temporariamente bloqueado por infringir os termos de uso do Filmow."
Qtde_excluir = len(df_movies[df_movies['text'] == "Usuário temporariamente bloqueado por infringir os termos de uso do Filmow."])
tam_base = df_movies.shape[0]
df_movies = df_movies[df_movies['text'] != "Usuário temporariamente bloqueado por infringir os termos de uso do Filmow."]
print ('qtde a ser excluído', Qtde_excluir, " tamanho_base", tam_base, "tamanho final", len(df_movies) - tam_base)

qtde a ser excluído 6824  tamanho_base 1838895 tamanho final -6824


In [137]:
df_movies[df_movies['text'] == "Usuário temporariamente bloqueado por infringir os termos de uso do Filmow."]

Unnamed: 0,object,text,likes,stars,favorite


In [138]:
# resetando os índices
df_movies = df_movies.reset_index()

## Definindo a classe positiva ou negativa para os filmes

In [139]:
df_movies.stars.value_counts()

5.0    504666
4.0    326102
0.0    325519
4.5    219413
3.5    157984
3.0    139309
2.5     54663
2.0     46247
0.5     22286
1.0     20137
1.5     15745
Name: stars, dtype: int64

#### Avaliando os registros

In [140]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 0][0:30]
# observar que nenhuma destas avaliações foi ruim, porém a star é zero. Estes registros serão descartados

Unnamed: 0,likes,stars,favorite,text
3,0,0.0,1.0,Adoroo esse filme!
8,2,0.0,0.0,Adorei... Nossa esse Daniel Craig é UM HOMEM...
12,3,0.0,0.0,"Na moral,um dos melhores filmes que assisti na..."
23,0,0.0,1.0,You Know My Naaaaaammmeeee! You Know My Naaaaa...
29,0,0.0,0.0,Quando surgiu Cassino Royale muita gente estra...
35,0,0.0,0.0,Melhor 007 sem dúvidas
36,0,0.0,1.0,Sou fã de 007!
37,0,0.0,1.0,nunca mais que foi o melhor 007. Please guys.....
41,0,0.0,0.0,"Um dos filmes favoritos que eu gosto, adoro es..."
44,0,0.0,0.0,Best 007!


In [141]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 1][0:30]
# observar que star = 1 as avaliações são negativas

Unnamed: 0,likes,stars,favorite,text
486,0,1.0,0.0,Péssimo!
1343,1,1.0,0.0,Skyfall pra franquia :/
1382,0,1.0,0.0,Realmente gosto não se discute. Detestei o fil...
1634,0,1.0,0.0,"Se era pra mudar o personagem 007, que fizesse..."
1897,1,1.0,0.0,Eu nunca tinha visto nenhum filme do 007 e rea...
2054,0,1.0,0.0,"Filme parado, pouco ação e o pior dos 007 com ..."
2216,1,1.0,0.0,"O filme só começou realmente, quando Javier Ba..."
2221,0,1.0,0.0,Simplesmente o pior filme de 007! Morri de téd...
2748,2,1.0,0.0,"Dormi, sem zoação. '-'"
2982,2,1.0,0.0,Ser a franquia mais antiga do cinema não é mér...


In [142]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 2][0:30]
# observar que a maioria das avaliações são negativas

Unnamed: 0,likes,stars,favorite,text
122,1,2.0,0.0,Pouca aventura !
150,0,2.0,0.0,"Vejo um pouco do Timothy Dalton nele, um Bond ..."
222,0,2.0,0.0,Muita ficção...quando esta história d salvar o...
243,2,2.0,0.0,Não consigo engolir esse troglodita como James...
323,0,2.0,0.0,Ele não tem cara de James Bond.
413,7,2.0,0.0,Ainda estou apaixonada pela Vesper. O olhar de...
511,0,2.0,0.0,Duas estrelas pelo Poker.
514,0,2.0,0.0,Extremamente fantasioso. Aquela mão final do p...
547,0,2.0,0.0,"O craig precia ""Bondear"" um pouco mais... enqt..."
548,0,2.0,0.0,"cha-to! enjoei de ver esse ""Bond"" matando ""ger..."


In [143]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 2.5][0:30]
# observar que as avaliações estão divididas entre positivo e negativo. Será considerada negativa

Unnamed: 0,likes,stars,favorite,text
6,0,2.5,0.0,"Nunca pensei que diria isso em um filme 007, m..."
119,0,2.5,0.0,"Não sou muito fã desse James Bond ""mamãe-quero..."
404,0,2.5,0.0,Eu não curto nenhum filme do 007. Tá certo que...
436,0,2.5,0.0,"Nada de mais,essa nova safra que se inicia per..."
475,0,2.5,0.0,o pior de todos os 007.
501,1,2.5,0.0,"Achei bem cansativo, até que começa bem com ba..."
669,2,2.5,0.0,"Um dos melhores, senão o melhor 007 estrelado ..."
685,0,2.5,0.0,O melhor desse filme e a Alessandra Ambrosio o...
697,0,2.5,0.0,A ação cansa e já tendo a desgostar de 007. Ma...
750,1,2.5,0.0,ZZzZzZZ


In [144]:
df_movies['text'][901]


"Para muitos ''bondmaníacos'' e críticos de cinema, esse é o melhor de todos os filmes da franquia do agente secreto. Eu não defendo essa opinião, mas, de fato, ''007 Contra Goldfinger'' é um filme marcante e sua trilha sonora é arrebatadora. Por falar em trilha sonora, a belíssima música cantada por Shirley Bassey no crédito de abertura é um dos pontos altos da produção e que mais me deixou apaixonado. No geral, a aventura do agente secreto James Bond dessa vez é bem inverossímil e seus exageros até divertem, mas não passa disso. A atuação de Sean Connery continua competente e seu charme e canastrice dão ao personagem Bond um toque especial e se tornou icônico na lista de atores que já protagonizaram o lendário agente secreto. É muito importante destacar que ''Goldfinger'' foi o primeiro filme que trouxe os elementos que caracterizam a autenticidade dos filmes de James Bond, a começar pelo megalomaníaco vilão Audric Goldfinger, o automóvel cheio de apetrechos e exóticos capangas. Entr

In [145]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 3][0:30]
# observar que a maioria das avaliações são positiva

Unnamed: 0,likes,stars,favorite,text
9,0,3.0,0.0,"Divertido, mas achei no inicio um pouco entedi..."
19,0,3.0,0.0,Dois acertos: Martin Campbell na direção e Dan...
21,0,3.0,0.0,Ele não tem cara de Bond...
22,0,3.0,0.0,Ele não tem cara de Bond...
26,0,3.0,0.0,Uma boa volta de 007 aos cinemas. Daniel Craig...
33,0,3.0,0.0,massa!!!!!
52,0,3.0,0.0,Aprendi a jogar poker depois que vi esse filme...
67,0,3.0,0.0,"Um dos melhores da serie. Um lado mais ""dark"" ..."
73,0,3.0,0.0,Daniel Craig!
75,0,3.0,0.0,"Olha, eu gostei bastante, não estava muito a f..."


In [146]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 4][0:30]
# observar que a maioria das avaliações são positiva

Unnamed: 0,likes,stars,favorite,text
1,0,4.0,0.0,"assisti só pela metade..do meio ao fim, o film..."
2,0,4.0,0.0,foi um dos filmes mais violentos q já vi. mas ...
4,1,4.0,0.0,O Daniel Crieg tem carisma zero como 007...
5,0,4.0,0.0,um dos melhores de 007
10,1,4.0,0.0,Absolutamente surpreendente! Temia que fosse d...
11,0,4.0,0.0,"Nota 8,0. Ao contrario de muitos Daniel Craig ..."
17,0,4.0,0.0,"O filme, como blockbuster, é ótimo e mudar o a..."
28,2,4.0,0.0,O Pierce Brosman pra mim não tinha a cara do 0...
32,0,4.0,1.0,"Assisti com um pé atrás na primeira vez, nunca..."
39,0,4.0,0.0,bom filme de ação!!


In [147]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 5][0:30]
# observar que todas das avaliações são positiva

Unnamed: 0,likes,stars,favorite,text
7,0,5.0,0.0,preciso rever
13,2,5.0,0.0,mto melhor 007 q o pierce ..#prontofalei
15,0,5.0,1.0,"Disse que ia sabotar este (não ver no cine), p..."
16,0,5.0,1.0,Um dos melhores filmes que assisti na minha vi...
18,0,5.0,0.0,Adoro esse filme!
20,0,5.0,1.0,Melhor filme do 007.
25,0,5.0,1.0,muito bom. achava que ia ser fraco pois gostav...
34,0,5.0,0.0,muito massa . adoro filme assim
38,0,5.0,1.0,"Adoro Daniel Craig, por isso é o meu 007 favor..."
43,0,5.0,0.0,Muito bom


In [148]:
df_movies.columns

Index(['index', 'object', 'text', 'likes', 'stars', 'favorite'], dtype='object')

In [149]:
# Features seleciondadas
df_movies = df_movies[['object','text','stars']]

#### Definindo as classes positiva e negativa


In [150]:
#selecionando os registros com stars diferente de zero
df_movies = df_movies[df_movies.stars >= 1]

In [151]:
# validando
df_movies['stars'].unique()

array([3.5, 4. , 2.5, 5. , 3. , 4.5, 1.5, 2. , 1. ])

In [152]:
def define_classe(row):
  var_stars = row['stars']
  #if (var_stars == 1 and var_stars == 1.5 and var_stars == 2 and var_stars == 2.5):
  if (var_stars < 3):
    return 0 # classe negativa
  else:
    return 1 # classe positiva

In [153]:
start = time.time()
#df_movies['classificacao'] = df_movies.apply(define_classe, axis=1)
df_movies['classificacao'] = df_movies.apply(define_classe, axis=1)
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  14.302457094192505


In [154]:
# validando
df_movies['classificacao'].unique()

array([1, 0])

## convertendo as palavras do campo texto para lowcase


In [155]:
df_movies['text_lower'] = df_movies['text'].astype('str').str.lower()
df_movies[['text','text_lower']].head(3)

Unnamed: 0,text,text_lower
0,Um dos melhores do 007,um dos melhores do 007
1,"assisti só pela metade..do meio ao fim, o film...","assisti só pela metade..do meio ao fim, o film..."
2,foi um dos filmes mais violentos q já vi. mas ...,foi um dos filmes mais violentos q já vi. mas ...


## Selecionando 10mil registros

In [156]:
df_movies['classificacao'].value_counts()

1    1347474
0     136792
Name: classificacao, dtype: int64

In [158]:
len(df_movies)

1484266

In [162]:
# selecionando registros com classificação negativa
df_negativa = df_movies[df_movies['classificacao'] == 0][0:5000]

# selecionando registros com classificação positia
df_positiva = df_movies[df_movies['classificacao'] == 1][0:5000]

# unindo os registros
df = pd.concat([df_negativa, df_positiva], axis=0)

In [157]:
# Embaralhando os dados por filmes
df = df.sample(frac=1).reset_index(drop=True)
#df_movies[0:5000]

In [163]:
df

Unnamed: 0,object,text,stars,classificacao,text_lower
5,abracadabra-t6561,divertido pacas!,2.5,0,divertido pacas!
6,malevola-t18173,"Cansativo, assim que me senti após terminar o ...",1.0,0,"cansativo, assim que me senti após terminar o ..."
30,avatar-t8531,smurfs + pocahontas + efeitos fudidamente incr...,2.5,0,smurfs + pocahontas + efeitos fudidamente incr...
35,ela-t52084,A fotografia e a atuação do protagonista são m...,2.0,0,a fotografia e a atuação do protagonista são m...
44,o-espetacular-homem-aranha-t15593,um lixo do início ao fim. parecia até uma vers...,1.0,0,um lixo do início ao fim. parecia até uma vers...
...,...,...,...,...,...
5520,contra-o-tempo-t29417,Interessante a mensagem que o filme passa...,4.0,1,interessante a mensagem que o filme passa...
5521,argo-t39299,"Bom filme, mais não é tudo isso. Mas parabéns ...",3.5,1,"bom filme, mais não é tudo isso. mas parabéns ..."
5522,o-nevoeiro-t6769,Esse final me deu uma mistura de sentimentos q...,4.0,1,esse final me deu uma mistura de sentimentos q...
5523,o-segredo-da-cabana-t12509,Acho que muita gente não entendeu o filme. Ele...,4.0,1,acho que muita gente não entendeu o filme. ele...


In [164]:
df['classificacao'].value_counts()

1    5000
0    5000
Name: classificacao, dtype: int64

## Pré-processando os dados

In [117]:
# Definindo as funções que serão utilizadas

# Remover os caracteres especiais do texto
def remover_caracteres (row):
  table = str.maketrans(dict.fromkeys(string.punctuation)) 
  texto_sem_caracteres = str(row['text_lower']).translate(table)
  return texto_sem_caracteres

# Tokenizando
def identify_tokens(row):
    tokens = nltk.word_tokenize(row['text_sem_caracteres']) 
    #print (tokens)
    # pegar somente palavra, sem pontuação
    token_words = [w for w in tokens if w.isalnum()] # isalnum (não remove caracteres especiais e números) - isalpha (removeremos palavras / caracteres não alfanuméricos (como números e pontuação)
    return token_words
    
# Removendo as stop-words
def remove_stops(row):
    stp_words = nltk.corpus.stopwords.words('portuguese')
    #print (stp_words)
    my_list = row['text_tokenizado']
    meaningful_words = [w for w in my_list if not w in stp_words]
    return (meaningful_words)


# Cria uma lista de palavras
def lista_palavras(row):
  lista_de_palavras = corpora.Dictionary(row['text_stopwords']) 
  return lista_de_palavras


# Contar qtde de palavras
def contar_palavras(row):
  palavraCont = {} # criando um dicionário
  palavras_lista = word_tokenize(str(row['text_stopwords'])) # criando uma lista de palavras para cada registro
  for palavra in palavras_lista:
    if palavra in palavraCont:
        palavraCont[palavra] += 1
    else:
        palavraCont[palavra] = 1
    #print ('palavraCont:', palavraCont)
  return palavraCont,palavras_lista
# ------------------------------------------------
# Contar qtde de palavras
def lista_de_palavras(row):
  palavraCont = {} # criando um dicionário
  palavras_lista = word_tokenize(str(row['text_stopwords'])) # criando uma lista de palavras para cada registro
  for palavra in palavras_lista:
    if palavra in palavraCont:
        palavraCont[palavra] += 1
    else:
        palavraCont[palavra] = 1
    #print ('palavraCont:', palavraCont)
  return palavras_lista

# ------------------------------------------------

# cria um dicionário de palavras
dicionario = corpora.Dictionary() # modulo que lida com dicionario e suas funcionalidades
def dicionario_palavras(row):
  bow_corpus = dicionario.doc2bow(list(str(row['text_stopwords'])), allow_update=True)
  return bow_corpus

### Removendo os caracteres especiais

In [98]:
# montagem da tabela de pontuacoes, primeiro pegamos a lista de pontuacoes com string.punctuation, depois pegamos
# e criamos como uma tabela usando o str.maketrans
start = time.time()
df_movies['text_sem_caracteres'] = df_movies.apply(remover_caracteres, axis=1) # chamando a função que remove as stopwords
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  0.3097214698791504


In [99]:
# Validando
df_movies[['text', 'text_sem_caracteres']].head(3)

Unnamed: 0,text,text_sem_caracteres
0,"Produção muito boa, logo no início do filme já...",produção muito boa logo no início do filme já ...
1,Meio arrastado mas nao deixa ser um bom filme ...,meio arrastado mas nao deixa ser um bom filme ...
2,Queria morrer de amores por esse filme igual a...,queria morrer de amores por esse filme igual a...


In [100]:
print ("Texto original: ", df_movies['text'][6])
print ("Texto final: ", df_movies['text_sem_caracteres'][6])

Texto original:  Quando John Carpenter fez este filme, será que ele imaginava o mundaréu de bobagem que surgiria depois, "inspirado" nele?  Bom, de Halloween 2 até os filmes da horrenda franquia "Pânico", todos os assim chamados slashers dos anos 80 e 90 seguem a "fórmula" Halloween (assassino/psicopata onipresente e indestrutível perseguindo jovens com a libido à flor da pele), exceto por um pequeno "detalhe": Halloween não tem "fórmula", ele é um filme único e, talvez, melhor seria se jamais houvesse tido qualquer continuação ou imitação. Mesmo o remake de Rob Zombie (2007) não conseguiu repetir a proeza deste filme, de unir de modo magnífico suspense e terror, em uma história que não abandona por um minuto sequer uma atmosfera pesadíssima, que te sufoca e ao mesmo tempo te prende até o último minuto.  E o que é um filme de terror sem atmosfera?  E o que é mais assustador que um "boogeyman" te espreitando quando você vira a esquina?  No final, que diferença faz se Michael não mata de

### Tokenizando

In [103]:
start = time.time()
df_movies['text_tokenizado'] = df_movies.apply(identify_tokens, axis=1)
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  2.4010818004608154


In [104]:
type(df_movies['text_tokenizado'].values)

numpy.ndarray

In [105]:
type(list(str(df_movies['text_tokenizado'])))

list

In [106]:
# validando a tokenização
df_movies[['text_sem_caracteres','text_tokenizado']][1:3].head(3)

Unnamed: 0,text_sem_caracteres,text_tokenizado
1,meio arrastado mas nao deixa ser um bom filme ...,"[meio, arrastado, mas, nao, deixa, ser, um, bo..."
2,queria morrer de amores por esse filme igual a...,"[queria, morrer, de, amores, por, esse, filme,..."


### Removendo as stopwords

In [107]:
start = time.time()
df_movies['text_stopwords'] = df_movies.apply(remove_stops, axis=1) # chamando a função que remove as stopwords
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  2.2377278804779053


In [108]:
# Validando
df_movies[['text_tokenizado','text_stopwords']].head(3)

Unnamed: 0,text_tokenizado,text_stopwords
0,"[produção, muito, boa, logo, no, início, do, f...","[produção, boa, logo, início, filme, caçada, í..."
1,"[meio, arrastado, mas, nao, deixa, ser, um, bo...","[meio, arrastado, nao, deixa, ser, bom, filme,..."
2,"[queria, morrer, de, amores, por, esse, filme,...","[queria, morrer, amores, filme, igual, todo, m..."


## Salvando o resultado num dataframe

In [109]:
#df2 = df_movies[['object', 'classificacao', 'text_stopwords']]
#df2.to_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv",index=False)

## Lendo o arquivo

In [110]:
#df_processado = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv")
#df_processado.head(3)

Unnamed: 0,object,classificacao,text_stopwords
0,apocalypto-t196,1,"['produção', 'boa', 'logo', 'início', 'filme',..."
1,maze-runner-prova-de-fogo-t106368,1,"['meio', 'arrastado', 'nao', 'deixa', 'ser', '..."
2,as-vantagens-de-ser-invisivel-t29850,1,"['queria', 'morrer', 'amores', 'filme', 'igual..."


## Identificando as palavras e as contando para cada registro

In [111]:
# contando a qtde de cada palavras
start = time.time()
df_movies['qtde_palavras'] = df_movies.apply(contar_palavras, axis=1)
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  3.6154279708862305


In [112]:
# salvando no arquivo e abrindo novamente
df2 = df_movies[['object', 'classificacao', 'text_stopwords', 'qtde_palavras']]
df2.to_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv",index=False)

df_movies = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv")
df_movies.head(3)

Unnamed: 0,object,classificacao,text_stopwords,qtde_palavras
0,apocalypto-t196,1,"['produção', 'boa', 'logo', 'início', 'filme',...","({'[': 1, ""'produção"": 1, ""'"": 37, ',': 36, ""'..."
1,maze-runner-prova-de-fogo-t106368,1,"['meio', 'arrastado', 'nao', 'deixa', 'ser', '...","({'[': 1, ""'meio"": 1, ""'"": 8, ',': 7, ""'arrast..."
2,as-vantagens-de-ser-invisivel-t29850,1,"['queria', 'morrer', 'amores', 'filme', 'igual...","({'[': 1, ""'queria"": 1, ""'"": 7, ',': 6, ""'morr..."


In [113]:
# criando uma lista de palavras
start = time.time()
df_movies['lista_de_palavras'] = df_movies.apply(lista_de_palavras, axis=1)
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  3.3772177696228027


In [75]:
# salvando no arquivo 
#df2 = df_processado[['object', 'classificacao', 'text_stopwords', 'qtde_palavras','lista_de_palavras']]
#df2.to_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv",index=False)



In [76]:
# lendo o arquivo novamente
#df_processado = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv")
#df_processado.head(3)

Unnamed: 0,object,classificacao,text_stopwords,qtde_palavras,lista_de_palavras
0,apocalypto-t196,1,"['produção', 'boa', 'logo', 'início', 'filme',...","({'[': 1, ""'produção"": 1, ""'"": 37, ',': 36, ""'...","['[', ""'produção"", ""'"", ',', ""'boa"", ""'"", ',',..."
1,maze-runner-prova-de-fogo-t106368,1,"['meio', 'arrastado', 'nao', 'deixa', 'ser', '...","({'[': 1, ""'meio"": 1, ""'"": 8, ',': 7, ""'arrast...","['[', ""'meio"", ""'"", ',', ""'arrastado"", ""'"", ',..."
2,as-vantagens-de-ser-invisivel-t29850,1,"['queria', 'morrer', 'amores', 'filme', 'igual...","({'[': 1, ""'queria"": 1, ""'"": 7, ',': 6, ""'morr...","['[', ""'queria"", ""'"", ',', ""'morrer"", ""'"", ','..."


In [114]:
from gensim import corpora

# cria um dicionário de palavras
df_movies['dicionario'] = df_movies.apply(dicionario_palavras, axis=1) # chamando a função que cria um dicionário para cada registro

In [115]:
# validando
df_movies['dicionario'].head(5)

0    [(0, 36), (1, 74), (2, 36), (3, 1), (4, 1), (5...
1    [(0, 7), (1, 16), (2, 7), (3, 1), (4, 1), (5, ...
2    [(0, 6), (1, 14), (2, 6), (3, 1), (4, 1), (5, ...
3    [(1, 2), (3, 1), (4, 1), (5, 2), (12, 1), (13,...
4    [(0, 1), (1, 4), (2, 1), (3, 1), (4, 1), (5, 1...
Name: dicionario, dtype: object

In [116]:
# Visualizando as palavras do dicionário
id_corpus = [(dicionario[id_palavra],cont) for id_palavra,cont in df_movies['dicionario'][0]]
print(id_corpus)

[(' ', 36), ("'", 74), (',', 36), ('[', 1), (']', 1), ('a', 24), ('b', 4), ('c', 13), ('d', 7), ('e', 22), ('f', 4), ('g', 4), ('h', 1), ('i', 17), ('j', 1), ('l', 8), ('m', 10), ('n', 14), ('o', 23), ('p', 3), ('q', 1), ('r', 10), ('s', 14), ('t', 15), ('u', 7), ('v', 5), ('x', 1), ('ã', 2), ('ç', 4), ('é', 1), ('ê', 1), ('í', 2), ('ó', 1), ('õ', 1)]


In [120]:
# salvando no arquivo 
df2 = df_movies[['object', 'classificacao', 'text_stopwords', 'qtde_palavras','lista_de_palavras','dicionario']]
df2.to_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv",index=False)



In [121]:
# lendo o arquivo novamente
df_processado = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv")
df_processado.head(3)

Unnamed: 0,object,classificacao,text_stopwords,qtde_palavras,lista_de_palavras,dicionario
0,apocalypto-t196,1,"['produção', 'boa', 'logo', 'início', 'filme',...","({'[': 1, ""'produção"": 1, ""'"": 37, ',': 36, ""'...","['[', ""'produção"", ""'"", ',', ""'boa"", ""'"", ',',...","[(0, 36), (1, 74), (2, 36), (3, 1), (4, 1), (5..."
1,maze-runner-prova-de-fogo-t106368,1,"['meio', 'arrastado', 'nao', 'deixa', 'ser', '...","({'[': 1, ""'meio"": 1, ""'"": 8, ',': 7, ""'arrast...","['[', ""'meio"", ""'"", ',', ""'arrastado"", ""'"", ',...","[(0, 7), (1, 16), (2, 7), (3, 1), (4, 1), (5, ..."
2,as-vantagens-de-ser-invisivel-t29850,1,"['queria', 'morrer', 'amores', 'filme', 'igual...","({'[': 1, ""'queria"": 1, ""'"": 7, ',': 6, ""'morr...","['[', ""'queria"", ""'"", ',', ""'morrer"", ""'"", ','...","[(0, 6), (1, 14), (2, 6), (3, 1), (4, 1), (5, ..."


# 2 - Representação

Vimos durante a nossa aula diversas forma de representar um documento de texto. Você vai usar cada uma dessas representações e compará-las. A seguir temos a listagem das representações que devem ser usadas para representar seu texto.

a) Representação TF-IDF. Você pode usar tanto o gensim quanto o scikit para montar esta representação, mas lembre-se que é importante fazer o pré-processamento dos textos.

b) Representação com o word2vec. O modelo poderá ser o apresentado na aula 03 ou algum outro modelo pré-treinado como os existentes no repositório http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc . Neste caso, cada documento deverá ser representado pelo vetor que resultar da média dos vetores de todas as palavras que o compõem. Em outras palavras, se D é composto pelas palavras w1, w2, …, wn, e seus vetores embeddings são v1, v2, …, vn, então a representação do documento de D será v = (v1 + v2 + … + vn) / n.

c) Extração de features do texto. Você deve pensar em ao menos 10 features para extrair do documento e que o possam representar. Aqui vão algumas sugestões: número de palavras, número de verbos, número de conjunções, número de palavras negativas, número de palavras fora do vocabulário, quantidades de entidades do tipo PESSOA, quantidade de entidades do tipo LOCAL, etc. 

Lembrando que você deve dividir seu conjunto em treino e teste. No TF-IDF, você só pode aplicar o método fit no conjunto de treino. Uma sugestão é dividir 80% do conjunto de dados para treino e 20% para teste. Essa divisão é aleatória, mas você pode usar o método train_test_split para essa divisão. 



## Selecionando os registros a serem utilizados


In [122]:
# visualizando a qtde de registros por tipo de classificação
df_processado.classificacao.value_counts()

1    5154
0    4846
Name: classificacao, dtype: int64

## Dividindo os dados em treino e teste

In [123]:
# Definindo X e y

X = df_processado['text_stopwords']
y = df_processado['classificacao']

In [124]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20 , random_state = 42 )

In [125]:
print ("Qtde de dados de treino: X = {}, y = {} ".format(len(X_train), len(y_train)))
print ("Qtde de dados de teste: X = {}, y = {} ".format(len(X_test), len(y_test)))

Qtde de dados de treino: X = 8000, y = 8000 
Qtde de dados de teste: X = 2000, y = 2000 


## Representação TF-IDF

In [126]:
df_processado.head(3)

Unnamed: 0,object,classificacao,text_stopwords,qtde_palavras,lista_de_palavras,dicionario
0,apocalypto-t196,1,"['produção', 'boa', 'logo', 'início', 'filme',...","({'[': 1, ""'produção"": 1, ""'"": 37, ',': 36, ""'...","['[', ""'produção"", ""'"", ',', ""'boa"", ""'"", ',',...","[(0, 36), (1, 74), (2, 36), (3, 1), (4, 1), (5..."
1,maze-runner-prova-de-fogo-t106368,1,"['meio', 'arrastado', 'nao', 'deixa', 'ser', '...","({'[': 1, ""'meio"": 1, ""'"": 8, ',': 7, ""'arrast...","['[', ""'meio"", ""'"", ',', ""'arrastado"", ""'"", ',...","[(0, 7), (1, 16), (2, 7), (3, 1), (4, 1), (5, ..."
2,as-vantagens-de-ser-invisivel-t29850,1,"['queria', 'morrer', 'amores', 'filme', 'igual...","({'[': 1, ""'queria"": 1, ""'"": 7, ',': 6, ""'morr...","['[', ""'queria"", ""'"", ',', ""'morrer"", ""'"", ','...","[(0, 6), (1, 14), (2, 6), (3, 1), (4, 1), (5, ..."


In [128]:
from gensim.models import TfidfModel

# converte o corpus para o formato de saco de palavras
#corpus_filmes_bow = [df_processado['dicionario'].doc2bow(line) for line in df_processado['text_stopwords']] 
# converte o corpus para o formato de saco de palavras
#corpus_filmes_bow = [dicionario.doc2bow(line) for line in df_processado['text_stopwords']] 
corpus_filmes_bow = []

for line in df_processado["text_stopwords"]:
  teste = [str(tok) for tok in line]
  print (teste)
  corpus_filmes_bow.append(dicionario.doc2bow(teste))

#corpus_filmes_bow

['[', "'", 'p', 'r', 'o', 'd', 'u', 'ç', 'ã', 'o', "'", ',', ' ', "'", 'b', 'o', 'a', "'", ',', ' ', "'", 'l', 'o', 'g', 'o', "'", ',', ' ', "'", 'i', 'n', 'í', 'c', 'i', 'o', "'", ',', ' ', "'", 'f', 'i', 'l', 'm', 'e', "'", ',', ' ', "'", 'c', 'a', 'ç', 'a', 'd', 'a', "'", ',', ' ', "'", 'í', 'n', 'd', 'i', 'o', 's', "'", ',', ' ', "'", 'j', 'a', 'v', 'a', 'l', 'i', "'", ',', ' ', "'", 'c', 'a', 'p', 't', 'u', 'r', 'a', 'm', "'", ',', ' ', "'", 'c', 'o', 'm', 'e', "'", ',', ' ', "'", 'c', 'r', 'u', "'", ',', ' ', "'", 'm', 'ó', "'", ',', ' ', "'", 's', 'e', 'l', 'v', 'a', 'g', 'e', 'n', 's', "'", ',', ' ', "'", 'r', 's', "'", ',', ' ', "'", 't', 'e', 'n', 'd', 'o', "'", ',', ' ', "'", 'v', 'i', 's', 't', 'a', "'", ',', ' ', "'", 'f', 'i', 'l', 'm', 'e', "'", ',', ' ', "'", 's', 'e', 'q', 'u', 'ê', 'n', 'c', 'i', 'a', "'", ',', ' ', "'", 'a', 'c', 'o', 'n', 't', 'e', 'c', 'i', 'm', 'e', 'n', 't', 'o', 's', "'", ',', ' ', "'", 'f', 'r', 'e', 'n', 'é', 't', 'i', 'c', 'o', 's', "'", ',',

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [None]:
# computa para cada termo, a fórmula tf-idf
model = TfidfModel(corpus_filmes_bow) 

In [None]:
# vamos ver a representação de um dos registro
model[corpus_filmes_bow[230]] 

## Representação WORD2VEC

In [130]:
# o algoritmo word2vec processa as palavras por sentença. Então precisamos dividir os textos
# como sentenças para alimentar o nosso modelo. A função sent_tokenize do ntlk faz isso.
corpus_movies = []
for f_id in df_processado['text_stopwords'].fileids():
    sent_lst = sent_tokenize(df_processado['text_stopwords'].raw(f_id))
    for s in sent_lst:
        corpus_movies.append(simple_preprocess(s))

AttributeError: ignored

In [None]:
# parametros
# min_count = Ignora todas as palavras com frequencia absoluta total
# menor que isso
# window = A distância máxima entre a palavra corrente e palavra predita em uma sentença. Aqui, duas palavras
# palavras anteriores e duas palavras anteriores a palavra corrente.
# size = Dimensão dos vetores densos ou word embeddings. 
w2v_model = Word2Vec(window=2, size=50)

In [None]:
# o word2vec demanda a construção de uma tabela representando o vocabulário do nosso corpus.
# Ou seja, simplesmente "digerir" todas as palavras e filtrar as palavras únicas, e fazer uma
# contagem básica delas.
w2v_model.build_vocab(X, progress_per=10000)

In [None]:
# parametros
# total_examples = Contagem de sentenças
# epochs = Número de iterações (épocas) sobre o corpus

w2v_model.train(X, total_examples=w2v_model.corpus_count, epochs=5)

## Representação EXTRAÇÃO DE FEATURES

In [None]:
def get_features(data:np.array)->dict:
    
    dct_feats = {}
    dct_feats = preprocess(data, feats=True)
    
    nlp = spacy.load('pt')

    # Define o caminho da pasta para o dicionário ortográficos
    PATH_TO = '/nlp/Projeto/aes-pt-master/dict'
    # Carrega o dicionário ortográfico
    hobj = Hunspell('pt_BR','pt_BR.aff', hunspell_data_dir=PATH_TO)

    # Extraindo a quantidade de léxicos enviesados
    dct_vies = {
        'argumentativo':[],
        'pressuposicao':[],
        'possibilidade_necessidade':[],
        'opiniao_valoracao':[]}

    # Lê o dicionário de léxicos enviesadas
    fd_dicionario_vies = open("dict/bias_words.txt","r", encoding='utf-8')

    # Percorre o dicionário classificando cada termo
    for line in fd_dicionario_vies:
        entry = line.replace("\n","").split(",")
        term = entry[0].strip()
        type_term = entry[1].strip()
        dct_vies[type_term].append(term)

    # Listas dos tipos de léxicos enviesados
    arr_arg, arr_press, arr_pos_nec, arr_op_val = [],[],[],[]

    # Listas das quantidades dos tipos de entidades
    arr_per, arr_loc, arr_org, arr_misc = [],[],[],[]

    # Listas de grupos por tamanho das sentenças
    arr_sent5, arr_sent5_10, arr_sent10 = [],[],[]

    # Listas das quantidade de caracteres e erros ortográficos
    arr_erros, arr_chars = [],[]

    # Listas de pos tagging
    arr_verb, arr_adj, arr_noun, arr_adv = [],[],[],[]

    for i in range(len(data)):

        # Istancia o documento spacy
        doc = nlp(str(data[i]))

        # Contadores de palavras na sentença
        qtd_sent5, qtd_sent5_10, qtd_sent10 = 0,0,0

        # Separa o texto pelas sentenças
        for sent in sent_tokenize(doc.text):

            # Cria o array de tokens excluindo acentuação e stopword
            arr_tok = [word for word in word_tokenize(sent)\
                       if word not in stop_words+["``","''","“",'”']]

            # Verifica o quantidade de tokens na senteça
            if (len(arr_tok) <= 5):
                # Conta as sentenças com 5 ou menos tokens
                qtd_sent5 += 1

            elif (len(arr_tok) > 10):
                # Conta as sentenças com mais de 10 tokens
                qtd_sent10 += 1
            else:
                # Conta as sentenças com 5 a 10 tokens
                qtd_sent5_10 += 1            

        arr_sent5.append(qtd_sent5 / len(doc))
        arr_sent5_10.append(qtd_sent5_10 / len(doc))
        arr_sent10.append(qtd_sent10 / len(doc))

        # Contadores de cada tipo de entidade
        qtd_per, qtd_loc, qtd_org, qtd_misc = 0,0,0,0
        for entidy in doc.ents:
            if entidy.label_ == 'PER':
                qtd_per += 1
            elif entidy.label_ == 'LOC':
                qtd_loc += 1
            elif entidy.label_ == 'ORG':
                qtd_org += 1
            elif entidy.label_ == 'MISC':
                qtd_misc += 1

        arr_per.append(qtd_per / len(doc))
        arr_loc.append(qtd_loc / len(doc))
        arr_org.append(qtd_org / len(doc))
        arr_misc.append(qtd_misc / len(doc))

        # Contadores de erros ortográficos e caracteres
        qtd_erro, qtd_char = 0, 0

        for tok in doc:
            if tok.text not in stop_words+["–","—"]:

                token = tok.text
                qtd_char += len(token)

                if not (hobj.spell(token)):
                    qtd_erro += 1

        arr_erros.append(qtd_erro / len(doc))
        arr_chars.append(qtd_char / len(doc))

        for type_term in dct_vies:
            qtd_arg, qtd_pres, qtd_poss, qtd_opin = 0,0,0,0
            for term in dct_vies[type_term]:
                for sent in doc.sents:
                    if term in sent.text.lower():
                        if type_term == "argumentativo":
                            qtd_arg += 1
                        elif type_term == "pressuposicao":
                            qtd_pres += 1
                        elif type_term == "possibilidade_necessidade":
                            qtd_poss += 1
                        elif type_term == "opiniao_valoracao":
                            qtd_opin += 1

        arr_arg.append(qtd_arg / len(doc))
        arr_press.append(qtd_pres / len(doc))
        arr_pos_nec.append(qtd_poss / len(doc))
        arr_op_val.append(qtd_opin / len(doc))

        qtd_verb, qtd_adj, qtd_noun, qtd_adv = 0,0,0,0
        for tok in doc:
            if tok.pos_ == 'VERB':
                qtd_verb += 1
            if tok.pos_ == 'ADJ':
                qtd_adj += 1
            if tok.pos_ == 'NOUN':
                qtd_noun += 1
            if tok.pos_ == 'ADV':
                qtd_adv += 1

        arr_verb.append(qtd_verb / len(doc))
        arr_adj.append(qtd_adj / len(doc))
        arr_noun.append(qtd_noun / len(doc))
        arr_adv.append(qtd_adv / len(doc))        
    

    dct_feats["sent5"] = arr_sent5
    dct_feats["sent5_10"] = arr_sent5_10
    dct_feats["sent10"] = arr_sent10
    
    dct_feats["erros"] = arr_erros
    dct_feats["chars"] = arr_chars

    dct_feats["per"] = arr_per
    dct_feats["loc"] = arr_loc
    dct_feats["org"] = arr_org
    dct_feats["misc"] = arr_misc
    
    dct_feats["arg"] = arr_arg
    dct_feats["press"] = arr_press
    dct_feats["pos_nec"] = arr_pos_nec
    dct_feats["op_val"] = arr_op_val
    
    dct_feats["verb"] = arr_verb
    dct_feats["adj"] = arr_adj
    dct_feats["noun"] = arr_noun
    dct_feats["adv"] = arr_adv
    
    return dct_feats

dct_fts = get_features(X_train)

# 3 - Visualização dos dados:
Coloque nesta seção os gráficos do PCA e do t-SNE, para cada representação. Responda também às seguintes perguntas: 

a) Existe algum padrão com relação às classes? 

b) Caso exista algum padrão, você pode concluir alguma coisa? 

c) Caso não exista, você consegue dizer se isso tem a ver com alguma representação ou classe?

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

**PCA**

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

In [None]:
# Voltar com o formato da feature para texto, mas sem as stop words
nltk.download('machado')
corpus_filmes = []
for f_id in machado.fileids():
    tok_lst = simple_preprocess(df_processado.raw(f_id)) #convertendo para o formato de texto
    corpus_filmes.append(' '.join(tok_lst)) 

In [None]:
df_processado[1:4]

In [None]:
matrix = df_processado['text_stopwords'].fit_transform(corpus_filmes)

In [None]:
!pip install -U yellowbrick
from yellowbrick.features import PCA
from sklearn.preprocessing import StandardScaler

In [None]:
sc = StandardScaler(with_mean=False)
matrix = sc.fit_transform(matrix)

In [None]:
# o que podemos concluir? os pontos são muito parecido, mas existem dois bem diferentes? 
# quem são esses dois?
visualizer = PCA(scale=True)
visualizer.fit_transform(matrix.toarray())
visualizer.show()

t-**SNE**

In [None]:
from yellowbrick.text import TSNEVisualizer

In [None]:
tsne = TSNEVisualizer()

# se existissem classes, poderiamos visualizar os pontos com cores diferentes. Cada um de acordo
# com uma classe.
tsne.fit(matrix.toarray())
tsne.show()

# 4 - Classificadores : 
Descreva sucintamente os dois classificadores escolhidos. Você usou algum parâmetro que não seja padrão? Se sim, mencione nesta seção.

In [None]:
#EXEMPLO

A tarefa escolhida foi a classificação de redações no estilo do ENEM. O objetivo é classificar cada redação de acordo com o grupo de 
notas 0, 200, 400, 600, 800 e 1000. O Corpus possui 1840 instâncias e a média de tokens por documento é 226,85.
print(f'Quantidade de instâncias do Corpus: {len(data)}')
print(f'Média de tokens por documento: {np.mean(toks)}')



# 5 - Resultados: 
Escreva código que execute a validação cruzada em 5-folds para os dois classificadores escolhidos. Também responda às seguintes perguntas: Os embeddings realmente mostraram um resultado melhor que o TF-IDF? Se não, qual foi a representação que teve o melhor desempenho? A diferença foi muito grande?

# 6 - Conclusão: 
Por fim fale aqui o que você conclui das visualizações e dos resultados. Tente explicar em detalhes por que um resultado, na sua opinião, foi melhor do que outro. Esta explicação pode incluir hipóteses para resultados melhores ou resultados piores. Também pode falar das dificuldades enfrentadas durante o trabalho e como conseguiu contorná-las.