# **Descrição do projeto do Módulo de NLP**


No projeto do módulo de NLP vamos tentar resolver um problema de classificação de textos. Você escolherá um de três datasets cujo objetivo é classificar em um conjunto de classes. Você deverá utilizar três metodologias ensinadas em nossas aulas para poder classificar esses textos. A seguir, mais detalhes do projeto para que você possa resolver.


Os produtos finais deste projeto será um Notebook Python. As seções seguintes detalham como você deve proceder para gerar o código e a última seção deve especificar a estrutura que seu notebook deve seguir.

## 1. Dados
Você poderá escolher três tarefas para resolver no projeto. A seguir existe a breve descrição de cada tarefa e um link para onde você poderá baixar os dados. 

O corpus UTL é um corpus com críticas de filmes e apps coletadas automaticamente de sites. As classes são: positiva ou negativa. Assim o usuário pode ter gostado ou não gostado do produto. Referência: https://github.com/RogerFig/UTLCorpus 
O corpus UOL AES-PT é um corpus de redações no estilo do ENEM. Cada redação possui um tópico e um conjunto de redações relacionadas. Nesse corpus, existem vários tópicos e suas respectivas redações. O objetivo é predizer a nota final de cada redação de acordo com o grupo de notas 0, 200, 400, 600, 800 e 1000. Para mais informações e download dos dados, acesse o link: https://github.com/evelinamorim/aes-pt .
O corpus TweetSentBr é um corpus em português de tweets. Cada tweet está rotulado com uma das classes: positivo, negativo e neutro. Para mais informações e download do corpus, acesse o link https://bitbucket.org/HBrum/tweetsentbr/src/master/ .

## 2. Representação
Vimos durante a nossa aula diversas forma de representar um documento de texto. Você vai usar cada uma dessas representações e compará-las. A seguir temos a listagem das representações que devem ser usadas para representar seu texto.
Representação TF-IDF. Você pode usar tanto o gensim quanto o scikit para montar esta representação, mas lembre-se que é importante fazer o pré-processamento dos textos.
Representação com o word2vec. O modelo poderá ser o apresentado na aula 03 ou algum outro modelo pré-treinado como os existentes no repositório http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc . Neste caso, cada documento deverá ser representado pelo vetor que resultar da média dos vetores de todas as palavras que o compõem. Em outras palavras, se D é composto pelas palavras w1, w2, …, wn, e seus vetores embeddings são v1, v2, …, vn, então a representação do documento de D será v = (v1 + v2 + … + vn) / n. 
Extração de features do texto. Você deve pensar em ao menos 10 features para extrair do documento e que o possam representar. Aqui vão algumas sugestões: número de palavras, número de verbos, número de conjunções, número de palavras negativas, número de palavras fora do vocabulário, quantidades de entidades do tipo PESSOA, quantidade de entidades do tipo LOCAL, etc.

Lembrando que você deve dividir seu conjunto em treino e teste. No TF-IDF, você só pode aplicar o método fit no conjunto de treino. Uma sugestão é dividir 80% do conjunto de dados para treino e 20% para teste. Essa divisão é aleatória, mas você pode usar o método train_test_split para essa divisão. O exemplo a seguir mostra como usar esse método:

from sklearn.model_selection import train_test_split


 X_train, X_test, y_train, y_test = train_test_split(
...    X, y, test_size=0.20, random_state=42)

## 3. Visualização dos dados

Também vimos que embora o nosso texto apresente dimensionalidade maior que 2D, é possível visualizar em apenas duas dimensões usando técnicas de redução de dimensionalidade. Vimos duas técnicas de redução de dimensionalidade, o PCA e o t-SNE. Assim, pede-se que você utilize as duas técnicas para gerar uma visualização dos seus dados e considere as classes para colorir as instâncias. 

Sugere-se utilizar a biblioteca yellowbrick para gerar as visualizações, devido sua simplicidade. Mas caso tenha interesse em gerar visualizações mais interativas e mais bonitas, você pode utilizar a biblioteca seaborn. Para uma galeria dos gráficos que o seaborn é capaz de fazer, acesse o link https://seaborn.pydata.org/examples/index.html . Apenas acrescentando em seu código import seaborn as sns; sns.set() , também é possível deixar o gráfico com cores mais bonitas. Todas essas bibliotecas precisam do matplotlib, que já está importado no exemplo da aula.

Aqui você deve fazer a visualização apenas do seu conjunto de treino.
## 4. Classificadores

Escolha dois classificadores que você possua mais familiaridade no scikit-learn para poder classificar os seus dados. Você deve executar cada um dos classificadores nas três representações escolhidas. 

Você pode usar o k-nn como um dos métodos. Outros métodos estão disponíveis no scikit, como por exemplo o SVM e o RandomForest.

## 5. Métricas de avaliação

Para os corpus TweetSentBR e UTL, pede-se que se use a matriz de confusão, a precisão, o recall e o f-1 para reportar a acurácia dos seus classificadores. No caso do corpus UOL AES-PT pede-se que se use o erro médio apenas.



# Estrutura

Estrutura do Notebook

O seu notebook deve ser dividido por seções que possuam  uma célula do tipo Markdown. Nesta célula deve ter o título da seção antecedida por um marcador do tipo #. O título de cada seção deverá ser como a lista abaixo. Além do título, é possível que a seção demande a descrição de resultados ou outro tipo de texto. Nestes casos, coloque o texto junto à célula do título. Se houver código solicitado para a seção, então as células restantes devem ser de código solicitado.  
O relatório deve ser organizado nas seguintes seções:





1.   Tarefa e Dados

2.   Classificadores

3.   Resultados

4.   Resultados


## 1 - Tarefa e Dados: 
Descreva a tarefa escolhida e os dados. Escreva código que leia os dados e calcule e imprima quantas instâncias os dados têm. Também, seu código deve calcular a média de tokens por instância, isto é, quantos tokens, na média cada documento do seu conjunto de dados possui. Imprima esse único número.

Você poderá escolher três tarefas para resolver no projeto. A seguir existe a breve descrição de cada tarefa e um link para onde você poderá baixar os dados.

O corpus UTL é um corpus com críticas de filmes e apps coletadas automaticamente de sites. As classes são: positiva ou negativa. Assim o usuário pode ter gostado ou não gostado do produto. Referência: https://github.com/RogerFig/UTLCorpus.

O corpus UOL AES-PT é um corpus de redações no estilo do ENEM. Cada redação possui um tópico e um conjunto de redações relacionadas. Nesse corpus, existem vários tópicos e suas respectivas redações. O objetivo é predizer a nota final de cada redação de acordo com o grupo de notas 0, 200, 400, 600, 800 e 1000. Para mais informações e download dos dados, acesse o link: https://github.com/evelinamorim/aes-pt.

O corpus TweetSentBr é um corpus em português de tweets. Cada tweet está rotulado com uma das classes: positivo, negativo e neutro. Para mais informações e download do corpus, acesse o link https://bitbucket.org/HBrum/tweetsentbr/src/master/.

A base escolhido é a do corpus UTL é um corpus com críticas de filmes e apps coletadas automaticamente de sites. As classes são: positiva ou negativa. Assim o usuário pode ter gostado ou não gostado do produto. Referência: https://github.com/RogerFig/UTLCorpus.

## Importanto as bibliotecas necessárias

In [1]:
### # montando o drive do google onde o corpus se encontra
from google.colab import drive
drive.mount('/content/drive')

### Entrando no diretório
%cd drive/MyDrive/Colab Notebooks/NLP/trabalho

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
/content/drive/MyDrive/Colab Notebooks/NLP/trabalho


In [2]:
import nltk
nltk.download('punkt')

%matplotlib inline
nltk.download('stopwords')

# para extração das features
!pip install scattertext
!python -m spacy download pt_core_news_sm
!python -m spacy download pt

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.6/dist-packages/pt_core_news_sm -->
/usr/local/lib/python3.6/dist-packages/spacy/data/pt
You can now load the model via spacy.load('pt')


In [3]:
import pandas as pd
import numpy as np

import time # usado para calcular o tempo de processamento de algumas partes do código
import string # usado para concatenar string no stop words


from nltk.tokenize import word_tokenize

# REPRESENTAÇÕES
from gensim.models import Word2Vec
from gensim.models import TfidfModel
from gensim.corpora import Dictionary # para uso do TF-IDF
from gensim import corpora


## Abrindo o arquivo

In [4]:
# abrindo o arquivo localmente
# df_util = pd.read_csv(r'C:\Users\Herica\Documents\Herica\Pos\GitHub\base\NLP\UTLCorpus.csv')
# df_util.head(3)

In [5]:
# abrindo o arquivo no colab
df_util = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/UTLCorpus.csv')
df_util.head(3)

Unnamed: 0.1,Unnamed: 0,domain,object,author,text,likes,unlikes,stars,date,collect_date,replies,favorite,want_see,recommend,see,internal_id
0,0,movies,007-cassino-royale-t23,0,Um dos melhores do 007,0,0,3.5,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,0
1,1,movies,007-cassino-royale-t23,1,"assisti só pela metade..do meio ao fim, o film...",0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,1
2,2,movies,007-cassino-royale-t23,2,foi um dos filmes mais violentos q já vi. mas ...,0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,2


**DESCRIÇÃO DAS FEATURES**

domain -> identifica se os regisgros estão relacionados a avaliação de filmes ou de apps

object -> identificação do filme

author -> pessoa que fez a avaliação

text -> texto escrito pelo author sobre sua avaliação

likes -> qtde de likes que a avaliação do author recebeu

unkes -> qtde de unlikes que a avaliação do author recebeu

stars	date	-> qtde de estrelas que a avaliação recebeu

collect_date	-> data da avaliação

replies	favorite	-> qtde de replicas favoritadas

want_see	-> qtde de 'quero ver'

recommend	-> se é recomendado

see	-> qtde de 'já vi' recebido

internal_id -> código interno do dataset


# Analisando os dados

## Descrição dos dados

In [6]:
print ('Tamanho da base')
print ('Qtde de linhas: ', df_util.shape[0], ' Qtde de features/colunas: ', df_util.shape[1])

Tamanho da base
Qtde de linhas:  2881589  Qtde de features/colunas:  16


In [7]:
df_util.describe()

Unnamed: 0.1,Unnamed: 0,author,likes,unlikes,stars,replies,favorite,want_see,recommend,see,internal_id
count,2881589.0,2881589.0,2881589.0,2881589.0,2881589.0,1839851.0,1839851.0,1839851.0,0.0,1839851.0,2881589.0
mean,1440794.0,70848.66,3.275024,0.0,3.542358,0.1717813,0.2504051,0.01329238,,0.9630774,775660.0
std,831843.2,123797.4,51.98818,0.0,1.737904,0.7363074,0.4332464,0.1145238,,0.1885717,499559.6
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,0.0
25%,720397.0,3917.0,0.0,0.0,3.0,0.0,0.0,0.0,,1.0,360198.0
50%,1440794.0,17490.0,0.0,0.0,4.0,0.0,0.0,0.0,,1.0,720397.0
75%,2161191.0,59395.0,2.0,0.0,5.0,0.0,1.0,0.0,,1.0,1119453.0
max,2881588.0,541000.0,20146.0,0.0,5.0,142.0,1.0,1.0,,1.0,1839850.0


In [8]:
print ('Tipos dos dados')
df_util.dtypes

Tipos dos dados


Unnamed: 0        int64
domain           object
object           object
author            int64
text             object
likes             int64
unlikes           int64
stars           float64
date             object
collect_date     object
replies         float64
favorite        float64
want_see        float64
recommend       float64
see             float64
internal_id       int64
dtype: object

In [9]:
df_util.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2881589 entries, 0 to 2881588
Data columns (total 16 columns):
 #   Column        Dtype  
---  ------        -----  
 0   Unnamed: 0    int64  
 1   domain        object 
 2   object        object 
 3   author        int64  
 4   text          object 
 5   likes         int64  
 6   unlikes       int64  
 7   stars         float64
 8   date          object 
 9   collect_date  object 
 10  replies       float64
 11  favorite      float64
 12  want_see      float64
 13  recommend     float64
 14  see           float64
 15  internal_id   int64  
dtypes: float64(6), int64(5), object(5)
memory usage: 351.8+ MB


## Escolhendo quais tipos de registros serão utilizados

In [10]:
# Verificando quais os tipos da feature domain
df_util.domain.unique()

array(['movies', 'apps'], dtype=object)

In [11]:
print ('Qtde de movies:', len(df_util[df_util['domain'] == 'movies']))
print ('Qtde de apps:',  len(df_util[df_util['domain'] == 'apps']))

Qtde de movies: 1839851
Qtde de apps: 1041738


In [12]:
# Selecionando somente o registros do tipo movies
df_movies = df_util[df_util['domain'] == 'movies']

## Selecionando as features de interesse e deletando registros

In [13]:
df_movies.head(3)

Unnamed: 0.1,Unnamed: 0,domain,object,author,text,likes,unlikes,stars,date,collect_date,replies,favorite,want_see,recommend,see,internal_id
0,0,movies,007-cassino-royale-t23,0,Um dos melhores do 007,0,0,3.5,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,0
1,1,movies,007-cassino-royale-t23,1,"assisti só pela metade..do meio ao fim, o film...",0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,1
2,2,movies,007-cassino-royale-t23,2,foi um dos filmes mais violentos q já vi. mas ...,0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,2


In [14]:
df_movies = df_movies[['object', 'text', 'likes','stars','favorite' ]]
df_movies.head(3)

Unnamed: 0,object,text,likes,stars,favorite
0,007-cassino-royale-t23,Um dos melhores do 007,0,3.5,0.0
1,007-cassino-royale-t23,"assisti só pela metade..do meio ao fim, o film...",0,4.0,0.0
2,007-cassino-royale-t23,foi um dos filmes mais violentos q já vi. mas ...,0,4.0,0.0


In [15]:
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1839851 entries, 0 to 1839850
Data columns (total 5 columns):
 #   Column    Dtype  
---  ------    -----  
 0   object    object 
 1   text      object 
 2   likes     int64  
 3   stars     float64
 4   favorite  float64
dtypes: float64(2), int64(1), object(2)
memory usage: 84.2+ MB


In [16]:
# analisando a qtde de filmes avaliados
df_movies['object'].value_counts()

cisne-negro-t16349                               7839
os-vingadores-t15324                             7059
as-vantagens-de-ser-invisivel-t29850             6940
batman-o-cavaleiro-das-trevas-ressurge-t19914    6413
a-origem-t10852                                  5801
                                                 ... 
un-ete-a-saint-tropez-t62533                        1
dois-amores-t213403                                 1
um-presente-para-lincoln-t221809                    1
amos-t78843                                         1
o-golpe-de-sorte-t95310                             1
Name: object, Length: 4203, dtype: int64

In [17]:
df_movies[['object', 'text']].describe(include='O')

Unnamed: 0,object,text
count,1839851,1838895
unique,4203,1697979
top,cisne-negro-t16349,Usuário temporariamente bloqueado por infringi...
freq,7839,6824


### Verificando e deletando registros nulos

In [18]:
df_movies.isnull().sum()

object        0
text        956
likes         0
stars         0
favorite      0
dtype: int64

In [19]:
# deletando os registros nulos
qtde_anterior_nulos = df_movies.shape[0]
df_movies.dropna(subset=['text'], inplace = True)
qtde_pos_exclusao_nulos = df_movies.shape[0]

print ("Antes:", qtde_anterior_nulos, 'Depois:', qtde_pos_exclusao_nulos, 'Diferença:', qtde_anterior_nulos-qtde_pos_exclusao_nulos)

Antes: 1839851 Depois: 1838895 Diferença: 956


In [20]:
# Validando a exclusão
df_movies.isnull().sum()

object      0
text        0
likes       0
stars       0
favorite    0
dtype: int64

In [21]:
# deletando os registros cujo texto do filme é "Usuário temporariamente bloqueado por infringir os termos de uso do Filmow."
Qtde_excluir = len(df_movies[df_movies['text'] == "Usuário temporariamente bloqueado por infringir os termos de uso do Filmow."])
tam_base = df_movies.shape[0]
df_movies = df_movies[df_movies['text'] != "Usuário temporariamente bloqueado por infringir os termos de uso do Filmow."]
print ('qtde a ser excluído', Qtde_excluir, " tamanho_base", tam_base, "tamanho final", len(df_movies) - tam_base)

qtde a ser excluído 6824  tamanho_base 1838895 tamanho final -6824


In [22]:
df_movies[df_movies['text'] == "Usuário temporariamente bloqueado por infringir os termos de uso do Filmow."]

Unnamed: 0,object,text,likes,stars,favorite


In [23]:
# resetando os índices
df_movies = df_movies.reset_index()

## Definindo a classe positiva ou negativa para os filmes

In [24]:
df_movies.stars.value_counts()

5.0    504666
4.0    326102
0.0    325519
4.5    219413
3.5    157984
3.0    139309
2.5     54663
2.0     46247
0.5     22286
1.0     20137
1.5     15745
Name: stars, dtype: int64

#### Avaliando os registros

In [25]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 0][0:30]
# observar que nenhuma destas avaliações foi ruim, porém a star é zero. Estes registros serão descartados

Unnamed: 0,likes,stars,favorite,text
3,0,0.0,1.0,Adoroo esse filme!
8,2,0.0,0.0,Adorei... Nossa esse Daniel Craig é UM HOMEM...
12,3,0.0,0.0,"Na moral,um dos melhores filmes que assisti na..."
23,0,0.0,1.0,You Know My Naaaaaammmeeee! You Know My Naaaaa...
29,0,0.0,0.0,Quando surgiu Cassino Royale muita gente estra...
35,0,0.0,0.0,Melhor 007 sem dúvidas
36,0,0.0,1.0,Sou fã de 007!
37,0,0.0,1.0,nunca mais que foi o melhor 007. Please guys.....
41,0,0.0,0.0,"Um dos filmes favoritos que eu gosto, adoro es..."
44,0,0.0,0.0,Best 007!


In [26]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 1][0:30]
# observar que star = 1 as avaliações são negativas

Unnamed: 0,likes,stars,favorite,text
486,0,1.0,0.0,Péssimo!
1343,1,1.0,0.0,Skyfall pra franquia :/
1382,0,1.0,0.0,Realmente gosto não se discute. Detestei o fil...
1634,0,1.0,0.0,"Se era pra mudar o personagem 007, que fizesse..."
1897,1,1.0,0.0,Eu nunca tinha visto nenhum filme do 007 e rea...
2054,0,1.0,0.0,"Filme parado, pouco ação e o pior dos 007 com ..."
2216,1,1.0,0.0,"O filme só começou realmente, quando Javier Ba..."
2221,0,1.0,0.0,Simplesmente o pior filme de 007! Morri de téd...
2748,2,1.0,0.0,"Dormi, sem zoação. '-'"
2982,2,1.0,0.0,Ser a franquia mais antiga do cinema não é mér...


In [27]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 2][0:30]
# observar que a maioria das avaliações são negativas

Unnamed: 0,likes,stars,favorite,text
122,1,2.0,0.0,Pouca aventura !
150,0,2.0,0.0,"Vejo um pouco do Timothy Dalton nele, um Bond ..."
222,0,2.0,0.0,Muita ficção...quando esta história d salvar o...
243,2,2.0,0.0,Não consigo engolir esse troglodita como James...
323,0,2.0,0.0,Ele não tem cara de James Bond.
413,7,2.0,0.0,Ainda estou apaixonada pela Vesper. O olhar de...
511,0,2.0,0.0,Duas estrelas pelo Poker.
514,0,2.0,0.0,Extremamente fantasioso. Aquela mão final do p...
547,0,2.0,0.0,"O craig precia ""Bondear"" um pouco mais... enqt..."
548,0,2.0,0.0,"cha-to! enjoei de ver esse ""Bond"" matando ""ger..."


In [28]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 2.5][0:30]
# observar que as avaliações estão divididas entre positivo e negativo. Será considerada negativa

Unnamed: 0,likes,stars,favorite,text
6,0,2.5,0.0,"Nunca pensei que diria isso em um filme 007, m..."
119,0,2.5,0.0,"Não sou muito fã desse James Bond ""mamãe-quero..."
404,0,2.5,0.0,Eu não curto nenhum filme do 007. Tá certo que...
436,0,2.5,0.0,"Nada de mais,essa nova safra que se inicia per..."
475,0,2.5,0.0,o pior de todos os 007.
501,1,2.5,0.0,"Achei bem cansativo, até que começa bem com ba..."
669,2,2.5,0.0,"Um dos melhores, senão o melhor 007 estrelado ..."
685,0,2.5,0.0,O melhor desse filme e a Alessandra Ambrosio o...
697,0,2.5,0.0,A ação cansa e já tendo a desgostar de 007. Ma...
750,1,2.5,0.0,ZZzZzZZ


In [29]:
df_movies['text'][901]


"Para muitos ''bondmaníacos'' e críticos de cinema, esse é o melhor de todos os filmes da franquia do agente secreto. Eu não defendo essa opinião, mas, de fato, ''007 Contra Goldfinger'' é um filme marcante e sua trilha sonora é arrebatadora. Por falar em trilha sonora, a belíssima música cantada por Shirley Bassey no crédito de abertura é um dos pontos altos da produção e que mais me deixou apaixonado. No geral, a aventura do agente secreto James Bond dessa vez é bem inverossímil e seus exageros até divertem, mas não passa disso. A atuação de Sean Connery continua competente e seu charme e canastrice dão ao personagem Bond um toque especial e se tornou icônico na lista de atores que já protagonizaram o lendário agente secreto. É muito importante destacar que ''Goldfinger'' foi o primeiro filme que trouxe os elementos que caracterizam a autenticidade dos filmes de James Bond, a começar pelo megalomaníaco vilão Audric Goldfinger, o automóvel cheio de apetrechos e exóticos capangas. Entr

In [30]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 3][0:30]
# observar que a maioria das avaliações são positiva

Unnamed: 0,likes,stars,favorite,text
9,0,3.0,0.0,"Divertido, mas achei no inicio um pouco entedi..."
19,0,3.0,0.0,Dois acertos: Martin Campbell na direção e Dan...
21,0,3.0,0.0,Ele não tem cara de Bond...
22,0,3.0,0.0,Ele não tem cara de Bond...
26,0,3.0,0.0,Uma boa volta de 007 aos cinemas. Daniel Craig...
33,0,3.0,0.0,massa!!!!!
52,0,3.0,0.0,Aprendi a jogar poker depois que vi esse filme...
67,0,3.0,0.0,"Um dos melhores da serie. Um lado mais ""dark"" ..."
73,0,3.0,0.0,Daniel Craig!
75,0,3.0,0.0,"Olha, eu gostei bastante, não estava muito a f..."


In [31]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 4][0:30]
# observar que a maioria das avaliações são positiva

Unnamed: 0,likes,stars,favorite,text
1,0,4.0,0.0,"assisti só pela metade..do meio ao fim, o film..."
2,0,4.0,0.0,foi um dos filmes mais violentos q já vi. mas ...
4,1,4.0,0.0,O Daniel Crieg tem carisma zero como 007...
5,0,4.0,0.0,um dos melhores de 007
10,1,4.0,0.0,Absolutamente surpreendente! Temia que fosse d...
11,0,4.0,0.0,"Nota 8,0. Ao contrario de muitos Daniel Craig ..."
17,0,4.0,0.0,"O filme, como blockbuster, é ótimo e mudar o a..."
28,2,4.0,0.0,O Pierce Brosman pra mim não tinha a cara do 0...
32,0,4.0,1.0,"Assisti com um pé atrás na primeira vez, nunca..."
39,0,4.0,0.0,bom filme de ação!!


In [32]:
df_movies[['likes',	'stars',	'favorite','text']][df_movies['stars'] == 5][0:30]
# observar que todas das avaliações são positiva

Unnamed: 0,likes,stars,favorite,text
7,0,5.0,0.0,preciso rever
13,2,5.0,0.0,mto melhor 007 q o pierce ..#prontofalei
15,0,5.0,1.0,"Disse que ia sabotar este (não ver no cine), p..."
16,0,5.0,1.0,Um dos melhores filmes que assisti na minha vi...
18,0,5.0,0.0,Adoro esse filme!
20,0,5.0,1.0,Melhor filme do 007.
25,0,5.0,1.0,muito bom. achava que ia ser fraco pois gostav...
34,0,5.0,0.0,muito massa . adoro filme assim
38,0,5.0,1.0,"Adoro Daniel Craig, por isso é o meu 007 favor..."
43,0,5.0,0.0,Muito bom


In [33]:
df_movies.columns

Index(['index', 'object', 'text', 'likes', 'stars', 'favorite'], dtype='object')

In [34]:
# Features seleciondadas
df_movies = df_movies[['object','text','stars']]

#### Definindo as classes positiva e negativa


In [35]:
#selecionando os registros com stars diferente de zero
df_movies = df_movies[df_movies.stars >= 1]

In [36]:
# validando
df_movies['stars'].unique()

array([3.5, 4. , 2.5, 5. , 3. , 4.5, 1.5, 2. , 1. ])

In [37]:
def define_classe(row):
  var_stars = row['stars']
  #if (var_stars == 1 and var_stars == 1.5 and var_stars == 2 and var_stars == 2.5):
  if (var_stars < 3):
    return 0 # classe negativa
  else:
    return 1 # classe positiva

In [38]:
start = time.time()
#df_movies['classificacao'] = df_movies.apply(define_classe, axis=1)
df_movies['classificacao'] = df_movies.apply(define_classe, axis=1)
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  13.178906917572021


In [39]:
# validando
df_movies['classificacao'].unique()

array([1, 0])

## convertendo as palavras do campo texto para lowcase


In [40]:
df_movies['text_lower'] = df_movies['text'].astype('str').str.lower()
df_movies[['text','text_lower']].head(3)

Unnamed: 0,text,text_lower
0,Um dos melhores do 007,um dos melhores do 007
1,"assisti só pela metade..do meio ao fim, o film...","assisti só pela metade..do meio ao fim, o film..."
2,foi um dos filmes mais violentos q já vi. mas ...,foi um dos filmes mais violentos q já vi. mas ...


## Selecionando parte dos registros

In [41]:
df_movies['classificacao'].value_counts()

1    1347474
0     136792
Name: classificacao, dtype: int64

In [42]:
len(df_movies)

1484266

In [43]:
# selecionando registros com classificação negativa
df_negativa = df_movies[df_movies['classificacao'] == 0][0:6000]

# selecionando registros com classificação positia
df_positiva = df_movies[df_movies['classificacao'] == 1][0:6000]

# unindo os registros
df = pd.concat([df_negativa, df_positiva], axis=0)

In [44]:
# Embaralhando os dados por filmes
df = df.sample(frac=1).reset_index(drop=True)
#df_movies[0:5000]

In [45]:
df['classificacao'].value_counts()

1    6000
0    6000
Name: classificacao, dtype: int64

## Pré-processando os dados

In [46]:
# # removendo os emojis do texto
# fonte: https://stackoverflow.com/questions/33404752/removing-emojis-from-a-string-in-python

#df['text'][2] -- 99(104), 98(103), 

#!/usr/bin/env python
import re

def remover_emojis(text):
    regrex_pattern = re.compile(pattern = "["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           "]+", flags = re.UNICODE)
    return regrex_pattern.sub(r'',text)

df['text_sem_emojis'] = df['text_lower'].apply(remover_emojis) # chamando a função que remove as stopwords

In [47]:
'''registro 2 - separar palavras que estão juntas
1ª onda: más atuações2ª onda: efeitos ruins3ª onda: burrice dos personagens4ª onda: mar de clichês5ª onda: casal brocochô
'''

'registro 2 - separar palavras que estão juntas\n1ª onda: más atuações2ª onda: efeitos ruins3ª onda: burrice dos personagens4ª onda: mar de clichês5ª onda: casal brocochô\n'

In [48]:
# Remover os caracteres especiais do texto
def remover_caracteres2 (row):
  table = str.maketrans(dict.fromkeys(string.punctuation)) 
  texto_sem_caracteres = str(row['text_sem_emojis']).translate(table)
  return texto_sem_caracteres

# montagem da tabela de pontuacoes, primeiro pegamos a lista de pontuacoes com string.punctuation, depois pegamos
# e criamos como uma tabela usando o str.maketrans
start = time.time()
df['text_sem_caracteres'] = df.apply(remover_caracteres2, axis=1) # chamando a função que remove as stopwords
print ("tempo gasto: ", (time.time() - start))

# Validando
df[['text', 'text_sem_caracteres']].head(3)

tempo gasto:  0.3447756767272949


Unnamed: 0,text,text_sem_caracteres
0,"Filme bem interessante, porém fiquei sem enten...",filme bem interessante porém fiquei sem entend...
1,"não aguento meu amor por esse tipo de filme, a...",não aguento meu amor por esse tipo de filme as...
2,me decepcionei com o filme ... o final me pare...,me decepcionei com o filme o final me pareceu...


In [49]:
print ("Texto original: ", df['text'][6])
print ("Texto final: ", df['text_sem_caracteres'][6])

Texto original:  - "Ja fez alguém chorar hoje?""Não, mas ainda sao 16h"
Texto final:   ja fez alguém chorar hojenão mas ainda sao 16h


In [50]:
# tokenizando, removendo as stopwords e 

stp_words = nltk.corpus.stopwords.words('portuguese')

def identify_tokens(text):
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if not word in stp_words]
    tokens = [word for word in tokens if word.isalnum()] # isalnum (não remove caracteres especiais e números) - 
                                                      #  isalpha (removeremos palavras / caracteres não alfanuméricos (como números e pontuação)
    return tokens


start = time.time()
df['text_tokenizado'] = df['text_sem_caracteres'].apply(identify_tokens) # chamando a função que remove as stopwords
print ("tempo gasto: ", (time.time() - start))

# validando a tokenização
df[['text_sem_caracteres','text_tokenizado']][1:3].head(3)

tempo gasto:  3.2907960414886475


Unnamed: 0,text_sem_caracteres,text_tokenizado
1,não aguento meu amor por esse tipo de filme as...,"[aguento, amor, tipo, filme, assisto, 20, veze..."
2,me decepcionei com o filme o final me pareceu...,"[decepcionei, filme, final, pareceu, meio, for..."


# limpando novamente os dados

In [51]:
# Remover os caracteres especiais do texto
def remover_caracteres2 (row):
  table = str.maketrans(dict.fromkeys(string.punctuation)) 
  texto_sem_caracteres = str(row['text_tokenizado']).translate(table)
  return texto_sem_caracteres

# montagem da tabela de pontuacoes, primeiro pegamos a lista de pontuacoes com string.punctuation, depois pegamos
# e criamos como uma tabela usando o str.maketrans
start = time.time()
df['text_clean'] = df.apply(remover_caracteres2, axis=1) # chamando a função que remove as stopwords
print ("tempo gasto: ", (time.time() - start))

# validando a tokenização
df[['text','text_clean']][1:3].head(3)

tempo gasto:  0.38385438919067383


Unnamed: 0,text,text_clean
1,"não aguento meu amor por esse tipo de filme, a...",aguento amor tipo filme assisto 20 vezes conti...
2,me decepcionei com o filme ... o final me pare...,decepcionei filme final pareceu meio forçado d...


In [52]:
df.isnull().sum()

object                 0
text                   0
stars                  0
classificacao          0
text_lower             0
text_sem_emojis        0
text_sem_caracteres    0
text_tokenizado        0
text_clean             0
dtype: int64

# Salvando o resultado num dataframe

In [53]:
df2 = df[['object', 'classificacao', 'text', 'text_tokenizado', 'text_clean']]
df2.to_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.txt",index=False)

# Lendo o arquivo

In [54]:
df_limpo = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.txt")
print ('tamanho', df_limpo.shape)
df_limpo.head(3)

tamanho (12000, 5)


Unnamed: 0,object,classificacao,text,text_tokenizado,text_clean
0,a-caca-t55765,0,"Filme bem interessante, porém fiquei sem enten...","['filme', 'bem', 'interessante', 'porém', 'fiq...",filme bem interessante porém fiquei entender f...
1,10-coisas-que-eu-odeio-em-voce-t1964,1,"não aguento meu amor por esse tipo de filme, a...","['aguento', 'amor', 'tipo', 'filme', 'assisto'...",aguento amor tipo filme assisto 20 vezes conti...
2,a-centopeia-humana-t17782,0,me decepcionei com o filme ... o final me pare...,"['decepcionei', 'filme', 'final', 'pareceu', '...",decepcionei filme final pareceu meio forçado d...


In [69]:
# quatro registros ficaram com text_clean vazio pois continham somente emojis, portanto, serão excluídos
df_limpo[df_limpo.text_clean.isnull()]

# deletando os registros nulos
qtde_anterior_nulos = df_limpo.shape[0]
df_limpo.dropna(subset=['text_clean'], inplace = True)
qtde_pos_exclusao_nulos = df_limpo.shape[0]

print ("Antes:", qtde_anterior_nulos, 'Depois:', qtde_pos_exclusao_nulos, 'Diferença:', qtde_anterior_nulos-qtde_pos_exclusao_nulos)

# resetando os índices
df_limpo = df_limpo.reset_index()

Antes: 12000 Depois: 11971 Diferença: 29


# 2 - Representação

Vimos durante a nossa aula diversas forma de representar um documento de texto. Você vai usar cada uma dessas representações e compará-las. A seguir temos a listagem das representações que devem ser usadas para representar seu texto.

a) Representação TF-IDF. Você pode usar tanto o gensim quanto o scikit para montar esta representação, mas lembre-se que é importante fazer o pré-processamento dos textos.

b) Representação com o word2vec. O modelo poderá ser o apresentado na aula 03 ou algum outro modelo pré-treinado como os existentes no repositório http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc . Neste caso, cada documento deverá ser representado pelo vetor que resultar da média dos vetores de todas as palavras que o compõem. Em outras palavras, se D é composto pelas palavras w1, w2, …, wn, e seus vetores embeddings são v1, v2, …, vn, então a representação do documento de D será v = (v1 + v2 + … + vn) / n.

c) Extração de features do texto. Você deve pensar em ao menos 10 features para extrair do documento e que o possam representar. Aqui vão algumas sugestões: número de palavras, número de verbos, número de conjunções, número de palavras negativas, número de palavras fora do vocabulário, quantidades de entidades do tipo PESSOA, quantidade de entidades do tipo LOCAL, etc. 

Lembrando que você deve dividir seu conjunto em treino e teste. No TF-IDF, você só pode aplicar o método fit no conjunto de treino. Uma sugestão é dividir 80% do conjunto de dados para treino e 20% para teste. Essa divisão é aleatória, mas você pode usar o método train_test_split para essa divisão. 



## Dividindo os dados em treino e teste

In [84]:
# Definindo X e y
y = df_limpo['classificacao']
X = df_limpo.drop(['classificacao'], axis=1)

In [85]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20 , random_state = 42 )

In [86]:
print ("Qtde de dados de treino: X = {}, y = {} ".format(len(X_train), len(y_train)))
print ("Qtde de dados de teste: X = {}, y = {} ".format(len(X_test), len(y_test)))

Qtde de dados de treino: X = 9576, y = 9576 
Qtde de dados de teste: X = 2395, y = 2395 


## Representação TF-IDF

In [87]:
# criando um dicionário de palavras

# cria um dicionário de palavras
dicionario = corpora.Dictionary() # modulo que lida com dicionario e suas funcionalidades
def dicionario_palavras(row):
  bow_corpus = dicionario.doc2bow(list(str(row['text_clean'])), allow_update=True)
  return bow_corpus

from gensim import corpora

# cria um dicionário de palavras
df_limpo['dicionario'] = df_limpo.apply(dicionario_palavras, axis=1) # chamando a função que cria um dicionário para cada registro

# validando
df_limpo[['text_clean','dicionario']].head(5)

Unnamed: 0,text_clean,dicionario
0,filme bem interessante porém fiquei entender f...,"[(0, 6), (1, 2), (2, 1), (3, 1), (4, 9), (5, 3..."
1,aguento amor tipo filme assisto 20 vezes conti...,"[(0, 10), (1, 8), (3, 2), (4, 4), (5, 1), (6, ..."
2,decepcionei filme final pareceu meio forçado d...,"[(0, 9), (1, 7), (3, 4), (4, 11), (5, 4), (6, ..."
3,sen duvida nenhumao melhor 007 serie so credit...,"[(0, 60), (1, 34), (2, 7), (3, 10), (4, 39), (..."
4,filminho tosco dei estrela meia fotografia,"[(0, 5), (1, 4), (3, 1), (4, 4), (5, 3), (6, 5..."


In [88]:
# Visualizando as palavras do dicionário
id_corpus = [(dicionario[id_palavra],cont) for id_palavra,cont in df_limpo['dicionario'][0]]
print(id_corpus)

[(' ', 6), ('a', 2), ('b', 1), ('d', 1), ('e', 9), ('f', 3), ('i', 5), ('l', 2), ('m', 3), ('n', 5), ('o', 1), ('p', 1), ('q', 1), ('r', 3), ('s', 2), ('t', 3), ('u', 1), ('é', 1)]


In [89]:
# computa para cada termo, a fórmula tf-idf
model = TfidfModel(df_limpo['dicionario'])

In [90]:
# vamos ver a representação de um dos filmes
df_limpo[['text_clean','dicionario']][230:231] 

Unnamed: 0,text_clean,dicionario
230,meio inspiradinho megera domada shakespeare pe...,"[(0, 7), (1, 8), (3, 3), (4, 8), (5, 1), (6, 7..."


In [91]:
# vamos ver a representação de um dos filmes
model[df_limpo['dicionario'][230]] 

[(0, 0.1322720917428742),
 (1, 0.18247971008257202),
 (3, 0.2135446408786528),
 (4, 0.16748646159707),
 (5, 0.0942239617090359),
 (6, 0.16544792959959012),
 (8, 0.13085393334787082),
 (9, 0.16563861280264344),
 (10, 0.07944305948965555),
 (11, 0.3168143869097167),
 (13, 0.18048726446656313),
 (14, 0.3277597562999056),
 (15, 0.09978827589310767),
 (20, 0.07409678153030895),
 (21, 0.15348392963300236),
 (22, 0.2809891160137478),
 (29, 0.6558179987191699)]

## Representação WORD2VEC

In [139]:
import gensim
from nltk import sent_tokenize # converte o texto para sentenças

In [140]:
# carregando modelo pré-treinado
model_word2vec = gensim.models.doc2vec.Doc2Vec(vector_size=50, min_count=2, epochs=5)

In [141]:
corpus_filmes = []
for row in df_limpo.itertuples():
  #print (row.text)
  for sentence in row.text.split('.'):
    if sentence != '':
      corpus_filmes.append((row[1], sentence))
new_df = pd.DataFrame(corpus_filmes, columns=['ID', 'SENTENCE'])
new_df

Unnamed: 0,ID,SENTENCE
0,0,"Filme bem interessante, porém fiquei sem enten..."
1,1,"não aguento meu amor por esse tipo de filme, a..."
2,2,me decepcionei com o filme
3,2,o final me pareceu meio forçado demais
4,2,não é um filme que eu recomendaria para assistir
...,...,...
29844,11996,Esse final deu MUITA nostalgia!
29845,11997,Javier Bardem está de parabéns pela atuação
29846,11998,wtf? esse Tom Six deve ser muito errado da cab...
29847,11998,n o j e n t o


In [144]:

# contrucao do vocabulario do modelo a partir das sentenças do nosso corpus, 
# neste caso temos a representação dos documentos
model.build_vocab(new_df.SENTENCE)

for row in df_limpo.itertuples():
  #print (row.text)
  for sentence in row.text.split('.'):
    if sentence != '':
      sentences.append((row[1], sentence))




AttributeError: ignored

In [145]:

# tentativa 1

stp_words = nltk.corpus.stopwords.words('portuguese')

features = []
for idx, text in enumerate(new_df['SENTENCE']):
  tok_lst = nltk.word_tokenize(text)
  print (tok_lst)
  tok_lst = [tok for tok in tok_lst if tok not in stp_words and len(tok) > 1]

  ntok = 0
  doc = np.zeros((300, ))

  for tok in tok_lst:
    print (tok)
    if tok in model_word2vec:
      doc = np.add(doc, model_word2vec[tok])
      ntok += 1
  features.append(doc/ntok)

features = np.array(features)
features[np.isnan(features)] = 0


['Filme', 'bem', 'interessante', ',', 'porém', 'fiquei', 'sem', 'entender', 'o', 'final', 'dele']
Filme


KeyError: ignored

## Representação EXTRAÇÃO DE FEATURES

### Identificando qtde de verbos, adjetivos, pronomes e adverbios

In [132]:
model = spacy.load('pt')
model_docs = []
class_features = {'VERB':[],'ADJ':[],'NOUN':[],'ADV':[]}

for idx, text in enumerate(X_train['text_clean']):
  model_docs.append(model(text))

for doc in model_docs:  
    verb, adj, noun, adv = 0, 0, 0, 0
    num_palavras = len(doc)
    
    for tok in doc:
        if tok.pos_ == 'VERB':
            verb += 1
        if tok.pos_ == 'ADJ':
            adj += 1
        if tok.pos_ == 'NOUN':
            noun += 1
        if tok.pos_ == 'ADV':
            adv += 1

    class_features['VERB'].append(verb/num_palavras)
    class_features['ADJ'].append(adj/num_palavras)
    class_features['NOUN'].append(noun/num_palavras)
    class_features['ADV'].append(adv/num_palavras)

print(pd.DataFrame(class_features))

          VERB       ADJ      NOUN       ADV
0     0.250000  0.000000  0.150000  0.200000
1     0.000000  0.142857  0.000000  0.000000
2     1.000000  0.000000  0.000000  0.000000
3     0.300000  0.000000  0.200000  0.100000
4     0.200000  0.200000  0.200000  0.000000
...        ...       ...       ...       ...
9571  0.200000  0.200000  0.400000  0.000000
9572  0.275000  0.075000  0.325000  0.025000
9573  0.142857  0.285714  0.285714  0.285714
9574  0.500000  0.200000  0.100000  0.000000
9575  0.223140  0.173554  0.231405  0.066116

[9576 rows x 4 columns]


### Coletar emoções no texto (lexicos do emotaix)

In [133]:
# estou coletando apenas de 'Super category' (terceira coluna)
dicionario_emotaix = {'ÓDIO':[],'AGRESSIVIDADE':[],'AFEIÇÃO':[],'GENTILEZA':[]}
fd_emotaix = open('/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/Emotaix-pt .csv','r')
header = fd_emotaix.readline()

for line in fd_emotaix:
    entry = line.replace('\n','').split(",")
    if entry[2] in dicionario_emotaix:
        dicionario_emotaix[entry[2]].append(entry[0])
print("Visualizando o dicionários de emoções. \n",dicionario_emotaix)

emotaix_features = {'ÓDIO':[],'AGRESSIVIDADE':[],'AFEIÇÃO':[],'GENTILEZA':[]}

for doc in model_docs:
    odio = 0
    agressividade = 0
    afeicao = 0
    gentileza = 0
    for tok in doc:
        if tok.text in dicionario_emotaix['ÓDIO']:
            odio += 1
        if tok.text in dicionario_emotaix['AGRESSIVIDADE']:
            agressividade += 1
        if tok.text in dicionario_emotaix['AFEIÇÃO']:
            afeicao += 1
        if tok.text in dicionario_emotaix['GENTILEZA']:
            gentileza += 1
            
    emotaix_features['ÓDIO'].append(odio / len(doc))
    emotaix_features['AGRESSIVIDADE'].append(agressividade / len(doc))
    emotaix_features['AFEIÇÃO'].append(afeicao / len(doc))
    emotaix_features['GENTILEZA'].append(gentileza / len(doc))

print(pd.DataFrame(emotaix_features))

Visualizando o dicionários de emoções. 
 {'ÓDIO': ['animosidade', 'antipatia', 'antipático', 'antipatizar', 'charlatão', 'ciúme', 'ciumento', 'desunião', 'desunir', 'detestação', 'detestar', 'detestável', 'embusteiro', 'enciumar', 'execração', 'execrar', 'execrável', 'falsário', 'falsidade', 'falsidão', 'falsificação', 'falsificador', 'falsificar', 'falso', 'hipocrisia', 'hipócrita', 'hipocritamente', 'hostil ', 'hostilidade', 'hostilizar', 'hostilmente', 'impostor', 'impostura', 'imposturar', 'imposturice', 'infidelidade', 'infiel', 'ingratamente ', 'ingratidão ', 'ingrato', 'inimigo', 'inimizade', 'insídia', 'insidiosamente', 'intrujão', 'intrujar', 'intrujice', 'mágoa', 'magoado', 'magoar', 'mal-agradecido', 'mal-amada', 'mal-amado', 'mal-encarado', 'mentir', 'mentira', 'mentiroso', 'mesquinhez', 'mesquinheza', 'mesquinho', 'odiar', 'odiento', 'ódio', 'odiosamente', 'odioso', 'preconceito', 'racismo ', 'racista ', 'rancor', 'rancorosamente', 'rancoroso', 'ressentida', 'ressentido', 

### Tamanho das senteças

In [134]:
# As primeira features a serem removidas são relacionadas ao 
# tamanho da sentença

# a partir daí também podemos também pré-processar o texto
tok_filmes = []
# vamos armazenar as nossas features como dicionario e podemos transformar facilmente em 
# um dataframe
sent_features = {'sent3':[],'sent3_5':[],'sent5':[]}

for doc in model_docs:
    # esses serao os contadores para cada doc
    sent3 = 0 
    sent3_5 = 0
    sent5 = 0
    
    tok_doc = []
    for sent in doc.sents:
        
        # desconsiderando stopwords e palavras de tamanho 1
        tok_lst = [tok for tok in sent if len(tok.text) > 1 and tok.text not in stp_words]

        if len(tok_lst) <= 1:
            sent3 += 1
        elif len(tok_lst) > 3 and len(tok_lst) <= 5:
            sent3_5 += 1
        else:
            sent5 += 1
        tok_doc += tok_lst
        
    sent_features['sent3'].append(sent3)
    sent_features['sent3_5'].append(sent3_5) 
    sent_features['sent5'].append(sent5)
    
    tok_filmes.append(tok_doc)   

print(pd.DataFrame(tok_filmes))

               0          1         2           3    ...   650   651   652   653
0          baseado     megera    domada     william  ...  None  None  None  None
1            pouco        fim     mundo  crepúsculo  ...  None  None  None  None
2     fraquinhoooo       None      None        None  ...  None  None  None  None
3        bomdaniel     javier    ótimos       cenas  ...  None  None  None  None
4               10    motivos     achar       ótimo  ...  None  None  None  None
...            ...        ...       ...         ...  ...   ...   ...   ...   ...
9571       maneira  diferente    contar       mesma  ...  None  None  None  None
9572         achei      chato    demais       todos  ...  None  None  None  None
9573         perdi   precioso     tempo  assistindo  ...  None  None  None  None
9574          algo        ser     visto   aprendido  ...  None  None  None  None
9575      desculpa      falta  educação         vou  ...  None  None  None  None

[9576 rows x 654 columns]


### Juntando as novas festures num único dataframe

In [138]:
# class_features
# emotaix_features
# tok_filmes
data = {}
data_lst = [class_features, emotaix_features, tok_filmes]

for ftr in data_lst:
  for k in ftr:
    print ('k', k)
    print ('ftr', ftr)
    data[k] = ftr[k]
        
df_festures = pd.DataFrame(data)
df_festures.head()

k VERB
ftr {'VERB': [0.25, 0.0, 1.0, 0.3, 0.2, 0.0, 0.20270270270270271, 0.0, 0.15384615384615385, 0.08333333333333333, 0.25, 0.21, 0.0, 0.16, 0.0, 0.0, 0.26666666666666666, 0.08333333333333333, 0.2, 0.0, 0.0, 0.0, 0.15384615384615385, 0.2112676056338028, 0.18181818181818182, 0.2, 0.23809523809523808, 0.09090909090909091, 0.15789473684210525, 0.38461538461538464, 0.18181818181818182, 0.2, 0.16326530612244897, 0.16666666666666666, 0.3333333333333333, 0.2857142857142857, 0.3333333333333333, 0.6666666666666666, 0.0, 0.20689655172413793, 0.25, 0.08333333333333333, 0.2, 0.0, 0.0, 0.2, 0.0, 0.0, 0.175, 0.2, 0.0, 0.0, 0.26666666666666666, 0.21951219512195122, 0.2361111111111111, 0.15384615384615385, 0.21212121212121213, 0.2857142857142857, 0.17857142857142858, 0.3333333333333333, 0.2, 0.2, 0.14285714285714285, 0.0, 0.19230769230769232, 0.1780821917808219, 0.3333333333333333, 0.18666666666666668, 0.2727272727272727, 0.2, 0.25, 0.25, 0.09090909090909091, 0.2119205298013245, 0.28, 0.0, 0.2375, 0

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



# 3 - Visualização dos dados:
Coloque nesta seção os gráficos do PCA e do t-SNE, para cada representação. Responda também às seguintes perguntas: 

a) Existe algum padrão com relação às classes? 

b) Caso exista algum padrão, você pode concluir alguma coisa? 

c) Caso não exista, você consegue dizer se isso tem a ver com alguma representação ou classe?

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

**PCA**

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

In [None]:
# Voltar com o formato da feature para texto, mas sem as stop words
nltk.download('machado')
corpus_filmes = []
for f_id in machado.fileids():
    tok_lst = simple_preprocess(df_processado.raw(f_id)) #convertendo para o formato de texto
    corpus_filmes.append(' '.join(tok_lst)) 

In [None]:
df_processado[1:4]

In [None]:
matrix = df_processado['text_stopwords'].fit_transform(corpus_filmes)

In [None]:
!pip install -U yellowbrick
from yellowbrick.features import PCA
from sklearn.preprocessing import StandardScaler

In [None]:
sc = StandardScaler(with_mean=False)
matrix = sc.fit_transform(matrix)

In [None]:
# o que podemos concluir? os pontos são muito parecido, mas existem dois bem diferentes? 
# quem são esses dois?
visualizer = PCA(scale=True)
visualizer.fit_transform(matrix.toarray())
visualizer.show()

t-**SNE**

In [None]:
from yellowbrick.text import TSNEVisualizer

In [None]:
tsne = TSNEVisualizer()

# se existissem classes, poderiamos visualizar os pontos com cores diferentes. Cada um de acordo
# com uma classe.
tsne.fit(matrix.toarray())
tsne.show()

# 4 - Classificadores : 
Descreva sucintamente os dois classificadores escolhidos. Você usou algum parâmetro que não seja padrão? Se sim, mencione nesta seção.

In [None]:
#EXEMPLO

A tarefa escolhida foi a classificação de redações no estilo do ENEM. O objetivo é classificar cada redação de acordo com o grupo de 
notas 0, 200, 400, 600, 800 e 1000. O Corpus possui 1840 instâncias e a média de tokens por documento é 226,85.
print(f'Quantidade de instâncias do Corpus: {len(data)}')
print(f'Média de tokens por documento: {np.mean(toks)}')



# 5 - Resultados: 
Escreva código que execute a validação cruzada em 5-folds para os dois classificadores escolhidos. Também responda às seguintes perguntas: Os embeddings realmente mostraram um resultado melhor que o TF-IDF? Se não, qual foi a representação que teve o melhor desempenho? A diferença foi muito grande?

# 6 - Conclusão: 
Por fim fale aqui o que você conclui das visualizações e dos resultados. Tente explicar em detalhes por que um resultado, na sua opinião, foi melhor do que outro. Esta explicação pode incluir hipóteses para resultados melhores ou resultados piores. Também pode falar das dificuldades enfrentadas durante o trabalho e como conseguiu contorná-las.