# **Descrição do projeto do Módulo de NLP**


No projeto do módulo de NLP vamos tentar resolver um problema de classificação de textos. Você escolherá um de três datasets cujo objetivo é classificar em um conjunto de classes. Você deverá utilizar três metodologias ensinadas em nossas aulas para poder classificar esses textos. A seguir, mais detalhes do projeto para que você possa resolver.


Os produtos finais deste projeto será um Notebook Python. As seções seguintes detalham como você deve proceder para gerar o código e a última seção deve especificar a estrutura que seu notebook deve seguir.

## 1. Dados
Você poderá escolher três tarefas para resolver no projeto. A seguir existe a breve descrição de cada tarefa e um link para onde você poderá baixar os dados. 

O corpus UTL é um corpus com críticas de filmes e apps coletadas automaticamente de sites. As classes são: positiva ou negativa. Assim o usuário pode ter gostado ou não gostado do produto. Referência: https://github.com/RogerFig/UTLCorpus 
O corpus UOL AES-PT é um corpus de redações no estilo do ENEM. Cada redação possui um tópico e um conjunto de redações relacionadas. Nesse corpus, existem vários tópicos e suas respectivas redações. O objetivo é predizer a nota final de cada redação de acordo com o grupo de notas 0, 200, 400, 600, 800 e 1000. Para mais informações e download dos dados, acesse o link: https://github.com/evelinamorim/aes-pt .
O corpus TweetSentBr é um corpus em português de tweets. Cada tweet está rotulado com uma das classes: positivo, negativo e neutro. Para mais informações e download do corpus, acesse o link https://bitbucket.org/HBrum/tweetsentbr/src/master/ .

## 2. Representação
Vimos durante a nossa aula diversas forma de representar um documento de texto. Você vai usar cada uma dessas representações e compará-las. A seguir temos a listagem das representações que devem ser usadas para representar seu texto.
Representação TF-IDF. Você pode usar tanto o gensim quanto o scikit para montar esta representação, mas lembre-se que é importante fazer o pré-processamento dos textos.
Representação com o word2vec. O modelo poderá ser o apresentado na aula 03 ou algum outro modelo pré-treinado como os existentes no repositório http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc . Neste caso, cada documento deverá ser representado pelo vetor que resultar da média dos vetores de todas as palavras que o compõem. Em outras palavras, se D é composto pelas palavras w1, w2, …, wn, e seus vetores embeddings são v1, v2, …, vn, então a representação do documento de D será v = (v1 + v2 + … + vn) / n. 
Extração de features do texto. Você deve pensar em ao menos 10 features para extrair do documento e que o possam representar. Aqui vão algumas sugestões: número de palavras, número de verbos, número de conjunções, número de palavras negativas, número de palavras fora do vocabulário, quantidades de entidades do tipo PESSOA, quantidade de entidades do tipo LOCAL, etc.

Lembrando que você deve dividir seu conjunto em treino e teste. No TF-IDF, você só pode aplicar o método fit no conjunto de treino. Uma sugestão é dividir 80% do conjunto de dados para treino e 20% para teste. Essa divisão é aleatória, mas você pode usar o método train_test_split para essa divisão. O exemplo a seguir mostra como usar esse método:

from sklearn.model_selection import train_test_split


 X_train, X_test, y_train, y_test = train_test_split(
...    X, y, test_size=0.20, random_state=42)

## 3. Visualização dos dados

Também vimos que embora o nosso texto apresente dimensionalidade maior que 2D, é possível visualizar em apenas duas dimensões usando técnicas de redução de dimensionalidade. Vimos duas técnicas de redução de dimensionalidade, o PCA e o t-SNE. Assim, pede-se que você utilize as duas técnicas para gerar uma visualização dos seus dados e considere as classes para colorir as instâncias. 

Sugere-se utilizar a biblioteca yellowbrick para gerar as visualizações, devido sua simplicidade. Mas caso tenha interesse em gerar visualizações mais interativas e mais bonitas, você pode utilizar a biblioteca seaborn. Para uma galeria dos gráficos que o seaborn é capaz de fazer, acesse o link https://seaborn.pydata.org/examples/index.html . Apenas acrescentando em seu código import seaborn as sns; sns.set() , também é possível deixar o gráfico com cores mais bonitas. Todas essas bibliotecas precisam do matplotlib, que já está importado no exemplo da aula.

Aqui você deve fazer a visualização apenas do seu conjunto de treino.
## 4. Classificadores

Escolha dois classificadores que você possua mais familiaridade no scikit-learn para poder classificar os seus dados. Você deve executar cada um dos classificadores nas três representações escolhidas. 

Você pode usar o k-nn como um dos métodos. Outros métodos estão disponíveis no scikit, como por exemplo o SVM e o RandomForest.

## 5. Métricas de avaliação

Para os corpus TweetSentBR e UTL, pede-se que se use a matriz de confusão, a precisão, o recall e o f-1 para reportar a acurácia dos seus classificadores. No caso do corpus UOL AES-PT pede-se que se use o erro médio apenas.



# Estrutura

Estrutura do Notebook

O seu notebook deve ser dividido por seções que possuam  uma célula do tipo Markdown. Nesta célula deve ter o título da seção antecedida por um marcador do tipo #. O título de cada seção deverá ser como a lista abaixo. Além do título, é possível que a seção demande a descrição de resultados ou outro tipo de texto. Nestes casos, coloque o texto junto à célula do título. Se houver código solicitado para a seção, então as células restantes devem ser de código solicitado.  
O relatório deve ser organizado nas seguintes seções:





1.   Tarefa e Dados

2.   Classificadores

3.   Resultados

4.   Resultados


## 1 - Tarefa e Dados: 
Descreva a tarefa escolhida e os dados. Escreva código que leia os dados e calcule e imprima quantas instâncias os dados têm. Também, seu código deve calcular a média de tokens por instância, isto é, quantos tokens, na média cada documento do seu conjunto de dados possui. Imprima esse único número.

Você poderá escolher três tarefas para resolver no projeto. A seguir existe a breve descrição de cada tarefa e um link para onde você poderá baixar os dados.

O corpus UTL é um corpus com críticas de filmes e apps coletadas automaticamente de sites. As classes são: positiva ou negativa. Assim o usuário pode ter gostado ou não gostado do produto. Referência: https://github.com/RogerFig/UTLCorpus.

O corpus UOL AES-PT é um corpus de redações no estilo do ENEM. Cada redação possui um tópico e um conjunto de redações relacionadas. Nesse corpus, existem vários tópicos e suas respectivas redações. O objetivo é predizer a nota final de cada redação de acordo com o grupo de notas 0, 200, 400, 600, 800 e 1000. Para mais informações e download dos dados, acesse o link: https://github.com/evelinamorim/aes-pt.

O corpus TweetSentBr é um corpus em português de tweets. Cada tweet está rotulado com uma das classes: positivo, negativo e neutro. Para mais informações e download do corpus, acesse o link https://bitbucket.org/HBrum/tweetsentbr/src/master/.

A base escolhido é a do corpus UTL é um corpus com críticas de filmes e apps coletadas automaticamente de sites. As classes são: positiva ou negativa. Assim o usuário pode ter gostado ou não gostado do produto. Referência: https://github.com/RogerFig/UTLCorpus.

## Importanto as bibliotecas necessárias

In [4]:
### # montando o drive do google onde o corpus se encontra
from google.colab import drive
drive.mount('/content/drive')

### Entrando no diretório
%cd drive/MyDrive/Colab Notebooks/NLP/trabalho

Mounted at /content/drive
/content/drive/MyDrive/Colab Notebooks/NLP/trabalho


In [10]:
import nltk
nltk.download('punkt')

%matplotlib inline
#nltk.download('punkt')
nltk.download('stopwords')
#nltk.download('wordnet')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [5]:
import pandas as pd
import numpy as np

import time # usado para calcular o tempo de processamento de algumas partes do código
import string # usado para concatenar string no stop words


from nltk.tokenize import word_tokenize

# REPRESENTAÇÕES
from gensim.models import Word2Vec
from gensim.models import TfidfModel
from gensim.corpora import Dictionary # para uso do TF-IDF


## Abrindo o arquivo

In [4]:
# abrindo o arquivo no colab
df_util = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/UTLCorpus.csv')
df_util.head(3)

Unnamed: 0.1,Unnamed: 0,domain,object,author,text,likes,unlikes,stars,date,collect_date,replies,favorite,want_see,recommend,see,internal_id
0,0,movies,007-cassino-royale-t23,0,Um dos melhores do 007,0,0,3.5,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,0
1,1,movies,007-cassino-royale-t23,1,"assisti só pela metade..do meio ao fim, o film...",0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,1
2,2,movies,007-cassino-royale-t23,2,foi um dos filmes mais violentos q já vi. mas ...,0,0,4.0,8 anos atrás,20-04-2019 06:20,0.0,0.0,0.0,,1.0,2


In [5]:
# abrindo o arquivo localmente
# df_util = pd.read_csv(r'C:\Users\Herica\Documents\Herica\Pos\GitHub\base\NLP\UTLCorpus.csv')
# df_util.head(3)

# Analisando os dados

In [6]:
# Verificando quais os tipos da feature domain
df_util.domain.unique()

array(['movies', 'apps'], dtype=object)

In [7]:
qtde_moveis = len(df_util[df_util['domain'] == 'movies'])
qtde_apps = len(df_util[df_util['domain'] == 'apps'])

In [8]:
# Selecionando somente o registros do tipo movies
df_movies = df_util[df_util['domain'] == 'movies']

## Selecionando as features de interesse

In [9]:
df_movies = df_movies[['object', 'text', 'likes']]
df_movies.head(3)

Unnamed: 0,object,text,likes
0,007-cassino-royale-t23,Um dos melhores do 007,0
1,007-cassino-royale-t23,"assisti só pela metade..do meio ao fim, o film...",0
2,007-cassino-royale-t23,foi um dos filmes mais violentos q já vi. mas ...,0


DESCRIÇÃO DAS FEATURES QUE SERÃO UTILIZADAS NO TRABALHO

object -> Nome do filme

text -> avalianção dos filme feita pelos usuários

In [10]:
df_movies.columns

Index(['object', 'text', 'likes'], dtype='object')

In [11]:
# analisando a qtde de filmes avaliados
df_movies['object'].value_counts()

cisne-negro-t16349                               7839
os-vingadores-t15324                             7059
as-vantagens-de-ser-invisivel-t29850             6940
batman-o-cavaleiro-das-trevas-ressurge-t19914    6413
a-origem-t10852                                  5801
                                                 ... 
mega-man-t191384                                    1
leste-oeste-t112105                                 1
the-legend-of-thunder-t193710                       1
the-world-of-us-t211052                             1
um-homem-e-sua-paixao-t108598                       1
Name: object, Length: 4203, dtype: int64

In [12]:
# convertendo as palavras do campo texto para lowcase
df_movies['text_lower'] = df_movies['text'].astype('str').str.lower()
df_movies[['text','text_lower']].head(3)

Unnamed: 0,text,text_lower
0,Um dos melhores do 007,um dos melhores do 007
1,"assisti só pela metade..do meio ao fim, o film...","assisti só pela metade..do meio ao fim, o film..."
2,foi um dos filmes mais violentos q já vi. mas ...,foi um dos filmes mais violentos q já vi. mas ...


### Definindo a classe que irá classificar a avaliação do filme


In [8]:
def define_classe(classificacao:float)->int:
  tokens = nltk.word_tokenize(row['like'])
    if (like = 0.):
        return 0 # classe negativa
    else:
        return 1 # classe positiva



def identify_tokens(row):
    tokens = nltk.word_tokenize(row['text_lower'])    
    #print (tokens)
    # pegar somente palavra, sem pontuação
    token_words = [w for w in tokens if w.isalnum()] # isalnum (não remove caracteres especiais e números) - isalpha (removeremos palavras / caracteres não alfanuméricos (como números e pontuação)
    return token_words

SyntaxError: ignored

SyntaxError: ignored

In [None]:
start = time.time()
df_movies['classificacao'] = df_movies.apply(define_classe, axis=1)
print ("tempo gasto: ", (time.time() - start))

## Verificando e deletando registros nulos

In [13]:
df_movies.isnull().sum()

object          0
text          956
likes           0
text_lower      0
dtype: int64

In [14]:
# deletando os registros nulos
qtde_anterior_nulos = df_movies.shape[0]
df_movies.dropna(subset=['text'], inplace = True)
qtde_pos_exclusao_nulos = df_movies.shape[0]

print ("Antes:", qtde_anterior_nulos, 'Depois:', qtde_pos_exclusao_nulos, 'Diferença:', qtde_anterior_nulos-qtde_pos_exclusao_nulos)

Antes: 1839851 Depois: 1838895 Diferença: 956


In [15]:
# Validando a exclusão
df_movies.isnull().sum()

object        0
text          0
likes         0
text_lower    0
dtype: int64

## Pré-processando os dados

In [16]:
# definindo e visualizando as stop-words
stp_words = nltk.corpus.stopwords.words('portuguese')
stop_words = stp_words +' '.join(string.punctuation).split(' ')+["``","''","“",'”', "'", "]" , "[" , "," , "."]

table = str.maketrans(dict.fromkeys(string.punctuation)) 


print('Visualizando as stopwords \n', stop_words)

Visualizando as stopwords 
 ['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'es

In [12]:
# Definindo as funções que serão utilizadas

# Tokenizando
def identify_tokens(row):
    tokens = nltk.word_tokenize(row['text_lower'])    
    #print (tokens)
    # pegar somente palavra, sem pontuação
    token_words = [w for w in tokens if w.isalnum()] # isalnum (não remove caracteres especiais e números) - isalpha (removeremos palavras / caracteres não alfanuméricos (como números e pontuação)
    return token_words

# Removendo as stop-words
def remove_stops(row):
    my_list = row['text_tokenizado']
    meaningful_words = [w for w in my_list if not w in stop_words]
    return (meaningful_words)

# Cria uma lista de palavras
def lista_palavras(row):
  lista_de_palavras = corpora.Dictionary(row['text_stopwords']) 
  print (lista_de_palavras)
  return lista_de_palavras

# cria um dicionário de palavras
def dicionario(row):
  #print ('row', row)
  #print ('linha', row['text_stopwords'])
  #print ('tipo do row', type(row))
  #print ('tipo do row.text_stopwords', type(row['text_stopwords']))
  #dicionario = corpora.Dictionary(row['text_stopwords']) 
  
  dicionario_bow = dicionario.doc2bow(str(row['text_stopwords']), allow_update=True)
  return dicionario_bow

# Contar qtde de palavras
def contar_palavras(row):
  palavraCont = {} # criando um dicionário
  palavras_lista = word_tokenize(str(row['text_stopwords'])) # criando uma lista de palavras para cada registro
  #print (type(palavraCont), type(palavras_lista))
  #print (palavras_lista)
  for palavra in palavras_lista:
    if palavra in palavraCont:
        palavraCont[palavra] += 1
    else:
        palavraCont[palavra] = 1
    #print ('palavraCont:', palavraCont)
  return palavraCont

In [18]:
#type(str(df_movies['text_stopwords']))

In [19]:

#dicionario = corpora.Dictionary()
#df_movies['bow'] = df_movies.apply(dicionario, axis=1)


In [20]:
# resetando os índices
df_movies = df_movies.reset_index()

### Tokenizando

In [21]:
start = time.time()
df_movies['text_tokenizado'] = df_movies.apply(identify_tokens, axis=1)
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  672.744140625


In [22]:
type(df_movies['text_tokenizado'].values)

numpy.ndarray

In [23]:
type(list(str(df_movies['text_tokenizado'])))

list

In [24]:
# validando a tokenização
df_movies[['text', 'text_lower','text_tokenizado']][1:3].head(3)

Unnamed: 0,text,text_lower,text_tokenizado
1,"assisti só pela metade..do meio ao fim, o film...","assisti só pela metade..do meio ao fim, o film...","[assisti, só, pela, meio, ao, fim, o, filme, p..."
2,foi um dos filmes mais violentos q já vi. mas ...,foi um dos filmes mais violentos q já vi. mas ...,"[foi, um, dos, filmes, mais, violentos, q, já,..."


### Convertento os tokes para minúsculo

In [25]:
#start = time.time()
#df_movies['text_lower'] = df_movies['text_tokenizado'].astype('str').str.lower()
#df_movies.head(3)

### Removendo as stopwords

In [26]:
start = time.time()
df_movies['text_stopwords'] = df_movies.apply(remove_stops, axis=1) # chamando a função que remove as stopwords
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  120.67205572128296


In [27]:
# Validando
df_movies[['text_tokenizado','text_stopwords']].head(3)

Unnamed: 0,text_tokenizado,text_stopwords
0,"[um, dos, melhores, do, 007]","[melhores, 007]"
1,"[assisti, só, pela, meio, ao, fim, o, filme, p...","[assisti, meio, fim, filme, parece, ser, mt, b..."
2,"[foi, um, dos, filmes, mais, violentos, q, já,...","[filmes, violentos, q, vi, booom, demaais]"


In [28]:
df_movies['text_tokenizado'][3]

['adoroo', 'esse', 'filme']

In [29]:
df_movies['text_stopwords'][3]

['adoroo', 'filme']

### Salvando o resultado num dataframe

In [31]:
df2 = df_movies[['object', 'text_stopwords']]

df2.to_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv",index=False)

### Abrindo o arquivo TOKENIZADO

In [6]:
df_processado = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado.csv")
df_processado.head(3)


Unnamed: 0,object,text_stopwords
0,007-cassino-royale-t23,"['melhores', '007']"
1,007-cassino-royale-t23,"['assisti', 'meio', 'fim', 'filme', 'parece', ..."
2,007-cassino-royale-t23,"['filmes', 'violentos', 'q', 'vi', 'booom', 'd..."


## inicio testes

## Contando a qtde de palavras de cada registro

In [36]:
df_processado2

Unnamed: 0,object,text_stopwords,qtde_palavras
0,007-cassino-royale-t23,"['melhores', '007']","{'[': 1, ""'melhores"": 1, ""'"": 2, ',': 1, ""'007..."
1,007-cassino-royale-t23,"['assisti', 'meio', 'fim', 'filme', 'parece', ...","{'[': 1, ""'assisti"": 1, ""'"": 15, ',': 14, ""'me..."
2,007-cassino-royale-t23,"['filmes', 'violentos', 'q', 'vi', 'booom', 'd...","{'[': 1, ""'filmes"": 1, ""'"": 6, ',': 5, ""'viole..."
3,007-cassino-royale-t23,"['adoroo', 'filme']","{'[': 1, ""'adoroo"": 1, ""'"": 2, ',': 1, ""'filme..."
4,007-cassino-royale-t23,"['daniel', 'crieg', 'carisma', 'zero', '007']","{'[': 1, ""'daniel"": 1, ""'"": 5, ',': 4, ""'crieg..."
...,...,...,...
1838890,zumbis-do-kung-fu-t38547,"['certeza', 'dois', 'dubladores', 'mínima', 'n...","{'[': 1, ""'certeza"": 1, ""'"": 12, ',': 11, ""'do..."
1838891,zumbis-do-kung-fu-t38547,"['divertidão', 'tão', 'mal', 'feito']","{'[': 1, ""'divertidão"": 1, ""'"": 4, ',': 3, ""'t..."
1838892,zumbis-do-kung-fu-t38547,"['divertido', 'direito', 'musicas', 'james', '...","{'[': 1, ""'divertido"": 1, ""'"": 11, ',': 10, ""'..."
1838893,zumbis-do-kung-fu-t38547,"['filme', 'engraçado', 'vi', 'vida']","{'[': 1, ""'filme"": 1, ""'"": 4, ',': 3, ""'engraç..."


In [35]:
df_processado2.text_stopwords[df_processado2.indice == 4]

AttributeError: ignored

In [25]:
print(df_processado2[3].apply(contar_palavras, axis=1))


KeyError: ignored

In [13]:
start = time.time()
df_processado['qtde_palavras'] = df_processado.apply(contar_palavras, axis=1)
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  596.9280700683594


In [15]:
df_processado['qtde_palavras']

0          {'[': 1, ''melhores': 1, ''': 2, ',': 1, ''007...
1          {'[': 1, ''assisti': 1, ''': 15, ',': 14, ''me...
2          {'[': 1, ''filmes': 1, ''': 6, ',': 5, ''viole...
3          {'[': 1, ''adoroo': 1, ''': 2, ',': 1, ''filme...
4          {'[': 1, ''daniel': 1, ''': 5, ',': 4, ''crieg...
                                 ...                        
1838890    {'[': 1, ''certeza': 1, ''': 12, ',': 11, ''do...
1838891    {'[': 1, ''divertidão': 1, ''': 4, ',': 3, ''t...
1838892    {'[': 1, ''divertido': 1, ''': 11, ',': 10, ''...
1838893    {'[': 1, ''filme': 1, ''': 4, ',': 3, ''engraç...
1838894    {'[': 1, ''extremamente': 1, ''': 5, ',': 4, '...
Name: qtde_palavras, Length: 1838895, dtype: object

In [16]:
df_processado['qtde_palavras'][3]

{"'": 2, "'adoroo": 1, "'filme": 1, ',': 1, '[': 1, ']': 1}

In [21]:
df_processado

Unnamed: 0,object,text_stopwords,qtde_palavras
0,007-cassino-royale-t23,"['melhores', '007']","{'[': 1, ''melhores': 1, ''': 2, ',': 1, ''007..."
1,007-cassino-royale-t23,"['assisti', 'meio', 'fim', 'filme', 'parece', ...","{'[': 1, ''assisti': 1, ''': 15, ',': 14, ''me..."
2,007-cassino-royale-t23,"['filmes', 'violentos', 'q', 'vi', 'booom', 'd...","{'[': 1, ''filmes': 1, ''': 6, ',': 5, ''viole..."
3,007-cassino-royale-t23,"['adoroo', 'filme']","{'[': 1, ''adoroo': 1, ''': 2, ',': 1, ''filme..."
4,007-cassino-royale-t23,"['daniel', 'crieg', 'carisma', 'zero', '007']","{'[': 1, ''daniel': 1, ''': 5, ',': 4, ''crieg..."
...,...,...,...
1838890,zumbis-do-kung-fu-t38547,"['certeza', 'dois', 'dubladores', 'mínima', 'n...","{'[': 1, ''certeza': 1, ''': 12, ',': 11, ''do..."
1838891,zumbis-do-kung-fu-t38547,"['divertidão', 'tão', 'mal', 'feito']","{'[': 1, ''divertidão': 1, ''': 4, ',': 3, ''t..."
1838892,zumbis-do-kung-fu-t38547,"['divertido', 'direito', 'musicas', 'james', '...","{'[': 1, ''divertido': 1, ''': 11, ',': 10, ''..."
1838893,zumbis-do-kung-fu-t38547,"['filme', 'engraçado', 'vi', 'vida']","{'[': 1, ''filme': 1, ''': 4, ',': 3, ''engraç..."


In [23]:
# SALVANDO
df3 = df_processado[['object', 'text_stopwords', 'qtde_palavras']]

df3.to_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado2.csv",index=False)

In [24]:
df_processado2 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/NLP/trabalho/dados/df_util_tokenizado2.csv")
df_processado2.head(3)

Unnamed: 0,object,text_stopwords,qtde_palavras
0,007-cassino-royale-t23,"['melhores', '007']","{'[': 1, ""'melhores"": 1, ""'"": 2, ',': 1, ""'007..."
1,007-cassino-royale-t23,"['assisti', 'meio', 'fim', 'filme', 'parece', ...","{'[': 1, ""'assisti"": 1, ""'"": 15, ',': 14, ""'me..."
2,007-cassino-royale-t23,"['filmes', 'violentos', 'q', 'vi', 'booom', 'd...","{'[': 1, ""'filmes"": 1, ""'"": 6, ',': 5, ""'viole..."


In [None]:
# cria uma lista de palavras para cada registro
start = time.time()
df_processado2['lista_de_palavras'] = df_processado.apply(contar_palavras, axis=1) # chamando a função que cria a lista de palavras para cada registro
print ("tempo gasto: ", (time.time() - start))

tempo gasto:  603.3460853099823


In [None]:
df_processado[['text_stopwords','lista_de_palavras']].head(3)

Unnamed: 0,text_stopwords,lista_de_palavras
0,"[melhores, 007]","{'[': 1, ''melhores': 1, ''': 2, ',': 1, ''007..."
1,"[assisti, meio, fim, filme, parece, ser, mt, b...","{'[': 1, ''assisti': 1, ''': 15, ',': 14, ''me..."
2,"[filmes, violentos, q, vi, booom, demaais]","{'[': 1, ''filmes': 1, ''': 6, ',': 5, ''viole..."


In [None]:
from gensim import corpora

# cria um dicionário de palavras
df_processado['dicionario'] = df_processado.apply(dicionario, axis=1) # chamando a função que cria um dicionário para cada registro

row index                                                                0
object                                          007-cassino-royale-t23
text                                            Um dos melhores do 007
likes                                                                0
text_lower                                      um dos melhores do 007
text_tokenizado                           [um, dos, melhores, do, 007]
text_stopwords                                         [melhores, 007]
lista_de_palavras    {'[': 1, ''melhores': 1, ''': 2, ',': 1, ''007...
Name: 0, dtype: object
linha ['melhores', '007']
tipo do row <class 'pandas.core.series.Series'>
tipo do row.text_stopwords <class 'list'>


AttributeError: ignored

In [None]:
dicionario_bigrama[0]

In [None]:
#from gensim.utils import simple_preprocess
# outra forma de tokenizar documento no gensim, alem de outras funcionalides
#doc_tokenizado = simple_preprocess(df_movies['text'].values)

In [None]:
#doc_tokenizado[0:4]

In [None]:
bow_text = [dicionario_bigrama.doc2bow(line) for line in df_processado['text_stopwords']]

In [None]:
bow_text[0]

In [None]:
# aqui vamos contruir nosso dicionario e ao mesmo tempo colocar o nosso dado no formato bow
bow_corpus = dicionario_bigrama.doc2bow(df_processado['text_stopwords'], allow_update=True)

In [None]:
bow_corpus

# fim testes

# 2 - Representação

Vimos durante a nossa aula diversas forma de representar um documento de texto. Você vai usar cada uma dessas representações e compará-las. A seguir temos a listagem das representações que devem ser usadas para representar seu texto.

a) Representação TF-IDF. Você pode usar tanto o gensim quanto o scikit para montar esta representação, mas lembre-se que é importante fazer o pré-processamento dos textos.

b) Representação com o word2vec. O modelo poderá ser o apresentado na aula 03 ou algum outro modelo pré-treinado como os existentes no repositório http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc . Neste caso, cada documento deverá ser representado pelo vetor que resultar da média dos vetores de todas as palavras que o compõem. Em outras palavras, se D é composto pelas palavras w1, w2, …, wn, e seus vetores embeddings são v1, v2, …, vn, então a representação do documento de D será v = (v1 + v2 + … + vn) / n.

c) Extração de features do texto. Você deve pensar em ao menos 10 features para extrair do documento e que o possam representar. Aqui vão algumas sugestões: número de palavras, número de verbos, número de conjunções, número de palavras negativas, número de palavras fora do vocabulário, quantidades de entidades do tipo PESSOA, quantidade de entidades do tipo LOCAL, etc. 

Lembrando que você deve dividir seu conjunto em treino e teste. No TF-IDF, você só pode aplicar o método fit no conjunto de treino. Uma sugestão é dividir 80% do conjunto de dados para treino e 20% para teste. Essa divisão é aleatória, mas você pode usar o método train_test_split para essa divisão. 



In [None]:
# Definindo X e y

X = df_processado['text_stopwords']

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20 , random_state = 42 )

## Representação TF-IDF

In [None]:
df_processado['text_stopwords'][0]

In [None]:
teste = df_processado['text_stopwords'][0].split(' " ') 
teste

In [None]:
# cria um dicionário de palavras
dct = Dictionary(df_processado['text_stopwords'])

In [None]:
# converte o corpus para o formato de saco de palavras
corpus_filmes_bow = [dct.doc2bow(line) for line in df_processado['text_stopwords']]  

In [None]:
model = TfidfModel(corpus_filmes_bow) # computa para cada termo, a fórmula tf-idf

In [None]:
model[corpus_filmes_bow[230]] # vamos ver uma das representações

## Representação WORD2VEC

In [None]:
# o algoritmo word2vec processa as palavras por sentença. Então precisamos dividir os textos
# como sentenças para alimentar o nosso modelo. A função sent_tokenize do ntlk faz isso.
corpus_movies = []
for f_id in df_processado['text_stopwords'].fileids():
    sent_lst = sent_tokenize(df_processado['text_stopwords'].raw(f_id))
    for s in sent_lst:
        corpus_movies.append(simple_preprocess(s))

In [None]:
# parametros
# min_count = Ignora todas as palavras com frequencia absoluta total
# menor que isso
# window = A distância máxima entre a palavra corrente e palavra predita em uma sentença. Aqui, duas palavras
# palavras anteriores e duas palavras anteriores a palavra corrente.
# size = Dimensão dos vetores densos ou word embeddings. 
w2v_model = Word2Vec(window=2, size=50)

In [None]:
# o word2vec demanda a construção de uma tabela representando o vocabulário do nosso corpus.
# Ou seja, simplesmente "digerir" todas as palavras e filtrar as palavras únicas, e fazer uma
# contagem básica delas.
w2v_model.build_vocab(X, progress_per=10000)

In [None]:
# parametros
# total_examples = Contagem de sentenças
# epochs = Número de iterações (épocas) sobre o corpus

w2v_model.train(X, total_examples=w2v_model.corpus_count, epochs=5)

## Representação EXTRAÇÃO DE FEATURES

In [None]:
def get_features(data:np.array)->dict:
    
    dct_feats = {}
    dct_feats = preprocess(data, feats=True)
    
    nlp = spacy.load('pt')

    # Define o caminho da pasta para o dicionário ortográficos
    PATH_TO = '/nlp/Projeto/aes-pt-master/dict'
    # Carrega o dicionário ortográfico
    hobj = Hunspell('pt_BR','pt_BR.aff', hunspell_data_dir=PATH_TO)

    # Extraindo a quantidade de léxicos enviesados
    dct_vies = {
        'argumentativo':[],
        'pressuposicao':[],
        'possibilidade_necessidade':[],
        'opiniao_valoracao':[]}

    # Lê o dicionário de léxicos enviesadas
    fd_dicionario_vies = open("dict/bias_words.txt","r", encoding='utf-8')

    # Percorre o dicionário classificando cada termo
    for line in fd_dicionario_vies:
        entry = line.replace("\n","").split(",")
        term = entry[0].strip()
        type_term = entry[1].strip()
        dct_vies[type_term].append(term)

    # Listas dos tipos de léxicos enviesados
    arr_arg, arr_press, arr_pos_nec, arr_op_val = [],[],[],[]

    # Listas das quantidades dos tipos de entidades
    arr_per, arr_loc, arr_org, arr_misc = [],[],[],[]

    # Listas de grupos por tamanho das sentenças
    arr_sent5, arr_sent5_10, arr_sent10 = [],[],[]

    # Listas das quantidade de caracteres e erros ortográficos
    arr_erros, arr_chars = [],[]

    # Listas de pos tagging
    arr_verb, arr_adj, arr_noun, arr_adv = [],[],[],[]

    for i in range(len(data)):

        # Istancia o documento spacy
        doc = nlp(str(data[i]))

        # Contadores de palavras na sentença
        qtd_sent5, qtd_sent5_10, qtd_sent10 = 0,0,0

        # Separa o texto pelas sentenças
        for sent in sent_tokenize(doc.text):

            # Cria o array de tokens excluindo acentuação e stopword
            arr_tok = [word for word in word_tokenize(sent)\
                       if word not in stop_words+["``","''","“",'”']]

            # Verifica o quantidade de tokens na senteça
            if (len(arr_tok) <= 5):
                # Conta as sentenças com 5 ou menos tokens
                qtd_sent5 += 1

            elif (len(arr_tok) > 10):
                # Conta as sentenças com mais de 10 tokens
                qtd_sent10 += 1
            else:
                # Conta as sentenças com 5 a 10 tokens
                qtd_sent5_10 += 1            

        arr_sent5.append(qtd_sent5 / len(doc))
        arr_sent5_10.append(qtd_sent5_10 / len(doc))
        arr_sent10.append(qtd_sent10 / len(doc))

        # Contadores de cada tipo de entidade
        qtd_per, qtd_loc, qtd_org, qtd_misc = 0,0,0,0
        for entidy in doc.ents:
            if entidy.label_ == 'PER':
                qtd_per += 1
            elif entidy.label_ == 'LOC':
                qtd_loc += 1
            elif entidy.label_ == 'ORG':
                qtd_org += 1
            elif entidy.label_ == 'MISC':
                qtd_misc += 1

        arr_per.append(qtd_per / len(doc))
        arr_loc.append(qtd_loc / len(doc))
        arr_org.append(qtd_org / len(doc))
        arr_misc.append(qtd_misc / len(doc))

        # Contadores de erros ortográficos e caracteres
        qtd_erro, qtd_char = 0, 0

        for tok in doc:
            if tok.text not in stop_words+["–","—"]:

                token = tok.text
                qtd_char += len(token)

                if not (hobj.spell(token)):
                    qtd_erro += 1

        arr_erros.append(qtd_erro / len(doc))
        arr_chars.append(qtd_char / len(doc))

        for type_term in dct_vies:
            qtd_arg, qtd_pres, qtd_poss, qtd_opin = 0,0,0,0
            for term in dct_vies[type_term]:
                for sent in doc.sents:
                    if term in sent.text.lower():
                        if type_term == "argumentativo":
                            qtd_arg += 1
                        elif type_term == "pressuposicao":
                            qtd_pres += 1
                        elif type_term == "possibilidade_necessidade":
                            qtd_poss += 1
                        elif type_term == "opiniao_valoracao":
                            qtd_opin += 1

        arr_arg.append(qtd_arg / len(doc))
        arr_press.append(qtd_pres / len(doc))
        arr_pos_nec.append(qtd_poss / len(doc))
        arr_op_val.append(qtd_opin / len(doc))

        qtd_verb, qtd_adj, qtd_noun, qtd_adv = 0,0,0,0
        for tok in doc:
            if tok.pos_ == 'VERB':
                qtd_verb += 1
            if tok.pos_ == 'ADJ':
                qtd_adj += 1
            if tok.pos_ == 'NOUN':
                qtd_noun += 1
            if tok.pos_ == 'ADV':
                qtd_adv += 1

        arr_verb.append(qtd_verb / len(doc))
        arr_adj.append(qtd_adj / len(doc))
        arr_noun.append(qtd_noun / len(doc))
        arr_adv.append(qtd_adv / len(doc))        
    

    dct_feats["sent5"] = arr_sent5
    dct_feats["sent5_10"] = arr_sent5_10
    dct_feats["sent10"] = arr_sent10
    
    dct_feats["erros"] = arr_erros
    dct_feats["chars"] = arr_chars

    dct_feats["per"] = arr_per
    dct_feats["loc"] = arr_loc
    dct_feats["org"] = arr_org
    dct_feats["misc"] = arr_misc
    
    dct_feats["arg"] = arr_arg
    dct_feats["press"] = arr_press
    dct_feats["pos_nec"] = arr_pos_nec
    dct_feats["op_val"] = arr_op_val
    
    dct_feats["verb"] = arr_verb
    dct_feats["adj"] = arr_adj
    dct_feats["noun"] = arr_noun
    dct_feats["adv"] = arr_adv
    
    return dct_feats

dct_fts = get_features(X_train)

# 3 - Visualização dos dados:
Coloque nesta seção os gráficos do PCA e do t-SNE, para cada representação. Responda também às seguintes perguntas: 

a) Existe algum padrão com relação às classes? 

b) Caso exista algum padrão, você pode concluir alguma coisa? 

c) Caso não exista, você consegue dizer se isso tem a ver com alguma representação ou classe?

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

**PCA**

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

In [None]:
# Voltar com o formato da feature para texto, mas sem as stop words
nltk.download('machado')
corpus_filmes = []
for f_id in machado.fileids():
    tok_lst = simple_preprocess(df_processado.raw(f_id)) #convertendo para o formato de texto
    corpus_filmes.append(' '.join(tok_lst)) 

In [None]:
df_processado[1:4]

In [None]:
matrix = df_processado['text_stopwords'].fit_transform(corpus_filmes)

In [None]:
!pip install -U yellowbrick
from yellowbrick.features import PCA
from sklearn.preprocessing import StandardScaler

In [None]:
sc = StandardScaler(with_mean=False)
matrix = sc.fit_transform(matrix)

In [None]:
# o que podemos concluir? os pontos são muito parecido, mas existem dois bem diferentes? 
# quem são esses dois?
visualizer = PCA(scale=True)
visualizer.fit_transform(matrix.toarray())
visualizer.show()

t-**SNE**

In [None]:
from yellowbrick.text import TSNEVisualizer

In [None]:
tsne = TSNEVisualizer()

# se existissem classes, poderiamos visualizar os pontos com cores diferentes. Cada um de acordo
# com uma classe.
tsne.fit(matrix.toarray())
tsne.show()

# 4 - Classificadores : 
Descreva sucintamente os dois classificadores escolhidos. Você usou algum parâmetro que não seja padrão? Se sim, mencione nesta seção.

In [None]:
#EXEMPLO

A tarefa escolhida foi a classificação de redações no estilo do ENEM. O objetivo é classificar cada redação de acordo com o grupo de 
notas 0, 200, 400, 600, 800 e 1000. O Corpus possui 1840 instâncias e a média de tokens por documento é 226,85.
print(f'Quantidade de instâncias do Corpus: {len(data)}')
print(f'Média de tokens por documento: {np.mean(toks)}')



# 5 - Resultados: 
Escreva código que execute a validação cruzada em 5-folds para os dois classificadores escolhidos. Também responda às seguintes perguntas: Os embeddings realmente mostraram um resultado melhor que o TF-IDF? Se não, qual foi a representação que teve o melhor desempenho? A diferença foi muito grande?

# 6 - Conclusão: 
Por fim fale aqui o que você conclui das visualizações e dos resultados. Tente explicar em detalhes por que um resultado, na sua opinião, foi melhor do que outro. Esta explicação pode incluir hipóteses para resultados melhores ou resultados piores. Também pode falar das dificuldades enfrentadas durante o trabalho e como conseguiu contorná-las.