<a href="https://colab.research.google.com/github/viniciusrpb/cic0193_machinelearning/blob/main/cap4_text_processing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Capítulo 4

## Processamento de Textos

Neste notebook, vamos abordar a extração de características e pré-processamento de textos.

In [251]:
import re
import numpy as np
import pandas as pd
import math
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from nltk.stem.porter import PorterStemmer
from collections import Counter

## Visão geral do processo de pré-processamento e extração de características



Vamos criar uma sentença:

In [252]:
sentence = "O Athletico Paranaense eh o melhor time do pais dentre 54. Dito isso, nao existem questionamentos ou outro time que ira vencer #paz."

A partir da sentença, vamos extrair seus tokens:

In [253]:
tokens = str.split(sentence)

tokens

['O',
 'Athletico',
 'Paranaense',
 'eh',
 'o',
 'melhor',
 'time',
 'do',
 'pais',
 'dentre',
 '54.',
 'Dito',
 'isso,',
 'nao',
 'existem',
 'questionamentos',
 'ou',
 'outro',
 'time',
 'que',
 'ira',
 'vencer',
 '#paz.']

Agora vamos criar um vocabulário com base no documento. Para isso, precisamos ordenar alfabeticamente os tokens:

In [254]:
vocab = sorted(set(tokens))
vocab

['#paz.',
 '54.',
 'Athletico',
 'Dito',
 'O',
 'Paranaense',
 'dentre',
 'do',
 'eh',
 'existem',
 'ira',
 'isso,',
 'melhor',
 'nao',
 'o',
 'ou',
 'outro',
 'pais',
 'que',
 'questionamentos',
 'time',
 'vencer']

Agora vamos criar uma representação numérica dessa sentença baseada em one-hot encoding, em que as colunas se referem às palavras do vocabulário e as linhas aos tokens 

In [255]:
num_tokens = len(tokens)

vocab_size = len(vocab)

onehot_encoding = np.zeros((num_tokens,vocab_size),int)

In [256]:
for i,word in enumerate(tokens):
  onehot_encoding[i,vocab.index(word)] = 1

In [257]:
onehot_encoding

array([[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0,

Colocando essa representação numérica em um DataFrame:

In [258]:
pd.DataFrame(onehot_encoding,columns=vocab)

Unnamed: 0,#paz.,54.,Athletico,Dito,O,Paranaense,dentre,do,eh,existem,ira,"isso,",melhor,nao,o,ou,outro,pais,que,questionamentos,time,vencer
0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0
7,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0
9,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


## Pré-processamento

Coloca todos os caracteres de um texto em minúsculo



In [259]:
lower_sentence = sentence.lower();

Utilizamos expressões regulares para remover os símbolos de pontuação que podem estar acoplados às palavras:

In [260]:
tokens = re.split(r'[-\s.,;!#?@]+',lower_sentence)

tokens

['o',
 'athletico',
 'paranaense',
 'eh',
 'o',
 'melhor',
 'time',
 'do',
 'pais',
 'dentre',
 '54',
 'dito',
 'isso',
 'nao',
 'existem',
 'questionamentos',
 'ou',
 'outro',
 'time',
 'que',
 'ira',
 'vencer',
 'paz',
 '']

Em seguida, removemos as stop words do texto, pois essas palavras não contribuem com informações relevantes na caracterização. Para isso, podemos definir uma lista de stop words denominada stop list:

In [261]:
stop_list = ['eh','o','que','do','ou','se','e','para']

Entretanto, incluir stop words uma a uma pode ser trabalhoso, apensar de ser apropriado dependendo da tarefa de aprendizado de máquina e a natureza do texto. Alternativamente, podemos fazer o download das stop words da língua Portuguesa utilizando a biblioteca nltk:

In [262]:
nltk.download('stopwords')

stop_list_nltk = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Finalmente, geramos uma lista com as palavras remanescentes após a remoção de stop words:

In [263]:
important_words = [x for x in tokens if x not in stop_list_nltk]

#important_words = [x for x in tokens if x not in stop_list]

len(important_words)

18

Mais um processamento adicional se trata da stemmização, em que tentaremos remover as terminações e flexão das palavras. Dentre os diversos Stemmers que podem ser encontrados para diferentes línguas, utilizamos a seguir o Stemmer de Porter:

In [264]:
stemmer = PorterStemmer()

tokens_final = [stemmer.stem(w).strip(" ") for w in important_words]

tokens_final

['athletico',
 'paranaens',
 'eh',
 'melhor',
 'time',
 'pai',
 'dentr',
 '54',
 'dito',
 'nao',
 'existem',
 'questionamento',
 'outro',
 'time',
 'ira',
 'vencer',
 'paz',
 '']

Finalmente, para facilitar o pré-processamento de vários textos, podemos criar uma função:

In [265]:
def preprocessing(text):

  lower_sentence = text.lower();

  tokens = re.split(r'[-\s.,;!#?@]+',lower_sentence)

  nltk.download('stopwords')

  stop_list_nltk = nltk.corpus.stopwords.words('portuguese')

  important_words = [x for x in tokens if x not in stop_list_nltk]

  stemmer = PorterStemmer()

  tokens_final = [stemmer.stem(w).strip(" ") for w in important_words]

  return tokens_final


## Extração de características

O objetivo dessa etapa consiste em transformar os documentos de textos de um corpus em vetores de características. Começaremos entendendo a abordagem de matriz de incidência binária, que foi introduzida na primeira seção desse notebook.

Primeiramente, vamos montar um pequeno corpus, em que cada documento está associado com uma frase (string):

In [266]:
corpus = []

corpus.append("O Athletico Paranaense eh o melhor time do pais dentre 54. Dito isso, nao existem questionamentos ou outro time que ira vencer #paz.")
corpus.append("O pais possui varios times e o questionamento eh se ha espaco para golfe")
corpus.append("Vasco eh time estranho, mas nao eh o melhor")
corpus.append("Vencer eh o que vale. Sera o melhor do pais")

Em seguida, cada texto do corpus será tokenizado e pré-processado:

In [267]:
tokens = []

for text in corpus:
  tokens.append(preprocessing(text))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Agora vamos recriar a matriz de incidência binária para o corpus

In [268]:
bow_binario = {}

for i,doc_tokens in enumerate(tokens):
  bow_binario['doc {}'.format(i)] = dict((token,1) for token in doc_tokens)

bow_binario

{'doc 0': {'': 1,
  '54': 1,
  'athletico': 1,
  'dentr': 1,
  'dito': 1,
  'eh': 1,
  'existem': 1,
  'ira': 1,
  'melhor': 1,
  'nao': 1,
  'outro': 1,
  'pai': 1,
  'paranaens': 1,
  'paz': 1,
  'questionamento': 1,
  'time': 1,
  'vencer': 1},
 'doc 1': {'eh': 1,
  'espaco': 1,
  'golf': 1,
  'ha': 1,
  'pai': 1,
  'possui': 1,
  'questionamento': 1,
  'time': 1,
  'vario': 1},
 'doc 2': {'eh': 1,
  'estranho': 1,
  'melhor': 1,
  'nao': 1,
  'time': 1,
  'vasco': 1},
 'doc 3': {'eh': 1, 'melhor': 1, 'pai': 1, 'sera': 1, 'vale': 1, 'vencer': 1}}

Colocamos a matriz de incidência binária em um data frame:

In [269]:
df = pd.DataFrame.from_records(bow_binario).fillna(0).astype(int).T

df

Unnamed: 0,athletico,paranaens,eh,melhor,time,pai,dentr,54,dito,nao,existem,questionamento,outro,ira,vencer,paz,Unnamed: 17,possui,vario,ha,espaco,golf,vasco,estranho,vale,sera
doc 0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0
doc 1,0,0,1,0,1,1,0,0,0,0,0,1,0,0,0,0,0,1,1,1,1,1,0,0,0,0
doc 2,0,0,1,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0
doc 3,0,0,1,1,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,1


A matriz de incidência binária possui uma desvantagem: informações de frequência das palavras não são contabilizadas. Por isso, podemos alterar essa abordagem de BoW por matriz de incidência para uma matriz de contagens:

In [270]:
bow_counter = {}

for i,doc_tokens in enumerate(tokens):
  
  histograma = Counter(doc_tokens)
  
  bow_counter['doc {}'.format(i)] = histograma

In [271]:
bow_counter

{'doc 0': Counter({'': 1,
          '54': 1,
          'athletico': 1,
          'dentr': 1,
          'dito': 1,
          'eh': 1,
          'existem': 1,
          'ira': 1,
          'melhor': 1,
          'nao': 1,
          'outro': 1,
          'pai': 1,
          'paranaens': 1,
          'paz': 1,
          'questionamento': 1,
          'time': 2,
          'vencer': 1}),
 'doc 1': Counter({'eh': 1,
          'espaco': 1,
          'golf': 1,
          'ha': 1,
          'pai': 1,
          'possui': 1,
          'questionamento': 1,
          'time': 1,
          'vario': 1}),
 'doc 2': Counter({'eh': 2,
          'estranho': 1,
          'melhor': 1,
          'nao': 1,
          'time': 1,
          'vasco': 1}),
 'doc 3': Counter({'eh': 1,
          'melhor': 1,
          'pai': 1,
          'sera': 1,
          'vale': 1,
          'vencer': 1})}

In [272]:
df = pd.DataFrame.from_records(bow_counter).fillna(0).astype(int).T

df

Unnamed: 0,athletico,paranaens,eh,melhor,time,pai,dentr,54,dito,nao,existem,questionamento,outro,ira,vencer,paz,Unnamed: 17,possui,vario,ha,espaco,golf,vasco,estranho,vale,sera
doc 0,1,1,1,1,2,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0
doc 1,0,0,1,0,1,1,0,0,0,0,0,1,0,0,0,0,0,1,1,1,1,1,0,0,0,0
doc 2,0,0,2,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0
doc 3,0,0,1,1,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,1


## Term Frequency - Inverse Document Frequency (TF-IDF)

Por fim, a abordagem Term Frequency-Inverse Document Frequency é calculada como:

## Extração de Características e Pré-Processamento por meio da scikit-learn

Aqui apresentamos como realizar a extração de características utilizando a abordagem Bag-of-Words por matriz de contagem. Para esse propósito, vamos utilizar a classe CountVectorizer da biblioteca scikit-learn.

Clique [aqui](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer) para acessar a documentação.

In [273]:
vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

print(X.toarray())

[[1 1 1 1 1 1 0 0 1 0 0 1 1 0 1 1 1 1 1 0 1 1 0 1 0 1 0 0 2 0 0 0 0 1]
 [0 0 0 0 0 1 1 0 0 1 1 0 0 0 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0 1 0 1 0 0]
 [0 0 0 0 0 2 0 1 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0]
 [0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 1 0 0 1]]


In [274]:
print(vectorizer.get_feature_names())

print(X.shape)

['54', 'athletico', 'dentre', 'dito', 'do', 'eh', 'espaco', 'estranho', 'existem', 'golfe', 'ha', 'ira', 'isso', 'mas', 'melhor', 'nao', 'ou', 'outro', 'pais', 'para', 'paranaense', 'paz', 'possui', 'que', 'questionamento', 'questionamentos', 'se', 'sera', 'time', 'times', 'vale', 'varios', 'vasco', 'vencer']
(4, 34)


Clique [aqui](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) para acessar a documentação.

In [275]:
vectorizer = TfidfVectorizer()

X = vectorizer.fit_transform(corpus)

Da mesma maneira como no CounterVectorizer, podemos extrair os termos que foram as colunas da representação TF-IDF:

In [276]:
print(vectorizer.get_feature_names())

print(X.shape)

['54', 'athletico', 'dentre', 'dito', 'do', 'eh', 'espaco', 'estranho', 'existem', 'golfe', 'ha', 'ira', 'isso', 'mas', 'melhor', 'nao', 'ou', 'outro', 'pais', 'para', 'paranaense', 'paz', 'possui', 'que', 'questionamento', 'questionamentos', 'se', 'sera', 'time', 'times', 'vale', 'varios', 'vasco', 'vencer']
(4, 34)


A classe TfIdfVectorizer possui em seu construtor alguns atributos que realizam pré-processamentos, como remoção de stop-words, padrões de extração dos termos e alterações na maneira com que o TF-IDF pode ser calculado, como a quantidade (ou proporção) mínima ou máxima em que a frequência dos documentos é considerada. Maiores detalhes consulte a documentação da classe. 

No exemplo abaixo, a matriz TF-IDF é obtida a partir dos termos obtidos de pré-processamento em que os termos são tratados como bi-grams. O atributo max_df ignora os termos que se apresentam em mais do 96% de todos os documentos do corpus, em que valores entre [0.7,1.0) são úteis para remoção de stop-words. Já o atributo min_df ignora termos que pouco aparecem em, no mínimo, dois documentos (altere esse valor para 1 para analisar como mais termos podem ser considerados).

In [277]:
vectorizer = TfidfVectorizer(ngram_range=(2,2),max_df=0.96,min_df=2)

X = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names())

['do pais', 'eh melhor']


## Similaridade entre textos

O objetivo dessa seção é determinar a similaridade entre dois textos, representados pelos seus vetores TF-IDF, por meio da similaridade cosseno. Primeiramente, definimos uma função que implementa o cálculo da similaridade cosseno:

In [278]:
def cosine_similarity(v1,v2):
  
  dot_prod = 0
  for i,v in enumerate(v1):
    dot_prod += v * v2[i]

  mag_v1 = math.sqrt(sum([x**2 for x in v1]))
  mag_v2 = math.sqrt(sum([x**2 for x in v2]))

  return dot_prod / (mag_v1 * mag_v2)

Vamos criar duas sentenças e determinar a similairdade entre elas:

In [279]:
sentence1 = "Positivo e negativo e neutro"
sentence2 = "Positivo demais hoje"

corpus = []
corpus.append(sentence1)
corpus.append(sentence2)

tfidf_obj = TfidfVectorizer()

tfidf_vectors = tfidf_obj.fit_transform(corpus)

Separando os vetores de características em variáveis separadas para exemplificar o uso da similaridade cosseno:

In [280]:
X = tfidf_vectors.toarray()

vet1 = X[0]
vet2 = X[1]

Imprime a similaridade cosseno entre os vetores TF-IDF das sentenças 1 e 2:

In [281]:
print(cosine_similarity(vet1,vet2))

0.2019930924979184
