# Aula 11 - Processamento de Linguagem Natural

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Dados Estruturados e Não Estruturados
- 2) Introdução a NLP
- 3) Processamento de Textos
- 4) Exercícios
- 5) Curva ROC-AUC

<img src="https://i1.wp.com/thedatascientist.com/wp-content/uploads/2018/09/data_science_wordcloud.png?fit=1584%2C1008&ssl=1" width=800>

##   

## Dados Estruturados e Não-Estruturados

Primeiramente, precisamos entender qual a diferença enre as duas fontes de dados mais comuns, sendo elas dados **estruturados** e **não estruturados**. Definimos ele como:
<br><br>
- **Dados Estruturados:** São dados que seguem uma estrutura mais rígida com um padrão fixo e constante. Por exemplo: Tabelas e DataFrames;<br><br>
- **Dados Não estruturados:** Como já diz o nome, são dados que não tem uma estrutura bem estabelecida e necessitam de um processamento adicional para trabalharmos com eles. Exemplos: áudios, vídeos, textos e etc

##   

## Introdução ao Processamento de Linguagem Natural (NLP)

O Processamento de Linguagem Natural, mas conhecido como NLP, é a abordagem onde trabalhamos com **dados não estruturados** do tipo **Texto**. O objetivo de trabalharmos com textos é extrair de informação e teor linguístico das nossas bases de textos e converter isso de uma forma númerica, onde poderemos utilizar em nossos modelos de *Machine Learning*.<br><br>
Temos como exemplos de aplicações de NLP como:
- Análise de Sentimentos em review de filmes e produtos ou mensagens em redes sociais;
- Filtro de E-Mails Spams e Não Spams;
- Identificação de textos a partir de construções linguísticas (descobrir se um texto foi escrito ou não por Machado de assis);
- Tradutores de Idiomas;
- ChatBots;
- Corretores Ortográficos;
- Classificação de textos de acordo com o conteúdo do texto (Esportes, Política, Economia e etc).
<br><br>
Nesta aula iremos aprender a partir dos nossos dados textuais a como processar, tratar e transformar os dados de uma maneira que os modelos de *Machine Learning* entendam.<br><br>

A principal biblioteca de referência para NLP chama-se [NLTK - Natural Language Toll Kit](https://www.nltk.org/)

##  

## Processamento de Textos

Antes de mais nada, precisamos filtrar e tratar os nossos textos, de forma a deixar apenas o conteúdo de mais relevantes para a nossa análise. Existem alguns processos importantes para trabalhar com os textos (não necessariamente você precisa aplicar todos os procesos!), onde iremos detalhar a seguir:

### Stopwords

Stopwords são palavras que aparecem com uma frequência muito alta nos textos, mas que não trazem um teor de conteúdo relevante para o nosso modelo. Vamos entender isso na prática:

In [1]:
import nltk
from nltk.corpus import stopwords 
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to C:\Users\ITX
[nltk_data]     Gamer\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to C:\Users\ITX
[nltk_data]     Gamer\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Baixada a função de Stopwords, vamos definir um set de stopwords onde teremos uma lista com todas as stopwords em inglês já identificadas:

In [2]:
stopwords = set(stopwords.words('english'))

In [3]:
stopwords

{'a',
 'about',
 'above',
 'after',
 'again',
 'against',
 'ain',
 'all',
 'am',
 'an',
 'and',
 'any',
 'are',
 'aren',
 "aren't",
 'as',
 'at',
 'be',
 'because',
 'been',
 'before',
 'being',
 'below',
 'between',
 'both',
 'but',
 'by',
 'can',
 'couldn',
 "couldn't",
 'd',
 'did',
 'didn',
 "didn't",
 'do',
 'does',
 'doesn',
 "doesn't",
 'doing',
 'don',
 "don't",
 'down',
 'during',
 'each',
 'few',
 'for',
 'from',
 'further',
 'had',
 'hadn',
 "hadn't",
 'has',
 'hasn',
 "hasn't",
 'have',
 'haven',
 "haven't",
 'having',
 'he',
 'her',
 'here',
 'hers',
 'herself',
 'him',
 'himself',
 'his',
 'how',
 'i',
 'if',
 'in',
 'into',
 'is',
 'isn',
 "isn't",
 'it',
 "it's",
 'its',
 'itself',
 'just',
 'll',
 'm',
 'ma',
 'me',
 'mightn',
 "mightn't",
 'more',
 'most',
 'mustn',
 "mustn't",
 'my',
 'myself',
 'needn',
 "needn't",
 'no',
 'nor',
 'not',
 'now',
 'o',
 'of',
 'off',
 'on',
 'once',
 'only',
 'or',
 'other',
 'our',
 'ours',
 'ourselves',
 'out',
 'over',
 'own',
 'r

Vamos agora aplicar a remoção de Stopwords:

In [4]:
example = ["my", "house", "is", "black", "and", "white", "but", "isn't", "big"]

clean_list = []

for word in example:
    if word not in stopwords:
        clean_list.append(word)
        
print('A Lista original é: ', example)
print('A Lista sem stopwords é: ', clean_list)

A Lista original é:  ['my', 'house', 'is', 'black', 'and', 'white', 'but', "isn't", 'big']
A Lista sem stopwords é:  ['house', 'black', 'white', 'big']


##  

### Limpeza do Texto

Existem alguns cuidados com relação a grafia das palavras e elementos em um texto que devemos tomar bastante cuidado antes de fazer qualquer outra coisa. Esses pontos são:<br><br>
- Transformar todas as palavras para MAIÚSCULAS ou minúsculas;
- Remover caracteres especiais;
- Remover dígitos (quando não forem relevantes);
- Remover acentuação (caso típico de quando trabalhamos com textos em Português);

### Converter entre MAIÚSCULA e minúscula

In [5]:
string = 'OtoRriNoLaRINgOLoGIsTa'

string_upper = string.upper()
string_lower = string.lower()

print('Palavra Original: ', string)
print('Palavra Maiúscula: ', string_upper)
print('Palavra Minúscula: ', string_lower)

Palavra Original:  OtoRriNoLaRINgOLoGIsTa
Palavra Maiúscula:  OTORRINOLARINGOLOGISTA
Palavra Minúscula:  otorrinolaringologista


##  

### Remoção de dígitos, caracteres especiais e qualquer outro item que não queremos no texto

Para essa etapa do processo, iremos utilizar uma biblioteca auxiliar [RegEx (Regular Expression)](https://docs.python.org/3/library/re.html):

In [6]:
import re

Importada a biblioteca, vamos utilizar a função *re.sub*, para substituir os elementos que não queremos nos nossos textos:

In [7]:
string = 'Siga nas redes sociais o @letscode, ja somos mais de 1 milhao de #hashtags e 200 mil followers'
print('Texto Original: ', string)

# Remove Numbers
string = re.sub(r'\d', '', string)
print('Texto sem os números: ', string)

###
# Remove Special Characters
string = re.sub(r"[^a-zA-Z0-9]+", ' ', string)
print('Texto sem os caracteres especiais: ', string)

Texto Original:  Siga nas redes sociais o @letscode, ja somos mais de 1 milhao de #hashtags e 200 mil followers
Texto sem os números:  Siga nas redes sociais o @letscode, ja somos mais de  milhao de #hashtags e  mil followers
Texto sem os caracteres especiais:  Siga nas redes sociais o letscode ja somos mais de milhao de hashtags e mil followers


Utilizem a documentação para descobrir mais códigos para filtrar elementos ou mesmo deem uma olhada nesse artigo, que resume de uma forma bem visual as aplicações do RegEx: [clique aqui](https://amitness.com/regex/)

##  

### Remoção de Acentuação

Para a remoção de acentuação, iremos utilizar uma bibloteca chamada *Unidecode*:

In [None]:
# Caso precise instalar a biblioteca, descomente o código abaixo
#!pip install unidecode

In [8]:
from unidecode import unidecode

In [9]:
string = 'João Sebastião Alvará Vovô Linguiça Expressão'
print(string)

string = unidecode(string)
print(string)

João Sebastião Alvará Vovô Linguiça Expressão
Joao Sebastiao Alvara Vovo Linguica Expressao


##  

## Tokenização

Tokenização é um processo onde transformamos um texto de uma strin única em fragmentos desse texto na forma de *tokens*, que nada mais são do que as próprias palavras! Para isso, vamos utilizar a função *word_tokenize* do NLTK:

In [10]:
from nltk.tokenize import word_tokenize

In [11]:
string = 'O rato roeu a roupa do rei de Roma'

words = word_tokenize(string)

print('A frase orginal é: ', string)
print('Os tokens são: ', words)

A frase orginal é:  O rato roeu a roupa do rei de Roma
Os tokens são:  ['O', 'rato', 'roeu', 'a', 'roupa', 'do', 'rei', 'de', 'Roma']


##  

## Normalização de Textos

**Normalização de Textos (Text Normalization)** é o procedimento que consiste em **padronizar** o texto, de modo a evitar que variações tornem os modelos demasiadamente complexos. Por exemplo: tratar singular/plural como a mesma coisa, ou então eliminar conjugação de verbos. Outras componentes comuns da normalização são a de eliminar palavras que não agregam muito significado, ou palavras muito raras.

Abaixo alguns exemplos de ações de Text Normalization que podem ser aplicadas no pré-processamento de dados textuais:

**Stemming** - Redução de tokens à sua raiz invariante através da **remoção de prefixos ou sufixos**. Baseado em heurística<br>
**Lemmatization** - Redução de tokens à sua raiz invariante através da **análise linguística do token**. Baseado em dicionário léxico<br>

## Stemming

In [12]:
from nltk.stem.porter import *

In [13]:
stemmer = PorterStemmer()

In [14]:
words = ['saying', 'writing', 'running', 'ate', 'worked']

stem_words = []
for w in words:
    s_words = stemmer.stem(w)
    stem_words.append(s_words)
    
stem_words

['say', 'write', 'run', 'ate', 'work']

##  

## Lemmatization

In [15]:
# import these modules 
from nltk.stem import WordNetLemmatizer 

# na primeira vez, é necessário baixar o wordnet
# após a primeira vez, pode comentar a linha abaixo
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to C:\Users\ITX
[nltk_data]     Gamer\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [16]:
lemmatizer = WordNetLemmatizer()

In [17]:
print("rocks :", lemmatizer.lemmatize("rocks")) 
print("corpora :", lemmatizer.lemmatize("corpora")) 

# argumento "pos" indica a qual classe gramatical o token pertence
print("running :", lemmatizer.lemmatize("running", pos = "v")) 
print("went :", lemmatizer.lemmatize("went", pos = 'v'))

rocks : rock
corpora : corpus
running : run
went : go


##   

## Pipeline de Processamento de Textos

Conhecendo todos os tipos de processamentos que podemos utilizar, uma forma útil e organizada para isso é construirmos uma funçãi que receba o nosso dados originais e realizada todos os processamentos que queremos nos textos:

In [18]:
# Pipeline - Text Preprocessing
def preprocessing(string):
    ###
    # Remove Numbers
    string = re.sub(r'\d', '', string)
    ###
    # Remove Special Characters
    string = re.sub(r"[^a-zA-Z0-9]+", ' ', string)
    ###
    # Lowercase words
    string = string.lower()
    ###
    # Word Tokenize
    words = word_tokenize(string)
    ###
    # Remove Stopwords
    filtered_words = []
    for w in words:
        if w not in stopwords:
            filtered_words.append(w)
    ###
    # Stemming Words
    stem_words = []
    for w in filtered_words:
        s_words = stemmer.stem(w)
        stem_words.append(s_words)
    ###
    return stem_words

Vamos agora já começar a práticar com os nossos dados de exemplo:

In [19]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [20]:
movies = pd.read_csv('./datasets/movies.csv', index_col=0)

Nosso exemplo será uma Análise de Sentimento em Críticas de Filmes, onde vamos identificar se a crítica foi boa ou não:

In [21]:
movies.head()

Unnamed: 0,text,label
0,I grew up (b. 1965) watching and loving the Th...,0
1,"When I put this movie in my DVD player, and sa...",0
2,Why do people who do not know what a particula...,0
3,Even though I have great interest in Biblical ...,0
4,Im a die hard Dads Army fan and nothing will e...,1


In [22]:
movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 50000 entries, 0 to 4999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    50000 non-null  object
 1   label   50000 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 1.1+ MB


In [23]:
movies['label'].value_counts()

0    25000
1    25000
Name: label, dtype: int64

A nossa base de dados tem 50 mil linhas e levando em consideração que as críticas são sobre filmes diversos, a quantidade de palavras disponíveis nos textos será muito grande. Para economizar tempo de aula com processamneto dos textos e modelagem, iremos criar uma amostra com 10% da base:

In [24]:
movies_sample = movies.sample(frac=0.1, replace=False)

In [25]:
movies.shape

(50000, 2)

In [26]:
movies_sample.shape

(5000, 2)

Agora iremos aplicar o nosso processamento dos textos:

In [27]:
movies_sample["filtered_words"] = movies_sample['text'].apply(lambda x: preprocessing(x))

# Normalmente depois do processamento juntamos as palavras novamente em uma só string

movies_sample['join_words'] = movies_sample['filtered_words'].apply(lambda x: ' '.join(x))

In [28]:
movies_sample.head()

Unnamed: 0,text,label,filtered_words,join_words
758,"I really liked the Far Cry game, nice graphics...",0,"[realli, like, far, cri, game, nice, graphic, ...",realli like far cri game nice graphic good lev...
35928,An unflinching descent into psychological and ...,1,"[unflinch, descent, psycholog, physic, oblivio...",unflinch descent psycholog physic oblivion und...
16957,"I expected a comedy like the ""Big Mama"" movies...",0,"[expect, comedi, like, big, mama, movi, instea...",expect comedi like big mama movi instead movi ...
36191,The Toxic Avenger... <br /><br />The idea of t...,0,"[toxic, aveng, br, br, idea, movi, person, com...",toxic aveng br br idea movi person common popu...
39386,This is possibly the worst of the cockney gang...,0,"[possibl, worst, cockney, gangster, genr, blig...",possibl worst cockney gangster genr blight bri...


##   

## Corpus

Com isso chegamos ao fim do pré-processamento, uma das etapas mais importantes de todo projeto de NLP!

É importante ressaltar que a escolha das etapas de pré-processamento não é algo óbvio, dado que há muitas escolhas possíveis acerca do que se fazer para pré-processar os dados. Assim, o indicado é treinar diferentes modelos testando diferentes combinações das técnicas de pré-processamento, até que o melhor procedimento seja encontrado!

**Nomenclatura**: o conjunto de mensagens pré-processadas é chamado de **Corpus**.

## Vocabulário

O vocabulário do corpus nada mais é do que uma listagem das palavras individuais que aparecem no corpus. Para encontrar o vocabulário, basta contarmos a aparição de cada palavra isolada no corpus. Ao fim, teremos N palavras únicas que compõem nosso vocabulário.

In [None]:
vocabulario = []
for frase in movies_sample['join_words']:
    for palavra in frase.split():
        
        #não queremos palavras de uma única letra (pode acontecer devido ao stemming...)
        if len(palavra) > 1:
            if palavra not in [x[0] for x in vocabulario]:
                vocabulario.append([palavra, 1])
            else:
                vocabulario[[x[0] for x in vocabulario].index(palavra)][1] += 1
            
print("\nO vocabulário é formado por N =", len(vocabulario), "palavras!")

#a partir do vocabulário, crio um dataframe com a contagem
vocab_count = pd.DataFrame({"palavra": [],
                            "count": []})

vocab_count["palavra"] = pd.Series(vocabulario).apply(lambda x: x[0])
vocab_count["count"] = pd.Series(vocabulario).apply(lambda x: x[1])
vocab_count = vocab_count.sort_values("count", ascending=False)

print("\nTemos a seguir as 10 mais comuns, com as respectivas contagens:")
display(vocab_count.head(10))

##  

## Exercícios

**1)** Usando a base *spamham.csv*, faça o processamento dos textos aplicando as limpezas necessárias para tal. Tente levantar o vocabulário dos e-mails e print o top 10 palavras deste dataset.

**2)** Utilizando os dados de tweets vamos avaliar  tweets são de desastres ou não. Essa base é um dataset conhecido do Kaggle, onde vocês podem ter mais detalhes [clicando aqui](https://www.kaggle.com/c/nlp-getting-started/overview). Faça o processamento dos textos aplicando as limpezas necessárias para tal. Tente levantar o vocabulário dos e-mails e print o top 10 palavras deste dataset.