## Aula 1 - Processamento de Linguagem Natual

Na aula de hoje, vamos explorar os seguintes t√≥picos em Python:

1) Dados Estruturados e N√£o Estruturados.  
2) Introdu√ß√£o a NLP.  
3) Processamento de Textos.  
4) Exerc√≠cios.  

<img src="https://i1.wp.com/thedatascientist.com/wp-content/uploads/2018/09/data_science_wordcloud.png?fit=1584%2C1008&ssl=1" width=800>

Primeiramente, precisamos entender qual a diferen√ßa enre as duas fontes de dados mais comuns, sendo elas dados **estruturados** e **n√£o estruturados**. Definimos ele como:
<br><br>
- **Dados Estruturados:** S√£o dados que seguem uma estrutura mais r√≠gida com um padr√£o fixo e constante. Por exemplo: Tabelas e DataFrames;<br><br>
- **Dados N√£o estruturados:** Como j√° diz o nome, s√£o dados que n√£o tem uma estrutura bem estabelecida e necessitam de um processamento adicional para trabalharmos com eles. Exemplos: √°udios, v√≠deos, textos e etc

### Introdu√ß√£o ao Processamento de Linguagem Natural (NLP)

O Processamento de Linguagem Natural, mas conhecido como NLP, √© a abordagem onde trabalhamos com **dados n√£o estruturados** do tipo **Texto**. O objetivo de trabalharmos com textos √© extrair de informa√ß√£o e teor lingu√≠stico das nossas bases de textos e converter isso de uma forma n√∫merica, onde poderemos utilizar em nossos modelos de *Machine Learning*.<br><br>
Temos como exemplos de aplica√ß√µes de NLP como:
- An√°lise de Sentimentos em review de filmes e produtos ou mensagens em redes sociais;
- Filtro de E-Mails Spams e N√£o Spams;
- Identifica√ß√£o de textos a partir de constru√ß√µes lingu√≠sticas (descobrir se um texto foi escrito ou n√£o por Machado de assis);
- Tradutores de Idiomas;
- ChatBots;
- Corretores Ortogr√°ficos;
- Classifica√ß√£o de textos de acordo com o conte√∫do do texto (Esportes, Pol√≠tica, Economia e etc).
<br><br>
Nesta aula iremos aprender a partir dos nossos dados textuais a como processar, tratar e transformar os dados de uma maneira que os modelos de *Machine Learning* entendam.<br><br>

A principal biblioteca de refer√™ncia para NLP chama-se [NLTK - Natural Language Toll Kit](https://www.nltk.org/)

**Drops** 

Procure outras aplica√ß√µes de NLP, pode ser na √°rea que trabalha!

Por exemplo, na √°rea financeira
____
R:



### Processamento de Textos

Antes de mais nada, precisamos filtrar e tratar os nossos textos, de forma a deixar apenas o conte√∫do de mais relevantes para a nossa an√°lise. Existem alguns processos importantes para trabalhar com os textos (n√£o necessariamente voc√™ precisa aplicar todos os procesos)

- Remo√ß√£o de Stopwords;
- Limpeza de Textos;
- Tokeniza√ß√£o;
- Normaliza√ß√£o do Texto.



In [1]:
# Importanto o NLTK
import nltk
# Importando o stopwords
from nltk.corpus import stopwords
# Fazendo o download das stopwords do nltk
nltk.download('stopwords')
nltk.download('punkt') # https://www.nltk.org/_modules/nltk/tokenize/punkt.html
nltk.download('rslp')  # Stemmer para portugu√™s

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/joao_pasinihotmail/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to
[nltk_data]     /Users/joao_pasinihotmail/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package rslp to
[nltk_data]     /Users/joao_pasinihotmail/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

### Stopwords

Stopwords s√£o palavras que aparecem com uma frequ√™ncia muito alta nos textos, mas que n√£o trazem um teor de conte√∫do relevante para o nosso modelo. Vamos entender isso na pr√°tica:

In [2]:
stopwords_en = stopwords.words('english')

Baixada a fun√ß√£o de Stopwords, vamos definir um set de stopwords onde teremos uma lista com todas as stopwords em ingl√™s j√° identificadas:

In [3]:
stopwords_port = stopwords.words('portuguese')

In [4]:
stopwords_port

['a',
 '√†',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 '√†s',
 'at√©',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 '√©',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 '√©ramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'est√°',
 'estamos',
 'est√£o',
 'estar',
 'estas',
 'estava',
 'estavam',
 'est√°vamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estiv√©ramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estiv√©ssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'f√¥ramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'f√¥ssemos',
 'fui',
 'h√°',
 'haja',
 'hajam',
 'hajamos',
 'h√£o',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houver√°',
 'houveram',
 'houv√©ramos',
 'houver√£o',
 'houverei',
 

Vamos agora aplicar a remo√ß√£o de Stopwords:

In [None]:
example = ["my", "house", "is", "black", "and", "white", "but", "isn't", "big"]

**Drops**

Crie uma fun√ß√£o que remova da lista `example` elementos que estejam presentes na lista `stopwords_en`.

Nessa fun√ß√£o deve ter tr√™s par√¢metros:
- words
- stopwords
- debug

A `words` √© uma lista de palavras, como a vari√°vel `example` criada acima (List[str]).

A `stopwords` √© uma lista de palavras de stopwords, como a vari√°vel `stopwords_en` criada acima (List[str]).

O par√¢metro `debug` ir√° auxiliar no debug, identificando quais palavras/elementos foram removidos durante a limpeza dos dados. Esse par√¢metro √© um boolean (True/False), se verdadeiro iremos imprimir quais palavras foram retiradas.

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa fun√ß√£o para garantir a qualidade de c√≥digo.

### Limpeza do Texto

Existem alguns cuidados com rela√ß√£o a grafia das palavras e elementos em um texto que devemos tomar bastante cuidado antes de fazer qualquer outra coisa. Esses pontos s√£o:<br><br>
- Transformar todas as palavras para MAI√öSCULAS ou min√∫sculas;
- Remover caracteres especiais;
- Remover d√≠gitos (quando n√£o forem relevantes);
- Remover acentua√ß√£o (caso t√≠pico de quando trabalhamos com textos em Portugu√™s);

### Converter entre MAI√öSCULA e min√∫scula

**Drops**

Crie uma fun√ß√£o que receba uma palavra e normalizando-as em caixa alta ou baixa.

Nessa fun√ß√£o deve ter tr√™s par√¢metros:
- word
- debug

A `word` palavra, como por exemplo `Rel√≥gio` (str).

O par√¢metro `debug` ir√° auxiliar no debug, podendo imprimir a palavra antes e ap√≥s a transforma√ß√£o

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa fun√ß√£o para garantir a qualidade de c√≥digo.

### Remo√ß√£o de d√≠gitos, caracteres especiais e qualquer outro item que n√£o queremos no texto

Para essa etapa do processo, iremos utilizar uma biblioteca auxiliar [RegEx (Regular Expression)](https://docs.python.org/3/library/re.html):

In [None]:
import re

Importada a biblioteca, vamos utilizar a fun√ß√£o *re.sub*, para substituir os elementos que n√£o queremos nos nossos textos:

**Procure por re.sub**  
https://docs.python.org/3/library/re.html


#### Removendo digitos
**Drops**

Crie uma fun√ß√£o que receba uma frase e remova os digitos ([0-9]).  
Nessa fun√ß√£o deve ter dois par√¢metros:
- phrase
- debug

A `phrase`, √© uma frase como por exemplo `'Siga nas redes sociais o @letscode, ja somos mais de 1 milhao de #hashtags e 200 mil followers'` (str).

O par√¢metro `debug` ir√° auxiliar no debug, podendo imprimir a frase antes e ap√≥s a transforma√ß√£o

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa fun√ß√£o para garantir a qualidade de c√≥digo.

Obs: Utilize o site https://regex101.com/ para criar o regex e o re.sub para substituir.

In [None]:
frase = 'Siga nas redes sociais o @letscode, ja somos mais de 1 milhao de #hashtags e 200 mil followers'


#### Removendo caracteres especiais
**Drops**

Crie uma fun√ß√£o que receba uma frase e remova os caracteres especiais (p.ex, √£,√µ, √™, @, #, etc).  
Nessa fun√ß√£o deve ter dois par√¢metros:
- phrase
- debug

A `phrase`, √© uma frase como por exemplo `'Siga nas redes sociais o @letscode, ja somos mais de 1 milhao de #hashtags e 200 mil followers'` (str).

O par√¢metro `debug` ir√° auxiliar no debug, podendo imprimir a frase antes e ap√≥s a transforma√ß√£o

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa fun√ß√£o para garantir a qualidade de c√≥digo.

Obs: Utilize o site https://regex101.com/ para criar o regex e o re.sub para substituir.

Obs2: Procure por alfanum√©rico 

In [None]:
remove_special_char(frase)

Utilizem a documenta√ß√£o para descobrir mais c√≥digos para filtrar elementos ou mesmo deem uma olhada nesse artigo, que resume de uma forma bem visual as aplica√ß√µes do RegEx: [clique aqui](https://amitness.com/regex/)

Hoje os emojis fazem parte da comunica√ß√£o via mensagens, por isso iremos ver como utilizar frases contento emojis e trata-los de forma adequada

In [None]:
# Iremos utilizar a biblioteca emoji
!pip install emoji

In [None]:
import emoji

Para ver a lista completa:

https://www.webfx.com/tools/emoji-cheat-sheet/

Link biblioteca: https://github.com/carpedm20/emoji/

#### Convertendo emojis para texto
**Drops**

Crie uma fun√ß√£o que receba uma frase e converta os emojis para texto
Nessa fun√ß√£o deve ter dois par√¢metros:
- phrase
- debug

A `phrase`, √© uma frase como por exemplo `Python is üëç` (str).

O par√¢metro `debug` ir√° auxiliar no debug, podendo imprimir a frase antes e ap√≥s a transforma√ß√£o

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa fun√ß√£o para garantir a qualidade de c√≥digo.

Agora que vimos diversas fun√ß√µes e tratamentos, podemos utilizar o regex para valida√ß√£o de e-mail, por exemplo!

#### Crie uma fun√ß√£o que receba uma string e valide se √© poss√≠velmente um e-mail
**Drops**

Crie uma fun√ß√£o que receba um email e verifique se √© um formato v√°lido de e-mail
- email
- debug

A `email`, √© uma frase como por exemplo `myemail@gmail.com` (str).

O par√¢metro `debug` ir√° auxiliar no debug, podendo imprimir a frase antes e ap√≥s a transforma√ß√£o

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa fun√ß√£o para garantir a qualidade de c√≥digo.

Aplica√ß√£o de NLP para valida√ß√£o de campos.  
- Muito √∫til para evitar ataques de baixa qualidade 
- Evitar cadastro de pessoas inv√°lidas 

Podemos utilizar NLP para identificar frases que contenham uma palavra chave!

### Remo√ß√£o de Acentua√ß√£o
Para a remo√ß√£o de acentua√ß√£o, iremos utilizar uma bibloteca chamada *Unidecode*:

In [None]:
# Caso precise instalar a biblioteca, descomente o c√≥digo abaixo
!pip install unidecode

In [None]:
from unidecode import unidecode

**Drops**

Que remova a acentua√ß√£o das palavras de uma frase
- phrase
- debug

A `phrase`, √© uma frase como por exemplo 'Jo√£o Sebasti√£o Alvar√° Vov√¥ Lingui√ßa express√£o'.

O par√¢metro `debug` ir√° auxiliar no debug, podendo imprimir a frase antes e ap√≥s a transforma√ß√£o

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa fun√ß√£o para garantir a qualidade de c√≥digo.

## Tokeniza√ß√£o

Tokeniza√ß√£o √© um processo onde transformamos um texto de uma string √∫nica em fragmentos desse texto na forma de *tokens*, que nada mais s√£o do que as pr√≥prias palavras! Para isso, vamos utilizar a fun√ß√£o *word_tokenize* do NLTK:

## Normaliza√ß√£o de Textos

**Normaliza√ß√£o de Textos (Text Normalization)** √© o procedimento que consiste em **padronizar** o texto, de modo a evitar que varia√ß√µes tornem os modelos demasiadamente complexos. Por exemplo: tratar singular/plural como a mesma coisa, ou ent√£o eliminar conjuga√ß√£o de verbos. Outras componentes comuns da normaliza√ß√£o s√£o a de eliminar palavras que n√£o agregam muito significado, ou palavras muito raras.

Abaixo alguns exemplos de a√ß√µes de Text Normalization que podem ser aplicadas no pr√©-processamento de dados textuais:

**Stemming** - Redu√ß√£o de tokens √† sua raiz invariante atrav√©s da **remo√ß√£o de prefixos ou sufixos**. Baseado em heur√≠stica<br>
**Lemmatization** - Redu√ß√£o de tokens √† sua raiz invariante atrav√©s da **an√°lise lingu√≠stica do token**. Baseado em dicion√°rio l√©xico<br>

## Stemming

In [None]:
from nltk.stem.porter import *
from nltk.stem import RSLPStemmer

## Lemmatization

Obs: N√£o funciona para portugu√™s, precisamos utilizar o Spacy (outra biblioteca para NLP), veremos mais adiante no curso!

In [None]:
# Importando o Lemmatizer
from nltk.stem import WordNetLemmatizer 

# https://www.nltk.org/howto/wordnet.html
nltk.download('wordnet')

# NLTK 3.6.6 release: December 2021:
# support OMW 1.4, use Multilingual Wordnet Data from OMW with newer Wordnet versions
nltk.download('omw-1.4')

## Pipeline de Processamento de Textos

Conhecendo todos os tipos de processamentos que podemos utilizar, uma forma √∫til e organizada para isso √© construirmos uma fun√ß√£i que receba o nosso dados originais e realizada todos os processamentos que queremos nos textos:

**drops**

Crie uma classe que seja capaz de:

- Metodo para remover acentua√ß√£o
- Metodo de remover digitos
- Metodo de remover caracteres especiais
- Metodo de normalizar o texto em caixa baixa
- Metodo para criar os tokens
- Metodo para filtrar stopwords
- Metodo para pegar o stemming
- Metodo para pegar o lemma
- Metodo de pipeline.

Obs: N√£o iremos fazer os testes em classe, mas √© um desafio interessante de ser realizado p√≥s-aula para treinar TDD.

Vamos agora j√° come√ßar a pr√°ticar com os nossos dados de exemplo:

Nosso exemplo ser√° uma An√°lise de Sentimento em Cr√≠ticas de Filmes, onde vamos identificar se a cr√≠tica foi boa ou n√£o:

A nossa base de dados tem 50 mil linhas e levando em considera√ß√£o que as cr√≠ticas s√£o sobre filmes diversos, a quantidade de palavras dispon√≠veis nos textos ser√° muito grande. Para economizar tempo de aula com processamneto dos textos e modelagem, iremos criar uma amostra com 10% da base:

Agora iremos aplicar o nosso processamento dos textos:

**Drops**

Aplique o pipeline acima da classe `PreProcesssPhrase()`
```
pipeline = [
    'remove_digits',
    'remove_special_char',
    'word_lower',
    'tokenizer',
    'remove_stopwords',
    'stemmer'
]
```

Na base de dados movies, coluna `text`, atribua o resultado numa coluna chamada `filtered_words`

Obs: pode ser utilizado o apply para tal.


## Corpus

Com isso chegamos ao fim do pr√©-processamento, uma das etapas mais importantes de todo projeto de NLP!

√â importante ressaltar que a escolha das etapas de pr√©-processamento n√£o √© algo √≥bvio, dado que h√° muitas escolhas poss√≠veis acerca do que se fazer para pr√©-processar os dados. Assim, o indicado √© treinar diferentes modelos testando diferentes combina√ß√µes das t√©cnicas de pr√©-processamento, at√© que o melhor procedimento seja encontrado!

**Nomenclatura**: o conjunto de mensagens (tamb√©m conhecido como documentos) pr√©-processadas √© chamado de **Corpus**.

## Vocabul√°rio

O vocabul√°rio do corpus nada mais √© do que uma listagem das palavras individuais que aparecem no corpus. Para encontrar o vocabul√°rio, basta contarmos a apari√ß√£o de cada palavra isolada no corpus. Ao fim, teremos N palavras √∫nicas que comp√µem nosso vocabul√°rio.

### Criando nossa nuvem de palavras

In [None]:
pip install wordcloud

**Vocabul√°rio de cr√≠ticas positivas**

Criando a wordcloud apenas de cr√≠ticas positivas

**Vocabul√°rio de cr√≠ticas negativas**

Criando a wordcloud apenas de cr√≠ticas negativas

## Exerc√≠cios

**1)** Usando a base *spamraw.csv*, fa√ßa o processamento dos textos aplicando as limpezas necess√°rias para tal. Tente levantar o vocabul√°rio dos e-mails e imprima o top 10 palavras deste dataset.

**2)** Utilizando os dados de tweets vamos avaliar  tweets s√£o de desastres ou n√£o. Essa base √© um dataset conhecido do Kaggle, onde voc√™s podem ter mais detalhes [clicando aqui](https://www.kaggle.com/c/nlp-getting-started/overview). Fa√ßa o processamento dos textos aplicando as limpezas necess√°rias para tal. Tente levantar o vocabul√°rio dos e-mails e print o top 10 palavras deste dataset.