## Aula 1 - Processamento de Linguagem Natural

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

1) Dados Estruturados e Não Estruturados.  
2) Introdução a NLP.  
3) Processamento de Textos.  
4) Exercícios.  

<img src="https://i1.wp.com/thedatascientist.com/wp-content/uploads/2018/09/data_science_wordcloud.png?fit=1584%2C1008&ssl=1" width=800>

Primeiramente, precisamos entender qual a diferença enre as duas fontes de dados mais comuns, sendo elas dados **estruturados** e **não estruturados**. Definimos ele como:
<br><br>
- **Dados Estruturados:** São dados que seguem uma estrutura mais rígida com um padrão fixo e constante. Por exemplo: Tabelas e DataFrames;<br><br>
- **Dados Não estruturados:** Como já diz o nome, são dados que não tem uma estrutura bem estabelecida e necessitam de um processamento adicional para trabalharmos com eles. Exemplos: áudios, vídeos, textos e etc

### Introdução ao Processamento de Linguagem Natural (NLP)

O Processamento de Linguagem Natural, mas conhecido como NLP, é a abordagem onde trabalhamos com **dados não estruturados** do tipo **Texto**. O objetivo de trabalharmos com textos é extrair de informação e teor linguístico das nossas bases de textos e converter isso de uma forma númerica, onde poderemos utilizar em nossos modelos de *Machine Learning*.<br><br>
Temos como exemplos de aplicações de NLP como:
- Análise de Sentimentos em review de filmes e produtos ou mensagens em redes sociais;
- Filtro de E-Mails Spams e Não Spams;
- Identificação de textos a partir de construções linguísticas (descobrir se um texto foi escrito ou não por Machado de assis);
- Tradutores de Idiomas;
- ChatBots;
- Corretores Ortográficos;
- Classificação de textos de acordo com o conteúdo do texto (Esportes, Política, Economia e etc).
<br><br>
Nesta aula iremos aprender a partir dos nossos dados textuais a como processar, tratar e transformar os dados de uma maneira que os modelos de *Machine Learning* entendam.<br><br>

A principal biblioteca de referência para NLP chama-se [NLTK - Natural Language Toll Kit](https://www.nltk.org/)

**Drops** 

Procure outras aplicações de NLP, pode ser na área que trabalha!

Por exemplo, na área financeira
____
R:
- [Cálculo de Indicadores Financeiros a partir de relatórios empresariais](https://repositorio.ufsc.br/bitstream/handle/123456789/228147/TCC.pdf?sequence=1&isAllowed=y)
- [Auditoria Financeira](https://www.linkedin.com/pulse/5-aplica%C3%A7%C3%B5es-de-processamento-linguagem-natural-em-servi%C3%A7os-rocha/?originalSubdomain=pt)
- [Identificação do elemento sentencioso](https://morethandigital.info/pt-pt/nlp-explained-o-que-e-processamento-de-linguagem-natural/#2_Classificacao_de_diferentes_sequencias)
- [mercado de ações](https://towardsdatascience.com/nlp-in-the-stock-market-8760d062eb92)
- [Chatbot whatsapp**](https://meudroz.com/category/whatsapp/)
- [classificação de eventos na área de saúde](https://www.sciencedirect.com/science/article/abs/pii/S1386505619302370)

** Ver twilio 

### Processamento de Textos

Antes de mais nada, precisamos filtrar e tratar os nossos textos, de forma a deixar apenas o conteúdo de mais relevantes para a nossa análise. Existem alguns processos importantes para trabalhar com os textos (não necessariamente você precisa aplicar todos os procesos)

- Remoção de Stopwords;
- Limpeza de Textos;
- Tokenização;
- Normalização do Texto.



### Stopwords

Stopwords são palavras que aparecem com uma frequência muito alta nos textos, mas que não trazem um teor de conteúdo relevante para o nosso modelo. Vamos entender isso na prática:

In [1]:
# Importanto o NLTK
import nltk
# Importando o stopwords
from nltk.corpus import stopwords
# Fazendo o download das stopwords do nltk
nltk.download('stopwords')
nltk.download('punkt') # https://www.nltk.org/_modules/nltk/tokenize/punkt.html
nltk.download('rslp')  # Stemmer para português

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

Baixada as Stopwords, vamos definir um set de stopwords onde teremos uma lista com todas as stopwords em inglês já identificadas:

In [2]:
stopwords_en = stopwords.words('english')

In [4]:
stopwords_en

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [5]:
type(stopwords_en)

list

In [6]:
len(stopwords_en)

179

In [7]:
stopwords_port = stopwords.words('portuguese')

In [8]:
stopwords_port

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

In [9]:
len(stopwords_port)

207

In [10]:
len(set(stopwords_port))

207

Vamos agora aplicar a remoção de Stopwords:

In [None]:
example = ["my", "house", "is", "black", "and", "white", "but", "isn't", "big"]

In [11]:
stopwords_en[0:5]

['i', 'me', 'my', 'myself', 'we']

**Drops**

Crie uma função que remova da lista `example` elementos que estejam presentes na lista `stopwords_en`.

Nessa função deve ter três parâmetros:
- words
- stopwords
- debug

A `words` é uma lista de palavras, como a variável `example` criada acima (List[str]).

A `stopwords` é uma lista de palavras de stopwords, como a variável `stopwords_en` criada acima (List[str]).

O parâmetro `debug` irá auxiliar no debug, identificando quais palavras/elementos foram removidos durante a limpeza dos dados. Esse parâmetro é um boolean (True/False), se verdadeiro iremos imprimir quais palavras foram retiradas.

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa função para garantir a qualidade de código.

### Limpeza do Texto

Existem alguns cuidados com relação a grafia das palavras e elementos em um texto que devemos tomar bastante cuidado antes de fazer qualquer outra coisa. Esses pontos são:<br><br>
- Transformar todas as palavras para MAIÚSCULAS ou minúsculas;
- Remover caracteres especiais;
- Remover dígitos (quando não forem relevantes);
- Remover acentuação (caso típico de quando trabalhamos com textos em Português);

### Converter entre MAIÚSCULA e minúscula

**Drops**

Crie uma função que receba uma palavra e normalizando-as em caixa alta ou baixa.

Nessa função deve ter três parâmetros:
- word
- debug

A `word` palavra, como por exemplo `Relógio` (str).

O parâmetro `debug` irá auxiliar no debug, podendo imprimir a palavra antes e após a transformação

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa função para garantir a qualidade de código.

### Remoção de dígitos, caracteres especiais e qualquer outro item que não queremos no texto

Para essa etapa do processo, iremos utilizar uma biblioteca auxiliar [RegEx (Regular Expression)](https://docs.python.org/3/library/re.html):

In [None]:
import re

Importada a biblioteca, vamos utilizar a função *re.sub*, para substituir os elementos que não queremos nos nossos textos:

**Procure por re.sub**  
https://docs.python.org/3/library/re.html


#### Removendo digitos
**Drops**

Crie uma função que receba uma frase e remova os digitos ([0-9]).  
Nessa função deve ter dois parâmetros:
- phrase
- debug

A `phrase`, é uma frase como por exemplo `'Siga nas redes sociais o @letscode, ja somos mais de 1 milhao de #hashtags e 200 mil followers'` (str).

O parâmetro `debug` irá auxiliar no debug, podendo imprimir a frase antes e após a transformação

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa função para garantir a qualidade de código.

Obs: Utilize o site https://regex101.com/ para criar o regex e o re.sub para substituir.

In [None]:
frase = 'Siga nas redes sociais o @letscode, ja somos mais de 1 milhao de #hashtags e 200 mil followers'


#### Removendo caracteres especiais
**Drops**

Crie uma função que receba uma frase e remova os caracteres especiais (p.ex, ã,õ, ê, @, #, etc).  
Nessa função deve ter dois parâmetros:
- phrase
- debug

A `phrase`, é uma frase como por exemplo `'Siga nas redes sociais o @letscode, ja somos mais de 1 milhao de #hashtags e 200 mil followers'` (str).

O parâmetro `debug` irá auxiliar no debug, podendo imprimir a frase antes e após a transformação

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa função para garantir a qualidade de código.

Obs: Utilize o site https://regex101.com/ para criar o regex e o re.sub para substituir.

Obs2: Procure por alfanumérico 

Utilizem a documentação para descobrir mais códigos para filtrar elementos ou mesmo deem uma olhada nesse artigo, que resume de uma forma bem visual as aplicações do RegEx: [clique aqui](https://amitness.com/regex/)

Hoje os emojis fazem parte da comunicação via mensagens, por isso iremos ver como utilizar frases contento emojis e trata-los de forma adequada

In [None]:
# Iremos utilizar a biblioteca emoji
!pip install emoji

In [None]:
import emoji

Para ver a lista completa:

https://www.webfx.com/tools/emoji-cheat-sheet/

Link biblioteca: https://github.com/carpedm20/emoji/

#### Convertendo emojis para texto
**Drops**

Crie uma função que receba uma frase e converta os emojis para texto
Nessa função deve ter dois parâmetros:
- phrase
- debug

A `phrase`, é uma frase como por exemplo `Python is 👍` (str).

O parâmetro `debug` irá auxiliar no debug, podendo imprimir a frase antes e após a transformação

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa função para garantir a qualidade de código.

Agora que vimos diversas funções e tratamentos, podemos utilizar o regex para validação de e-mail, por exemplo!

#### Crie uma função que receba uma string e valide se é possívelmente um e-mail
**Drops**

Crie uma função que receba um email e verifique se é um formato válido de e-mail
- email
- debug

A `email`, é uma frase como por exemplo `myemail@gmail.com` (str).

O parâmetro `debug` irá auxiliar no debug, podendo imprimir a frase antes e após a transformação

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa função para garantir a qualidade de código.

Aplicação de NLP para validação de campos.  
- Muito útil para evitar ataques de baixa qualidade 
- Evitar cadastro de pessoas inválidas 

Podemos utilizar NLP para identificar frases que contenham uma palavra chave!

### Remoção de Acentuação
Para a remoção de acentuação, iremos utilizar uma bibloteca chamada *Unidecode*:

In [None]:
# Caso precise instalar a biblioteca, descomente o código abaixo
!pip install unidecode

In [None]:
from unidecode import unidecode

**Drops**

Que remova a acentuação das palavras de uma frase
- phrase
- debug

A `phrase`, é uma frase como por exemplo 'João Sebastião Alvará Vovô Linguiça expressão'.

O parâmetro `debug` irá auxiliar no debug, podendo imprimir a frase antes e após a transformação

**Extra:**

Comumente utilizamos TDD (test driven development).

Portanto crie um teste para essa função para garantir a qualidade de código.

## Tokenização

Tokenização é um processo onde transformamos um texto de uma string única em fragmentos desse texto na forma de *tokens*, que nada mais são do que as próprias palavras! Para isso, vamos utilizar a função *word_tokenize* do NLTK:

## Normalização de Textos

**Normalização de Textos (Text Normalization)** é o procedimento que consiste em **padronizar** o texto, de modo a evitar que variações tornem os modelos demasiadamente complexos. Por exemplo: tratar singular/plural como a mesma coisa, ou então eliminar conjugação de verbos. Outras componentes comuns da normalização são a de eliminar palavras que não agregam muito significado, ou palavras muito raras.

Abaixo alguns exemplos de ações de Text Normalization que podem ser aplicadas no pré-processamento de dados textuais:

**Stemming** - Redução de tokens à sua raiz invariante através da **remoção de prefixos ou sufixos**. Baseado em heurística<br>
**Lemmatization** - Redução de tokens à sua raiz invariante através da **análise linguística do token**. Baseado em dicionário léxico<br>

## Stemming

In [None]:
from nltk.stem.porter import *
from nltk.stem import RSLPStemmer

## Lemmatization

Obs: Não funciona para português, precisamos utilizar o Spacy (outra biblioteca para NLP), veremos mais adiante no curso!

In [None]:
# Importando o Lemmatizer
from nltk.stem import WordNetLemmatizer 

# https://www.nltk.org/howto/wordnet.html
nltk.download('wordnet')

# NLTK 3.6.6 release: December 2021:
# support OMW 1.4, use Multilingual Wordnet Data from OMW with newer Wordnet versions
nltk.download('omw-1.4')

## Pipeline de Processamento de Textos

Conhecendo todos os tipos de processamentos que podemos utilizar, uma forma útil e organizada para isso é construirmos uma funçãi que receba o nosso dados originais e realizada todos os processamentos que queremos nos textos:

**drops**

Crie uma classe que seja capaz de:

- Metodo para remover acentuação
- Metodo de remover digitos
- Metodo de remover caracteres especiais
- Metodo de normalizar o texto em caixa baixa
- Metodo para criar os tokens
- Metodo para filtrar stopwords
- Metodo para pegar o stemming
- Metodo para pegar o lemma
- Metodo de pipeline.

Obs: Não iremos fazer os testes em classe, mas é um desafio interessante de ser realizado pós-aula para treinar TDD.

Vamos agora já começar a práticar com os nossos dados de exemplo:

Nosso exemplo será uma Análise de Sentimento em Críticas de Filmes, onde vamos identificar se a crítica foi boa ou não:

A nossa base de dados tem 50 mil linhas e levando em consideração que as críticas são sobre filmes diversos, a quantidade de palavras disponíveis nos textos será muito grande. Para economizar tempo de aula com processamneto dos textos e modelagem, iremos criar uma amostra com 10% da base:

Agora iremos aplicar o nosso processamento dos textos:

**Drops**

Aplique o pipeline acima da classe `PreProcesssPhrase()`
```
pipeline = [
    'remove_digits',
    'remove_special_char',
    'word_lower',
    'tokenizer',
    'remove_stopwords',
    'stemmer'
]
```

Na base de dados movies, coluna `text`, atribua o resultado numa coluna chamada `filtered_words`

Obs: pode ser utilizado o apply para tal.


## Corpus

Com isso chegamos ao fim do pré-processamento, uma das etapas mais importantes de todo projeto de NLP!

É importante ressaltar que a escolha das etapas de pré-processamento não é algo óbvio, dado que há muitas escolhas possíveis acerca do que se fazer para pré-processar os dados. Assim, o indicado é treinar diferentes modelos testando diferentes combinações das técnicas de pré-processamento, até que o melhor procedimento seja encontrado!

**Nomenclatura**: o conjunto de mensagens (também conhecido como documentos) pré-processadas é chamado de **Corpus**.

## Vocabulário

O vocabulário do corpus nada mais é do que uma listagem das palavras individuais que aparecem no corpus. Para encontrar o vocabulário, basta contarmos a aparição de cada palavra isolada no corpus. Ao fim, teremos N palavras únicas que compõem nosso vocabulário.

### Criando nossa nuvem de palavras

In [None]:
pip install wordcloud

**Vocabulário de críticas positivas**

Criando a wordcloud apenas de críticas positivas

**Vocabulário de críticas negativas**

Criando a wordcloud apenas de críticas negativas

## Exercícios

**1)** Usando a base *spamraw.csv*, faça o processamento dos textos aplicando as limpezas necessárias para tal. Tente levantar o vocabulário dos e-mails e imprima o top 10 palavras deste dataset.

**2)** Utilizando os dados de tweets vamos avaliar  tweets são de desastres ou não. Essa base é um dataset conhecido do Kaggle, onde vocês podem ter mais detalhes [clicando aqui](https://www.kaggle.com/c/nlp-getting-started/overview). Faça o processamento dos textos aplicando as limpezas necessárias para tal. Tente levantar o vocabulário dos e-mails e print o top 10 palavras deste dataset.