# Aula 13: NLP - *Natural Language Processing*
---

## Roteiro da Aula

1. Introdução
2. Instalação da biblioteca do NLTK
3. Entendendo os principais conceitos do NLP
4. Feature Extraction  
    a. Bag of Words  
    b. TF-IDF  
5. Análise de Sentimentos

## Introdução

Processamento de linguagem natural é uma subárea de Inteligência artificial que tem como objetivo extrair informação a partir de **linguagem natural**, isto é, a linguagem do dia-a-dia de seres humanos.

Assim, PLN compreende a análise e processamento tanto de textos (mensagens, tweets, notícias, documentos, livros, etc.) quanto de áudios transcritos (músicas, filmes, conversas telefônicas, etc.).

PLN pode ser definido como uma forma de interpretar quem fez o quê, quando, onde, como e porque.

Algumas das estratégias de PLN incluem usar conceitos linguísticos como análise sintática, semântica, léxica e morfológica da língua em questão. 

O objetivo é o de criar resumos, extrair informação de textos, interpretar sentidos, analisar sentimentos e aprender conceitos a partir da linguagem natural.

> Página da biblioteca do NLTK: [Clique aqui](http://www.nltk.org)

### Instalação do NLTK

In [1]:
!pip install nltk



In [1]:
# Importação das bibliotecas


In [2]:
# Ler os dados


In [3]:
# Obter comprimento dos textos


### Para refletir...

- Como transformar um dado não estruturado em algo consumível por uma IA (de ML)?  
- Como transformar de algum jeito nossos dados em formato de texto em variáveis numéricas.

## Tokenização

Transformar nosso texto em tokens ('pedaços') -> quebrar nosso texto por palavras, caracteres, sentenças, parágrafos, etc...

![Sele%C3%A7%C3%A3o_019.png](attachment:Sele%C3%A7%C3%A3o_019.png)

### Método 1: SpaceTokenizer

### Método 2: word_tokenize

Necessário realizar o download do `punkt` do nltk. Caso obtenha algum erro na execução do código abaixo, siga as instruções a seguir:

`nltk.download('punkt')`

#### Em caso de erro [[fonte](https://stackoverflow.com/questions/38916452/nltk-download-ssl-certificate-verify-failed)]

```
The downloader script is broken. As a temporal workaround can manually download the punkt tokenizer from here and then place the unzipped folder in the corresponding location. The default folders for each OS are:

Windows: C:\nltk_data\tokenizers
OSX: /usr/local/share/nltk_data/tokenizers
Unix: /usr/share/nltk_data/tokenizers
```

In [23]:
# nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/walisson/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

## Normalização

Reduzir o número de tokens (dimensões) e padronizar o texto.

## Lemmatização

Tem como objetivo reduzir uma palavra à sua forma base e agrupar diferentes formas da mesma palavra. Por exemplo, os verbos no tempo passado são alterados para presente (por exemplo, “foi” é alterado para “vai”) e os sinônimos são unificados (por exemplo, “melhor” é alterado para “bom”), padronizando palavras com significado semelhante à sua raiz. 

A lematização resolve as palavras em sua forma de dicionário (conhecida como lema), para a qual requer dicionários detalhados nos quais o algoritmo pode pesquisar e vincular palavras aos lemas correspondentes.

Por exemplo, as palavras “correr", "corre" e "correu" são todas formas da palavra "correr", portanto "correr" é o lema de todas as palavras anteriores.

In [17]:
# nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/walisson/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

### Stemming

Radical 

Amor/amar/amando -> am (radical)

amora/amoras/amorazinha/ amorão -> amor (radical)

## Remoção de StopWords

In [90]:
# nltk.download('stopwords')

**Isso termina nossa etapa de processamento.**

## Feature Extraction

## 1º Método: contar as palavras (Bag of Words)

Keep it simple!

### Utilizando uma Floresta Aleatória para a Classificação

## 2º Método: TF-IDF

![Sele%C3%A7%C3%A3o_020.png](attachment:Sele%C3%A7%C3%A3o_020.png)

## Análise de Sentimentos
---

VADER (Valence Aware Dictionary for Sentiment Reasoning) é um modelo usado para análise de sentimento de texto que é sensível tanto à polaridade (positiva / negativa) quanto à intensidade (força) da emoção. Ele está disponível no pacote NLTK e pode ser aplicado diretamente a dados de texto não rotulados.

![alt text](https://miro.medium.com/max/938/1*JSi4ZRojnsNZBJVtGUfXZQ.png)

- Exemplo: "love", "like", "happy" são associados a "Positive Sentiment";
- "did not love" é associado a "Negative Sentiment";

Além disso, o VADER também é capaz de diferenciar intensidades diferentes de sentimentos, como por exemplo uma ênfase em "LOVE U!!!!" e "HATE THAT!" além de Emojis, gírias e acrônimos (OMG).

Alguns desafios/limitações do modelo:
  - Identificar positive e negative sentiment na mesma frase;
  - Identificar sarcasmo e ironia.

In [53]:
# nltk.download('vader_lexicon')

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     /Users/walisson/nltk_data...


True