# JAI 2022 - Curso de PLN

---

## Seção 1.3. Preparação de Dados Textuais

# Instalação de pacotes adicionais

In [1]:
%%capture
!pip install unidecode
!python -m spacy download pt_core_news_sm

# Importações Necessárias

In [2]:
import string
from unidecode import unidecode

import numpy as np

# Uso da biblioteca NLTK para estemização
from nltk.stem.snowball import PortugueseStemmer

# Uso da biblioteca spaCy para lematização
import spacy

# Padronização

A função ```standardize()``` irá

*   Transformar todas as letras em letras minúsculas com a função ```lower()```
*   Remover todos os acentos e pontuações presentes em ```string.punctuation```



In [3]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [10]:
def standardize(text):
    text = unidecode(text.lower())
    return "".join(char for char in text if char not in string.punctuation)

In [11]:
standardize("Olha só! Como PNL é legal! Estava estudando esses dias.")

'olha so como pnl e legal estava estudando esses dias'

# Tokenização

Uma tokenização simples consiste na criação de tokens a nível de palavras. Ou seja, com a função ```tokenize()``` vamos criar uma lista de palavras a partir de um texto padronizado com a função ```standardize()```.

## Estemização

A estemização vai extrair o radical das palavras. Para isso, utilizaremos o ```PortugueseStemmer()```.

## Lematização

Faremos uma análise mais morfológica das palavras com o processo de lematização. Para isso, utilizaremos a biblioteca Spacy.

# Indexação do Vocabulário

Precisamos transformar as palavras pré-processadas dos nossos textos de entrada em suas representações numéricas.

Faremos isso criando um vocabulário das palavras e, em seguida, representando esse vocabulário em formato vetorial com uma codificação *one-hot*.

## Criação do Vocabulário

In [None]:
def make_vocab(texts): 
    vocab = {"": 0, "[UNK]": 1} 
    
    for text in texts:
      text = standardize(text) 
      tokens = tokenize(text) 
      
      for token in tokens:
        if token not in vocab: 
          vocab[token] = len(vocab)

    inverse_vocab = dict(
      (v, k) for k, v in vocab.items())
      
    return vocab, inverse_vocab

## Codificação *One-Hot*

In [None]:
def one_hot_encode(text, vocab):
    tokens = tokenize(text)
    vectors = np.zeros((len(tokens), len(vocab)))
    
    for i, token in enumerate(tokens):
      token_idx = vocab.get(token, 1)
      vectors[i, token_idx] = 1  
    
    return vectors