# Tencnicas de Pre-Processamento

### KDD (Knowledge Discovery in Database) (Fayyad et. al.)

1. Seleção dos dados
2. Pré-processamento (voltado a PLN)
3. Transformação
4. Mineração
5. Avaliação

### Bibliotecas são: NLTK, TextBlob, spaCy, gensim

In [1]:
# !pip install nltk

In [2]:
import nltk

nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

### Tokenizacao
Tornar o texto em um formato que seja adequado para análise e inserção nos algoritmos de AM e DL

### Limpeza de dados em PLN

1. Remoção pontuação, numeros e stop words*
2. Conversao em lower case (letras minusculas)*
3. Stemização
4. Partes para marcações
5. Chucking (reconhecimento de entidades

### O que é tokenizar um texto
Dividir o texto bruto em pequenas unidades que são indivisíveis para processar e inserir no algoritmo para mineração

- Palavras
- Sentenças
- N-grams
- Outros caracteres definidos por expressoes regulares

In [3]:
from nltk.tokenize import word_tokenize

In [4]:
text = "O dia hoje está ameaçador e chove bastante. Enquanto isso estamos aprendendo sobre processamento de linguagem natural."

In [5]:
print(word_tokenize(text))

['O', 'dia', 'hoje', 'está', 'ameaçador', 'e', 'chove', 'bastante', '.', 'Enquanto', 'isso', 'estamos', 'aprendendo', 'sobre', 'processamento', 'de', 'linguagem', 'natural', '.']


In [6]:
from nltk.tokenize import sent_tokenize

print(sent_tokenize(text))

['O dia hoje está ameaçador e chove bastante.', 'Enquanto isso estamos aprendendo sobre processamento de linguagem natural.']


### Remoção de pontuação

In [7]:
import re
import string

def remove_punctuation(text):
    no_punct = "".join([c for c in text if c not in string.punctuation])
    return no_punct

In [8]:
clean_text = remove_punctuation(text)
print(clean_text)

O dia hoje está ameaçador e chove bastante Enquanto isso estamos aprendendo sobre processamento de linguagem natural


### Converter para lowercase

In [9]:
clean_text = clean_text.lower()
print(clean_text)

o dia hoje está ameaçador e chove bastante enquanto isso estamos aprendendo sobre processamento de linguagem natural


### Remover numeros

In [10]:
clean_text = re.sub("\\w*\\d\\w*", ' ', clean_text)
print(clean_text)

o dia hoje está ameaçador e chove bastante enquanto isso estamos aprendendo sobre processamento de linguagem natural


### Remover stop words

In [15]:
from nltk.corpus import stopwords

set(stopwords.words('portuguese'))
list_stop_words_pt = stopwords.words('portuguese')

### Count Vectorizer

In [20]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(stop_words=list_stop_words_pt)
X = cv.fit_transform([clean_text])

df_cv = pd.DataFrame(X.toarray(), columns=cv.get_feature_names_out())
display(df_cv)

Unnamed: 0,ameaçador,aprendendo,bastante,chove,dia,enquanto,hoje,linguagem,natural,processamento,sobre
0,1,1,1,1,1,1,1,1,1,1,1
