<a href="https://colab.research.google.com/github/Carlosrbrj/PUCrio/blob/main/Processamento_de_Linguagem_Natural_(PNL).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Processamento de Linguagem Natural

Esse notebook é uma prática de pré-processamento de dados de um dataset textuais. Aqui, usaremo o dataset sobre as obras de Machado de Assis.
Para isso, usaremos o Natural Language Toolkit (NLTK), uma plataforma em Python para processamento de linguagem humana.

Para começar, o bloco de código abaixo importa todas as bibliotecas que usaremos nessa análise, além de importar o dataset.

In [2]:
# Configuração para não exibir os warnings
import warnings
warnings.filterwarnings("ignore")

# Importação de pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
from matplotlib import cm
import missingno as ms # para tratamento de missings
from sklearn.preprocessing import MinMaxScaler # normalização
from sklearn.preprocessing import StandardScaler # padronização
from sklearn.preprocessing import OrdinalEncoder # ordinal encoding
from sklearn.preprocessing import OneHotEncoder # one-hot encoding e dummy

In [3]:
#importando o dataset Machado do NLTK

nltk.download('machado')
from nltk.corpus import machado

print(machado.fileids)

<bound method CategorizedCorpusReader.fileids of <PortugueseCategorizedPlaintextCorpusReader in '/root/nltk_data/corpora/machado.zip/machado/'>>


[nltk_data] Downloading package machado to /root/nltk_data...


## Limpeza de dados

No processo de limpeza de dados de um dataset textual, um dos primeiros passos é remover caracteres especiais, símbolos e pontuação dos dados brutos que não contêm informações estruturadas para um modelo aprender.
O bloco de código abaixo remove as expressões regulares para remover caracteres especiais.

In [4]:
import re

#importar o texto do dataset
text = machado.raw('contos/macn001.txt')

cleaned_text = re.sub('[^A-Za-z0-0]+','',text) #remover caracteres especiais

print(cleaned_text)

ContoContosFluminenses0ContosFluminensesTextofonteObraCompletaMachadodeAssisvolIIRiodeJaneiroNovaAguilarPublicadooriginalmentepelaEditoraGarnierRiodeJaneiroem0NDICEMISSDOLLARLUSSOARESAMULHERDEPRETOOSEGREDODEAUGUSTACONFISSESDEUMAVIVAMOALINHARETAELINHACURVAFREISIMOMISSDOLLARNDICECaptuloPrimeiroCaptuloIICaptuloiiiCaptuloivCaptulovCaptulovICaptulovIICAPTULOVIIICAPTULOPRIMEIROEraconvenienteaoromancequeoleitorficassemuitotemposemsaberquemeraMissDollarMasporoutroladosemaapresentaodeMissDollarseriaoautorobrigadoalongasdigressesqueencheriamopapelsemadiantaraaoNohhesitaopossvelvouapresentarlhesMissDollarSeoleitorrapazedadoaogniomelanclicoimaginaqueMissDollarumainglesaplidaedelgadaescassadecarnesedesangueabrindoflordorostodoisgrandesolhosazuisesacudindoaoventoumaslongastranasloirasAmoaemquestodeveservaporosaeidealcomoumacriaodeShakespearedeveserocontrastedoroastbeefbritnicocomquesealimentaaliberdadedoReinoUnidoUmatalMissDollardeveteropoetaTennysondecorelerLamartinenooriginalsesouberoportugusdeved

## Pré-processamento de dados

Nesse momento, iremos transformar os dados limpos em informações estruturadas, convertendo todo o dataset para letras minúsculas.
Além disso, vamos iniciar o processo de tokenização, que transforma o conjuto de texto em tokens individuais. Para isso, usaremos o módulo *punkt*.

In [5]:
cleaned_text = cleaned_text.lower()
from nltk.tokenize import word_tokenize
nltk.download('punkt')
tokens = nltk.word_tokenize(cleaned_text)

print(cleaned_text)
print(tokens)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


contocontosfluminenses0contosfluminensestextofonteobracompletamachadodeassisvoliiriodejaneironovaaguilarpublicadooriginalmentepelaeditoragarnierriodejaneiroem0ndicemissdollarlussoaresamulherdepretoosegredodeaugustaconfissesdeumavivamoalinharetaelinhacurvafreisimomissdollarndicecaptuloprimeirocaptuloiicaptuloiiicaptuloivcaptulovcaptulovicaptuloviicaptuloviiicaptuloprimeiroeraconvenienteaoromancequeoleitorficassemuitotemposemsaberquemeramissdollarmasporoutroladosemaapresentaodemissdollarseriaoautorobrigadoalongasdigressesqueencheriamopapelsemadiantaraaonohhesitaopossvelvouapresentarlhesmissdollarseoleitorrapazedadoaogniomelanclicoimaginaquemissdollarumainglesaplidaedelgadaescassadecarnesedesangueabrindoflordorostodoisgrandesolhosazuisesacudindoaoventoumaslongastranasloirasamoaemquestodeveservaporosaeidealcomoumacriaodeshakespearedeveserocontrastedoroastbeefbritnicocomquesealimentaaliberdadedoreinounidoumatalmissdollardeveteropoetatennysondecorelerlamartinenooriginalsesouberoportugusdeved

## Stop-word

Agora, o bloco de código elimina as palavras consideradas que não contribuem com muita informação, como as palavras "o", "e" e por aí  vai.
Para isso, usaremos a lista de palavras já mapeadas no NLTK.

In [6]:
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = stopwords.words('portuguese')

filtered_review = [word for word in tokens if word not in stop_words] #removendo stop-words

print(filtered_review)

['contocontosfluminenses0contosfluminensestextofonteobracompletamachadodeassisvoliiriodejaneironovaaguilarpublicadooriginalmentepelaeditoragarnierriodejaneiroem0ndicemissdollarlussoaresamulherdepretoosegredodeaugustaconfissesdeumavivamoalinharetaelinhacurvafreisimomissdollarndicecaptuloprimeirocaptuloiicaptuloiiicaptuloivcaptulovcaptulovicaptuloviicaptuloviiicaptuloprimeiroeraconvenienteaoromancequeoleitorficassemuitotemposemsaberquemeramissdollarmasporoutroladosemaapresentaodemissdollarseriaoautorobrigadoalongasdigressesqueencheriamopapelsemadiantaraaonohhesitaopossvelvouapresentarlhesmissdollarseoleitorrapazedadoaogniomelanclicoimaginaquemissdollarumainglesaplidaedelgadaescassadecarnesedesangueabrindoflordorostodoisgrandesolhosazuisesacudindoaoventoumaslongastranasloirasamoaemquestodeveservaporosaeidealcomoumacriaodeshakespearedeveserocontrastedoroastbeefbritnicocomquesealimentaaliberdadedoreinounidoumatalmissdollardeveteropoetatennysondecorelerlamartinenooriginalsesouberoportugusdev

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## Stemming

Stemming é o processo de reduzir uma palavra à sua palavra raiz/raiz.
O bloco de código abaixo remove os afixos morfológicos das palavras, deixando apenas o radical da palavra.

In [7]:
nltk.download('rslp')
stemmer = stemmer = nltk.stem.RSLPStemmer()

stemmed_review = [stemmer.stem(word) for word in filtered_review]

print(stemmed_review)

['contocontosfluminenses0contosfluminensestextofonteobracompletamachadodeassisvoliiriodejaneironovaaguilarpublicadooriginalmentepelaeditoragarnierriodejaneiroem0ndicemissdollarlussoaresamulherdepretoosegredodeaugustaconfissesdeumavivamoalinharetaelinhacurvafreisimomissdollarndicecaptuloprimeirocaptuloiicaptuloiiicaptuloivcaptulovcaptulovicaptuloviicaptuloviiicaptuloprimeiroeraconvenienteaoromancequeoleitorficassemuitotemposemsaberquemeramissdollarmasporoutroladosemaapresentaodemissdollarseriaoautorobrigadoalongasdigressesqueencheriamopapelsemadiantaraaonohhesitaopossvelvouapresentarlhesmissdollarseoleitorrapazedadoaogniomelanclicoimaginaquemissdollarumainglesaplidaedelgadaescassadecarnesedesangueabrindoflordorostodoisgrandesolhosazuisesacudindoaoventoumaslongastranasloirasamoaemquestodeveservaporosaeidealcomoumacriaodeshakespearedeveserocontrastedoroastbeefbritnicocomquesealimentaaliberdadedoreinounidoumatalmissdollardeveteropoetatennysondecorelerlamartinenooriginalsesouberoportugusdev

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


## Freqdist

Agora, vamos observar a frequência com que as palavras se repetem.

In [9]:
from nltk.probability import FreqDist

fd = FreqDist(filtered_review)
for word in list(fd.keys())[:20]:
  print(word, fd[word])

contocontosfluminenses0contosfluminensestextofonteobracompletamachadodeassisvoliiriodejaneironovaaguilarpublicadooriginalmentepelaeditoragarnierriodejaneiroem0ndicemissdollarlussoaresamulherdepretoosegredodeaugustaconfissesdeumavivamoalinharetaelinhacurvafreisimomissdollarndicecaptuloprimeirocaptuloiicaptuloiiicaptuloivcaptulovcaptulovicaptuloviicaptuloviiicaptuloprimeiroeraconvenienteaoromancequeoleitorficassemuitotemposemsaberquemeramissdollarmasporoutroladosemaapresentaodemissdollarseriaoautorobrigadoalongasdigressesqueencheriamopapelsemadiantaraaonohhesitaopossvelvouapresentarlhesmissdollarseoleitorrapazedadoaogniomelanclicoimaginaquemissdollarumainglesaplidaedelgadaescassadecarnesedesangueabrindoflordorostodoisgrandesolhosazuisesacudindoaoventoumaslongastranasloirasamoaemquestodeveservaporosaeidealcomoumacriaodeshakespearedeveserocontrastedoroastbeefbritnicocomquesealimentaaliberdadedoreinounidoumatalmissdollardeveteropoetatennysondecorelerlamartinenooriginalsesouberoportugusdeved