## NLP Pré-processamento 

### Normalização de texto

Padronização do texto para remover variações desnecessárias. Isso pode incluir converter todas as letras para minúsculas, remover a pontuação ou substituir abreviações por suas formas completas.


In [1]:
import re
from IPython.display import Markdown

In [2]:
texto = """Com o aumento constante da pirataria no país, as distribuidoras estão tendo que ser cada vez ousadas - e, contradioriamente, conservadoras - em suas estratégias de lançamentos. E entre os preparativos do primeiro grande blockbuster de 2008, Homem de Ferro, o estúdio responsável pelo lançamento no Brasil decidiu realizar apenas UMA exibição para a imprensa de todo o país. Esta sessão aconteceu dois dias da estréia nacional, na segunda-feira, dia 28 de abril, em São Paulo. E jornalistas e críticos de todo o país foram convidados a estarem presentes. E o resultado? É um filme legal, melhor do que se poderia esperar (se bem que as expectativas eram baixas, de qualquer forma...)."""
display(Markdown(texto))

Com o aumento constante da pirataria no país, as distribuidoras estão tendo que ser cada vez ousadas - e, contradioriamente, conservadoras - em suas estratégias de lançamentos. E entre os preparativos do primeiro grande blockbuster de 2008, Homem de Ferro, o estúdio responsável pelo lançamento no Brasil decidiu realizar apenas UMA exibição para a imprensa de todo o país. Esta sessão aconteceu dois dias da estréia nacional, na segunda-feira, dia 28 de abril, em São Paulo. E jornalistas e críticos de todo o país foram convidados a estarem presentes. E o resultado? É um filme legal, melhor do que se poderia esperar (se bem que as expectativas eram baixas, de qualquer forma...).

In [3]:
characters_1 = re.compile("[-$.;:!\'?@,\"()\[\]]")
texto_p1 = characters_1.sub("", texto)
display(Markdown(texto_p1))

Com o aumento constante da pirataria no país as distribuidoras estão tendo que ser cada vez ousadas  e contradioriamente conservadoras  em suas estratégias de lançamentos E entre os preparativos do primeiro grande blockbuster de 2008 Homem de Ferro o estúdio responsável pelo lançamento no Brasil decidiu realizar apenas UMA exibição para a imprensa de todo o país Esta sessão aconteceu dois dias da estréia nacional na segundafeira dia 28 de abril em São Paulo E jornalistas e críticos de todo o país foram convidados a estarem presentes E o resultado É um filme legal melhor do que se poderia esperar se bem que as expectativas eram baixas de qualquer forma

In [4]:
characters_2 = re.compile("(<br\s*/><br\s*/>)|(\-)|(\/)")
texto_p2 = characters_2.sub("", texto_p1)
display(Markdown(texto_p2))

Com o aumento constante da pirataria no país as distribuidoras estão tendo que ser cada vez ousadas  e contradioriamente conservadoras  em suas estratégias de lançamentos E entre os preparativos do primeiro grande blockbuster de 2008 Homem de Ferro o estúdio responsável pelo lançamento no Brasil decidiu realizar apenas UMA exibição para a imprensa de todo o país Esta sessão aconteceu dois dias da estréia nacional na segundafeira dia 28 de abril em São Paulo E jornalistas e críticos de todo o país foram convidados a estarem presentes E o resultado É um filme legal melhor do que se poderia esperar se bem que as expectativas eram baixas de qualquer forma

In [5]:
characters_3 = re.compile('[0-9]+')
texto_p3 = characters_3.sub("", texto_p2.lower())
display(Markdown(texto_p3))

com o aumento constante da pirataria no país as distribuidoras estão tendo que ser cada vez ousadas  e contradioriamente conservadoras  em suas estratégias de lançamentos e entre os preparativos do primeiro grande blockbuster de  homem de ferro o estúdio responsável pelo lançamento no brasil decidiu realizar apenas uma exibição para a imprensa de todo o país esta sessão aconteceu dois dias da estréia nacional na segundafeira dia  de abril em são paulo e jornalistas e críticos de todo o país foram convidados a estarem presentes e o resultado é um filme legal melhor do que se poderia esperar se bem que as expectativas eram baixas de qualquer forma

### Tokenização

É o processo de dividir o texto em unidades menores chamadas tokens, que geralmente são palavras ou símbolos.

In [50]:
from nltk import word_tokenize, download
download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\STEFA\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [58]:
text_tokens = word_tokenize(texto, language='portuguese')
text_tokens_pre_processado = word_tokenize(texto_p3, language='portuguese')
text_tokens_pre_processado

['com',
 'o',
 'aumento',
 'constante',
 'da',
 'pirataria',
 'no',
 'país',
 'as',
 'distribuidoras',
 'estão',
 'tendo',
 'que',
 'ser',
 'cada',
 'vez',
 'ousadas',
 'e',
 'contradioriamente',
 'conservadoras',
 'em',
 'suas',
 'estratégias',
 'de',
 'lançamentos',
 'e',
 'entre',
 'os',
 'preparativos',
 'do',
 'primeiro',
 'grande',
 'blockbuster',
 'de',
 'homem',
 'de',
 'ferro',
 'o',
 'estúdio',
 'responsável',
 'pelo',
 'lançamento',
 'no',
 'brasil',
 'decidiu',
 'realizar',
 'apenas',
 'uma',
 'exibição',
 'para',
 'a',
 'imprensa',
 'de',
 'todo',
 'o',
 'país',
 'esta',
 'sessão',
 'aconteceu',
 'dois',
 'dias',
 'da',
 'estréia',
 'nacional',
 'na',
 'segundafeira',
 'dia',
 'de',
 'abril',
 'em',
 'são',
 'paulo',
 'e',
 'jornalistas',
 'e',
 'críticos',
 'de',
 'todo',
 'o',
 'país',
 'foram',
 'convidados',
 'a',
 'estarem',
 'presentes',
 'e',
 'o',
 'resultado',
 'é',
 'um',
 'filme',
 'legal',
 'melhor',
 'do',
 'que',
 'se',
 'poderia',
 'esperar',
 'se',
 'bem',


### Remoção das Stop Words

São palavras que aparecem com frequência na linguagem, mas que não carregam significado, como "a", "e" e "o". 

In [59]:
from nltk.corpus import stopwords
download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\STEFA\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [60]:
stop_words = set(stopwords.words('portuguese'))
text_without_sw = [token for token in text_tokens_pre_processado if token not in stop_words]

In [64]:
print(f"Texto completo com stop words: {len(text_tokens)}")
print(f"Texto processado com stop words: {len(text_tokens_pre_processado)}")
print(f"Texto sem stop words: {len(text_without_sw)}")

Texto completo com stop words: 131
Texto processado com stop words: 108
Texto sem stop words: 58


### Stemização

Redução de uma palavra ao seu stema.

In [65]:
from nltk.stem import RSLPStemmer

In [66]:
stemmer = RSLPStemmer()
text_stem = [stemmer.stem(token) for token in text_without_sw]

### Lematização

Redução de uma palavra ao seu lema.

In [68]:
import spacy

In [84]:
nlp = spacy.load('pt_core_news_sm')
doc = nlp(str(text_without_sw))
text_lemma = [token.lemma_ for token in doc
                if token.pos_ not in ['PUNCT']]

Compara Stemização e Lematização

In [74]:
import pandas as pd

In [88]:
data =  {
    'text_without_sw': text_without_sw,
    'text_stem': text_stem,
    'text_lemma': text_lemma
}
data = pd.DataFrame(data)
data[0:20]

Unnamed: 0,text_without_sw,text_stem,text_lemma
0,aumento,aument,aumento
1,constante,const,constante
2,pirataria,pirat,pirataria
3,país,país,país
4,distribuidoras,distribu,distribuidora
5,tendo,tend,ter
6,cada,cad,cada
7,vez,vez,vez
8,ousadas,ous,ousado
9,contradioriamente,contradi,contradioriamente


## Vetorização

É o processo de converter o texto em um vetor numérico para ser utilizado como entrada em modelos de NLP.

In [102]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'O cachorro late muito alto',
    'O gato mia quando tem fome',
    'O cachorro gosta de brincar no parque'
]

### One Hot

É usada para representar variáveis categóricas como vetores binários, ou seja, transformar cada categoria em uma nova variável binária que indica a presença ou ausência da categoria em uma determinada amostra.

In [113]:
vectorizer = CountVectorizer(binary=True)
one_hot = vectorizer.fit_transform(corpus)

print(one_hot.toarray())

[[1 0 1 0 0 0 0 1 0 1 0 0 0 0]
 [0 0 0 0 1 1 0 0 1 0 0 0 1 1]
 [0 1 1 1 0 0 1 0 0 0 1 1 0 0]]


In [115]:
df = pd.DataFrame(one_hot.todense(), columns=vectorizer.get_feature_names_out())
df

Unnamed: 0,alto,brincar,cachorro,de,fome,gato,gosta,late,mia,muito,no,parque,quando,tem
0,1,0,1,0,0,0,0,1,0,1,0,0,0,0
1,0,0,0,0,1,1,0,0,1,0,0,0,1,1
2,0,1,1,1,0,0,1,0,0,0,1,1,0,0


### TF- IDF

O TF-IDF (Term Frequency-Inverse Document Frequency) é uma técnica usada para atribuir um peso a cada termo em um conjunto de documentos ou corpus, com o objetivo de medir a sua relevância em relação a um determinado documento.

In [109]:
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)

In [116]:
df = pd.DataFrame(tfidf.todense(), columns=vectorizer.get_feature_names_out())
df

Unnamed: 0,alto,brincar,cachorro,de,fome,gato,gosta,late,mia,muito,no,parque,quando,tem
0,0.528635,0.0,0.40204,0.0,0.0,0.0,0.0,0.528635,0.0,0.528635,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.447214,0.447214,0.0,0.0,0.447214,0.0,0.0,0.0,0.447214,0.447214
2,0.0,0.423394,0.322002,0.423394,0.0,0.0,0.423394,0.0,0.0,0.0,0.423394,0.423394,0.0,0.0


## Spacy

In [123]:
import spacy
from spacy import displacy
nlp = spacy.load("en_core_web_sm")

In [121]:
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
df = pd.DataFrame(columns = ['Text', 'Lemma', 'Pos','Dep','Is Stop'])
for token in doc:
    df=df.append({'Text' : str(token.text) , 'Lemma' : str(token.lemma_), 'Pos' : str(token.pos_),'Dep' : str(token.dep_),'Is Stop' : str(token.is_stop)},ignore_index=True)

df

Unnamed: 0,Text,Lemma,Pos,Dep,Is Stop
0,Apple,Apple,PROPN,nsubj,False
1,is,be,AUX,aux,True
2,looking,look,VERB,ROOT,False
3,at,at,ADP,prep,True
4,buying,buy,VERB,pcomp,False
5,U.K.,U.K.,PROPN,dobj,False
6,startup,startup,NOUN,dep,False
7,for,for,ADP,prep,True
8,$,$,SYM,quantmod,False
9,1,1,NUM,compound,False


In [124]:
displacy.render(doc, style="ent",jupyter=True)

In [128]:
review = """Mark Zuckerberg is the founder and CEO of Facebook, the world's largest social networking platform. Born in 1984, Zuckerberg grew up in New York and was always interested in computers and programming. He created his first computer program at the age of 12 and continued to develop his skills throughout his teenage years. After graduating from high school, Zuckerberg enrolled at Harvard University. It was here that he developed the idea for Facebook, a social networking platform that would connect people all over the world. He launched the site in 2004 with a group of fellow students and quickly gained a massive following. Under Zuckerberg's leadership, Facebook has grown to become one of the most influential companies in the world. The platform now boasts over 2 billion active users and has transformed the way we communicate, share information, and connect with others. Zuckerberg is known for his ambitious vision and his relentless pursuit of innovation. He has led Facebook through numerous challenges and controversies, including accusations of privacy violations and the spread of fake news. Despite these setbacks, he remains committed to his mission of bringing people together and creating a more connected world. In addition to his work at Facebook, Zuckerberg is also known for his philanthropic efforts. He and his wife, Priscilla Chan, have pledged to give away 99% of their wealth to charitable causes, with a focus on improving education, health care, and scientific research. Overall, Mark Zuckerberg is a visionary leader who has transformed the way we interact with each other online. His dedication to innovation and his commitment to making a positive impact on the world have earned him widespread recognition and admiration."""
display(Markdown(review))

Mark Zuckerberg is the founder and CEO of Facebook, the world's largest social networking platform. Born in 1984, Zuckerberg grew up in New York and was always interested in computers and programming. He created his first computer program at the age of 12 and continued to develop his skills throughout his teenage years. After graduating from high school, Zuckerberg enrolled at Harvard University. It was here that he developed the idea for Facebook, a social networking platform that would connect people all over the world. He launched the site in 2004 with a group of fellow students and quickly gained a massive following. Under Zuckerberg's leadership, Facebook has grown to become one of the most influential companies in the world. The platform now boasts over 2 billion active users and has transformed the way we communicate, share information, and connect with others. Zuckerberg is known for his ambitious vision and his relentless pursuit of innovation. He has led Facebook through numerous challenges and controversies, including accusations of privacy violations and the spread of fake news. Despite these setbacks, he remains committed to his mission of bringing people together and creating a more connected world. In addition to his work at Facebook, Zuckerberg is also known for his philanthropic efforts. He and his wife, Priscilla Chan, have pledged to give away 99% of their wealth to charitable causes, with a focus on improving education, health care, and scientific research. Overall, Mark Zuckerberg is a visionary leader who has transformed the way we interact with each other online. His dedication to innovation and his commitment to making a positive impact on the world have earned him widespread recognition and admiration.

In [129]:
doc = nlp(review)
displacy.render(doc, style="ent",jupyter=True)