   <img src = "https://drive.google.com/uc?id=1JCGXq-eLDEqIh-MIeEEs7VLfde6GFP2q" width = 240/>


# Manipulação de Texto



##Autor

Jean Fagiani Campos

Grupo de Preparação de Dados


---



## Introdução
A manipulação de texto é processo fundamental da etapa de preparação de dados, que envolve o processamento e tratamento de dados textuais. Ela desempenha um papel crucial na análise de informações contidas em textos não estruturados, como documentos, artigos, mensagens, tweets, entre outros.

A manipulação de texto envolve uma variedade de técnicas e processos que permitem limpar, organizar e enriquecer os dados textuais, tornando-os adequados para análises posteriores

# Tokenização

A tokenização é o primeiro passo no processamento de texto, em que o texto é dividido em unidades menores, chamadas de tokens. Um token pode ser uma palavra, uma frase ou até mesmo um caractere individual. A tokenização é importante para transformar o texto em uma sequência de informações que possam ser processadas mais facilmente por algoritmos.



Durante essa apresentação, usaremos bastante a biblioteca nltk do python.
NLTK, Natural Language Toolkit, é um conjunto de bibliotecas e programas para processamento de linguagem natural simbólica e estatística para a linguagem Python. Documentação da biblioteca: https://www.nltk.org/

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk import ne_chunk
from nltk.corpus import stopwords
import string
nltk.download('punkt')
nltk.download('maxent_ne_chunker')
nltk.download('words')
nltk.download('averaged_perceptron_tagger')
nltk.download('rslp')
nltk.download('stopwords')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
frase_portugues = "A tokenização é uma etapa importante no processamento de linguagem natural."
frase_ingles = "I can't believe it's raining outside."
palavras_portugues_tokenizadas = word_tokenize(frase_portugues)
palavras_ingles_tokenizadas = word_tokenize(frase_ingles)
print('Token frase inglês: ', palavras_ingles_tokenizadas)
print()
print('Token frase português: ', palavras_portugues_tokenizadas)
print()
print('Token usando split do python : ', frase_portugues.split(' '))

Token frase inglês:  ['I', 'ca', "n't", 'believe', 'it', "'s", 'raining', 'outside', '.']

Token frase português:  ['A', 'tokenização', 'é', 'uma', 'etapa', 'importante', 'no', 'processamento', 'de', 'linguagem', 'natural', '.']

Token usando split do python :  ['A', 'tokenização', 'é', 'uma', 'etapa', 'importante', 'no', 'processamento', 'de', 'linguagem', 'natural.']


Analisando a saída do código anterior, é possível ver a diferença de resultado de uma função própria para 'tokenizar' e uma função padrão genérica do python.

# Extração de informações úteis do texto


Existem diversas formas de extrair informações úteis de texto, e cada caso tem sua particularidade. Uma das formas mais comuns de extrair informações  de texto é o Regex.

Regex é uma sequência de caracteres que define um padrão de busca. É uma ferramenta poderosa utilizada para realizar operações de busca e manipulação de strings em textos.

In [None]:
import re

# Lista de e-mails
emails = [
    'Jean@gmail.com',
    'Victor@gmail.com',
    'Joao@live.com',
    'Evandro@gov.com.br',
    'Thyago@outlook.com'
]

# Expressão regular para capturar o domínio do e-mail sem a extensão
padrao_email = r'@([^.@]+)'

# Itera sobre a lista de e-mails e imprime o domínio
for email in emails:
    dominio = re.search(padrao_email, email).group(1)
    print(f'Domínio do e-mail {email}: {dominio}')


Domínio do e-mail Jean@gmail.com: gmail
Domínio do e-mail Victor@gmail.com: gmail
Domínio do e-mail Joao@live.com: live
Domínio do e-mail Evandro@gov.com.br: gov
Domínio do e-mail Thyago@outlook.com: outlook


**Extração de entidades nomeadas**

A extração de entidades nomeadas é uma etapa importante na preparação de dados em ciência de dados, especialmente no contexto de processamento de linguagem natural (PLN). Nessa etapa, identificamos e marcamos palavras ou grupos de palavras que se referem a entidades específicas, como pessoas, locais, organizações, datas, valores monetários, entre outras informações relevantes.

Alguns exemplos onde a extração de entidades nomeadas é utilizada:
Análise de Sentimento, Recuperação de Informação, Classificação e Categorização de Texto.

In [None]:
# Sentença de exemplo
sentence = "Barack Obama was born in Hawaii."

# Tokenização da sentença
tokens = word_tokenize(sentence)

# Part-of-Speech tagging (POS) - marcação de partes do discurso
pos_tags = nltk.pos_tag(tokens)

# Extração de entidades nomeadas
entities = ne_chunk(pos_tags)

print(entities)

(S
  (PERSON Barack/NNP)
  (PERSON Obama/NNP)
  was/VBD
  born/VBN
  in/IN
  (GPE Hawaii/NNP)
  ./.)


NNP = Substantivo próprio

VBD = Verbo no passado simples

VBN = Verbo no particípio passado

IN = Preposição

GPE = Entidade geográfica

In [None]:
import spacy
from spacy import displacy

# Carregar o modelo de linguagem em inglês
nlp = spacy.load("en_core_web_sm")

# Sentença de exemplo
sentence = "Barack Obama was born in Hawaii."

# Processar a sentença usando o modelo do spaCy
doc = nlp(sentence)

# Visualização gráfica das entidades nomeadas
displacy.render(doc, style="ent", jupyter=True)

In [None]:
displacy.render(doc, style='dep',jupyter=True)


# Stemming e Lematização

O stemming e a lematização são técnicas usadas para reduzir palavras flexionadas ou derivadas a uma forma base ou raiz. Isso ajuda a reduzir a dimensionalidade dos dados, normalizando palavras semelhantes.

O stemming é o processo de cortar ou remover os sufixos das palavras para obter a forma raiz (stem). Esse processo é realizado aplicando regras heurísticas simples aos finais das palavras. O resultado do stemming pode não ser uma palavra real, mas ainda é a forma reduzida da palavra.


In [None]:
import pandas as pd
df_palavras = pd.DataFrame(['amigos', 'amigas', 'amizade', 'carreira', 'carreiras', 'carro', 'carros'], columns=['Original'])
df_palavras

Unnamed: 0,Original
0,amigos
1,amigas
2,amizade
3,carreira
4,carreiras
5,carro
6,carros


In [None]:
stemmer = nltk.stem.RSLPStemmer()
df_palavras['nltk_stemmer'] = [stemmer.stem(palavra) for palavra in df_palavras['Original']]
df_palavras

Unnamed: 0,Original,nltk_stemmer
0,amigos,amig
1,amigas,amig
2,amizade,amizad
3,carreira,carr
4,carreiras,carr
5,carro,carr
6,carros,carr


A lematização é o processo de reduzir uma palavra à sua forma base, conhecida como lema. O lema é a palavra do dicionário que representa a classe gramatical da palavra original.

In [None]:
!pip install spacy[lookups]
!python -m spacy download pt_core_news_sm

Collecting spacy-lookups-data<1.1.0,>=1.0.3 (from spacy[lookups])
  Downloading spacy_lookups_data-1.0.5-py2.py3-none-any.whl (98.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m98.5/98.5 MB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: spacy-lookups-data
Successfully installed spacy-lookups-data-1.0.5
Collecting pt-core-news-sm==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.6.0/pt_core_news_sm-3.6.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m27.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.6.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [None]:
import spacy
nlp = spacy.load("pt_core_news_sm")
doc = nlp(str([palavra for palavra in df_palavras['Original']]))
df_palavras['spacy_lemma'] = [token.lemma_ for token in doc if token.pos_ == 'NOUN']
df_palavras

Unnamed: 0,Original,nltk_stemmer,spacy_lemma
0,amigos,amig,amigo
1,amigas,amig,amiga
2,amizade,amizad,amizade
3,carreira,carr,carreira
4,carreiras,carr,carreira
5,carro,carr,carro
6,carros,carr,carro


A lematização é uma técnica mais avançada do que o stemming, pois considera a estrutura gramatical da palavra e retorna formas válidas do dicionário. Ela requer mais processamento e recursos computacionais, mas fornece uma normalização mais precisa das palavras.

Stemming é mais comumente usada por mecanismos de busca para indexar palavras. Já a lemmatization tem seu uso interessante junto a técnica como vetorização de palavras (word vectors), Tf-idf e LDA para modelagem de tópicos onde, eliminando plurais e utilizando sinônimos, podemos ter um aumento de precisão nessas técnicas.

Em resumo, o stemming e a lematização são técnicas de normalização de palavras que têm o objetivo de reduzir as variações de palavras a uma forma base comum, facilitando o processamento e a análise de texto. A escolha entre o uso de stemming ou lematização dependerá das necessidades específicas da tarefa e do equilíbrio entre precisão e velocidade desejado.

# Remoção de stopwords e pontuações

A remoção de stopwords e pontuações é uma etapa comum na preparação de dados de processamento de linguagem natural. Nesse processo, são eliminadas palavras comuns, chamadas de stopwords, e sinais de pontuação, que geralmente não contribuem significativamente para o significado ou contexto do texto. A remoção de stopwords e pontuações ajuda a reduzir o tamanho do vocabulário, melhora a eficiência do processamento e pode até mesmo melhorar a qualidade dos resultados em algumas tarefas de PLN.


**Stopwords**: São palavras muito comuns na língua, como artigos, preposições e pronomes, que ocorrem com frequência em textos, mas geralmente não contêm muita informação semântica. Exemplos de stopwords em inglês incluem "the", "a", "an", "in", "on", "at", "is", "am", "are", "and", "or", entre outras.

**Pontuações**: São os sinais de pontuação, como pontos, vírgulas, ponto e vírgulas, exclamações, interrogações, aspas, entre outros. Esses sinais ajudam a estruturar o texto e marcar pausas e entonações, mas podem ser removidos sem perda significativa de informação em muitos casos.

In [None]:

# Texto de exemplo
texto = "A remoção de stopwords e pontuações é uma etapa importante no processamento de linguagem natural. Ela ajuda a melhorar a eficiência do processamento e a qualidade dos resultados."

# Tokenização do texto
palavras = nltk.word_tokenize(texto)

# Definir as stopwords em português
stopwords_portugues = set(stopwords.words('portuguese'))

# Remoção de stopwords e pontuações
palavras_filtradas = [palavra for palavra in palavras if palavra.lower() not in stopwords_portugues and palavra not in string.punctuation]

# Unir as palavras filtradas novamente em um texto
texto_filtrado = ' '.join(palavras_filtradas)

print("Texto original:")
print(texto)

print("\nTexto após a remoção de stopwords e pontuações:")
print(texto_filtrado)


Texto original:
A remoção de stopwords e pontuações é uma etapa importante no processamento de linguagem natural. Ela ajuda a melhorar a eficiência do processamento e a qualidade dos resultados.

Texto após a remoção de stopwords e pontuações:
remoção stopwords pontuações etapa importante processamento linguagem natural ajuda melhorar eficiência processamento qualidade resultados


# Conclusão


Em um mundo onde a quantidade de dados textuais continua a crescer exponencialmente, a capacidade de extrair informações significativas dessas fontes de dados não estruturadas se tornou essencial para tomar decisões informadas e construir modelos preditivos e analíticos mais precisos.

Através das técnicas apresentadas e muitas outras, cientistas de dados são capazes de transformar texto bruto em dados estruturados e compreensíveis.

# Referencias

https://www.analyticsvidhya.com/blog/2022/06/stemming-vs-lemmatization-in-nlp-must-know-differences/

https://www.analyticsvidhya.com/blog/2020/06/nlp-project-information-extraction/

https://www.alura.com.br/artigos/lemmatization-vs-stemming-quando-usar-cada-uma

https://analyticsindiamag.com/explained-stemming-vs-lemmatization-in-nlp/

https://www.amitgrinson.com/blog/regex-in-sql/

https://datastud.dev/posts/nlp-preprocess

https://www.analyticsvidhya.com/blog/2019/08/how-to-remove-stopwords-text-normalization-nltk-spacy-gensim-python/

https://medium.com/@LauraHKahn/nlp-punctuation-lower-case-and-stopwords-pre-processing-d4888c4da940