<a href="https://colab.research.google.com/github/Xketh/Fatec_PLN/blob/main/Aula_03_Processamento_de_Texto_e_Pr%C3%A9_processamento_de_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Objetivo**
___

Explorar técnicas essenciais de pré-processamento de texto, como normalização, tokenização, remoção de ruído e stopwords, além de stemming e lematização, para otimizar a análise de dados textuais.


# **Pré-processamento de texto**
---

É uma etapa crucial no processamento de linguagem natural (PLN).

Ele limpa e organiza o texto, deixando apenas informações relevantes para facilitar o trabalho dos algoritmos.

Aqui estão as principais técnicas e etapas que tornam o texto mais limpo e estruturado, facilitando análises precisas!

### **1. Normalização de Texto**
---

Uniformiza o texto para evitar variações desnecessárias.  
- **Exemplos:**  
  - Converte para minúsculas: "Carro" → "carro".  
  - Remove acentos: "ação" → "acao".  
  - Expande contrações: "não é" → "nao e".  


In [9]:
import unicodedata

def normalizar_texto(texto):
    # 1. Converter para minúsculas
    texto = texto.lower()

    # 2. Remover acentos
    texto = ''.join(
        c for c in unicodedata.normalize('NFD', texto)
        if unicodedata.category(c) != 'Mn'
    )

    # 3. Expandir contrações simples (exemplo básico)
    contrações = {
        "não é": "nao e",
        "não está": "nao esta",
        "não": "nao",
        "é": "e"
    }
    for contração, expansão in contrações.items():
        texto = texto.replace(contração, expansão)

    return texto

# Exemplo de uso:
texto_original = "Não é fácil entender a ação rápida do carro."
texto_normalizado = normalizar_texto(texto_original)

print("Original:", texto_original)
print("Normalizado:", texto_normalizado)


Original: Não é fácil entender a ação rápida do carro.
Normalizado: nao e facil entender a acao rapida do carro.


### **2. Remoção de Ruído**  
---
Elimina elementos que não agregam valor, como:  
- **Exemplos:**  
  - Pontuação: "Olá, tudo bem?" → "Olá tudo bem".  
  - Links: "Visite https://site.com" → "Visite".  

In [8]:
import re

texto = "Olá, tudo bem? Visite https://site.com para mais informações!"

# Remove URLs
texto_sem_links = re.sub(r'http\S+|www\S+|https\S+', '', texto)

# Remove pontuação
texto_limpo = re.sub(r'[^\w\s]', '', texto_sem_links)

print(texto_limpo.strip())


Olá tudo bem Visite  para mais informações



### **3. Tokenização**  
---
Divide o texto em unidades menores (*tokens*), como palavras.  
- **Exemplo:**  
  - Texto: "Eu gosto de aprender."  
  - Tokens: ["Eu", "gosto", "de", "aprender", "."]  



In [11]:
import nltk
nltk.download('punkt')  # Baixa os dados necessários para tokenização

from nltk.tokenize import word_tokenize

texto = "Eu gosto de aprender."
tokens = word_tokenize(texto)

print(tokens)


['Eu', 'gosto', 'de', 'aprender', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!



### **4. Remoção de Stopwords**
---

Remove palavras comuns que pouco contribuem para a análise.  
- **Exemplo:**  
  - Antes: "Eu gosto de aprender coisas novas."  
  - Depois: ["gosto", "aprender", "coisas", "novas"].  

In [10]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Baixar recursos necessários
nltk.download('punkt')
nltk.download('stopwords')

# Frase original
frase = "Eu gosto de aprender coisas novas."

# Tokenizar a frase
tokens = word_tokenize(frase, language='portuguese')

# Definir stopwords em português
stopwords_pt = set(stopwords.words('portuguese'))

# Remover stopwords
tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt and palavra.isalpha()]

print("Antes:", tokens)
print("Depois:", tokens_sem_stopwords)


Antes: ['Eu', 'gosto', 'de', 'aprender', 'coisas', 'novas', '.']
Depois: ['gosto', 'aprender', 'coisas', 'novas']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!



### **5. Stemming**  
---

Reduz palavras à sua raiz, sem considerar o contexto.  
- **Exemplo:**  
  - "Correndo", "Correr", "Correu" → "Corr".  
  - "Amando", "Amar", "Amei" → "Am".  



In [12]:
import nltk
from nltk.stem import RSLPStemmer

# Baixar recursos necessários
nltk.download('rslp')

# Inicializa o stemmer para português
stemmer = RSLPStemmer()

# Palavras de exemplo
palavras = ['correndo', 'correr', 'correu', 'amando', 'amar', 'amei']

# Aplica o stemming
raízes = [stemmer.stem(palavra) for palavra in palavras]

# Resultado
for palavra, raiz in zip(palavras, raízes):
    print(f'{palavra}  ->  {raiz}')


correndo  ->  corr
correr  ->  corr
correu  ->  corr
amando  ->  am
amar  ->  am
amei  ->  ame


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.



### **6. Lematização**  
---

Reduz palavras à forma base, considerando o contexto.  
- **Exemplo:**  
  - "Correndo", "Correr", "Correu" → "Correr".  
  - "Melhores" → "Melhor".  


#### **Por que a diferença entre inglês e português na lematização?**

Cada língua tem sua própria gramática, estrutura e variações de palavras. Por isso, os programas que fazem lematização precisam “entender” essas regras específicas para funcionar bem.




###**6.1 Lematização em Inglês**

Este código é um exemplo de lematização usando o **WordNetLemmatizer** da biblioteca **nltk**, que funciona bem porque o **inglês** é mais simples estruturalmente.

**Resumindo o código**

* **A Palavra 1**, 'running' (correndo) é reduzida para a forma base 'run' (correr), já que foi especificado que é um verbo (pos='v').

* **A Palavra 2**, 'better' (melhor) é reduzida para 'good' (bom), já que foi especificado que é um adjetivo (pos='a').

In [None]:
from nltk.stem import WordNetLemmatizer
import nltk

nltk.download('wordnet')
lemmatizer = WordNetLemmatizer()

# Lematizando palavras simples
print(lemmatizer.lemmatize('running', pos='v'))  # Forma base: 'run'
print(lemmatizer.lemmatize('better', pos='a'))   # Forma base: 'good'


###**6.2 Lematização em Português**

Este código é um exemplo de lematização usando o **SpaCy** uma biblioteca mais moderna, rápida e eficiente, com modelos treinados para várias línguas, inclusive o português. Ela entende melhor a gramática complexa de idiomas como o português, por isso é indicada para trabalhos mais avançados ou em línguas diferentes do inglês.

* **Antes de carregar o modelo, instale:**

 !python -m spacy download pt_core_news_sm


**Depois execute**


In [21]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m69.9 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [22]:
import spacy

# Baixe o modelo para português uma vez: !python -m spacy download pt_core_news_sm
nlp = spacy.load('pt_core_news_sm')

# Lematizando palavras simples
texto = "correndo melhor"
doc = nlp(texto)

for token in doc:
    print(f"Palavra: {token.text} -> Lema: {token.lemma_}")


Palavra: correndo -> Lema: correr
Palavra: melhor -> Lema: bom


# **Modelos de linguagem**
---
Imagine um programa que "aprendeu" a entender e trabalhar com textos.

Esses modelos funcionam como "cérebros digitais" treinados para realizar tarefas específicas de linguagem, como identificar palavras importantes, corrigir erros ou resumir textos.

Eles são criados a partir de:

* Conjuntos de dados estatísticos e regras.

* Treinamento com milhões de textos.

* Especialização para tarefas específicas, como análise de sentimentos ou tradução.

* Aprendizado de máquina, que ensina o modelo a melhorar com base nos dados fornecidos.



###**Exemplo (em português)**

O código a seguir mostra como modelos de linguagem pré-treinados podem realizar tarefas úteis automaticamente, como:

* Identificar palavras e suas funções.

* Reconhecer entidades e conceitos.

* Dividir textos em partes mais simples para análise.

In [25]:
import spacy

# Carregar o modelo para português
nlp = spacy.load('pt_core_news_sm')

# Texto simples sobre o tema pedido
texto = "Estou super atrasada para entregar as atividades dessa aula da FATEC. Preciso correr para terminar tudo a tempo."

# Processar o texto com o modelo
doc = nlp(texto)

# Mostrar palavras e suas funções (posição gramatical)
print("Palavras e suas funções:")
for token in doc:
    print(f"{token.text} -> {token.pos_}")

# Mostrar as frases do texto
print("\nFrases:")
for sent in doc.sents:
    print(sent.text)


Palavras e suas funções:
Estou -> AUX
super -> ADJ
atrasada -> VERB
para -> SCONJ
entregar -> VERB
as -> DET
atividades -> NOUN
dessa -> ADP
aula -> NOUN
da -> ADP
FATEC -> PROPN
. -> PUNCT
Preciso -> VERB
correr -> VERB
para -> SCONJ
terminar -> VERB
tudo -> PRON
a -> ADP
tempo -> NOUN
. -> PUNCT

Frases:
Estou super atrasada para entregar as atividades dessa aula da FATEC.
Preciso correr para terminar tudo a tempo.


# **Como são treinados?**
---
* Alimentam o modelo com grandes volumes de textos (livros, sites, artigos).

* Ele aprende padrões do idioma, como conjugações e uso de palavras.

* Reconhece estruturas gramaticais, como onde usar verbos ou substantivos.

* Entende relações entre palavras, como "correr" e "correndo" serem da mesma ação.

* Depois, ele é testado e ajustado até funcionar bem.

# **Tipos de modelos por tamanho**
---
Os modelos têm diferentes tamanhos, dependendo da rapidez e precisão necessárias:

* **Pequeno (sm):** É rápido, usa pouca memória, mas menos preciso. Bom para testes rápidos.

* **Médio (md):** Equilibra velocidade e precisão. Indicado para tarefas do dia a dia.

* **Grande (lg):** É o mais preciso, mas também o mais lento e usa mais memória. Ideal para análises mais complexas.

# **Modelos pré-treinados disponíveis no spaCy**
---
**Português:** nlp_pt = spacy.load('pt_core_news_sm')

**Inglês:** nlp_en = spacy.load('en_core_web_sm')

**Espanhol:** nlp_es = spacy.load('es_core_news_sm')

**Francês:** nlp_fr = spacy.load('fr_core_news_sm')

**Alemão:** nlp_de = spacy.load('de_core_news_sm')

Esses modelos já vêm "treinados" para entender cada idioma, facilitando tarefas como análise de texto, lematização ou extração de palavras-chave.

### **Exemplo em Inglês (usando en_core_web_sm)**

In [26]:
import spacy

# Carrega o modelo pré-treinado para inglês
nlp_en = spacy.load('en_core_web_sm')

texto_en = "I am late to submit the assignments for class at FATEC. I need to hurry to finish everything on time."

doc_en = nlp_en(texto_en)

print("English - Words and their parts of speech:")
for token in doc_en:
    print(f"{token.text} -> {token.pos_}")

print("\nEnglish - Sentences:")
for sent in doc_en.sents:
    print(sent.text)


English - Words and their parts of speech:
I -> PRON
am -> AUX
late -> ADJ
to -> PART
submit -> VERB
the -> DET
assignments -> NOUN
for -> ADP
class -> NOUN
at -> ADP
FATEC -> PROPN
. -> PUNCT
I -> PRON
need -> VERB
to -> PART
hurry -> VERB
to -> PART
finish -> VERB
everything -> PRON
on -> ADP
time -> NOUN
. -> PUNCT

English - Sentences:
I am late to submit the assignments for class at FATEC.
I need to hurry to finish everything on time.


### **Exemplo em Espanhol**

In [27]:
# instalar a biblioteca e baixar o modelo do idioma

!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m59.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [28]:
import spacy

# Carrega o modelo para espanhol
nlp_es = spacy.load('es_core_news_sm')

texto_es = "Estoy atrasado para entregar las tareas de la clase en la universidad. Necesito apurarme para terminar todo a tiempo."

doc_es = nlp_es(texto_es)

print("Palabras y sus funciones gramaticales (Español):")
for token in doc_es:
    print(f"{token.text} -> {token.pos_}")

print("\nOraciones (Español):")
for sent in doc_es.sents:
    print(sent.text)


Palabras y sus funciones gramaticales (Español):
Estoy -> AUX
atrasado -> ADJ
para -> ADP
entregar -> VERB
las -> DET
tareas -> NOUN
de -> ADP
la -> DET
clase -> NOUN
en -> ADP
la -> DET
universidad -> NOUN
. -> PUNCT
Necesito -> VERB
apurarme -> VERB
para -> ADP
terminar -> VERB
todo -> PRON
a -> ADP
tiempo -> NOUN
. -> PUNCT

Oraciones (Español):
Estoy atrasado para entregar las tareas de la clase en la universidad.
Necesito apurarme para terminar todo a tiempo.
