In [None]:
# Importações necessárias
import re
import string
import unicodedata
from collections import Counter

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# NLP Libraries
import nltk
import spacy
from textblob import TextBlob
from unidecode import unidecode

# Baixar recursos necessários do NLTK
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)
nltk.download('wordnet', quiet=True)
nltk.download('rslp', quiet=True)

# Carregar modelo do spaCy
nlp = spacy.load('pt_core_news_sm')

# Importar datasets de exemplo
import sys
sys.path.append('..')
from datasets.textos_exemplo import *
from utils.nlp_utils import *

print("✅ Todas as bibliotecas carregadas com sucesso!")


In [None]:
# Vamos trabalhar com textos ruidosos para demonstrar a limpeza
textos_sujos = textos_ruidosos

print("📝 Textos originais (com ruído):")
for i, texto in enumerate(textos_sujos[:3]):
    print(f"\n{i+1}. {texto}")

print("\n" + "="*60)

# Função de limpeza básica
def limpeza_basica(texto):
    """
    Aplica limpeza básica ao texto:
    - Remove URLs
    - Remove emails  
    - Remove caracteres especiais
    - Normaliza espaços
    """
    # Remover URLs
    texto = re.sub(r'http\S+|www\S+|https\S+', '', texto, flags=re.MULTILINE)
    
    # Remover emails
    texto = re.sub(r'\S+@\S+', '', texto)
    
    # Remover caracteres especiais (manter apenas letras, números e espaços)
    texto = re.sub(r'[^a-zA-ZÀ-ÿ0-9\s]', '', texto)
    
    # Normalizar espaços múltiplos
    texto = re.sub(r'\s+', ' ', texto)
    
    # Remover espaços no início e fim
    texto = texto.strip()
    
    return texto

# Aplicar limpeza
textos_limpos = [limpeza_basica(texto) for texto in textos_sujos]

print("✨ Textos após limpeza básica:")
for i, texto in enumerate(textos_limpos[:3]):
    print(f"\n{i+1}. {texto}")

# Comparar antes e depois
print(f"\n📊 Estatísticas:")
print(f"Texto original médio: {np.mean([len(t) for t in textos_sujos]):.1f} caracteres")
print(f"Texto limpo médio: {np.mean([len(t) for t in textos_limpos]):.1f} caracteres")
print(f"Redução média: {(1 - np.mean([len(t) for t in textos_limpos])/np.mean([len(t) for t in textos_sujos]))*100:.1f}%")


In [None]:
# Importações necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import unicodedata
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# NLP Libraries
import nltk
import spacy
from textblob import TextBlob

# Download recursos do NLTK
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)
nltk.download('wordnet', quiet=True)
nltk.download('rslp', quiet=True)

# Importações específicas do NLTK
from nltk.tokenize import word_tokenize, sent_tokenize, TweetTokenizer
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, SnowballStemmer, RSLPStemmer
from nltk.stem import WordNetLemmatizer

# Configurar visualização
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)

print("✅ Bibliotecas importadas com sucesso!")

# Carregar modelo do spaCy
try:
    nlp = spacy.load("pt_core_news_sm")
    print("✅ Modelo em português carregado!")
except OSError:
    nlp = spacy.load("en_core_web_sm")
    print("⚠️ Usando modelo em inglês")
