# Pr√©-processamento de Textos em NLP

Este notebook realiza o pr√©-processamento de dois textos distintos:
1. **Mat√©ria jornal√≠stica** do jornal A Tribuna
2. **Bula do medicamento** Doril

## Etapas do Pr√©-processamento:
1. Remover tags HTML
2. Remover URLs
3. Remover emojis
4. Remover stopwords
5. Remover sinais de pontua√ß√£o
6. Remover caracteres especiais
7. Remover espa√ßos em branco excedentes
8. Substituir palavras de chat por formas normais
9. Converter n√∫meros em palavras
10. Converter para letras min√∫sculas
11. Aplicar corre√ß√£o ortogr√°fica
12. Aplicar stemiza√ß√£o
13. Aplicar lematiza√ß√£o

In [17]:
# Instala√ß√£o das bibliotecas necess√°rias
!pip install nltk spacy emoji pyspellchecker num2words beautifulsoup4
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
     ---------------------------------------- 0.0/13.0 MB ? eta -:--:--
     --- ------------------------------------ 1.0/13.0 MB 5.0 MB/s eta 0:00:03
     -------- ------------------------------- 2.6/13.0 MB 6.0 MB/s eta 0:00:02
     ---------- ----------------------------- 3.4/13.0 MB 5.0 MB/s eta 0:00:02
     ------------- -------------------------- 4.5/13.0 MB 5.1 MB/s eta 0:00:02
     ---------------- ----------------------- 5.5/13.0 MB 5.2 MB/s eta 0:00:02
     -------------------- ------------------- 6.6/13.0 MB 5.2 MB/s eta 0:00:02
     ----------------------- ---------------- 7.6/13.0 MB 5.2 MB/s eta 0:00:02
     --------------------------- ------------ 8.9/13.0 MB 5.1 MB/s eta 0:00:01
     ------------------------------ --------- 10.0/13.0 MB 5.2 MB/s eta 0:00:01
     --------------------------------

In [18]:
# Importa√ß√£o das bibliotecas
import re
import string
import nltk
import spacy
import emoji
from spellchecker import SpellChecker
from num2words import num2words
from bs4 import BeautifulSoup
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
from nltk.tokenize import word_tokenize
import warnings
warnings.filterwarnings('ignore')

# Downloads necess√°rios do NLTK
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('rslp')

# Carregando modelo do spaCy para portugu√™s
nlp = spacy.load('pt_core_news_sm')

print("Bibliotecas carregadas com sucesso!")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\helio\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\helio\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\helio\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\helio\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Bibliotecas carregadas com sucesso!


In [19]:
# Carregamento dos textos originais
with open('doril.txt', 'r', encoding='utf-8') as f:
    texto_doril = f.read()

with open('no14011801.txt', 'r', encoding='utf-8') as f:
    texto_jornal = f.read()

print("=== TEXTO ORIGINAL - BULA DORIL ===")
print(f"Tamanho: {len(texto_doril)} caracteres")
print(texto_doril[:500] + "...\n")

print("=== TEXTO ORIGINAL - JORNAL A TRIBUNA ===")
print(f"Tamanho: {len(texto_jornal)} caracteres")
print(texto_jornal[:500] + "...")

=== TEXTO ORIGINAL - BULA DORIL ===
Tamanho: 13742 caracteres
DORIL¬Æ
(√°cido acetilsalic√≠lico + cafe√≠na)

Cosmed Ind√∫stria de Cosm√©ticos e Medicamentos S.A.

Comprimido

500mg + 30mg

I - IDENTIFICA√á√ÉO DO MEDICAMENTO:
Doril¬Æ
√°cido acetilsalic√≠lico + cafe√≠na
APRESENTA√á√ïES
Comprimido.
Embalagens contendo 20 ou 150 comprimidos.
VIA DE ADMINISTRA√á√ÉO: ORAL
USO ADULTO
COMPOSI√á√ÉO
Cada comprimido cont√©m:
√°cido acetilsalic√≠lico ‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶.................................... 500mg
cafe√≠na ‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶.................‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶.‚Ä¶...‚Ä¶............ 30mg
ex...

=== TEXTO ORIGINAL - JORNAL A TRIBUNA ===
Tamanho: 2634 caracteres
VIT√ìRIA-ES | DOMINGO, 14 DE JANEIRO DE 2018 | ANO LXXIX | N¬∫ 26.236 | FUNDADO EM 22/09/1938 | EDI√á√ÉO DE 72 P√ÅGINAS Vo c √™ conhece bem seus amigos? >AT 2 THIAGO COUTINHO/AT THIAGO COUTINHO/AT R$ 3,50 DEMAIS CIDADES R$ 3 ,0 0 GRANDE VIT√ìRIA AS S

## Defini√ß√£o das Fun√ß√µes de Pr√©-processamento

Cada fun√ß√£o implementa uma etapa espec√≠fica do pr√©-processamento.

In [20]:
# Etapa 1: Remover tags HTML
def step_1_remove_html_tags(text):
    """Remove tags HTML do texto"""
    soup = BeautifulSoup(text, 'html.parser')
    return soup.get_text()

# Etapa 2: Remover URLs
def step_2_remove_urls(text):
    """Remove URLs do texto"""
    url_pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')
    text = url_pattern.sub('', text)
    # Remove tamb√©m URLs simplificadas como t.co/...
    text = re.sub(r'\S*\.co/\S*', '', text)
    text = re.sub(r'www\.\S+', '', text)
    return text

# Etapa 3: Remover emojis
def step_3_remove_emojis(text):
    """Remove emojis do texto"""
    return emoji.replace_emoji(text, replace='')

# Etapa 4: Remover stopwords
def step_4_remove_stopwords(text):
    """Remove stopwords em portugu√™s"""
    stop_words = set(stopwords.words('portuguese'))
    # Adicionar algumas stopwords customizadas
    stop_words.update(['que', 'de', 'a', 'o', 'e', 'do', 'da', 'em', 'um', 'para', '√©', 'com', 'n√£o', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'foi', 'ao', 'ele', 'das', 'tem', '√†', 'seu', 'sua', 'ou', 'ser', 'quando', 'muito', 'h√°', 'nos', 'j√°', 'est√°', 'eu', 'tamb√©m', 's√≥', 'pelo', 'pela', 'at√©', 'isso', 'ela', 'entre', 'era', 'depois', 'sem', 'mesmo', 'aos', 'ter', 'seus', 'suas', 'numa', 'nem', 'suas', 'meu', '√†s', 'minha', 't√™m', 'numa', 'pelos', 'pelas', 'essa', 'num', 'essa', 'foram', 'eles', 'estas', 'tinha', 'outro', 'essa', 'esses'])
    
    words = text.split()
    filtered_words = [word for word in words if word.lower() not in stop_words]
    return ' '.join(filtered_words)

print("Fun√ß√µes 1-4 definidas!")

Fun√ß√µes 1-4 definidas!


In [21]:
# Etapa 5: Remover sinais de pontua√ß√£o
def step_5_remove_punctuation(text):
    """Remove sinais de pontua√ß√£o"""
    translator = str.maketrans('', '', string.punctuation)
    return text.translate(translator)

# Etapa 6: Remover caracteres especiais (MELHORADA)
def step_6_remove_special_chars(text):
    """Remove caracteres especiais e normaliza repeti√ß√µes excessivas de letras"""
    # Primeiro, normaliza repeti√ß√µes excessivas de letras (mais de 2 iguais seguidas)
    # "PPPaaaiiisss" -> "PPaaiiss", "mmm√©√©√©dddiiicccooosss" -> "mm√©√©ddiiccoos"
    text = re.sub(r'(.)\1{2,}', r'\1\1', text)
    
    # Remove caracteres especiais, mantendo apenas letras, n√∫meros e espa√ßos
    text = re.sub(r'[^a-zA-Z√Ä-√ø0-9\s]', '', text)
    
    return text

# Etapa 7: Remover espa√ßos excedentes
def step_7_remove_extra_spaces(text):
    """Remove espa√ßos em branco excedentes"""
    return re.sub(r'\s+', ' ', text.strip())

# Etapa 8: Substituir palavras de chat (MELHORADA)
def step_8_normalize_chat_words(text):
    """Substitui abrevia√ß√µes e g√≠rias por formas normais, incluindo palavras com repeti√ß√µes"""
    chat_dict = {
        'vc': 'voc√™',
        'vcs': 'voc√™s',
        'tb': 'tamb√©m',
        'tmbm': 'tamb√©m',
        'pq': 'porque',
        'qq': 'qualquer',
        'qdo': 'quando',
        '√±': 'n√£o',
        'nao': 'n√£o',
        'naoo': 'n√£o',
        'naaoo': 'n√£o',
        'kk': '',
        'kkk': '',
        'kkkk': '',
        'rs': '',
        'rsrs': '',
        'haha': '',
        'hehe': '',
        'blz': 'beleza',
        'flw': 'falou',
        'cmg': 'comigo',
        'ctg': 'contigo',
        'mt': 'muito',
        'mto': 'muito',
        'msm': 'mesmo',
        'td': 'tudo',
        'tds': 'todos',
        'bjo': 'beijo',
        'bjs': 'beijos',
        # Adiciona tratamento para palavras com repeti√ß√µes que sabemos que s√£o comuns
        'sleepy': 'com sono',
        'sleeepy': 'com sono',
        'sleeeepy': 'com sono',
        'sleeeeepy': 'com sono'
    }
    
    words = text.split()
    normalized_words = []
    
    for word in words:
        word_lower = word.lower()
        
        # Verifica se a palavra est√° no dicion√°rio diretamente
        if word_lower in chat_dict:
            replacement = chat_dict[word_lower]
            if replacement:  # Se n√£o for string vazia
                normalized_words.append(replacement)
        else:
            # Tenta normalizar repeti√ß√µes antes de verificar o dicion√°rio
            normalized_word = re.sub(r'(.)\1{2,}', r'\1', word_lower)
            if normalized_word in chat_dict:
                replacement = chat_dict[normalized_word]
                if replacement:  # Se n√£o for string vazia
                    normalized_words.append(replacement)
            else:
                normalized_words.append(word)
    
    return ' '.join(normalized_words)

print("Fun√ß√µes 5-8 definidas e melhoradas!")

Fun√ß√µes 5-8 definidas e melhoradas!


In [22]:
# Etapa 9: Converter n√∫meros em palavras (CORRIGIDA COMPLETAMENTE)
def step_9_convert_numbers_to_words(text):
    """Converte TODOS os n√∫meros em palavras, incluindo n√∫meros grandes e datas"""
    def replace_number(match):
        number = match.group()
        try:
            # Tenta converter para inteiro primeiro
            num = int(number)
            
            # Para n√∫meros muito grandes (como datas), divide em partes menores
            if num > 100000:
                # Se parece com uma data, trata especialmente
                if len(number) == 8:
                    # Formato DDMMAAAA - divide em partes
                    day = int(number[:2])
                    month = int(number[2:4])
                    year = int(number[4:])
                    
                    day_words = num2words(day, lang='pt') if day <= 31 else num2words(day, lang='pt')
                    month_words = num2words(month, lang='pt') if month <= 12 else num2words(month, lang='pt')
                    year_words = num2words(year, lang='pt') if year <= 2100 else num2words(year, lang='pt')
                    
                    return f"{day_words} {month_words} {year_words}"
                else:
                    # Para outros n√∫meros grandes, converte normalmente
                    return num2words(num, lang='pt')
            else:
                # N√∫meros normais - SEMPRE converte
                return num2words(num, lang='pt')
                
        except:
            try:
                # Tenta converter para float
                num = float(number)
                return num2words(int(num), lang='pt')  # Converte float para int primeiro
            except:
                return number
    
    # Encontra TODOS os n√∫meros
    # Primeiro, converte n√∫meros isolados
    text = re.sub(r'\b\d+(?:\.\d+)?\b', replace_number, text)
    
    # Remove n√∫meros de nomes de usu√°rio/tags mantendo o texto
    text = re.sub(r'(\w+)\d+', r'\1', text)
    
    return text

# Etapa 10: Converter para min√∫sculas
def step_10_to_lowercase(text):
    """Converte todo o texto para min√∫sculas"""
    return text.lower()

# Etapa 11: Corre√ß√£o ortogr√°fica (MELHORADA)
def step_11_spell_correction(text):
    """Aplica corre√ß√£o ortogr√°fica melhorada para tratar repeti√ß√µes"""
    spell = SpellChecker(language='pt')
    words = text.split()
    corrected_words = []
    
    for word in words:
        if len(word) > 2:  # S√≥ corrige palavras com mais de 2 caracteres
            
            # Primeiro, normaliza repeti√ß√µes excessivas na palavra
            normalized_word = re.sub(r'(.)\1{2,}', r'\1', word.lower())
            
            # Verifica se a palavra normalizada est√° no dicion√°rio
            if normalized_word in spell:
                corrected_words.append(normalized_word)
            else:
                # Tenta corrigir a palavra normalizada
                correction = spell.correction(normalized_word)
                if correction and correction != normalized_word:
                    corrected_words.append(correction)
                else:
                    # Se n√£o conseguiu corrigir, tenta algumas normaliza√ß√µes comuns
                    # Remove todas as repeti√ß√µes deixando apenas uma letra
                    single_char_word = re.sub(r'(.)\1+', r'\1', word.lower())
                    if single_char_word in spell:
                        corrected_words.append(single_char_word)
                    else:
                        single_correction = spell.correction(single_char_word)
                        if single_correction and single_correction != single_char_word:
                            corrected_words.append(single_correction)
                        else:
                            # Se ainda n√£o conseguiu, mant√©m a palavra original normalizada
                            corrected_words.append(normalized_word)
        else:
            corrected_words.append(word)
    
    return ' '.join(corrected_words)

print("Fun√ß√µes 9-11 definidas e melhoradas!")

Fun√ß√µes 9-11 definidas e melhoradas!


In [23]:
# Etapa 12: Stemiza√ß√£o
def step_12_stemming(text):
    """Aplica stemiza√ß√£o usando RSLP Stemmer"""
    stemmer = RSLPStemmer()
    words = text.split()
    stemmed_words = [stemmer.stem(word) for word in words]
    return ' '.join(stemmed_words)

# Etapa 13: Lematiza√ß√£o 
def step_13_lemmatization(text):
    """Aplica lematiza√ß√£o usando spaCy, com tratamento especial para palavras stemizadas"""
    
    # Dicion√°rio para corrigir palavras comuns que ficaram stemizadas
    stem_to_lemma = {
        # N√∫meros
        'vint': 'vinte', 'trint': 'trinta', 'quarent': 'quarenta', 'cinquent': 'cinquenta',
        'catorz': 'catorze', 'quinz': 'quinze', 'doiz': 'doze', 'trez': 'treze', 
        'dezoitr': 'dezoito', 'seil': 'seis', 'oit': 'oito', 'quatr': 'quatro',
        'cinc': 'cinco', 'nov': 'nove', 'set': 'sete', 'tr√™': 'tr√™s',
        
        # Termos m√©dicos (espec√≠ficos da bula)
        'medic': 'm√©dico', 'comprim': 'comprimido', '√°cid': '√°cido', 'analg√©s': 'analg√©sico',
        'antipo√©': 'antipir√©tico', 'func': 'funcionar', 'contraindic': 'contraindicado',
        'paci': 'paciente', 'administr': 'administrar', 'oral': 'oral', 'adult': 'adulto',
        'compo': 'composi√ß√£o', 'cad': 'cada', 'cont√©mr': 'cont√©m', 'excipir': 'excipiente',
        'amid': 'amido', 'cor': 'cor', 'vermelh': 'vermelho', 'bul': 'bula',
        'inforr': 'informar', 'indic': 'indicado', 'espec': 'especial', 'trat': 'tratar',
        'redu√ß': 'redu√ß√£o', 'febr': 'febre', 'cabe√ß': 'cabe√ßa', 'a√ß√£': 'a√ß√£o',
        'antipir√©': 'antipir√©tico', 'portant': 'portanto', 'atu': 'atuar', 'alivi': 'aliviar',
        'possur': 'possuir', 'subst': 'subst√¢ncia', 'potencializ': 'potencializar',
        'apresent': 'apresentar', 'aind': 'ainda', 'efeit': 'efeito', 'estimul': 'estimular',
        'hum': 'humano', 'est': 'estar', 'alert': 'alerta', 'aten√ß': 'aten√ß√£o',
        'promov': 'promover', 'constr': 'constri√ß√£o', 'diminu': 'diminuir', 'calibr': 'calibre',
        'sangu√≠ne': 'sangu√≠neo', 'c√©rebrr': 'cerebral', 'pod': 'poder', 'contribu': 'contribuir',
        'dev': 'dever', 'us': 'usar', 'hipersensibil': 'hipersensibilidade', 'outr': 'outro',
        'salicilat': 'salicilato', 'qualqu': 'qualquer', 'compon': 'componente', 'f√≥rmul': 'f√≥rmula',
        'produt': 'produto', 'predispostr': 'predisposto', 'dispeps': 'dispepsia', 'indigest': 'indigest√£o',
        'sab': 'saber', 'portr': 'portar', 'algum': 'algum', 'Les': 'les√£o', 'muco': 'mucosa',
        'g√°str': 'g√°strica', '√∫lc': '√∫lcera', 'intoler': 'intoler√¢ncia', 'hep√°': 'hep√°tica',
        'grav': 'grave', 'al√©m': 'al√©m', 'hemof√≠l': 'hemofilia', 'problem': 'problema',
        'sangrent': 'sangramento', 'tom': 'tomar', 'cuid': 'cuidado', 'renal': 'renal',
        'compromet': 'comprometida', 'Prim': 'primeiro', 'mes': 'm√™s', 'Gravid': 'gravidez',
        'ap√≥s': 'ap√≥s', 'per√≠od': 'per√≠odo', 'empreg': 'emprego', 'ca': 'caso', 'absolut': 'absoluto',
        
        # Profiss√µes e substantivos
        'ministr': 'ministro', 'presid': 'presidente', 'pilot': 'piloto', 'l√≠d': 'l√≠der', 'chef': 'chefe',
        
        # Palavras comuns
        'fam√≠l': 'fam√≠lia', 'empr': 'empresa', 'cidad': 'cidade', 'pesso': 'pessoa',
        'part': 'parte', 'grand': 'grande', 'feminin': 'feminino', 'pr√≥x': 'pr√≥ximo',
        'ref√∫gi': 'ref√∫gio', 'amig': 'amigo', 'fund': 'fundar', 'edi√ß': 'edi√ß√£o', 
        'p√°gin': 'p√°gina', 'comiss': 'comiss√£o', 'p√∫blic': 'p√∫blico', 'film': 'filme',
        'parc': 'parque', 'especi': 'especial', 'dilem': 'dilema', 'carg': 'cargo',
        'ritm': 'ritmo', 'internac': 'internacional', 'relat√≥ri': 'relat√≥rio',
        'sobr': 'sobre', 'fest': 'festa', 'liberdadr': 'liberdade',
        
        # Verbos
        'conhec': 'conhecer', 'gost': 'gostar', 'ach': 'achar', 'trabalh': 'trabalhar',
        'represent': 'representar', 'imagin': 'imaginar', 'aprend': 'aprender', 
        'pergunt': 'perguntar', 'concorr': 'concorrer', 'compr': 'comprar',
        'ajud': 'ajudar', 'deix': 'deixar', 'conver': 'conversar',
        'pression': 'pressionar', 'investig': 'investigar', 'coloc': 'colocar',
        'desej': 'desejar', 'divulg': 'divulgar', 'pass': 'passar', 'cadastr': 'cadastrar',
        'apaixon': 'apaixonar', 'entr': 'entrar', 'entrr': 'entrar',
        
        # Adjetivos e outros
        'vici': 'viciado', 'depend': 'dependente', 'gov': 'governo', 'decis': 'decis√£o',
        'risc': 'risco', 'vergonh': 'vergonha', 'aul': 'aula', 'famili': 'fam√≠lia'
    }
    
    words = text.split()
    lemmatized_words = []
    
    for word in words:
        # Primeiro verifica se a palavra stemizada tem corre√ß√£o no dicion√°rio
        if word.lower() in stem_to_lemma:
            lemmatized_words.append(stem_to_lemma[word.lower()])
        else:
            # Tenta aplicar lematiza√ß√£o normal com spaCy
            try:
                doc = nlp(word)
                if len(doc) > 0 and doc[0].lemma_ != word and doc[0].lemma_ != '-PRON-':
                    lemmatized_words.append(doc[0].lemma_)
                else:
                    
                    best_word = word
                    for suffix in ['', 'a', 'o', 'e', 'ar', 'er', 'ir', '√£o']:
                        test_word = word + suffix
                        try:
                            test_doc = nlp(test_word)
                            if len(test_doc) > 0 and test_doc[0].is_alpha and not test_doc[0].is_oov:
                                lemma = test_doc[0].lemma_
                                if lemma != '-PRON-' and len(lemma) > 2:
                                    best_word = lemma
                                    break
                        except:
                            continue
                    lemmatized_words.append(best_word)
            except:
                lemmatized_words.append(word)
    
    return ' '.join(lemmatized_words)

print("Fun√ß√µes 12-13 definidas!")
print("\nTodas as fun√ß√µes de pr√©-processamento foram definidas com sucesso!")

Fun√ß√µes 12-13 definidas!

Todas as fun√ß√µes de pr√©-processamento foram definidas com sucesso!


In [24]:

print("=== TESTE DA LEMATIZA√á√ÉO MELHORADA ===")


texto_stemizado = "vint trint catorz m√©dic fam√≠l conhec gost fazer trabalh gov ministr represent"
print(f"Texto stemizado: {texto_stemizado}")


resultado_lemmatizado = step_13_lemmatization(texto_stemizado)
print(f"Ap√≥s lematiza√ß√£o: {resultado_lemmatizado}")

print("\n=== COMPARA√á√ÉO PALAVRA POR PALAVRA ===")
palavras_stem = texto_stemizado.split()
palavras_lemma = resultado_lemmatizado.split()

for i, (stem, lemma) in enumerate(zip(palavras_stem, palavras_lemma)):
    print(f"{i+1:2d}. {stem:10} -> {lemma}")

print("\n‚úÖ Teste da lematiza√ß√£o conclu√≠do!")

=== TESTE DA LEMATIZA√á√ÉO MELHORADA ===
Texto stemizado: vint trint catorz m√©dic fam√≠l conhec gost fazer trabalh gov ministr represent
Ap√≥s lematiza√ß√£o: vinte trinta catorze M√©dic fam√≠lia conhecer gostar fazer trabalhar governo ministro representar

=== COMPARA√á√ÉO PALAVRA POR PALAVRA ===
 1. vint       -> vinte
 2. trint      -> trinta
 3. catorz     -> catorze
 4. m√©dic      -> M√©dic
 5. fam√≠l      -> fam√≠lia
 6. conhec     -> conhecer
 7. gost       -> gostar
 8. fazer      -> fazer
 9. trabalh    -> trabalhar
10. gov        -> governo
11. ministr    -> ministro
12. represent  -> representar

‚úÖ Teste da lematiza√ß√£o conclu√≠do!


In [25]:
# Teste da convers√£o de n√∫meros melhorada
print("=== TESTE DA CONVERS√ÉO DE N√öMEROS ===")

texto_com_numeros = "22091938 funda√ß√£o em 1998 nickcristan17 500 reais"
print(f"Texto original: {texto_com_numeros}")

resultado_numeros = step_9_convert_numbers_to_words(texto_com_numeros)
print(f"Ap√≥s convers√£o: {resultado_numeros}")

print("\n=== TESTE COM MAIS PALAVRAS STEMIZADAS ===")
texto_stem_completo = "seil oit quatr cinc nov set entrr liberdadr empr divulg"
print(f"Texto stemizado: {texto_stem_completo}")

resultado_lemma_completo = step_13_lemmatization(texto_stem_completo)
print(f"Ap√≥s lematiza√ß√£o: {resultado_lemma_completo}")

print("\n‚úÖ Testes conclu√≠dos!")

=== TESTE DA CONVERS√ÉO DE N√öMEROS ===
Texto original: 22091938 funda√ß√£o em 1998 nickcristan17 500 reais
Ap√≥s convers√£o: vinte e dois nove mil novecentos e trinta e oito funda√ß√£o em mil novecentos e noventa e oito nickcristan1 quinhentos reais

=== TESTE COM MAIS PALAVRAS STEMIZADAS ===
Texto stemizado: seil oit quatr cinc nov set entrr liberdadr empr divulg
Ap√≥s lematiza√ß√£o: seis oito quatro cinco nove sete entrar liberdade empresa divulgar

‚úÖ Testes conclu√≠dos!


## Aplica√ß√£o Sequencial do Pr√©-processamento

Agora vamos aplicar todas as etapas sequencialmente e mostrar o resultado ap√≥s cada transforma√ß√£o.

In [26]:
# Teste das melhorias com o texto problem√°tico
texto_teste = "PPPaaaiiisss pppeeedddeeemmm aaajjjuuudddaaa aaa mmm√©√©√©dddiiicccooosss pppaaarrraaa tttrrraaatttaaarrr fffiiilllhhhooosss vvviiiccciiiaaadddooosss"

print("=== TESTE DAS MELHORIAS ===")
print(f"Texto original:\n{texto_teste}")

print(f"\nAp√≥s etapa 6 (remover caracteres especiais):")
teste_etapa6 = step_6_remove_special_chars(texto_teste)
print(teste_etapa6)

print(f"\nAp√≥s etapa 8 (normalizar chat):")
teste_etapa8 = step_8_normalize_chat_words(teste_etapa6)
print(teste_etapa8)

print(f"\nAp√≥s etapa 10 (min√∫sculas):")
teste_etapa10 = step_10_to_lowercase(teste_etapa8)
print(teste_etapa10)

print(f"\nAp√≥s etapa 11 (corre√ß√£o ortogr√°fica):")
teste_etapa11 = step_11_spell_correction(teste_etapa10)
print(teste_etapa11)

print("\n" + "="*50)

=== TESTE DAS MELHORIAS ===
Texto original:
PPPaaaiiisss pppeeedddeeemmm aaajjjuuudddaaa aaa mmm√©√©√©dddiiicccooosss pppaaarrraaa tttrrraaatttaaarrr fffiiilllhhhooosss vvviiiccciiiaaadddooosss

Ap√≥s etapa 6 (remover caracteres especiais):
PPaaiiss ppeeddeemm aajjuuddaa aa mm√©√©ddiiccooss ppaarraa ttrraattaarr ffiillhhooss vviicciiaaddooss

Ap√≥s etapa 8 (normalizar chat):
PPaaiiss ppeeddeemm aajjuuddaa aa mm√©√©ddiiccooss ppaarraa ttrraattaarr ffiillhhooss vviicciiaaddooss

Ap√≥s etapa 10 (min√∫sculas):
ppaaiiss ppeeddeemm aajjuuddaa aa mm√©√©ddiiccooss ppaarraa ttrraattaarr ffiillhhooss vviicciiaaddooss

Ap√≥s etapa 11 (corre√ß√£o ortogr√°fica):
pais pedem ajuda aa m√©dicos para tratar filhos viciados

pais pedem ajuda aa m√©dicos para tratar filhos viciados



In [27]:
def apply_preprocessing_steps(text, text_name):
    """Aplica todas as etapas de pr√©-processamento sequencialmente"""
    
    steps = [
        ("Original", lambda x: x),
        ("1. Remover HTML", step_1_remove_html_tags),
        ("2. Remover URLs", step_2_remove_urls),
        ("3. Remover emojis", step_3_remove_emojis),
        ("4. Remover stopwords", step_4_remove_stopwords),
        ("5. Remover pontua√ß√£o", step_5_remove_punctuation),
        ("6. Remover caracteres especiais", step_6_remove_special_chars),
        ("7. Remover espa√ßos excedentes", step_7_remove_extra_spaces),
        ("8. Normalizar palavras de chat", step_8_normalize_chat_words),
        ("9. Converter n√∫meros", step_9_convert_numbers_to_words),
        ("10. Converter para min√∫sculas", step_10_to_lowercase),
        ("11. Corre√ß√£o ortogr√°fica", step_11_spell_correction),
        ("12. Stemiza√ß√£o", step_12_stemming),
        ("13. Lematiza√ß√£o", step_13_lemmatization)
    ]
    
    current_text = text
    results = {}
    
    print(f"\n{'='*60}")
    print(f"PR√â-PROCESSAMENTO: {text_name.upper()}")
    print(f"{'='*60}")
    
    for step_name, step_function in steps:
        if step_name != "Original":
            current_text = step_function(current_text)
        
        results[step_name] = current_text
        
        print(f"\n{'-'*40}")
        print(f"ETAPA: {step_name}")
        print(f"{'-'*40}")
        print(f"Tamanho: {len(current_text)} caracteres")
        print(f"Palavras: {len(current_text.split())} palavras")
        
        # Mostra uma amostra do texto (primeiros 300 caracteres)
        sample = current_text[:300] + "..." if len(current_text) > 300 else current_text
        print(f"Amostra: {sample}")
    
    return results

print("Fun√ß√£o de aplica√ß√£o sequencial definida!")

Fun√ß√£o de aplica√ß√£o sequencial definida!


In [28]:
# Aplicando pr√©-processamento na BULA DO DORIL
resultados_doril = apply_preprocessing_steps(texto_doril, "Bula do Doril")


PR√â-PROCESSAMENTO: BULA DO DORIL

----------------------------------------
ETAPA: Original
----------------------------------------
Tamanho: 13742 caracteres
Palavras: 1955 palavras
Amostra: DORIL¬Æ
(√°cido acetilsalic√≠lico + cafe√≠na)

Cosmed Ind√∫stria de Cosm√©ticos e Medicamentos S.A.

Comprimido

500mg + 30mg

I - IDENTIFICA√á√ÉO DO MEDICAMENTO:
Doril¬Æ
√°cido acetilsalic√≠lico + cafe√≠na
APRESENTA√á√ïES
Comprimido.
Embalagens contendo 20 ou 150 comprimidos.
VIA DE ADMINISTRA√á√ÉO: ORAL
USO ADUL...

----------------------------------------
ETAPA: 1. Remover HTML
----------------------------------------
Tamanho: 13742 caracteres
Palavras: 1955 palavras
Amostra: DORIL¬Æ
(√°cido acetilsalic√≠lico + cafe√≠na)

Cosmed Ind√∫stria de Cosm√©ticos e Medicamentos S.A.

Comprimido

500mg + 30mg

I - IDENTIFICA√á√ÉO DO MEDICAMENTO:
Doril¬Æ
√°cido acetilsalic√≠lico + cafe√≠na
APRESENTA√á√ïES
Comprimido.
Embalagens contendo 20 ou 150 comprimidos.
VIA DE ADMINISTRA√á√ÉO: ORAL
USO ADUL...

-

In [29]:
# Aplicando pr√©-processamento no JORNAL A TRIBUNA
resultados_jornal = apply_preprocessing_steps(texto_jornal, "Jornal A Tribuna")


PR√â-PROCESSAMENTO: JORNAL A TRIBUNA

----------------------------------------
ETAPA: Original
----------------------------------------
Tamanho: 2634 caracteres
Palavras: 413 palavras
Amostra: VIT√ìRIA-ES | DOMINGO, 14 DE JANEIRO DE 2018 | ANO LXXIX | N¬∫ 26.236 | FUNDADO EM 22/09/1938 | EDI√á√ÉO DE 72 P√ÅGINAS Vo c √™ conhece bem seus amigos? >AT 2 THIAGO COUTINHO/AT THIAGO COUTINHO/AT R$ 3,50 DEMAIS CIDADES R$ 3 ,0 0 GRANDE VIT√ìRIA AS S I N E 3323 -6333 Transexuais querem fazer parte da cota ...

----------------------------------------
ETAPA: 1. Remover HTML
----------------------------------------
Tamanho: 2634 caracteres
Palavras: 413 palavras
Amostra: VIT√ìRIA-ES | DOMINGO, 14 DE JANEIRO DE 2018 | ANO LXXIX | N¬∫ 26.236 | FUNDADO EM 22/09/1938 | EDI√á√ÉO DE 72 P√ÅGINAS Vo c √™ conhece bem seus amigos? >AT 2 THIAGO COUTINHO/AT THIAGO COUTINHO/AT R$ 3,50 DEMAIS CIDADES R$ 3 ,0 0 GRANDE VIT√ìRIA AS S I N E 3323 -6333 Transexuais querem fazer parte da cota ...

--------------------

## Compara√ß√£o Final: Original vs Processado

Vamos comparar o texto original com o texto final ap√≥s todas as transforma√ß√µes.

In [30]:
def show_final_comparison(results, text_name):
    """Mostra compara√ß√£o entre texto original e final"""
    
    original = results["Original"]
    final = results["13. Lematiza√ß√£o"]
    
    print(f"\n{'='*80}")
    print(f"COMPARA√á√ÉO FINAL: {text_name.upper()}")
    print(f"{'='*80}")
    
    print(f"\n ESTAT√çSTICAS:")
    print(f"   Original: {len(original)} caracteres, {len(original.split())} palavras")
    print(f"   Final: {len(final)} caracteres, {len(final.split())} palavras")
    print(f"   Redu√ß√£o: {((len(original) - len(final)) / len(original) * 100):.1f}% dos caracteres")
    
    print(f"\n TEXTO ORIGINAL (primeiros 500 caracteres):")
    print(f"   {original[:500]}...")
    
    print(f"\nüîß TEXTO FINAL (primeiros 500 caracteres):")
    print(f"   {final[:500]}...")
    
    return original, final

# Compara√ß√µes finais
original_doril, final_doril = show_final_comparison(resultados_doril, "Bula do Doril")
original_jornal, final_jornal = show_final_comparison(resultados_jornal, "Jornal A Tribuna")


COMPARA√á√ÉO FINAL: BULA DO DORIL

 ESTAT√çSTICAS:
   Original: 13742 caracteres, 1955 palavras
   Final: 9136 caracteres, 1361 palavras
   Redu√ß√£o: 33.5% dos caracteres

 TEXTO ORIGINAL (primeiros 500 caracteres):
   DORIL¬Æ
(√°cido acetilsalic√≠lico + cafe√≠na)

Cosmed Ind√∫stria de Cosm√©ticos e Medicamentos S.A.

Comprimido

500mg + 30mg

I - IDENTIFICA√á√ÉO DO MEDICAMENTO:
Doril¬Æ
√°cido acetilsalic√≠lico + cafe√≠na
APRESENTA√á√ïES
Comprimido.
Embalagens contendo 20 ou 150 comprimidos.
VIA DE ADMINISTRA√á√ÉO: ORAL
USO ADULTO
COMPOSI√á√ÉO
Cada comprimido cont√©m:
√°cido acetilsalic√≠lico ‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶.................................... 500mg
cafe√≠na ‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶.................‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶‚Ä¶.‚Ä¶...‚Ä¶............ 30mg
ex...

üîß TEXTO FINAL (primeiros 500 caracteres):
   doril √°cido acetilsalic√≠l Cafe√≠n cosm ind√∫str Cosm√© m√©dico sa comprimido 50 um i identific m√©dico doril

## Salvando os Resultados

Vamos salvar os textos processados em arquivos para refer√™ncia futura.

In [31]:
# Fun√ß√£o para formatar texto de forma leg√≠vel
def formatar_texto_legivel(texto, palavras_por_linha=10):
    """Formata o texto quebrando em linhas com n√∫mero limitado de palavras"""
    palavras = texto.split()
    linhas = []
    linha_atual = []
    
    for palavra in palavras:
        linha_atual.append(palavra)
        if len(linha_atual) >= palavras_por_linha:
            linhas.append(' '.join(linha_atual))
            linha_atual = []
    
    # Adiciona a √∫ltima linha se sobrou algo
    if linha_atual:
        linhas.append(' '.join(linha_atual))
    
    return '\n'.join(linhas)

# Salvando os resultados finais FORMATADOS EM LINHAS
print(" Salvando textos processados formatados...")

# Formata os textos
doril_formatado = formatar_texto_legivel(final_doril, palavras_por_linha=10)
jornal_formatado = formatar_texto_legivel(final_jornal, palavras_por_linha=10)

# Salva apenas as vers√µes formatadas em linhas
with open('doril_processado.txt', 'w', encoding='utf-8') as f:
    f.write("=== BULA DORIL - TEXTO PROCESSADO (FORMATADO) ===\n\n")
    f.write(doril_formatado)

with open('jornal_processado.txt', 'w', encoding='utf-8') as f:
    f.write("=== JORNAL A TRIBUNA - TEXTO PROCESSADO (FORMATADO) ===\n\n")
    f.write(jornal_formatado)

# Salvando log detalhado de todas as etapas
with open('log_preprocessamento.txt', 'w', encoding='utf-8') as f:
    f.write("RELAT√ìRIO DE PR√â-PROCESSAMENTO DE TEXTOS\n")
    f.write("=" * 60 + "\n\n")
    
    for texto_nome, resultados in [("BULA DORIL", resultados_doril), ("JORNAL A TRIBUNA", resultados_jornal)]:
        f.write(f"\n {texto_nome}\n")
        f.write("-" * 40 + "\n")
        
        for etapa, conteudo in resultados.items():
            f.write(f"\n {etapa}:\n")
            f.write(f"   Caracteres: {len(conteudo)}\n")
            f.write(f"   Palavras: {len(conteudo.split())}\n")
            
            # Formata uma amostra para o log
            if len(conteudo) > 200:
                amostra_formatada = formatar_texto_legivel(conteudo[:200], palavras_por_linha=8)
                f.write(f"   Amostra:\n")
                for linha in amostra_formatada.split('\n')[:3]:
                    f.write(f"      {linha}\n")
                f.write(f"      ...\n")
            else:
                amostra_formatada = formatar_texto_legivel(conteudo, palavras_por_linha=8)
                f.write(f"   Conte√∫do:\n")
                for linha in amostra_formatada.split('\n'):
                    f.write(f"      {linha}\n")
            f.write("\n")

print(" Resultados salvos em:")
print("    TEXTOS FORMATADOS:")
print("      - doril_processado.txt")
print("      - jornal_processado.txt")
print("    LOG:")
print("      - log_preprocessamento.txt")
print("\n Pr√©-processamento conclu√≠do com textos formatados!")

 Salvando textos processados formatados...
 Resultados salvos em:
    TEXTOS FORMATADOS:
      - doril_processado.txt
      - jornal_processado.txt
    LOG:
      - log_preprocessamento.txt

 Pr√©-processamento conclu√≠do com textos formatados!


In [32]:
# Teste espec√≠fico para n√∫meros que ainda est√£o no Doril
print("=== TESTE DE CONVERS√ÉO DOS N√öMEROS PROBLEM√ÅTICOS ===")

# Simula os n√∫meros que ainda est√£o presentes no arquivo
numeros_teste = "50 500 30 65 8 700 2 4 1 610824260020"
print(f"N√∫meros originais: {numeros_teste}")

# Aplica apenas a fun√ß√£o de convers√£o de n√∫meros
resultado_conversao = step_9_convert_numbers_to_words(numeros_teste)
print(f"Ap√≥s convers√£o: {resultado_conversao}")

print("\n=== TESTE INDIVIDUAL ===")
for num in ["50", "500", "30", "65", "700"]:
    convertido = step_9_convert_numbers_to_words(num)
    print(f"{num} -> {convertido}")

print("\n‚úÖ Teste de convers√£o conclu√≠do!")

=== TESTE DE CONVERS√ÉO DOS N√öMEROS PROBLEM√ÅTICOS ===
N√∫meros originais: 50 500 30 65 8 700 2 4 1 610824260020
Ap√≥s convers√£o: cinquenta quinhentos trinta sessenta e cinco oito setecentos dois quatro um seiscentos e dez mil oitocentos e vinte e quatro milh√µes duzentos e sessenta mil vinte

=== TESTE INDIVIDUAL ===
50 -> cinquenta
500 -> quinhentos
30 -> trinta
65 -> sessenta e cinco
700 -> setecentos

‚úÖ Teste de convers√£o conclu√≠do!


In [33]:
# Corre√ß√£o direta dos n√∫meros no arquivo do Doril
print("=== CORRIGINDO N√öMEROS NO ARQUIVO DORIL_PROCESSADO.TXT ===")

# L√™ o arquivo atual
with open('doril_processado.txt', 'r', encoding='utf-8') as f:
    conteudo_doril = f.read()

print(f"Arquivo carregado: {len(conteudo_doril)} caracteres")

# Identifica n√∫meros presentes
import re
numeros_encontrados = re.findall(r'\b\d+\b', conteudo_doril)
print(f"N√∫meros encontrados: {set(numeros_encontrados)}")

# Remove o cabe√ßalho e aplica corre√ß√£o apenas no conte√∫do
linhas = conteudo_doril.split('\n')
cabecalho = linhas[0] + '\n\n'  # Preserva cabe√ßalho
conteudo_apenas = '\n'.join(linhas[2:])  # Pega s√≥ o conte√∫do

print("Aplicando corre√ß√£o de n√∫meros...")
conteudo_corrigido = step_9_convert_numbers_to_words(conteudo_apenas)

# Verifica se a corre√ß√£o funcionou
numeros_apos_correcao = re.findall(r'\b\d+\b', conteudo_corrigido)
print(f"N√∫meros ap√≥s corre√ß√£o: {set(numeros_apos_correcao) if numeros_apos_correcao else 'NENHUM! ‚úÖ'}")

# Salva o arquivo corrigido
arquivo_corrigido = cabecalho + conteudo_corrigido

with open('doril_processado.txt', 'w', encoding='utf-8') as f:
    f.write(arquivo_corrigido)

print(" Arquivo doril_processado.txt atualizado com n√∫meros convertidos!")

# Mostra uma amostra do resultado
print("\n=== AMOSTRA DO RESULTADO ===")
print(arquivo_corrigido[:500] + "...")

=== CORRIGINDO N√öMEROS NO ARQUIVO DORIL_PROCESSADO.TXT ===
Arquivo carregado: 9187 caracteres
N√∫meros encontrados: {'50'}
Aplicando corre√ß√£o de n√∫meros...
N√∫meros ap√≥s corre√ß√£o: NENHUM! ‚úÖ
 Arquivo doril_processado.txt atualizado com n√∫meros convertidos!

=== AMOSTRA DO RESULTADO ===
=== BULA DORIL - TEXTO PROCESSADO (FORMATADO) ===

doril √°cido acetilsalic√≠l Cafe√≠n cosm ind√∫str Cosm√© m√©dico sa comprimido
cinquenta um i identific m√©dico doril √°cido acetilsalic√≠l Cafe√≠n apresentar
comprimido embal cont vinte cent e cinquenta comprimido ver administrar
oral uso adulto compo cada comprimido cont√©mr √°cido acetilsalic√≠l cinquenta
Cafe√≠n um excipir psp um comprimido amido cor vermelho eritrosin
n tr√™s doril comprimido bula paciente um ii inforr paciente
um m√©dico indicado doril in...
