## 4. Introdu√ß√£o ao Processamento de Linguagem Natural (NLP) e Tokens

### üéØ **Por que NLP e Tokeniza√ß√£o s√£o Fundamentais?**

O **Processamento de Linguagem Natural (NLP)** √© a ponte entre a linguagem humana e a compreens√£o computacional. Computadores n√£o entendem texto diretamente - eles precisam converter palavras em n√∫meros. A **tokeniza√ß√£o** √© o primeiro passo crucial nesse processo.

**Analogia**: Imagine que voc√™ precisa ensinar um alien√≠gena a entender portugu√™s. Primeiro, voc√™ dividiria as frases em palavras individuais (tokeniza√ß√£o), depois explicaria o significado de cada palavra (embeddings).

### 4.1 Tokeniza√ß√£o

**üîë Conceito**: Tokeniza√ß√£o √© o processo de dividir texto em unidades menores chamadas **tokens** (palavras, subpalavras, caracteres).

In [10]:
from transformers import AutoTokenizer
from typing import List
import re

class TextTokenizerSimplified:
    def __init__(self):
        """Inicializa√ß√£o sem NLTK para evitar problemas de SSL"""
        self.tokenizer_bert = AutoTokenizer.from_pretrained('bert-base-uncased')

    def tokenize_simple(self, text: str) -> List[str]:
        """üü¢ M√âTODO 1: Tokeniza√ß√£o Simples por Espa√ßos"""
        return text.lower().split()

    def tokenize_regex(self, text: str) -> List[str]:
        """üü° M√âTODO 2: Tokeniza√ß√£o com Regex (substitui NLTK)"""
        # Remove pontua√ß√£o e divide por espa√ßos
        text = re.sub(r'[^\w\s]', ' ', text.lower())
        tokens = text.split()
        return [token for token in tokens if token.strip()]

    def tokenize_transformer(self, text: str) -> List[str]:
        """üîµ M√âTODO 3: Tokeniza√ß√£o de Transformers (BERT)"""
        tokens = self.tokenizer_bert.tokenize(text)
        return tokens

    def get_token_ids(self, text: str) -> List[int]:
        """üî¢ Convers√£o para IDs Num√©ricos"""
        return self.tokenizer_bert.encode(text)

def demonstrar_tokenizacao_simplificada():
    """Demonstra√ß√£o sem NLTK"""
    tokenizer = TextTokenizerSimplified()
    
    texto = "Embeddings s√£o representa√ß√µes vetoriais de texto. Eles're muito √∫teis!"
    
    print("=" * 60)
    print("üéì DEMONSTRA√á√ÉO: COMPARA√á√ÉO DE TOKENIZADORES (SEM NLTK)")
    print("=" * 60)
    print(f"Texto original: '{texto}'")
    print()
    
    methods = [
        ("üü¢ Tokeniza√ß√£o Simples", tokenizer.tokenize_simple),
        ("üü° Tokeniza√ß√£o Regex", tokenizer.tokenize_regex),
        ("üîµ Tokeniza√ß√£o BERT", tokenizer.tokenize_transformer)
    ]
    
    for name, method in methods:
        tokens = method(texto)
        print(f"{name}:")
        print(f"  Tokens: {tokens}")
        print(f"  Quantidade: {len(tokens)} tokens")
        print()
    
    token_ids = tokenizer.get_token_ids(texto)
    print("üî¢ Token IDs (BERT):")
    print(f"  IDs: {token_ids}")
    print(f"  Quantidade: {len(token_ids)} tokens")

# Executar vers√£o simplificada
demonstrar_tokenizacao_simplificada()

üéì DEMONSTRA√á√ÉO: COMPARA√á√ÉO DE TOKENIZADORES (SEM NLTK)
Texto original: 'Embeddings s√£o representa√ß√µes vetoriais de texto. Eles're muito √∫teis!'

üü¢ Tokeniza√ß√£o Simples:
  Tokens: ['embeddings', 's√£o', 'representa√ß√µes', 'vetoriais', 'de', 'texto.', "eles're", 'muito', '√∫teis!']
  Quantidade: 9 tokens

üü° Tokeniza√ß√£o Regex:
  Tokens: ['embeddings', 's√£o', 'representa√ß√µes', 'vetoriais', 'de', 'texto', 'eles', 're', 'muito', '√∫teis']
  Quantidade: 10 tokens

üîµ Tokeniza√ß√£o BERT:
  Tokens: ['em', '##bed', '##ding', '##s', 'sao', 'represent', '##aco', '##es', 'veto', '##ria', '##is', 'de', 'text', '##o', '.', 'el', '##es', "'", 're', 'mu', '##ito', 'ut', '##eis', '!']
  Quantidade: 24 tokens

üî¢ Token IDs (BERT):
  IDs: [101, 7861, 8270, 4667, 2015, 7509, 5050, 22684, 2229, 22102, 4360, 2483, 2139, 3793, 2080, 1012, 3449, 2229, 1005, 2128, 14163, 9956, 21183, 17580, 999, 102]
  Quantidade: 26 tokens


### 4.2 Pr√©-processamento de Texto

**üéØ Objetivo**: Limpar e padronizar texto para melhorar a qualidade dos embeddings e an√°lises.

In [12]:
import re
from typing import List

class TextPreprocessorSimplified:
    def __init__(self, language='english'):
        """
        Inicializa√ß√£o com recursos de pr√©-processamento simplificados
        
        Componentes principais:
        - Stop words: lista b√°sica de palavras comuns
        - Stemming simples: remo√ß√£o de sufixos b√°sicos
        - Sem depend√™ncias externas
        """
        # Lista b√°sica de stop words em ingl√™s
        self.stop_words = {
            'a', 'an', 'and', 'are', 'as', 'at', 'be', 'by', 'for', 'from',
            'has', 'he', 'in', 'is', 'it', 'its', 'of', 'on', 'that', 'the',
            'to', 'was', 'will', 'with', 'they', 'their', 'them', 'this',
            'these', 'those', 'we', 'you', 'your', 'i', 'me', 'my', 'mine',
            'our', 'ours', 'she', 'her', 'hers', 'him', 'his'
        }
        
        # Regras b√°sicas de stemming (sufixos comuns)
        self.stemming_rules = [
            ('ing', ''),      # running ‚Üí runn
            ('ly', ''),       # quickly ‚Üí quick
            ('ed', ''),       # played ‚Üí play
            ('ies', 'y'),     # flies ‚Üí fly
            ('ied', 'y'),     # tried ‚Üí try
            ('ies', 'y'),     # studies ‚Üí study
            ('s', ''),        # dogs ‚Üí dog
        ]
    
    def clean_text(self, text: str) -> str:
        """
        üßπ ETAPA 1: Limpeza B√°sica do Texto
        
        Opera√ß√µes realizadas:
        1. Remove caracteres especiais e n√∫meros
        2. Converte para min√∫sculas (case normalization)
        3. Remove espa√ßos extras
        
        ‚úÖ Por que fazer isso?
        - Reduz ru√≠do nos dados
        - Padroniza formato
        - Melhora consist√™ncia dos embeddings
        """
        print(f"   üìù Texto original: '{text}'")
        
        # Remover caracteres especiais e n√∫meros
        text = re.sub(r'[^a-zA-Z\s]', '', text)
        print(f"   üîß Ap√≥s remo√ß√£o de especiais: '{text}'")
        
        # Converter para min√∫sculas
        text = text.lower()
        print(f"   üìù Ap√≥s min√∫sculas: '{text}'")
        
        # Remover espa√ßos extras
        text = re.sub(r'\s+', ' ', text).strip()
        print(f"   ‚ú® Texto limpo: '{text}'")
        
        return text
    
    def remove_stopwords(self, tokens: List[str]) -> List[str]:
        """
        üö´ ETAPA 2: Remo√ß√£o de Stop Words
        
        Stop words s√£o palavras muito comuns que geralmente n√£o carregam
        significado sem√¢ntico importante: 'the', 'and', 'is', 'in', etc.
        
        ‚úÖ Vantagens:
        - Reduz dimensionalidade
        - Foca em palavras com mais significado
        - Melhora efici√™ncia computacional
        
        ‚ùå Cuidado:
        - Pode remover contexto importante em algumas tarefas
        - "Not good" ‚Üí "good" (perde nega√ß√£o)
        """
        original_count = len(tokens)
        filtered_tokens = [token for token in tokens if token not in self.stop_words]
        removed_count = original_count - len(filtered_tokens)
        
        print(f"   üö´ Removidas {removed_count} stop words de {original_count} tokens")
        print(f"   üìã Tokens restantes: {filtered_tokens}")
        
        return filtered_tokens
    
    def simple_stem(self, word: str) -> str:
        """
        üå± Stemming Simples com Regras B√°sicas
        
        Aplica regras simples de remo√ß√£o de sufixos.
        N√£o √© t√£o preciso quanto Porter Stemmer, mas funciona sem depend√™ncias.
        
        Exemplos:
        - running ‚Üí runn
        - quickly ‚Üí quick
        - played ‚Üí play
        """
        for suffix, replacement in self.stemming_rules:
            if word.endswith(suffix) and len(word) > len(suffix) + 2:
                return word[:-len(suffix)] + replacement
        return word
    
    def stem_tokens(self, tokens: List[str]) -> List[str]:
        """
        üå± ETAPA 3A: Stemming Simples (Alternativa 1)
        
        Stemming remove sufixos para encontrar o "radical" da palavra.
        Vers√£o simplificada com regras b√°sicas.
        
        ‚úÖ Vantagens: R√°pido, sem depend√™ncias externas
        ‚ùå Limita√ß√µes: Menos preciso que algoritmos avan√ßados
        """
        stemmed = [self.simple_stem(token) for token in tokens]
        print(f"   üå± Stemming simples aplicado:")
        for original, stemmed_word in zip(tokens, stemmed):
            if original != stemmed_word:
                print(f"      {original} ‚Üí {stemmed_word}")
        return stemmed
    
    def simple_lemmatize(self, word: str) -> str:
        """
        üìö Lemmatiza√ß√£o Simples com Dicion√°rio B√°sico
        
        Vers√£o simplificada usando um pequeno dicion√°rio de formas irregulares.
        """
        # Dicion√°rio b√°sico de formas irregulares comuns
        irregular_forms = {
            'better': 'good',
            'best': 'good',
            'worse': 'bad',
            'worst': 'bad',
            'mice': 'mouse',
            'children': 'child',
            'feet': 'foot',
            'teeth': 'tooth',
            'men': 'man',
            'women': 'woman',
            'running': 'run',
            'ran': 'run',
            'swimming': 'swim',
            'swam': 'swim',
            'flying': 'fly',
            'flew': 'fly'
        }
        
        return irregular_forms.get(word, word)
    
    def lemmatize_tokens(self, tokens: List[str]) -> List[str]:
        """
        üìö ETAPA 3B: Lemmatiza√ß√£o Simples (Alternativa 2 - Recomendada)
        
        Lemmatiza√ß√£o reduz palavras √† sua forma can√¥nica usando
        um dicion√°rio b√°sico de formas irregulares.
        
        ‚úÖ Vantagens: Mais preciso que stemming simples
        ‚ùå Limita√ß√µes: Dicion√°rio limitado, menos abrangente
        """
        lemmatized = [self.simple_lemmatize(token) for token in tokens]
        print(f"   üìö Lemmatiza√ß√£o simples aplicada:")
        for original, lemma in zip(tokens, lemmatized):
            if original != lemma:
                print(f"      {original} ‚Üí {lemma}")
        return lemmatized
    
    def preprocess_pipeline(self, text: str) -> List[str]:
        """
        üîÑ Pipeline Completo de Pr√©-processamento Simplificado
        
        Ordem das opera√ß√µes (importante!):
        1. Limpeza ‚Üí 2. Tokeniza√ß√£o ‚Üí 3. Stop words ‚Üí 4. Lemmatiza√ß√£o
        
        üí° Dica: A ordem importa! Limpe antes de tokenizar,
        remova stop words antes de lemmatizar.
        """
        print(f"\nüîÑ INICIANDO PIPELINE DE PR√â-PROCESSAMENTO SIMPLIFICADO")
        print("=" * 60)
        
        # Etapa 1: Limpeza
        print("\nüßπ ETAPA 1: LIMPEZA")
        clean_text = self.clean_text(text)
        
        # Etapa 2: Tokeniza√ß√£o simples
        print("\n‚úÇÔ∏è ETAPA 2: TOKENIZA√á√ÉO")
        tokens = clean_text.split()
        print(f"   üìù Tokens: {tokens}")
        
        # Etapa 3: Remo√ß√£o de stop words
        print("\nüö´ ETAPA 3: REMO√á√ÉO DE STOP WORDS")
        tokens = self.remove_stopwords(tokens)
        
        # Etapa 4: Lemmatiza√ß√£o simples
        print("\nüìö ETAPA 4: LEMMATIZA√á√ÉO SIMPLES")
        tokens = self.lemmatize_tokens(tokens)
        
        print(f"\n‚úÖ RESULTADO FINAL: {tokens}")
        return tokens

# üöÄ EXEMPLO PR√ÅTICO EDUCACIONAL
def demonstrar_preprocessamento_simplificado():
    """Demonstra√ß√£o completa do pr√©-processamento sem NLTK"""
    
    preprocessor = TextPreprocessorSimplified()
    
    # Texto com v√°rios desafios
    texto_exemplo = """
    The running dogs are better than cats! 
    They're playing in the beautiful gardens.
    """
    
    print("üéì DEMONSTRA√á√ÉO: PR√â-PROCESSAMENTO DE TEXTO (VERS√ÉO SIMPLIFICADA)")
    print("=" * 70)
    
    # Executar pipeline completo
    resultado = preprocessor.preprocess_pipeline(texto_exemplo)
    
    print("\nüìä RESUMO DO PROCESSAMENTO:")
    print("=" * 30)
    print(f"üìù Texto original: '{texto_exemplo.strip()}'")
    print(f"‚úÖ Tokens finais: {resultado}")
    print(f"üìä Redu√ß√£o: {len(texto_exemplo.split())} ‚Üí {len(resultado)} tokens")
    
    # Comparar stemming vs lemmatiza√ß√£o simples
    print("\nüîç COMPARA√á√ÉO: STEMMING vs LEMMATIZA√á√ÉO SIMPLES")
    print("=" * 50)
    
    tokens_exemplo = ['running', 'better', 'playing', 'beautiful', 'quickly']
    
    for token in tokens_exemplo:
        stemmed = preprocessor.simple_stem(token)
        lemmatized = preprocessor.simple_lemmatize(token)
        print(f"{token:10} ‚Üí Stem: {stemmed:8} | Lemma: {lemmatized}")

# Executar demonstra√ß√£o
demonstrar_preprocessamento_simplificado()

üéì DEMONSTRA√á√ÉO: PR√â-PROCESSAMENTO DE TEXTO (VERS√ÉO SIMPLIFICADA)

üîÑ INICIANDO PIPELINE DE PR√â-PROCESSAMENTO SIMPLIFICADO

üßπ ETAPA 1: LIMPEZA
   üìù Texto original: '
    The running dogs are better than cats! 
    They're playing in the beautiful gardens.
    '
   üîß Ap√≥s remo√ß√£o de especiais: '
    The running dogs are better than cats 
    Theyre playing in the beautiful gardens
    '
   üìù Ap√≥s min√∫sculas: '
    the running dogs are better than cats 
    theyre playing in the beautiful gardens
    '
   ‚ú® Texto limpo: 'the running dogs are better than cats theyre playing in the beautiful gardens'

‚úÇÔ∏è ETAPA 2: TOKENIZA√á√ÉO
   üìù Tokens: ['the', 'running', 'dogs', 'are', 'better', 'than', 'cats', 'theyre', 'playing', 'in', 'the', 'beautiful', 'gardens']

üö´ ETAPA 3: REMO√á√ÉO DE STOP WORDS
   üö´ Removidas 4 stop words de 13 tokens
   üìã Tokens restantes: ['running', 'dogs', 'better', 'than', 'cats', 'theyre', 'playing', 'beautiful', 'gardens']

ü

### üéØ **Pontos-Chave para Fixa√ß√£o**

1. **Tokeniza√ß√£o √© fundamental**: √â o primeiro passo para converter texto em dados process√°veis
2. **Diferentes m√©todos, diferentes prop√≥sitos**: Simples para prototipagem, NLTK para an√°lise geral, Transformers para modelos modernos
3. **Pr√©-processamento melhora qualidade**: Texto limpo gera embeddings mais consistentes
4. **Ordem importa**: Sempre siga a sequ√™ncia l√≥gica de processamento
5. **Trade-offs**: Mais processamento = mais lento, mas geralmente melhor qualidade

### üí° **Dicas Pr√°ticas**

- **Para embeddings**: Use tokeniza√ß√£o compat√≠vel com o modelo escolhido
- **Para an√°lise explorat√≥ria**: NLTK √© uma boa escolha
- **Para produ√ß√£o**: Considere performance vs. qualidade
- **Sempre valide**: Inspecione os resultados de cada etapa