In [1]:
def simular_nltk():
    """
    Simula um fluxo completo de análise e classificação de texto com estruturas
    de dados fixas que representam as saídas típicas de bibliotecas de PLN como NLTK.
    """

    # 1. TOKENIZAÇÃO - Lista de palavras/tokens
    # Em um fluxo real: tokens = nltk.word_tokenize(texto)
    # Representa a divisão do texto em unidades menores (palavras, pontuação)
    tokens = [
        "O", "processamento", "de", "linguagem", "natural", "é",
        "uma", "área", "fascinante", "da", "inteligência",
        "artificial", "que", "permite", "aos", "computadores",
        "compreender", "e", "processar", "texto", "humano", "."
    ]

    # 2. ETIQUETAGEM MORFOSSINTÁTICA (POS Tagging)
    # Em um fluxo real: pos_tags = nltk.pos_tag(tokens)
    # Cada tupla contém: (palavra, etiqueta_gramatical)
    # Etiquetas seguem padrão do Penn Treebank Tagset
    pos_tags = [
        ("O", "DT"),                    # Artigo definido
        ("processamento", "NN"),        # Substantivo singular
        ("de", "IN"),                   # Preposição
        ("linguagem", "NN"),            # Substantivo singular
        ("natural", "JJ"),              # Adjetivo
        ("é", "VBZ"),                   # Verbo, 3ª pessoa singular presente
        ("uma", "DT"),                  # Artigo indefinido
        ("área", "NN"),                 # Substantivo singular
        ("fascinante", "JJ"),           # Adjetivo
        ("da", "IN"),                   # Preposição + artigo
        ("inteligência", "NN"),         # Substantivo singular
        ("artificial", "JJ"),           # Adjetivo
        ("que", "WDT"),                 # Determinante interrogativo
        ("permite", "VBZ"),             # Verbo, 3ª pessoa singular presente
        ("aos", "IN"),                  # Preposição + artigo
        ("computadores", "NNS"),        # Substantivo plural
        ("compreender", "VB"),          # Verbo no infinitivo
        ("e", "CC"),                    # Conjunção coordenativa
        ("processar", "VB"),            # Verbo no infinitivo
        ("texto", "NN"),                # Substantivo singular
        ("humano", "JJ"),               # Adjetivo
        (".", ".")                      # Pontuação
    ]

    # 3. FREQUÊNCIA DE PALAVRAS
    # Em um fluxo real: freq_dist = nltk.FreqDist(tokens)
    # Dicionário que mapeia cada palavra única para sua frequência no texto
    frequencia_palavras = {
        "o": 1,
        "processamento": 1,
        "de": 2,                        # Aparece 2 vezes (incluindo "da")
        "linguagem": 1,
        "natural": 1,
        "é": 1,
        "uma": 1,
        "área": 1,
        "fascinante": 1,
        "da": 1,
        "inteligência": 1,
        "artificial": 1,
        "que": 1,
        "permite": 1,
        "aos": 1,
        "computadores": 1,
        "compreender": 1,
        "e": 1,
        "processar": 1,
        "texto": 1,
        "humano": 1,
        ".": 1
    }

    # 4. STATUS DO TREINAMENTO DO MODELO
    # Em um fluxo real: resultado do treinamento de um classificador
    # Mensagem informativa sobre o processo de treinamento
    status_treinamento = "Modelo de classificação de sentimento treinado com sucesso! Utilizados 10.000 exemplos de treinamento e 2.500 de validação. Tempo de treinamento: 45.7 segundos."

    # 5. MÉTRICAS DE AVALIAÇÃO DO MODELO
    # Em um fluxo real: métricas calculadas após teste do modelo
    # Estrutura aninhada com diferentes tipos de métricas de performance
    metricas_modelo = {
        # Métricas gerais de classificação
        "acuracia_geral": 0.87,         # Percentual de acertos geral
        "f1_score_macro": 0.84,         # F1-score médio entre todas as classes

        # Métricas por classe (exemplo: classificação de sentimento)
        "metricas_por_classe": {
            "positivo": {
                "precisao": 0.89,       # TP / (TP + FP)
                "recall": 0.85,         # TP / (TP + FN)
                "f1_score": 0.87,       # Média harmônica de precisão e recall
                "suporte": 425          # Número de amostras reais desta classe
            },
            "negativo": {
                "precisao": 0.83,
                "recall": 0.88,
                "f1_score": 0.85,
                "suporte": 380
            },
            "neutro": {
                "precisao": 0.90,
                "recall": 0.82,
                "f1_score": 0.86,
                "suporte": 195
            }
        },

        # Matriz de confusão (representada como dicionário para clareza)
        "matriz_confusao": {
            "verdadeiro_positivo": {"positivo": 361, "negativo": 334, "neutro": 160},
            "falso_positivo": {"positivo": 45, "negativo": 68, "neutro": 18},
            "falso_negativo": {"positivo": 64, "negativo": 46, "neutro": 35}
        },

        # Informações sobre o conjunto de teste
        "info_teste": {
            "total_amostras": 1000,
            "distribuicao_classes": {
                "positivo": 425,
                "negativo": 380,
                "neutro": 195
            }
        }
    }

    # Exibição dos resultados (para demonstração)
    print("=== SIMULAÇÃO DE FLUXO NLTK ===\n")

    print("1. TOKENIZAÇÃO:")
    print(f"   Tokens extraídos: {len(tokens)}")
    print(f"   Primeiros 10 tokens: {tokens[:10]}")
    print()

    print("2. ETIQUETAGEM POS:")
    print("   Algumas etiquetas morfossintáticas:")
    for i in range(0, min(8, len(pos_tags))):
        palavra, etiqueta = pos_tags[i]
        print(f"   '{palavra}' -> {etiqueta}")
    print()

    print("3. FREQUÊNCIA DE PALAVRAS:")
    print("   Palavras mais frequentes:")
    # Ordena por frequência decrescente
    palavras_ordenadas = sorted(frequencia_palavras.items(),
                              key=lambda x: x[1], reverse=True)
    for palavra, freq in palavras_ordenadas[:8]:
        print(f"   '{palavra}': {freq}")
    print()

    print("4. STATUS DO TREINAMENTO:")
    print(f"   {status_treinamento}")
    print()

    print("5. MÉTRICAS DO MODELO:")
    print(f"   Acurácia Geral: {metricas_modelo['acuracia_geral']:.1%}")
    print(f"   F1-Score Macro: {metricas_modelo['f1_score_macro']:.3f}")
    print()
    print("   Métricas por Classe:")
    for classe, metricas in metricas_modelo['metricas_por_classe'].items():
        print(f"   {classe.capitalize()}:")
        print(f"     - Precisão: {metricas['precisao']:.1%}")
        print(f"     - Recall: {metricas['recall']:.1%}")
        print(f"     - F1-Score: {metricas['f1_score']:.3f}")
        print(f"     - Suporte: {metricas['suporte']} amostras")

    # Retorna todas as estruturas para uso posterior se necessário
    return {
        "tokens": tokens,
        "pos_tags": pos_tags,
        "frequencia_palavras": frequencia_palavras,
        "status_treinamento": status_treinamento,
        "metricas_modelo": metricas_modelo
    }


# Exemplo de uso
if __name__ == "__main__":
    resultados = simular_nltk()

    # Exemplo de acesso aos dados retornados
    print("\n=== EXEMPLO DE ACESSO AOS DADOS ===")
    print(f"Total de tokens únicos: {len(set(resultados['tokens']))}")
    print(f"Acurácia do modelo: {resultados['metricas_modelo']['acuracia_geral']:.1%}")

=== SIMULAÇÃO DE FLUXO NLTK ===

1. TOKENIZAÇÃO:
   Tokens extraídos: 22
   Primeiros 10 tokens: ['O', 'processamento', 'de', 'linguagem', 'natural', 'é', 'uma', 'área', 'fascinante', 'da']

2. ETIQUETAGEM POS:
   Algumas etiquetas morfossintáticas:
   'O' -> DT
   'processamento' -> NN
   'de' -> IN
   'linguagem' -> NN
   'natural' -> JJ
   'é' -> VBZ
   'uma' -> DT
   'área' -> NN

3. FREQUÊNCIA DE PALAVRAS:
   Palavras mais frequentes:
   'de': 2
   'o': 1
   'processamento': 1
   'linguagem': 1
   'natural': 1
   'é': 1
   'uma': 1
   'área': 1

4. STATUS DO TREINAMENTO:
   Modelo de classificação de sentimento treinado com sucesso! Utilizados 10.000 exemplos de treinamento e 2.500 de validação. Tempo de treinamento: 45.7 segundos.

5. MÉTRICAS DO MODELO:
   Acurácia Geral: 87.0%
   F1-Score Macro: 0.840

   Métricas por Classe:
   Positivo:
     - Precisão: 89.0%
     - Recall: 85.0%
     - F1-Score: 0.870
     - Suporte: 425 amostras
   Negativo:
     - Precisão: 83.0%
     - Re