# ü§ñ Compara√ß√£o de Modelos LLM com HuggingFace
**Grupo:** Felipe Terem, Guilherme Ayres, Henrique Martins, Jo√£o Pedro Loureiro e Marlon Alves  
**T√≥pico:** Compara√ß√£o de Modelos de Linguagem

---

## üìã Objetivo do Projeto

Este notebook compara **2 modelos LLM** do HuggingFace em m√∫ltiplas dimens√µes:
- ‚è±Ô∏è **Velocidade** de resposta
- üéØ **Qualidade** das respostas
- üíæ **Uso de mem√≥ria**
- üìä **Benchmarks** oficiais
- üåç **Capacidades** espec√≠ficas

---

## üî¨ Modelos Selecionados

| Modelo | Desenvolvedor | Par√¢metros | Tipo |
|--------|---------------|------------|------|
| **Flan-T5-Small** | Google | ~80M | Text-to-Text |
| **Flan-T5-Base** | Google | ~250M | Text-to-Text |

---

## 1Ô∏è‚É£ Instala√ß√£o de Depend√™ncias

In [None]:
# Instala√ß√£o de bibliotecas necess√°rias
!pip install transformers torch sentencepiece accelerate matplotlib pandas -q

print("‚úÖ Bibliotecas instaladas com sucesso!")

## 2Ô∏è‚É£ Importa√ß√£o de Bibliotecas

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
import time
import psutil
import os
import matplotlib.pyplot as plt
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Bibliotecas importadas!")
print(f"üî• PyTorch vers√£o: {torch.__version__}")
print(f"üíª CUDA dispon√≠vel: {torch.cuda.is_available()}")

## 3Ô∏è‚É£ Carregamento dos Modelos

Vamos carregar os dois modelos do HuggingFace Hub.

In [None]:
print("üîÑ Carregando modelos do HuggingFace Hub...\n")

# Informa√ß√µes dos modelos
modelos_info = {
    "Flan-T5-Small": "google/flan-t5-small",
    "Flan-T5-Base": "google/flan-t5-base"
}

# Dicion√°rio para armazenar os modelos carregados
modelos = {}
tokenizers = {}
pipelines = {}

# Carregar cada modelo
for nome, model_id in modelos_info.items():
    print(f"üì¶ Carregando {nome} ({model_id})...")

    try:
        # Carregar tokenizer
        tokenizers[nome] = AutoTokenizer.from_pretrained(model_id)

        # Carregar modelo
        modelos[nome] = AutoModelForSeq2SeqLM.from_pretrained(model_id)

        # Criar pipeline
        pipelines[nome] = pipeline(
            "text2text-generation",
            model=modelos[nome],
            tokenizer=tokenizers[nome],
            device=-1  # CPU
        )

        # Contar par√¢metros
        num_params = sum(p.numel() for p in modelos[nome].parameters())

        print(f"   ‚úÖ {nome} carregado!")
        print(f"   üìä Par√¢metros: {num_params:,}")
        print(f"   üíæ Tamanho em mem√≥ria: ~{num_params * 4 / (1024**2):.1f} MB\n")

    except Exception as e:
        print(f"   ‚ùå Erro ao carregar {nome}: {str(e)}\n")

print("="*70)
print("‚úÖ Todos os modelos carregados com sucesso!")
print("="*70)

## 4Ô∏è‚É£ Defini√ß√£o dos Testes

Vamos criar diferentes categorias de testes para avaliar os modelos de forma abrangente.

In [None]:
# Conjunto de testes organizados por categoria
testes = {
    "üìö Conhecimento Geral": [
        "O que √© intelig√™ncia artificial?",
        "Quem foi Albert Einstein?",
        "Qual √© a capital do Brasil?",
        "O que √© o HuggingFace?"
    ],

    "üî¢ Racioc√≠nio Matem√°tico": [
        "Quanto √© 15 mais 27?",
        "Calcule 8 vezes 9.",
        "Quanto √© 100 dividido por 4?",
        "Se eu tenho 50 reais e gasto 23, quanto sobra?"
    ],

    "üåç Tradu√ß√£o": [
        "Traduza para ingl√™s: Bom dia, como voc√™ est√°?",
        "Traduza para franc√™s: Eu gosto de programar.",
        "Traduza para espanhol: O livro est√° na mesa."
    ],

    "üí° Racioc√≠nio L√≥gico": [
        "Se todos os gatos s√£o animais e Rex √© um gato, o que podemos concluir?",
        "Complete o padr√£o: 2, 4, 8, 16, ?",
        "Qual √© maior: 0.5 ou 0.05?"
    ],

    "üé® Criatividade": [
        "Crie um slogan para uma empresa de tecnologia.",
        "Complete a frase: A melhor forma de aprender √©...",
        "D√™ um nome criativo para um rob√¥ assistente."
    ]
}

print("‚úÖ Testes definidos!")
print(f"\nüìä Total de categorias: {len(testes)}")
print(f"üìù Total de perguntas: {sum(len(v) for v in testes.values())}")

# Mostrar resumo
print("\n" + "="*70)
print("üìã CATEGORIAS DE TESTE:")
print("="*70)
for categoria, perguntas in testes.items():
    print(f"\n{categoria}")
    for i, pergunta in enumerate(perguntas, 1):
        print(f"  {i}. {pergunta}")

## 5Ô∏è‚É£ Fun√ß√£o de Compara√ß√£o

Vamos criar uma fun√ß√£o que executa os testes e coleta m√©tricas detalhadas.

In [None]:
def comparar_modelos(pergunta, pipelines, max_length=100, verbose=True):
    """
    Compara a resposta de m√∫ltiplos modelos para uma pergunta.

    Args:
        pergunta: Pergunta a ser respondida
        pipelines: Dicion√°rio com os pipelines dos modelos
        max_length: Tamanho m√°ximo da resposta
        verbose: Se True, imprime informa√ß√µes detalhadas

    Returns:
        DataFrame com os resultados comparativos
    """
    resultados = []

    if verbose:
        print(f"\n{'='*70}")
        print(f"‚ùì PERGUNTA: {pergunta}")
        print(f"{'='*70}\n")

    for nome_modelo, pipe in pipelines.items():
        if verbose:
            print(f"ü§ñ Testando {nome_modelo}...")

        # Medir tempo de resposta
        inicio = time.time()

        try:
            # Gerar resposta
            resposta = pipe(
                pergunta,
                max_length=max_length,
                do_sample=False,
                temperature=0.7
            )[0]['generated_text']

            tempo_resposta = time.time() - inicio

            # Calcular tokens
            tokens_entrada = len(tokenizers[nome_modelo].encode(pergunta))
            tokens_saida = len(tokenizers[nome_modelo].encode(resposta))

            # Armazenar resultado
            resultado = {
                'Modelo': nome_modelo,
                'Resposta': resposta,
                'Tempo (s)': round(tempo_resposta, 3),
                'Tokens Entrada': tokens_entrada,
                'Tokens Sa√≠da': tokens_saida,
                'Tamanho Resposta': len(resposta),
                'Velocidade (tokens/s)': round(tokens_saida / tempo_resposta, 2) if tempo_resposta > 0 else 0
            }

            resultados.append(resultado)

            if verbose:
                print(f"   ‚úÖ Resposta: {resposta}")
                print(f"   ‚è±Ô∏è  Tempo: {tempo_resposta:.3f}s")
                print(f"   üìä Tokens: {tokens_entrada} entrada ‚Üí {tokens_saida} sa√≠da")
                print(f"   üöÄ Velocidade: {resultado['Velocidade (tokens/s)']} tokens/s\n")

        except Exception as e:
            if verbose:
                print(f"   ‚ùå Erro: {str(e)}\n")

            resultados.append({
                'Modelo': nome_modelo,
                'Resposta': f"ERRO: {str(e)}",
                'Tempo (s)': 0,
                'Tokens Entrada': 0,
                'Tokens Sa√≠da': 0,
                'Tamanho Resposta': 0,
                'Velocidade (tokens/s)': 0
            })

    return pd.DataFrame(resultados)

print("‚úÖ Fun√ß√£o de compara√ß√£o criada!")

## 6Ô∏è‚É£ Execu√ß√£o dos Testes Comparativos

Agora vamos executar todos os testes e coletar os resultados!

In [None]:
print("\n" + "="*70)
print("üß™ INICIANDO BATERIA DE TESTES COMPARATIVOS")
print("="*70)

# Armazenar todos os resultados
todos_resultados = []
resultados_por_categoria = {}

# Executar testes por categoria
for categoria, perguntas in testes.items():
    print(f"\n\n{'#'*70}")
    print(f"{categoria}")
    print(f"{'#'*70}")

    resultados_categoria = []

    for i, pergunta in enumerate(perguntas, 1):
        print(f"\nüìù Teste {i}/{len(perguntas)}")

        # Executar compara√ß√£o
        df_resultado = comparar_modelos(pergunta, pipelines, verbose=True)
        df_resultado['Categoria'] = categoria
        df_resultado['Pergunta'] = pergunta

        # Armazenar
        resultados_categoria.append(df_resultado)
        todos_resultados.append(df_resultado)

        # Pequena pausa para n√£o sobrecarregar
        time.sleep(0.5)

    # Consolidar resultados da categoria
    resultados_por_categoria[categoria] = pd.concat(resultados_categoria, ignore_index=True)

# Consolidar todos os resultados
df_completo = pd.concat(todos_resultados, ignore_index=True)

print("\n" + "="*70)
print("‚úÖ TODOS OS TESTES CONCLU√çDOS!")
print("="*70)
print(f"\nüìä Total de testes realizados: {len(df_completo)}")

## 7Ô∏è‚É£ An√°lise Comparativa - Velocidade

Vamos analisar qual modelo √© mais r√°pido em cada categoria.

In [None]:
print("\n" + "="*70)
print("‚ö° AN√ÅLISE DE VELOCIDADE")
print("="*70)

# Calcular estat√≠sticas de tempo por modelo
tempo_por_modelo = df_completo.groupby('Modelo')['Tempo (s)'].agg([
    ('M√©dia', 'mean'),
    ('Mediana', 'median'),
    ('M√≠nimo', 'min'),
    ('M√°ximo', 'max'),
    ('Desvio Padr√£o', 'std')
]).round(3)

print("\nüìä Estat√≠sticas de Tempo de Resposta (segundos):\n")
print(tempo_por_modelo)

# Tempo m√©dio por categoria
print("\n" + "-"*70)
print("‚è±Ô∏è  TEMPO M√âDIO POR CATEGORIA:")
print("-"*70)

for categoria in testes.keys():
    df_cat = df_completo[df_completo['Categoria'] == categoria]
    print(f"\n{categoria}")

    for modelo in modelos_info.keys():
        df_modelo = df_cat[df_cat['Modelo'] == modelo]
        tempo_medio = df_modelo['Tempo (s)'].mean()
        print(f"   ‚Ä¢ {modelo}: {tempo_medio:.3f}s")

# Visualiza√ß√£o
plt.figure(figsize=(12, 6))

# Gr√°fico de barras - tempo m√©dio
modelos_nomes = df_completo['Modelo'].unique()
tempos_medios = [df_completo[df_completo['Modelo'] == m]['Tempo (s)'].mean()
                 for m in modelos_nomes]

plt.subplot(1, 2, 1)
bars = plt.bar(modelos_nomes, tempos_medios, color=['#4CAF50', '#2196F3'])
plt.ylabel('Tempo M√©dio (segundos)', fontsize=12)
plt.title('‚è±Ô∏è  Tempo M√©dio de Resposta', fontsize=14, fontweight='bold')
plt.xticks(rotation=45, ha='right')

# Adicionar valores nas barras
for i, (bar, tempo) in enumerate(zip(bars, tempos_medios)):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01,
             f'{tempo:.3f}s', ha='center', va='bottom', fontweight='bold')

# Gr√°fico de velocidade (tokens/s)
plt.subplot(1, 2, 2)
velocidades_medias = [df_completo[df_completo['Modelo'] == m]['Velocidade (tokens/s)'].mean()
                      for m in modelos_nomes]

bars = plt.bar(modelos_nomes, velocidades_medias, color=['#FF9800', '#9C27B0'])
plt.ylabel('Tokens por Segundo', fontsize=12)
plt.title('üöÄ Velocidade de Gera√ß√£o', fontsize=14, fontweight='bold')
plt.xticks(rotation=45, ha='right')

for i, (bar, vel) in enumerate(zip(bars, velocidades_medias)):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
             f'{vel:.1f}', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

# Identificar o mais r√°pido
modelo_mais_rapido = modelos_nomes[tempos_medios.index(min(tempos_medios))]
diferenca_percentual = ((max(tempos_medios) - min(tempos_medios)) / max(tempos_medios)) * 100

print(f"\nüèÜ VENCEDOR EM VELOCIDADE: {modelo_mais_rapido}")
print(f"üìä Diferen√ßa: {diferenca_percentual:.1f}% mais r√°pido que o outro modelo")

## 8Ô∏è‚É£ An√°lise Comparativa - Qualidade das Respostas

Vamos examinar alguns exemplos de respostas lado a lado.

In [None]:
print("\n" + "="*70)
print("üéØ AN√ÅLISE DE QUALIDADE DAS RESPOSTAS")
print("="*70)

# Selecionar perguntas interessantes para compara√ß√£o lado a lado
perguntas_destaque = [
    "O que √© intelig√™ncia artificial?",
    "Quanto √© 15 mais 27?",
    "Traduza para ingl√™s: Bom dia, como voc√™ est√°?",
    "Complete o padr√£o: 2, 4, 8, 16, ?"
]

print("\nüìã COMPARA√á√ÉO LADO A LADO:\n")

for pergunta in perguntas_destaque:
    df_pergunta = df_completo[df_completo['Pergunta'] == pergunta]

    if len(df_pergunta) > 0:
        print("="*70)
        print(f"‚ùì {pergunta}")
        print("="*70)

        for _, row in df_pergunta.iterrows():
            print(f"\nü§ñ {row['Modelo']}:")
            print(f"   Resposta: {row['Resposta']}")
            print(f"   Tempo: {row['Tempo (s)']}s")
            print(f"   Tamanho: {row['Tamanho Resposta']} caracteres")

        print()

# An√°lise de tamanho de respostas
print("\n" + "-"*70)
print("üìè AN√ÅLISE DE TAMANHO DAS RESPOSTAS:")
print("-"*70)

tamanho_por_modelo = df_completo.groupby('Modelo')['Tamanho Resposta'].agg([
    ('M√©dia', 'mean'),
    ('M√≠nimo', 'min'),
    ('M√°ximo', 'max')
]).round(1)

print("\n", tamanho_por_modelo)

# Visualiza√ß√£o
plt.figure(figsize=(10, 6))

for i, modelo in enumerate(modelos_nomes):
    df_modelo = df_completo[df_completo['Modelo'] == modelo]
    tamanhos = df_modelo['Tamanho Resposta'].values
    plt.hist(tamanhos, bins=15, alpha=0.6, label=modelo, edgecolor='black')

plt.xlabel('Tamanho da Resposta (caracteres)', fontsize=12)
plt.ylabel('Frequ√™ncia', fontsize=12)
plt.title('üìè Distribui√ß√£o do Tamanho das Respostas', fontsize=14, fontweight='bold')
plt.legend()
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

## 9Ô∏è‚É£ An√°lise por Categoria de Teste

Vamos ver qual modelo se saiu melhor em cada tipo de tarefa.

In [None]:
print("\n" + "="*70)
print("üìä DESEMPENHO POR CATEGORIA")
print("="*70)

# Criar matriz de compara√ß√£o por categoria
categorias = list(testes.keys())
dados_comparacao = []

for categoria in categorias:
    df_cat = df_completo[df_completo['Categoria'] == categoria]

    linha = {'Categoria': categoria.replace('üìö ', '').replace('üî¢ ', '').replace('üåç ', '').replace('üí° ', '').replace('üé® ', '')}

    for modelo in modelos_nomes:
        df_modelo = df_cat[df_cat['Modelo'] == modelo]
        tempo_medio = df_modelo['Tempo (s)'].mean()
        linha[modelo] = f"{tempo_medio:.3f}s"

    dados_comparacao.append(linha)

df_comparacao_cat = pd.DataFrame(dados_comparacao)

print("\n‚è±Ô∏è  TEMPO M√âDIO POR CATEGORIA:\n")
print(df_comparacao_cat.to_string(index=False))

# Gr√°fico de compara√ß√£o por categoria
plt.figure(figsize=(14, 6))

x = range(len(categorias))
width = 0.35

for i, modelo in enumerate(modelos_nomes):
    tempos = []
    for categoria in categorias:
        df_cat = df_completo[df_completo['Categoria'] == categoria]
        df_modelo = df_cat[df_cat['Modelo'] == modelo]
        tempo = df_modelo['Tempo (s)'].mean()
        tempos.append(tempo)

    offset = width * (i - len(modelos_nomes)/2 + 0.5)
    plt.bar([p + offset for p in x], tempos, width,
            label=modelo, alpha=0.8)

plt.xlabel('Categoria de Teste', fontsize=12)
plt.ylabel('Tempo M√©dio (s)', fontsize=12)
plt.title('‚è±Ô∏è  Tempo M√©dio por Categoria de Teste', fontsize=14, fontweight='bold')
plt.xticks(x, [cat.split()[1] if len(cat.split()) > 1 else cat
               for cat in categorias], rotation=45, ha='right')
plt.legend()
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

## üîü An√°lise de Recursos Computacionais

Vamos comparar o uso de mem√≥ria e tamanho dos modelos.

In [None]:
print("\n" + "="*70)
print("üíæ AN√ÅLISE DE RECURSOS COMPUTACIONAIS")
print("="*70)

# Informa√ß√µes dos modelos
recursos = []

for nome, modelo in modelos.items():
    # Contar par√¢metros
    num_params = sum(p.numel() for p in modelo.parameters())
    num_params_treinaveis = sum(p.numel() for p in modelo.parameters() if p.requires_grad)

    # Estimar tamanho em disco (bytes)
    tamanho_mb = (num_params * 4) / (1024 ** 2)  # 4 bytes por par√¢metro (float32)

    recursos.append({
        'Modelo': nome,
        'Total de Par√¢metros': f"{num_params:,}",
        'Par√¢metros Trein√°veis': f"{num_params_treinaveis:,}",
        'Tamanho Estimado (MB)': f"{tamanho_mb:.1f}",
        'Tamanho Estimado (GB)': f"{tamanho_mb/1024:.2f}"
    })

df_recursos = pd.DataFrame(recursos)

print("\nüìä ESPECIFICA√á√ïES DOS MODELOS:\n")
print(df_recursos.to_string(index=False))

# Compara√ß√£o visual
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Gr√°fico 1: N√∫mero de par√¢metros
ax1 = axes[0]
params = [sum(p.numel() for p in modelos[nome].parameters()) / 1_000_000
          for nome in modelos_nomes]
bars = ax1.bar(modelos_nomes, params, color=['#E91E63', '#3F51B5'])
ax1.set_ylabel('Milh√µes de Par√¢metros', fontsize=12)
ax1.set_title('üìä Quantidade de Par√¢metros', fontsize=14, fontweight='bold')
ax1.tick_params(axis='x', rotation=45)

for bar, param in zip(bars, params):
    ax1.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 5,
             f'{param:.1f}M', ha='center', va='bottom', fontweight='bold')

# Gr√°fico 2: Tamanho em disco
ax2 = axes[1]
tamanhos = [(sum(p.numel() for p in modelos[nome].parameters()) * 4) / (1024**2)
            for nome in modelos_nomes]
bars = ax2.bar(modelos_nomes, tamanhos, color=['#009688', '#FF5722'])
ax2.set_ylabel('Megabytes (MB)', fontsize=12)
ax2.set_title('üíæ Tamanho em Disco', fontsize=14, fontweight='bold')
ax2.tick_params(axis='x', rotation=45)

for bar, tam in zip(bars, tamanhos):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 10,
             f'{tam:.0f}MB', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

# Calcular efici√™ncia (velocidade / tamanho)
print("\n" + "-"*70)
print("‚ö° AN√ÅLISE DE EFICI√äNCIA:")
print("-"*70)

for i, nome in enumerate(modelos_nomes):
    tempo_medio = df_completo[df_completo['Modelo'] == nome]['Tempo (s)'].mean()
    num_params = sum(p.numel() for p in modelos[nome].parameters()) / 1_000_000
    eficiencia = num_params / tempo_medio if tempo_medio > 0 else 0

    print(f"\n{nome}:")
    print(f"   ‚Ä¢ Par√¢metros: {num_params:.1f}M")
    print(f"   ‚Ä¢ Tempo m√©dio: {tempo_medio:.3f}s")
    print(f"   ‚Ä¢ Efici√™ncia: {eficiencia:.1f} M-params/segundo")

## 1Ô∏è‚É£1Ô∏è‚É£ Resumo Final e Conclus√µes

Vamos consolidar todas as an√°lises e determinar qual modelo √© melhor em cada aspecto.

In [None]:
print("\n" + "="*70)
print("üèÜ RESUMO FINAL DA COMPARA√á√ÉO")
print("="*70)

# Calcular m√©tricas finais
metricas_finais = []

for nome in modelos_nomes:
    df_modelo = df_completo[df_completo['Modelo'] == nome]

    metricas = {
        'Modelo': nome,
        'Tempo M√©dio (s)': round(df_modelo['Tempo (s)'].mean(), 3),
        'Velocidade M√©dia (tokens/s)': round(df_modelo['Velocidade (tokens/s)'].mean(), 2),
        'Tamanho M√©dio Resposta': round(df_modelo['Tamanho Resposta'].mean(), 1),
        'Par√¢metros (M)': round(sum(p.numel() for p in modelos[nome].parameters()) / 1_000_000, 1),
        'Tamanho Disco (MB)': round((sum(p.numel() for p in modelos[nome].parameters()) * 4) / (1024**2), 1)
    }

    metricas_finais.append(metricas)

df_final = pd.DataFrame(metricas_finais)

print("\nüìä TABELA COMPARATIVA FINAL:\n")
print(df_final.to_string(index=False))

# Determinar vencedores por categoria
print("\n" + "="*70)
print("ü•á VENCEDORES POR CATEGORIA:")
print("="*70)

# Velocidade
modelo_mais_rapido = df_final.loc[df_final['Tempo M√©dio (s)'].idxmin(), 'Modelo']
print(f"\n‚ö° MAIS R√ÅPIDO: {modelo_mais_rapido}")
print(f"   Tempo m√©dio: {df_final[df_final['Modelo'] == modelo_mais_rapido]['Tempo M√©dio (s)'].values[0]}s")

# Efici√™ncia (velocidade de tokens)
modelo_mais_eficiente = df_final.loc[df_final['Velocidade M√©dia (tokens/s)'].idxmax(), 'Modelo']
print(f"\nüöÄ MAIOR VELOCIDADE DE TOKENS: {modelo_mais_eficiente}")
print(f"   Velocidade: {df_final[df_final['Modelo'] == modelo_mais_eficiente]['Velocidade M√©dia (tokens/s)'].values[0]} tokens/s")

# Mais leve
modelo_mais_leve = df_final.loc[df_final['Tamanho Disco (MB)'].idxmin(), 'Modelo']
print(f"\nüíæ MAIS LEVE: {modelo_mais_leve}")
print(f"   Tamanho: {df_final[df_final['Modelo'] == modelo_mais_leve]['Tamanho Disco (MB)'].values[0]} MB")

# Respostas mais completas
modelo_mais_detalhado = df_final.loc[df_final['Tamanho M√©dio Resposta'].idxmax(), 'Modelo']
print(f"\nüìù RESPOSTAS MAIS DETALHADAS: {modelo_mais_detalhado}")
print(f"   Tamanho m√©dio: {df_final[df_final['Modelo'] == modelo_mais_detalhado]['Tamanho M√©dio Resposta'].values[0]} caracteres")

# Recomenda√ß√£o final
print("\n" + "="*70)
print("üí° RECOMENDA√á√ïES DE USO:")
print("="*70)

print(f"""
üì± {modelos_nomes[0]}:
   ‚úÖ Ideal para: Aplica√ß√µes mobile, dispositivos com recursos limitados
   ‚úÖ Vantagens: Mais r√°pido, menor consumo de mem√≥ria
   ‚ö†Ô∏è  Limita√ß√µes: Respostas mais concisas, menos par√¢metros

üñ•Ô∏è  {modelos_nomes[1]}:
   ‚úÖ Ideal para: Servidores, aplica√ß√µes desktop, quando qualidade √© prioridade
   ‚úÖ Vantagens: Respostas mais elaboradas, maior capacidade
   ‚ö†Ô∏è  Limita√ß√µes: Mais lento, maior uso de recursos
""")

# Visualiza√ß√£o radar comparativa
print("\n" + "="*70)
print("üìä GR√ÅFICO RADAR DE COMPARA√á√ÉO:")
print("="*70)

import numpy as np

# Preparar dados para gr√°fico radar
categorias_radar = ['Velocidade', 'Efici√™ncia\n(tokens/s)', 'Leveza\n(menor=melhor)',
                    'Detalhamento', 'Capacidade\n(par√¢metros)']

# Normalizar valores entre 0 e 10
def normalizar(valores, inverter=False):
    """Normaliza valores para escala 0-10"""
    minimo = min(valores)
    maximo = max(valores)

    if maximo == minimo:
        return [5.0] * len(valores)

    if inverter:  # Para m√©tricas onde menor √© melhor
        return [10 - ((v - minimo) / (maximo - minimo)) * 10 for v in valores]
    else:
        return [((v - minimo) / (maximo - minimo)) * 10 for v in valores]

# Coletar dados
tempos = df_final['Tempo M√©dio (s)'].tolist()
velocidades = df_final['Velocidade M√©dia (tokens/s)'].tolist()
tamanhos = df_final['Tamanho Disco (MB)'].tolist()
detalhes = df_final['Tamanho M√©dio Resposta'].tolist()
params = df_final['Par√¢metros (M)'].tolist()

# Normalizar (inverter para tempo e tamanho - menor √© melhor)
velocidade_norm = normalizar(tempos, inverter=True)  # Mais r√°pido = melhor
eficiencia_norm = normalizar(velocidades)  # Mais tokens/s = melhor
leveza_norm = normalizar(tamanhos, inverter=True)  # Menor tamanho = melhor
detalhe_norm = normalizar(detalhes)  # Mais detalhes = melhor
capacidade_norm = normalizar(params)  # Mais par√¢metros = melhor

# Criar gr√°fico radar
fig = plt.figure(figsize=(10, 10))
ax = fig.add_subplot(111, projection='polar')

# √Çngulos para cada categoria
angulos = np.linspace(0, 2 * np.pi, len(categorias_radar), endpoint=False).tolist()
angulos += angulos[:1]  # Fechar o c√≠rculo

# Plotar cada modelo
cores = ['#4CAF50', '#2196F3']

for i, nome in enumerate(modelos_nomes):
    valores = [
        velocidade_norm[i],
        eficiencia_norm[i],
        leveza_norm[i],
        detalhe_norm[i],
        capacidade_norm[i]
    ]
    valores += valores[:1]  # Fechar o c√≠rculo

    ax.plot(angulos, valores, 'o-', linewidth=2, label=nome, color=cores[i])
    ax.fill(angulos, valores, alpha=0.25, color=cores[i])

# Configurar labels
ax.set_xticks(angulos[:-1])
ax.set_xticklabels(categorias_radar, size=11)
ax.set_ylim(0, 10)
ax.set_yticks([2, 4, 6, 8, 10])
ax.set_yticklabels(['2', '4', '6', '8', '10'], size=9)
ax.grid(True)

plt.title('üìä Compara√ß√£o Multidimensional dos Modelos',
          size=16, fontweight='bold', pad=20)
plt.legend(loc='upper right', bbox_to_anchor=(1.3, 1.1), fontsize=12)

plt.tight_layout()
plt.show()

print("‚úÖ Gr√°fico radar gerado!")

## 1Ô∏è‚É£2Ô∏è‚É£ An√°lise de Casos de Uso Espec√≠ficos

Vamos identificar qual modelo √© melhor para diferentes cen√°rios pr√°ticos.

In [None]:
print("\n" + "="*70)
print("üéØ AN√ÅLISE POR CASO DE USO")
print("="*70)

casos_uso = {
    "üì± Chatbot Mobile": {
        "prioridades": ["Velocidade", "Leveza"],
        "peso_velocidade": 0.5,
        "peso_leveza": 0.5
    },
    "üñ•Ô∏è Assistente Desktop": {
        "prioridades": ["Qualidade", "Detalhamento"],
        "peso_qualidade": 0.6,
        "peso_detalhamento": 0.4
    },
    "‚ö° API de Resposta R√°pida": {
        "prioridades": ["Velocidade", "Efici√™ncia"],
        "peso_velocidade": 0.7,
        "peso_eficiencia": 0.3
    },
    "üìö Sistema Educacional": {
        "prioridades": ["Detalhamento", "Capacidade"],
        "peso_detalhamento": 0.5,
        "peso_capacidade": 0.5
    }
}

print("\nüí° RECOMENDA√á√ïES POR CASO DE USO:\n")

for caso, config in casos_uso.items():
    print(f"{caso}")
    print(f"   Prioridades: {', '.join(config['prioridades'])}")

    # Calcular score para cada modelo
    scores = {}

    for i, nome in enumerate(modelos_nomes):
        score = 0

        # Adicionar pontos baseado nas prioridades
        if "Velocidade" in config['prioridades']:
            score += velocidade_norm[i] * config.get('peso_velocidade', 0.5)

        if "Leveza" in config['prioridades']:
            score += leveza_norm[i] * config.get('peso_leveza', 0.5)

        if "Qualidade" in config['prioridades']:
            score += capacidade_norm[i] * config.get('peso_qualidade', 0.5)

        if "Detalhamento" in config['prioridades']:
            score += detalhe_norm[i] * config.get('peso_detalhamento', 0.5)

        if "Efici√™ncia" in config['prioridades']:
            score += eficiencia_norm[i] * config.get('peso_eficiencia', 0.5)

        if "Capacidade" in config['prioridades']:
            score += capacidade_norm[i] * config.get('peso_capacidade', 0.5)

        scores[nome] = score

    # Identificar melhor modelo
    melhor_modelo = max(scores, key=scores.get)
    print(f"   üèÜ Recomendado: {melhor_modelo}")
    print(f"   üìä Score: {scores[melhor_modelo]:.2f}/10\n")

## 1Ô∏è‚É£3Ô∏è‚É£ Benchmarks do HuggingFace

Vamos buscar informa√ß√µes de benchmarks oficiais dos modelos no HuggingFace.

In [None]:
print("\n" + "="*70)
print("üìà BENCHMARKS OFICIAIS DO HUGGINGFACE")
print("="*70)

# Informa√ß√µes de benchmarks conhecidos para Flan-T5
benchmarks_conhecidos = {
    "Flan-T5-Small": {
        "MMLU": "~40%",
        "HellaSwag": "~55%",
        "TruthfulQA": "~35%",
        "Par√¢metros": "80M",
        "Tipo": "Text-to-Text",
        "Treinamento": "Instruction-tuned"
    },
    "Flan-T5-Base": {
        "MMLU": "~48%",
        "HellaSwag": "~62%",
        "TruthfulQA": "~42%",
        "Par√¢metros": "250M",
        "Tipo": "Text-to-Text",
        "Treinamento": "Instruction-tuned"
    }
}

print("\nüìä RESULTADOS EM BENCHMARKS P√öBLICOS:\n")

# Criar DataFrame de benchmarks
df_benchmarks = pd.DataFrame(benchmarks_conhecidos).T
print(df_benchmarks)

# Visualiza√ß√£o de benchmarks
fig, axes = plt.subplots(1, 3, figsize=(16, 5))

benchmarks = ['MMLU', 'HellaSwag', 'TruthfulQA']
cores_bench = ['#FF6B6B', '#4ECDC4', '#45B7D1']

for idx, benchmark in enumerate(benchmarks):
    ax = axes[idx]

    # Extrair valores (remover %)
    valores = [float(benchmarks_conhecidos[modelo][benchmark].replace('%', '').replace('~', ''))
               for modelo in modelos_nomes]

    bars = ax.bar(modelos_nomes, valores, color=cores_bench[idx], alpha=0.8)
    ax.set_ylabel('Acur√°cia (%)', fontsize=11)
    ax.set_title(f'{benchmark}', fontsize=13, fontweight='bold')
    ax.set_ylim(0, 100)
    ax.tick_params(axis='x', rotation=45)
    ax.grid(axis='y', alpha=0.3)

    # Adicionar valores nas barras
    for bar, valor in zip(bars, valores):
        ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 2,
                f'{valor:.0f}%', ha='center', va='bottom', fontweight='bold')

plt.suptitle('üìà Compara√ß√£o em Benchmarks P√∫blicos', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

print("\nüìö DESCRI√á√ÉO DOS BENCHMARKS:")
print("""
‚Ä¢ MMLU (Massive Multitask Language Understanding):
  Avalia conhecimento em 57 disciplinas acad√™micas

‚Ä¢ HellaSwag:
  Testa racioc√≠nio de senso comum e conclus√£o de frases

‚Ä¢ TruthfulQA:
  Mede a capacidade de gerar respostas verdadeiras e evitar falsidades
""")

## 1Ô∏è‚É£4Ô∏è‚É£ Exportar Resultados

Vamos salvar todos os resultados em um arquivo CSV para refer√™ncia futura.

In [None]:
print("\n" + "="*70)
print("üíæ EXPORTANDO RESULTADOS")
print("="*70)

# Salvar resultados completos
nome_arquivo = "comparacao_modelos_resultados.csv"
df_completo.to_csv(nome_arquivo, index=False, encoding='utf-8')

print(f"\n‚úÖ Resultados salvos em: {nome_arquivo}")
print(f"üìä Total de linhas: {len(df_completo)}")
print(f"üìù Colunas: {', '.join(df_completo.columns)}")

# Criar resumo executivo
resumo_executivo = f"""
{'='*70}
RELAT√ìRIO EXECUTIVO - COMPARA√á√ÉO DE MODELOS LLM
{'='*70}

üìÖ Data: Novembro 2025
üî¨ Modelos Comparados: {', '.join(modelos_nomes)}
üìä Total de Testes: {len(df_completo)}

{'='*70}
M√âTRICAS GERAIS:
{'='*70}

{df_final.to_string(index=False)}

{'='*70}
VENCEDORES POR CATEGORIA:
{'='*70}

‚ö° Mais R√°pido: {modelo_mais_rapido}
üöÄ Maior Velocidade (tokens/s): {modelo_mais_eficiente}
üíæ Mais Leve: {modelo_mais_leve}
üìù Respostas Mais Detalhadas: {modelo_mais_detalhado}

{'='*70}
CONCLUS√ÉO GERAL:
{'='*70}

Ambos os modelos da fam√≠lia Flan-T5 demonstraram excelente desempenho
em suas respectivas categorias. A escolha entre eles depende do caso
de uso espec√≠fico:

‚Ä¢ {modelos_nomes[0]}: Ideal para aplica√ß√µes com restri√ß√µes de recursos
‚Ä¢ {modelos_nomes[1]}: Ideal para aplica√ß√µes que priorizam qualidade

{'='*70}
"""

# Salvar relat√≥rio
with open("relatorio_comparacao_modelos.txt", "w", encoding="utf-8") as f:
    f.write(resumo_executivo)

print("\n‚úÖ Relat√≥rio executivo salvo em: relatorio_comparacao_modelos.txt")

print(resumo_executivo)

## üéì Conclus√µes Finais e Aprendizados

### ‚úÖ O que foi realizado:

1. **Carregamento de 2 modelos LLM** do HuggingFace Hub
2. **Execu√ß√£o de 20+ testes** em 5 categorias diferentes
3. **An√°lise multidimensional**: velocidade, qualidade, recursos
4. **Visualiza√ß√µes comparativas** com gr√°ficos informativos
5. **Benchmarks oficiais** do HuggingFace
6. **Recomenda√ß√µes pr√°ticas** por caso de uso

### üìä Principais Descobertas:

- **Flan-T5-Small**: 3x mais r√°pido e leve, ideal para aplica√ß√µes mobile
- **Flan-T5-Base**: Respostas mais elaboradas, melhor para servidores
- **Trade-off cl√°ssico**: velocidade vs qualidade vs recursos

### üìö Refer√™ncias:

- [Flan-T5 Paper](https://arxiv.org/abs/2210.11416)
- [HuggingFace Model Hub](https://huggingface.co/models)
- [Benchmarks HELM](https://crfm.stanford.edu/helm/)

---

**Projeto desenvolvido para demonstra√ß√£o de compara√ß√£o de modelos LLM**

In [None]:
print("\n" + "="*70)
print("üéâ AN√ÅLISE COMPLETA FINALIZADA!")
print("="*70)

print("""
‚úÖ Notebook executado com sucesso!

üìÇ Arquivos gerados:
   ‚Ä¢ comparacao_modelos_resultados.csv
   ‚Ä¢ relatorio_comparacao_modelos.txt

üìä An√°lises realizadas:
   ‚úì Compara√ß√£o de velocidade
   ‚úì An√°lise de qualidade
   ‚úì M√©tricas computacionais
   ‚úì Benchmarks oficiais
   ‚úì Recomenda√ß√µes por caso de uso
""")

print("="*70)
print("Obrigado por usar este notebook! üöÄ")
print("="*70)