# An√°lise de Reda√ß√µes - Prompts 3 e 6

Este notebook analisa as reda√ß√µes dos prompts 3 e 6, mostrando:
- Quantidade de reda√ß√µes
- Tema/t√≠tulo
- Score (nota final)
- **Exporta√ß√£o de 2 CSVs separados** (um para cada prompt) para uso no experimento


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


## 1. Carregando o dataset


In [38]:
# URL do dataset
url = 'https://raw.githubusercontent.com/rafaelanchieta/essay/refs/heads/master/essay-br/essay-br.csv'

# Carregando os dados
df = pd.read_csv(url)

print(f"Total de reda√ß√µes no dataset: {len(df)}")
print(f"Colunas: {df.columns.tolist()}")
print("\nPrimeiras linhas:")
df.head()


Total de reda√ß√µes no dataset: 4570
Colunas: ['prompt', 'title', 'essay', 'competence', 'score']

Primeiras linhas:


Unnamed: 0,prompt,title,essay,competence,score
0,21,A greve dos caminhoneiros e a malha ferrovi√°ria,['A grande import√¢ncia dos caminhoneiros para ...,"[160, 160, 120, 120, 120]",680
1,23,"Vossa excel√™ncia Senador M. M.,",['O senhor e eu j√° estamos cientes do projeto ...,"[160, 160, 120, 120, 120]",680
2,39,A validade do impeachment,['√â de conhecimento geral dos brasileiros o qu...,"[120, 160, 160, 160, 120]",720
3,26,Podemos perceber que a sociedade brasileira,['Podemos perceber que a sociedade brasileira ...,"[120, 120, 80, 120, 120]",560
4,4,Comenta-se que o ex-presidente Lula,['Comenta-se que o ex presidente Lula ex-presi...,"[0, 0, 0, 0, 0]",0


## 2. Filtrando reda√ß√µes dos prompts 3 e 6


In [39]:
# Filtrando apenas prompts 3 e 6
df_filtered = df[df['prompt'].isin([3, 6])].copy()

print(f"Total de reda√ß√µes dos prompts 3 e 6: {len(df_filtered)}")
print(f"\nDistribui√ß√£o:")
print(df_filtered['prompt'].value_counts().sort_index())


Total de reda√ß√µes dos prompts 3 e 6: 40

Distribui√ß√£o:
prompt
3    20
6    20
Name: count, dtype: int64


## 3. Estat√≠sticas por prompt


In [40]:
# Criando estat√≠sticas detalhadas
resultado = df_filtered.groupby('prompt').agg({
    'title': 'first',
    'score': ['count', 'mean', 'std', 'min', 'max']
}).round(2)

resultado.columns = ['Tema', 'Quantidade', 'Nota M√©dia', 'Desvio Padr√£o', 'Nota M√≠nima', 'Nota M√°xima']

print("\n=== RESUMO COMPLETO ===")
display(resultado)

print("\n=== DETALHAMENTO POR PROMPT ===")
for prompt_id in [3, 6]:
    dados = df_filtered[df_filtered['prompt'] == prompt_id]
    
    print(f"\n{'='*60}")
    print(f"PROMPT {prompt_id}")
    print(f"{'='*60}")
    print(f"Tema: {dados['title'].iloc[0]}")
    print(f"Quantidade: {len(dados)} reda√ß√µes")
    print(f"Nota M√©dia: {dados['score'].mean():.2f}")
    print(f"Nota Mediana: {dados['score'].median():.2f}")
    print(f"Nota M√≠nima: {dados['score'].min()}")
    print(f"Nota M√°xima: {dados['score'].max()}")
    print(f"Desvio Padr√£o: {dados['score'].std():.2f}")



=== RESUMO COMPLETO ===


Unnamed: 0_level_0,Tema,Quantidade,Nota M√©dia,Desvio Padr√£o,Nota M√≠nima,Nota M√°xima
prompt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
3,O avan√ßo da tecnologia,20,662.0,169.44,400,1000
6,"Amazonas, um bem de todos n√≥s",20,516.0,226.98,0,880



=== DETALHAMENTO POR PROMPT ===

PROMPT 3
Tema: O avan√ßo da tecnologia
Quantidade: 20 reda√ß√µes
Nota M√©dia: 662.00
Nota Mediana: 620.00
Nota M√≠nima: 400
Nota M√°xima: 1000
Desvio Padr√£o: 169.44

PROMPT 6
Tema: Amazonas, um bem de todos n√≥s
Quantidade: 20 reda√ß√µes
Nota M√©dia: 516.00
Nota Mediana: 520.00
Nota M√≠nima: 0
Nota M√°xima: 880
Desvio Padr√£o: 226.98


## 4. üéØ EXPORTAR 2 CSVs SEPARADOS PARA EXPERIMENTO


In [41]:
# ============================================================
# EXPORTA√á√ÉO SEPARADA - 2 ARQUIVOS CSV
# ============================================================

print("="*70)
print("‚úì CRIANDO 2 ARQUIVOS CSV SEPARADOS PARA O EXPERIMENTO")
print("="*70)

# Separando por prompt
df_prompt3 = df_filtered[df_filtered['prompt'] == 3].copy()
df_prompt6 = df_filtered[df_filtered['prompt'] == 6].copy()

# Exportando CSV do Prompt 3
arquivo_prompt3 = 'redacoes_prompt_3.csv'
df_prompt3.to_csv(arquivo_prompt3, index=False, encoding='utf-8')

print(f"\nüìÑ ARQUIVO 1 - PROMPT 3")
print(f"   Arquivo: {arquivo_prompt3}")
print(f"   Tema: {df_prompt3['title'].iloc[0]}")
print(f"   Total de reda√ß√µes: {len(df_prompt3)}")
print(f"   Colunas: {', '.join(df_prompt3.columns)}")

# Exportando CSV do Prompt 6
arquivo_prompt6 = 'redacoes_prompt_6.csv'
df_prompt6.to_csv(arquivo_prompt6, index=False, encoding='utf-8')

print(f"\nüìÑ ARQUIVO 2 - PROMPT 6")
print(f"   Arquivo: {arquivo_prompt6}")
print(f"   Tema: {df_prompt6['title'].iloc[0]}")
print(f"   Total de reda√ß√µes: {len(df_prompt6)}")
print(f"   Colunas: {', '.join(df_prompt6.columns)}")

print("\n" + "="*70)
print("‚úì ARQUIVOS CRIADOS COM SUCESSO!")
print("="*70)
print("\nCada arquivo cont√©m:")
print("  - Mesmo formato do CSV original")
print("  - Todas as 5 colunas: prompt, title, essay, competence, score")
print("  - Apenas as reda√ß√µes do respectivo prompt")
print("\nArquivos prontos para uso no experimento! üöÄ")


‚úì CRIANDO 2 ARQUIVOS CSV SEPARADOS PARA O EXPERIMENTO

üìÑ ARQUIVO 1 - PROMPT 3
   Arquivo: redacoes_prompt_3.csv
   Tema: O avan√ßo da tecnologia
   Total de reda√ß√µes: 20
   Colunas: prompt, title, essay, competence, score

üìÑ ARQUIVO 2 - PROMPT 6
   Arquivo: redacoes_prompt_6.csv
   Tema: Amazonas, um bem de todos n√≥s
   Total de reda√ß√µes: 20
   Colunas: prompt, title, essay, competence, score

‚úì ARQUIVOS CRIADOS COM SUCESSO!

Cada arquivo cont√©m:
  - Mesmo formato do CSV original
  - Todas as 5 colunas: prompt, title, essay, competence, score
  - Apenas as reda√ß√µes do respectivo prompt

Arquivos prontos para uso no experimento! üöÄ


## 5. Visualiza√ß√£o dos arquivos exportados


In [42]:
print("="*70)
print("üìÑ ARQUIVO 1: redacoes_prompt_3.csv")
print("="*70)
print(f"\nPrimeiras 3 linhas:")
display(df_prompt3.head(3))

print("\n" + "="*70)
print("üìÑ ARQUIVO 2: redacoes_prompt_6.csv")
print("="*70)
print(f"\nPrimeiras 3 linhas:")
display(df_prompt6.head(3))


üìÑ ARQUIVO 1: redacoes_prompt_3.csv

Primeiras 3 linhas:


Unnamed: 0,prompt,title,essay,competence,score
14,3,O avan√ßo da tecnologia,['Muito se tem discutido sobre as reais transf...,"[80, 80, 80, 80, 80]",400
21,3,Mundo moderno e suas tecnologias,"['Ao se falar em tecnologia, devemos observar ...","[120, 80, 120, 120, 120]",560
46,3,(In)revolu√ß√£o p√≥s-humana,"['No s√©culo XVII, Johannes Kepler, astr√≥logo a...","[120, 160, 160, 160, 120]",720



üìÑ ARQUIVO 2: redacoes_prompt_6.csv

Primeiras 3 linhas:


Unnamed: 0,prompt,title,essay,competence,score
9,6,"Amazonas, um bem de todos n√≥s","['Amazonas, sem ela ele os dias do brasil Bras...","[0, 0, 0, 0, 0]",0
15,6,Pulm√µes limpos e est√¥magos vazios.,['A floresta amaz√¥nica sempre despertou e aind...,"[120, 120, 80, 80, 120]",520
190,6,Amaz√¥nia e o mundo,['Desde o periodo pr√©-colonial per√≠odo pr√©-col...,"[80, 80, 80, 80, 80]",400


## 6. Gr√°ficos de distribui√ß√£o das notas


In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

for idx, prompt_id in enumerate([3, 6]):
    dados = df_filtered[df_filtered['prompt'] == prompt_id]
    
    axes[idx].hist(dados['score'], bins=20, edgecolor='black', alpha=0.7, color='steelblue')
    axes[idx].axvline(dados['score'].mean(), color='red', linestyle='--', 
                      linewidth=2, label=f'M√©dia: {dados["score"].mean():.2f}')
    axes[idx].set_xlabel('Nota (Score)', fontsize=11)
    axes[idx].set_ylabel('Frequ√™ncia', fontsize=11)
    axes[idx].set_title(f'Prompt {prompt_id}: {dados["title"].iloc[0][:40]}...', 
                        fontsize=12, fontweight='bold')
    axes[idx].legend()
    axes[idx].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\n‚úì Gr√°ficos gerados para os prompts 3 e 6")
