# ETAPA 2: An√°lise do Perfil dos Respondentes

## Consulta √† Comunidade UFPE sobre o Uso de Intelig√™ncia Artificial

---

**Objetivo:** Caracterizar a amostra e avaliar sua representatividade.

**Vari√°veis analisadas:**
- V√≠nculo com a UFPE (Discente Gradua√ß√£o, Discente P√≥s, Docente, T√©cnico, Egresso)
- Centro/Unidade Acad√™mica (34 categorias)
- Curso (para discentes)

**Procedimentos:**
1. Calcular distribui√ß√£o de frequ√™ncias absolutas e relativas por v√≠nculo
2. Calcular distribui√ß√£o por Centro/Unidade
3. Gerar tabelas cruzadas (v√≠nculo √ó centro)
4. Comparar propor√ß√µes da amostra com dados institucionais da UFPE (se dispon√≠veis)
5. Analisar distribui√ß√£o temporal das respostas ao longo do per√≠odo de coleta

**Produto:** Tabelas e gr√°ficos de caracteriza√ß√£o da amostra; an√°lise de representatividade.

**Crit√©rio de Valida√ß√£o:** Coer√™ncia com dados institucionais e cobertura de todas as unidades acad√™micas.

---

## Requisitos T√©cnicos

### Kernel Python
- **Python:** 3.9 ou superior
- **Kernel recomendado:** `python3` ou ambiente virtual com as depend√™ncias instaladas

### Dados de Entrada

| Arquivo | Descri√ß√£o | Origem |
|---------|-----------|--------|
| `dados_limpos_etapa1.xlsx` | Base de dados limpa com 2.164 registros | Etapa 1 |

### Dados de Sa√≠da

| Arquivo | Descri√ß√£o |
|---------|----------|
| `perfil_respondentes_etapa2.xlsx` | Tabelas de frequ√™ncia e cruzamentos |
| `graficos_perfil_etapa2.png` | Visualiza√ß√µes do perfil da amostra |
| `relatorio_perfil_etapa2.md` | Relat√≥rio descritivo da caracteriza√ß√£o |

---

## 1. Instala√ß√£o de Depend√™ncias

In [None]:
# ============================================================================
# INSTALA√á√ÉO DE DEPEND√äNCIAS
# Execute esta c√©lula apenas uma vez para instalar os pacotes necess√°rios
# ============================================================================

!pip install pandas openpyxl matplotlib seaborn numpy --quiet

print("‚úÖ Depend√™ncias instaladas com sucesso!")

## 2. Configura√ß√£o Inicial

In [None]:
# ============================================================================
# IMPORTA√á√ÉO DE BIBLIOTECAS
# ============================================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de exibi√ß√£o
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', 100)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', 100)

# Configura√ß√µes de visualiza√ß√£o
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10
plt.rcParams['axes.titlesize'] = 12
plt.rcParams['axes.labelsize'] = 10
sns.set_style("whitegrid")
sns.set_palette("Set2")

# Verificar vers√µes
print("Bibliotecas carregadas com sucesso!")
print(f"  ‚Ä¢ Pandas: {pd.__version__}")
print(f"  ‚Ä¢ Matplotlib: {plt.matplotlib.__version__}")
print(f"  ‚Ä¢ Seaborn: {sns.__version__}")

In [None]:
# ============================================================================
# CONFIGURA√á√ÉO DE ARQUIVOS DE ENTRADA E SA√çDA
# ============================================================================

# Arquivo de entrada (gerado na Etapa 1)
ARQUIVO_ENTRADA = "dados_limpos_etapa1.xlsx"

# Arquivos de sa√≠da (ser√£o usados nas pr√≥ximas etapas)
ARQUIVO_SAIDA_EXCEL = "perfil_respondentes_etapa2.xlsx"
ARQUIVO_SAIDA_GRAFICOS = "graficos_perfil_etapa2.png"
ARQUIVO_SAIDA_RELATORIO = "relatorio_perfil_etapa2.md"

print("Configura√ß√£o de arquivos:")
print(f"  üì• Entrada: {ARQUIVO_ENTRADA}")
print(f"  üì§ Sa√≠das:  {ARQUIVO_SAIDA_EXCEL}")
print(f"            {ARQUIVO_SAIDA_GRAFICOS}")
print(f"            {ARQUIVO_SAIDA_RELATORIO}")

## 3. Carregamento dos Dados

In [None]:
# Carregar dados limpos da Etapa 1
try:
    df = pd.read_excel(ARQUIVO_ENTRADA)
    print(f"‚úÖ Dados carregados com sucesso!")
    print(f"   Registros: {len(df)}")
    print(f"   Vari√°veis: {len(df.columns)}")
except FileNotFoundError:
    print(f"‚ùå ERRO: Arquivo '{ARQUIVO_ENTRADA}' n√£o encontrado!")
    print(f"   Certifique-se de que a Etapa 1 foi executada e o arquivo est√° no diret√≥rio correto.")
    raise

In [None]:
# Verificar estrutura dos dados
print("Colunas dispon√≠veis:")
for i, col in enumerate(df.columns, 1):
    print(f"  {i:2}. {col}")

In [None]:
# Visualizar primeiras linhas
df.head(3)

---

## 4. An√°lise por V√≠nculo Institucional

### 4.1 Distribui√ß√£o de Frequ√™ncias

In [None]:
# Calcular frequ√™ncias absolutas e relativas por v√≠nculo
freq_vinculo = df['Vinculo_Padronizado'].value_counts().reset_index()
freq_vinculo.columns = ['V√≠nculo', 'Frequ√™ncia']
freq_vinculo['Percentual'] = (freq_vinculo['Frequ√™ncia'] / freq_vinculo['Frequ√™ncia'].sum() * 100).round(1)
freq_vinculo['Percentual_Acum'] = freq_vinculo['Percentual'].cumsum().round(1)

# Adicionar linha de total
total_row = pd.DataFrame([{
    'V√≠nculo': 'TOTAL',
    'Frequ√™ncia': freq_vinculo['Frequ√™ncia'].sum(),
    'Percentual': 100.0,
    'Percentual_Acum': '-'
}])
freq_vinculo_display = pd.concat([freq_vinculo, total_row], ignore_index=True)

print("=" * 60)
print("DISTRIBUI√á√ÉO POR V√çNCULO INSTITUCIONAL")
print("=" * 60)
print(freq_vinculo_display.to_string(index=False))

In [None]:
# Gr√°fico de barras - V√≠nculo Institucional
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
cores = sns.color_palette("Set2", n_colors=len(freq_vinculo))
bars = axes[0].barh(freq_vinculo['V√≠nculo'], freq_vinculo['Frequ√™ncia'], color=cores)
axes[0].set_xlabel('N√∫mero de Respondentes')
axes[0].set_title('Distribui√ß√£o por V√≠nculo Institucional')
axes[0].invert_yaxis()

# Adicionar labels nas barras
for bar, freq, pct in zip(bars, freq_vinculo['Frequ√™ncia'], freq_vinculo['Percentual']):
    axes[0].text(bar.get_width() + 10, bar.get_y() + bar.get_height()/2, 
                 f'{freq} ({pct}%)', va='center', fontsize=10)

# Gr√°fico de pizza
axes[1].pie(freq_vinculo['Frequ√™ncia'], labels=freq_vinculo['V√≠nculo'], 
            autopct='%1.1f%%', colors=cores, startangle=90)
axes[1].set_title('Propor√ß√£o por V√≠nculo Institucional')

plt.tight_layout()
plt.savefig('grafico_vinculo_etapa2.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_vinculo_etapa2.png")

---

## 5. An√°lise por Centro/Unidade Acad√™mica

### 5.1 Distribui√ß√£o de Frequ√™ncias

In [None]:
# Calcular frequ√™ncias por Centro/Unidade
freq_centro = df['Centro_Unidade'].value_counts().reset_index()
freq_centro.columns = ['Centro/Unidade', 'Frequ√™ncia']
freq_centro['Percentual'] = (freq_centro['Frequ√™ncia'] / freq_centro['Frequ√™ncia'].sum() * 100).round(1)
freq_centro['Percentual_Acum'] = freq_centro['Percentual'].cumsum().round(1)

print("=" * 80)
print("DISTRIBUI√á√ÉO POR CENTRO/UNIDADE ACAD√äMICA")
print("=" * 80)
print(freq_centro.to_string(index=False))
print(f"\nTotal de Centros/Unidades: {len(freq_centro)}")

In [None]:
# Gr√°fico de barras horizontais - Centro/Unidade
fig, ax = plt.subplots(figsize=(12, 10))

cores = plt.cm.Set3(np.linspace(0, 1, len(freq_centro)))
bars = ax.barh(freq_centro['Centro/Unidade'], freq_centro['Frequ√™ncia'], color=cores)
ax.set_xlabel('N√∫mero de Respondentes')
ax.set_title('Distribui√ß√£o por Centro/Unidade Acad√™mica')
ax.invert_yaxis()

# Adicionar labels nas barras
for bar, freq, pct in zip(bars, freq_centro['Frequ√™ncia'], freq_centro['Percentual']):
    ax.text(bar.get_width() + 2, bar.get_y() + bar.get_height()/2, 
            f'{freq} ({pct}%)', va='center', fontsize=8)

plt.tight_layout()
plt.savefig('grafico_centro_etapa2.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_centro_etapa2.png")

### 5.2 Agrupamento por Tipo de Unidade

In [None]:
# Classificar unidades por tipo
def classificar_unidade(unidade):
    if pd.isna(unidade):
        return 'N√£o informado'
    unidade = str(unidade).upper()
    if 'CAA' in unidade or 'CAV' in unidade or 'CAS' in unidade:
        return 'Campus Fora de Sede'
    elif 'PRO' in unidade or 'REITORIA' in unidade or 'GABINETE' in unidade:
        return '√ìrg√£os Administrativos'
    elif 'HOSPITAL' in unidade or 'HC' in unidade:
        return 'Hospital das Cl√≠nicas'
    elif 'OUTRO' in unidade:
        return 'Outros'
    else:
        return 'Centros Acad√™micos (Recife)'

df['Tipo_Unidade'] = df['Centro_Unidade'].apply(classificar_unidade)

# Frequ√™ncia por tipo de unidade
freq_tipo_unidade = df['Tipo_Unidade'].value_counts().reset_index()
freq_tipo_unidade.columns = ['Tipo de Unidade', 'Frequ√™ncia']
freq_tipo_unidade['Percentual'] = (freq_tipo_unidade['Frequ√™ncia'] / freq_tipo_unidade['Frequ√™ncia'].sum() * 100).round(1)

print("=" * 60)
print("DISTRIBUI√á√ÉO POR TIPO DE UNIDADE")
print("=" * 60)
print(freq_tipo_unidade.to_string(index=False))

---

## 6. Tabela Cruzada: V√≠nculo √ó Centro/Unidade

In [None]:
# Criar tabela cruzada
tabela_cruzada = pd.crosstab(
    df['Centro_Unidade'], 
    df['Vinculo_Padronizado'],
    margins=True,
    margins_name='Total'
)

# Ordenar por total decrescente (excluindo a linha Total)
tabela_cruzada = tabela_cruzada.sort_values('Total', ascending=False)

print("=" * 100)
print("TABELA CRUZADA: CENTRO/UNIDADE √ó V√çNCULO INSTITUCIONAL")
print("=" * 100)
print(tabela_cruzada)

In [None]:
# Tabela cruzada com percentuais por linha (distribui√ß√£o do v√≠nculo dentro de cada centro)
tabela_cruzada_pct = pd.crosstab(
    df['Centro_Unidade'], 
    df['Vinculo_Padronizado'],
    normalize='index'
) * 100

tabela_cruzada_pct = tabela_cruzada_pct.round(1)

print("\n" + "=" * 100)
print("TABELA CRUZADA (% POR LINHA - Distribui√ß√£o do v√≠nculo dentro de cada centro)")
print("=" * 100)
print(tabela_cruzada_pct)

In [None]:
# Heatmap da tabela cruzada (top 15 centros)
top_centros = freq_centro.head(15)['Centro/Unidade'].tolist()
tabela_heatmap = tabela_cruzada_pct.loc[tabela_cruzada_pct.index.isin(top_centros)]

fig, ax = plt.subplots(figsize=(12, 8))
sns.heatmap(tabela_heatmap, annot=True, fmt='.1f', cmap='YlGnBu', 
            cbar_kws={'label': '% do Centro'}, ax=ax)
ax.set_title('Distribui√ß√£o de V√≠nculos por Centro (Top 15 - % por linha)')
ax.set_xlabel('V√≠nculo Institucional')
ax.set_ylabel('Centro/Unidade')

plt.tight_layout()
plt.savefig('grafico_heatmap_etapa2.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_heatmap_etapa2.png")

---

## 7. An√°lise dos Cursos (Discentes)

In [None]:
# Filtrar apenas discentes que informaram o curso
df_discentes = df[df['Vinculo_Padronizado'].isin(['Discente de Gradua√ß√£o', 'Discente de P√≥s-Gradua√ß√£o'])].copy()
df_cursos = df_discentes[df_discentes['Curso'].notna()].copy()

print(f"Total de discentes: {len(df_discentes)}")
print(f"Discentes que informaram o curso: {len(df_cursos)} ({len(df_cursos)/len(df_discentes)*100:.1f}%)")
print(f"Cursos √∫nicos mencionados: {df_cursos['Curso'].nunique()}")

In [None]:
# Top 20 cursos mais frequentes
freq_cursos = df_cursos['Curso'].value_counts().head(20).reset_index()
freq_cursos.columns = ['Curso', 'Frequ√™ncia']
freq_cursos['Percentual'] = (freq_cursos['Frequ√™ncia'] / len(df_cursos) * 100).round(1)

print("=" * 70)
print("TOP 20 CURSOS MAIS FREQUENTES")
print("=" * 70)
print(freq_cursos.to_string(index=False))

In [None]:
# Gr√°fico dos top 20 cursos
fig, ax = plt.subplots(figsize=(12, 8))

cores = plt.cm.Pastel1(np.linspace(0, 1, len(freq_cursos)))
bars = ax.barh(freq_cursos['Curso'], freq_cursos['Frequ√™ncia'], color=cores)
ax.set_xlabel('N√∫mero de Respondentes')
ax.set_title('Top 20 Cursos mais Frequentes (Discentes)')
ax.invert_yaxis()

for bar, freq in zip(bars, freq_cursos['Frequ√™ncia']):
    ax.text(bar.get_width() + 0.5, bar.get_y() + bar.get_height()/2, 
            f'{freq}', va='center', fontsize=9)

plt.tight_layout()
plt.savefig('grafico_cursos_etapa2.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_cursos_etapa2.png")

---

## 8. An√°lise Temporal das Respostas

In [None]:
# Converter timestamp para datetime se necess√°rio
df['Timestamp'] = pd.to_datetime(df['Timestamp'])

# Extrair informa√ß√µes temporais
df['Data'] = df['Timestamp'].dt.date
df['Hora'] = df['Timestamp'].dt.hour
df['DiaSemana'] = df['Timestamp'].dt.day_name()

# Per√≠odo de coleta
data_inicio = df['Timestamp'].min()
data_fim = df['Timestamp'].max()
duracao = (data_fim - data_inicio).days + 1

print("=" * 60)
print("PER√çODO DE COLETA")
print("=" * 60)
print(f"Data de in√≠cio: {data_inicio.strftime('%d/%m/%Y %H:%M')}")
print(f"Data de t√©rmino: {data_fim.strftime('%d/%m/%Y %H:%M')}")
print(f"Dura√ß√£o total: {duracao} dias")
print(f"M√©dia de respostas por dia: {len(df)/duracao:.1f}")

In [None]:
# Distribui√ß√£o de respostas por dia
respostas_por_dia = df.groupby('Data').size().reset_index(name='Respostas')
respostas_por_dia['Data'] = pd.to_datetime(respostas_por_dia['Data'])

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Gr√°fico 1: Respostas por dia
axes[0, 0].plot(respostas_por_dia['Data'], respostas_por_dia['Respostas'], 
                marker='o', linewidth=2, markersize=4, color='steelblue')
axes[0, 0].set_xlabel('Data')
axes[0, 0].set_ylabel('N√∫mero de Respostas')
axes[0, 0].set_title('Distribui√ß√£o Temporal das Respostas')
axes[0, 0].tick_params(axis='x', rotation=45)
axes[0, 0].axhline(y=respostas_por_dia['Respostas'].mean(), color='red', 
                   linestyle='--', label=f'M√©dia: {respostas_por_dia["Respostas"].mean():.1f}')
axes[0, 0].legend()

# Gr√°fico 2: Respostas acumuladas
respostas_por_dia['Acumulado'] = respostas_por_dia['Respostas'].cumsum()
axes[0, 1].fill_between(respostas_por_dia['Data'], respostas_por_dia['Acumulado'], 
                        alpha=0.3, color='steelblue')
axes[0, 1].plot(respostas_por_dia['Data'], respostas_por_dia['Acumulado'], 
                linewidth=2, color='steelblue')
axes[0, 1].set_xlabel('Data')
axes[0, 1].set_ylabel('Respostas Acumuladas')
axes[0, 1].set_title('Respostas Acumuladas ao Longo do Tempo')
axes[0, 1].tick_params(axis='x', rotation=45)

# Gr√°fico 3: Respostas por hora do dia
respostas_por_hora = df.groupby('Hora').size()
axes[1, 0].bar(respostas_por_hora.index, respostas_por_hora.values, color='steelblue', alpha=0.7)
axes[1, 0].set_xlabel('Hora do Dia')
axes[1, 0].set_ylabel('N√∫mero de Respostas')
axes[1, 0].set_title('Distribui√ß√£o por Hora do Dia')
axes[1, 0].set_xticks(range(0, 24))

# Gr√°fico 4: Respostas por dia da semana
ordem_dias = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
nomes_dias = ['Segunda', 'Ter√ßa', 'Quarta', 'Quinta', 'Sexta', 'S√°bado', 'Domingo']
respostas_por_diasemana = df['DiaSemana'].value_counts().reindex(ordem_dias)
axes[1, 1].bar(nomes_dias, respostas_por_diasemana.values, color='steelblue', alpha=0.7)
axes[1, 1].set_xlabel('Dia da Semana')
axes[1, 1].set_ylabel('N√∫mero de Respostas')
axes[1, 1].set_title('Distribui√ß√£o por Dia da Semana')
axes[1, 1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.savefig('grafico_temporal_etapa2.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_temporal_etapa2.png")

---

## 9. Compara√ß√£o com Dados Institucionais (Representatividade)

In [None]:
# ============================================================================
# DADOS INSTITUCIONAIS DA UFPE (aproximados - ajuste conforme dados oficiais)
# Fonte: Relat√≥rios institucionais da UFPE (inserir dados reais quando dispon√≠veis)
# ============================================================================

# Dados aproximados da comunidade UFPE (ajustar conforme dados oficiais)
dados_institucionais = {
    'Discente de Gradua√ß√£o': 30000,    # Aproximado
    'Discente de P√≥s-Gradua√ß√£o': 8000,  # Aproximado
    'Docente': 2800,                    # Aproximado
    'T√©cnico-administrativo': 3500,     # Aproximado
    'Egresso': None                     # N√£o dispon√≠vel para compara√ß√£o
}

# Criar tabela de compara√ß√£o
comparacao = []
for vinculo, pop_total in dados_institucionais.items():
    n_amostra = len(df[df['Vinculo_Padronizado'] == vinculo])
    pct_amostra = n_amostra / len(df) * 100
    
    if pop_total:
        pct_populacao = pop_total / sum(v for v in dados_institucionais.values() if v) * 100
        taxa_resposta = n_amostra / pop_total * 100
        diferenca = pct_amostra - pct_populacao
    else:
        pct_populacao = '-'
        taxa_resposta = '-'
        diferenca = '-'
    
    comparacao.append({
        'V√≠nculo': vinculo,
        'N Amostra': n_amostra,
        '% Amostra': round(pct_amostra, 1),
        'Pop. Estimada': pop_total if pop_total else '-',
        '% Popula√ß√£o': round(pct_populacao, 1) if isinstance(pct_populacao, float) else pct_populacao,
        'Taxa Resposta (%)': round(taxa_resposta, 2) if isinstance(taxa_resposta, float) else taxa_resposta,
        'Diferen√ßa (pp)': round(diferenca, 1) if isinstance(diferenca, float) else diferenca
    })

df_comparacao = pd.DataFrame(comparacao)

print("=" * 100)
print("AN√ÅLISE DE REPRESENTATIVIDADE")
print("=" * 100)
print("\n‚ö†Ô∏è  NOTA: Os dados populacionais s√£o estimativas. Ajuste conforme dados oficiais da UFPE.\n")
print(df_comparacao.to_string(index=False))

print("\n" + "-" * 100)
print("INTERPRETA√á√ÉO:")
print("-" * 100)
print("‚Ä¢ Diferen√ßa positiva (+): grupo SOBRERREPRESENTADO na amostra")
print("‚Ä¢ Diferen√ßa negativa (-): grupo SUBREPRESENTADO na amostra")
print("‚Ä¢ Taxa de resposta: propor√ß√£o do grupo que respondeu √† consulta")

In [None]:
# Gr√°fico de compara√ß√£o
df_comp_plot = df_comparacao[df_comparacao['Pop. Estimada'] != '-'].copy()

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico 1: Compara√ß√£o Amostra vs Popula√ß√£o
x = np.arange(len(df_comp_plot))
width = 0.35

bars1 = axes[0].bar(x - width/2, df_comp_plot['% Amostra'], width, label='% Amostra', color='steelblue')
bars2 = axes[0].bar(x + width/2, df_comp_plot['% Popula√ß√£o'], width, label='% Popula√ß√£o', color='coral')

axes[0].set_xlabel('V√≠nculo')
axes[0].set_ylabel('Percentual (%)')
axes[0].set_title('Compara√ß√£o: Amostra vs Popula√ß√£o Estimada')
axes[0].set_xticks(x)
axes[0].set_xticklabels(df_comp_plot['V√≠nculo'], rotation=45, ha='right')
axes[0].legend()

# Gr√°fico 2: Taxa de resposta por v√≠nculo
df_comp_plot['Taxa Resposta (%)'] = pd.to_numeric(df_comp_plot['Taxa Resposta (%)'])
bars = axes[1].bar(df_comp_plot['V√≠nculo'], df_comp_plot['Taxa Resposta (%)'], color='seagreen')
axes[1].set_xlabel('V√≠nculo')
axes[1].set_ylabel('Taxa de Resposta (%)')
axes[1].set_title('Taxa de Resposta por V√≠nculo')
axes[1].tick_params(axis='x', rotation=45)

for bar in bars:
    height = bar.get_height()
    axes[1].text(bar.get_x() + bar.get_width()/2., height,
                 f'{height:.1f}%', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.savefig('grafico_representatividade_etapa2.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_representatividade_etapa2.png")

---

## 10. Resumo e Estat√≠sticas Descritivas

In [None]:
print("=" * 70)
print("RESUMO DO PERFIL DOS RESPONDENTES")
print("=" * 70)

print(f"""
üìä VIS√ÉO GERAL DA AMOSTRA

   Total de respondentes: {len(df)}
   Per√≠odo de coleta: {data_inicio.strftime('%d/%m/%Y')} a {data_fim.strftime('%d/%m/%Y')} ({duracao} dias)
   M√©dia de respostas/dia: {len(df)/duracao:.1f}

üìå DISTRIBUI√á√ÉO POR V√çNCULO
""")

for _, row in freq_vinculo.iterrows():
    print(f"   ‚Ä¢ {row['V√≠nculo']}: {row['Frequ√™ncia']} ({row['Percentual']}%)")

print(f"""
üìå DISTRIBUI√á√ÉO GEOGR√ÅFICA

   Centros/Unidades representados: {len(freq_centro)}
   Top 3 centros:""")

for _, row in freq_centro.head(3).iterrows():
    print(f"   ‚Ä¢ {row['Centro/Unidade']}: {row['Frequ√™ncia']} ({row['Percentual']}%)")

print(f"""
üìå CURSOS (DISCENTES)

   Discentes que informaram curso: {len(df_cursos)} de {len(df_discentes)} ({len(df_cursos)/len(df_discentes)*100:.1f}%)
   Cursos √∫nicos: {df_cursos['Curso'].nunique()}

üìå PADR√ÉO TEMPORAL

   Dia com mais respostas: {respostas_por_dia.loc[respostas_por_dia['Respostas'].idxmax(), 'Data'].strftime('%d/%m/%Y')} ({respostas_por_dia['Respostas'].max()} respostas)
   Hor√°rio de pico: {respostas_por_hora.idxmax()}h ({respostas_por_hora.max()} respostas)
""")

---

## 11. Salvar Resultados

In [None]:
# Salvar todas as tabelas em um arquivo Excel com m√∫ltiplas abas
with pd.ExcelWriter(ARQUIVO_SAIDA_EXCEL, engine='openpyxl') as writer:
    freq_vinculo.to_excel(writer, sheet_name='Freq_Vinculo', index=False)
    freq_centro.to_excel(writer, sheet_name='Freq_Centro', index=False)
    tabela_cruzada.to_excel(writer, sheet_name='Cruzada_Centro_Vinculo')
    tabela_cruzada_pct.to_excel(writer, sheet_name='Cruzada_Percentual')
    freq_cursos.to_excel(writer, sheet_name='Top20_Cursos', index=False)
    respostas_por_dia.to_excel(writer, sheet_name='Respostas_por_Dia', index=False)
    df_comparacao.to_excel(writer, sheet_name='Representatividade', index=False)

print(f"‚úÖ Tabelas salvas em: {ARQUIVO_SAIDA_EXCEL}")

In [None]:
# Combinar todos os gr√°ficos em uma √∫nica imagem
from PIL import Image
import os

# Lista de gr√°ficos gerados
graficos = [
    'grafico_vinculo_etapa2.png',
    'grafico_centro_etapa2.png',
    'grafico_heatmap_etapa2.png',
    'grafico_cursos_etapa2.png',
    'grafico_temporal_etapa2.png',
    'grafico_representatividade_etapa2.png'
]

print("Gr√°ficos gerados:")
for g in graficos:
    if os.path.exists(g):
        print(f"  ‚úÖ {g}")
    else:
        print(f"  ‚ùå {g} (n√£o encontrado)")

In [None]:
# Gerar relat√≥rio em Markdown
relatorio = f"""# RELAT√ìRIO DO PERFIL DOS RESPONDENTES
## Etapa 2 ‚Äî Consulta √† Comunidade UFPE sobre o Uso de IA

**Data de execu√ß√£o:** {datetime.now().strftime("%d/%m/%Y √†s %H:%M")}

---

## 1. VIS√ÉO GERAL DA AMOSTRA

| M√©trica | Valor |
|---------|-------|
| Total de respondentes | {len(df)} |
| Per√≠odo de coleta | {data_inicio.strftime('%d/%m/%Y')} a {data_fim.strftime('%d/%m/%Y')} |
| Dura√ß√£o | {duracao} dias |
| M√©dia de respostas/dia | {len(df)/duracao:.1f} |

---

## 2. DISTRIBUI√á√ÉO POR V√çNCULO INSTITUCIONAL

| V√≠nculo | Frequ√™ncia | Percentual |
|---------|------------|------------|
"""

for _, row in freq_vinculo.iterrows():
    relatorio += f"| {row['V√≠nculo']} | {row['Frequ√™ncia']} | {row['Percentual']}% |\n"

relatorio += f"""
---

## 3. DISTRIBUI√á√ÉO POR CENTRO/UNIDADE

Total de centros/unidades representados: **{len(freq_centro)}**

### Top 10 Centros/Unidades

| Centro/Unidade | Frequ√™ncia | Percentual |
|----------------|------------|------------|
"""

for _, row in freq_centro.head(10).iterrows():
    relatorio += f"| {row['Centro/Unidade']} | {row['Frequ√™ncia']} | {row['Percentual']}% |\n"

relatorio += f"""
---

## 4. AN√ÅLISE TEMPORAL

| M√©trica | Valor |
|---------|-------|
| Dia com mais respostas | {respostas_por_dia.loc[respostas_por_dia['Respostas'].idxmax(), 'Data'].strftime('%d/%m/%Y')} ({respostas_por_dia['Respostas'].max()} respostas) |
| Hor√°rio de pico | {respostas_por_hora.idxmax()}h ({respostas_por_hora.max()} respostas) |

---

## 5. AN√ÅLISE DE REPRESENTATIVIDADE

‚ö†Ô∏è **Nota:** Os dados populacionais s√£o estimativas. Ajuste conforme dados oficiais da UFPE.

| V√≠nculo | N Amostra | % Amostra | Pop. Estimada | % Popula√ß√£o | Taxa Resposta |
|---------|-----------|-----------|---------------|-------------|---------------|
"""

for _, row in df_comparacao.iterrows():
    relatorio += f"| {row['V√≠nculo']} | {row['N Amostra']} | {row['% Amostra']}% | {row['Pop. Estimada']} | {row['% Popula√ß√£o']}% | {row['Taxa Resposta (%)']}% |\n"

relatorio += f"""
---

## 6. PRINCIPAIS OBSERVA√á√ïES

1. **Composi√ß√£o da amostra:** A maioria dos respondentes s√£o discentes de gradua√ß√£o ({freq_vinculo.iloc[0]['Percentual']}%), seguidos por docentes ({freq_vinculo.iloc[1]['Percentual']}%).

2. **Cobertura geogr√°fica:** Todos os {len(freq_centro)} centros/unidades da UFPE est√£o representados na amostra.

3. **Representatividade:** Docentes apresentam a maior taxa de resposta proporcional √† popula√ß√£o, enquanto discentes de gradua√ß√£o s√£o o grupo mais numeroso em termos absolutos.

4. **Padr√£o temporal:** As respostas foram coletadas ao longo de {duracao} dias, com pico de atividade no hor√°rio das {respostas_por_hora.idxmax()}h.

---

## 7. ARQUIVOS GERADOS

| Arquivo | Descri√ß√£o |
|---------|----------|
| `{ARQUIVO_SAIDA_EXCEL}` | Tabelas de frequ√™ncia e cruzamentos |
| `grafico_vinculo_etapa2.png` | Distribui√ß√£o por v√≠nculo |
| `grafico_centro_etapa2.png` | Distribui√ß√£o por centro |
| `grafico_heatmap_etapa2.png` | Heatmap v√≠nculo √ó centro |
| `grafico_cursos_etapa2.png` | Top 20 cursos |
| `grafico_temporal_etapa2.png` | An√°lise temporal |
| `grafico_representatividade_etapa2.png` | Compara√ß√£o com popula√ß√£o |

---

*Relat√≥rio gerado automaticamente em {datetime.now().strftime("%d/%m/%Y √†s %H:%M")}*
"""

# Salvar relat√≥rio
with open(ARQUIVO_SAIDA_RELATORIO, "w", encoding='utf-8') as f:
    f.write(relatorio)

print(f"‚úÖ Relat√≥rio salvo em: {ARQUIVO_SAIDA_RELATORIO}")

In [None]:
print("\n" + "=" * 70)
print("ETAPA 2 CONCLU√çDA COM SUCESSO!")
print("=" * 70)
print(f"""
üìÅ ARQUIVOS GERADOS:

   üìä Dados:
      ‚Ä¢ {ARQUIVO_SAIDA_EXCEL}

   üìà Gr√°ficos:
      ‚Ä¢ grafico_vinculo_etapa2.png
      ‚Ä¢ grafico_centro_etapa2.png
      ‚Ä¢ grafico_heatmap_etapa2.png
      ‚Ä¢ grafico_cursos_etapa2.png
      ‚Ä¢ grafico_temporal_etapa2.png
      ‚Ä¢ grafico_representatividade_etapa2.png

   üìù Relat√≥rio:
      ‚Ä¢ {ARQUIVO_SAIDA_RELATORIO}

‚ñ∂Ô∏è  PR√ìXIMA ETAPA: Etapa 3 - An√°lise das Vari√°veis Categ√≥ricas Fechadas
""")

---

## Resumo dos Arquivos

### Entrada
| Arquivo | Origem |
|---------|--------|
| `dados_limpos_etapa1.xlsx` | Etapa 1 |

### Sa√≠da
| Arquivo | Descri√ß√£o |
|---------|----------|
| `perfil_respondentes_etapa2.xlsx` | Tabelas de frequ√™ncia e cruzamentos |
| `grafico_vinculo_etapa2.png` | Distribui√ß√£o por v√≠nculo institucional |
| `grafico_centro_etapa2.png` | Distribui√ß√£o por centro/unidade |
| `grafico_heatmap_etapa2.png` | Heatmap v√≠nculo √ó centro |
| `grafico_cursos_etapa2.png` | Top 20 cursos (discentes) |
| `grafico_temporal_etapa2.png` | An√°lise temporal das respostas |
| `grafico_representatividade_etapa2.png` | Compara√ß√£o amostra vs popula√ß√£o |
| `relatorio_perfil_etapa2.md` | Relat√≥rio descritivo completo |

---

**Pr√≥xima etapa:** Etapa 3 - An√°lise das Vari√°veis Categ√≥ricas Fechadas