# ETAPA 4: An√°lise das Vari√°veis de Escala Likert

## Consulta √† Comunidade UFPE sobre o Uso de Intelig√™ncia Artificial

---

**Objetivo:** Avaliar grau de concord√¢ncia com afirma√ß√µes sobre IA.

**Vari√°veis analisadas (5 afirma√ß√µes):**
1. "A IA j√° n√£o √© mais uma op√ß√£o, √© uma realidade"
2. "O uso √©tico requer diretrizes claras"
3. "A UFPE deve oferecer diretrizes sobre uso em avalia√ß√µes"
4. "O uso de IA deve ser incentivado como ferramenta de apoio"
5. "A universidade deve promover debates sobre impactos da IA"

**Procedimentos:**
1. Calcular distribui√ß√£o de frequ√™ncias para cada n√≠vel de concord√¢ncia
2. Calcular medidas de tend√™ncia central (mediana, moda)
3. Agrupar respostas em "Concord√¢ncia", "Neutro" e "Discord√¢ncia"
4. Estratificar por v√≠nculo institucional e aplicar teste de Kruskal-Wallis
5. Gerar gr√°ficos de barras empilhadas (stacked bar charts) para visualiza√ß√£o

**Produto:** Tabelas de concord√¢ncia; testes de diferen√ßa entre grupos; gr√°ficos divergentes.

**Crit√©rio de Valida√ß√£o:** Consist√™ncia interna das respostas; signific√¢ncia estat√≠stica nas compara√ß√µes entre grupos.

---

## Requisitos T√©cnicos

### Kernel Python
- **Python:** 3.9 ou superior
- **Kernel recomendado:** `python3` ou ambiente virtual com as depend√™ncias instaladas

### Dados de Entrada

| Arquivo | Descri√ß√£o | Origem |
|---------|-----------|--------|
| `dados_limpos_etapa1.xlsx` | Base de dados limpa com 2.164 registros | Etapa 1 |

### Dados de Sa√≠da

| Arquivo | Descri√ß√£o |
|---------|----------|
| `likert_etapa4.xlsx` | Tabelas de frequ√™ncia, medidas descritivas e testes estat√≠sticos |
| `grafico_likert_geral_etapa4.png` | Vis√£o geral das 5 afirma√ß√µes (barras divergentes) |
| `grafico_likert_detalhado_etapa4.png` | Distribui√ß√£o detalhada por afirma√ß√£o |
| `grafico_likert_vinculo_etapa4.png` | Compara√ß√£o entre v√≠nculos institucionais |
| `relatorio_likert_etapa4.md` | Relat√≥rio com resultados e testes estat√≠sticos |

---

## 1. Instala√ß√£o de Depend√™ncias

In [None]:
# ============================================================================
# INSTALA√á√ÉO DE DEPEND√äNCIAS
# Execute esta c√©lula apenas uma vez para instalar os pacotes necess√°rios
# ============================================================================

!pip install pandas openpyxl matplotlib seaborn numpy scipy --quiet

print("‚úÖ Depend√™ncias instaladas com sucesso!")

## 2. Configura√ß√£o Inicial

In [None]:
# ============================================================================
# IMPORTA√á√ÉO DE BIBLIOTECAS
# ============================================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import kruskal, mannwhitneyu
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de exibi√ß√£o
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', 100)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', 100)

# Configura√ß√µes de visualiza√ß√£o
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10
plt.rcParams['axes.titlesize'] = 12
plt.rcParams['axes.labelsize'] = 10
sns.set_style("whitegrid")

# Verificar vers√µes
print("Bibliotecas carregadas com sucesso!")
print(f"  ‚Ä¢ Pandas: {pd.__version__}")
print(f"  ‚Ä¢ Scipy: {stats.__name__} (para testes estat√≠sticos)")
print(f"  ‚Ä¢ Matplotlib: {plt.matplotlib.__version__}")
print(f"  ‚Ä¢ Seaborn: {sns.__version__}")

In [None]:
# ============================================================================
# CONFIGURA√á√ÉO DE ARQUIVOS DE ENTRADA E SA√çDA
# ============================================================================

# Arquivo de entrada (gerado na Etapa 1)
ARQUIVO_ENTRADA = "dados_limpos_etapa1.xlsx"

# Arquivos de sa√≠da
ARQUIVO_SAIDA_EXCEL = "likert_etapa4.xlsx"
ARQUIVO_SAIDA_RELATORIO = "relatorio_likert_etapa4.md"

# N√≠vel de signific√¢ncia para testes estat√≠sticos
ALPHA = 0.05

print("Configura√ß√£o de arquivos:")
print(f"  üì• Entrada: {ARQUIVO_ENTRADA}")
print(f"  üì§ Sa√≠das:  {ARQUIVO_SAIDA_EXCEL}")
print(f"            {ARQUIVO_SAIDA_RELATORIO}")
print(f"  üìä N√≠vel de signific√¢ncia (Œ±): {ALPHA}")

## 3. Carregamento dos Dados

In [None]:
# Carregar dados limpos da Etapa 1
try:
    df = pd.read_excel(ARQUIVO_ENTRADA)
    print(f"‚úÖ Dados carregados com sucesso!")
    print(f"   Registros: {len(df)}")
    print(f"   Vari√°veis: {len(df.columns)}")
except FileNotFoundError:
    print(f"‚ùå ERRO: Arquivo '{ARQUIVO_ENTRADA}' n√£o encontrado!")
    print(f"   Certifique-se de que a Etapa 1 foi executada e o arquivo est√° no diret√≥rio correto.")
    raise

In [None]:
# ============================================================================
# IDENTIFICA√á√ÉO DAS VARI√ÅVEIS LIKERT
# ============================================================================

# Dicion√°rio com as vari√°veis Likert e suas descri√ß√µes curtas
variaveis_likert = {
    'Likert_IA_Realidade': 'IA √© uma realidade com a qual precisamos lidar',
    'Likert_Diretrizes_Eticas': 'Uso √©tico requer diretrizes claras',
    'Likert_Diretrizes_Avaliacoes': 'UFPE deve oferecer diretrizes para avalia√ß√µes',
    'Likert_Incentivo_IA': 'Uso de IA deve ser incentivado como apoio',
    'Likert_Debates_Impactos': 'Universidade deve promover debates sobre IA'
}

# Nomes curtos para os gr√°ficos
nomes_curtos = {
    'Likert_IA_Realidade': 'IA √© realidade',
    'Likert_Diretrizes_Eticas': 'Diretrizes √©ticas',
    'Likert_Diretrizes_Avaliacoes': 'Diretrizes avalia√ß√µes',
    'Likert_Incentivo_IA': 'Incentivar IA',
    'Likert_Debates_Impactos': 'Promover debates'
}

print("=" * 70)
print("VARI√ÅVEIS DE ESCALA LIKERT PARA AN√ÅLISE")
print("=" * 70)

for var, descricao in variaveis_likert.items():
    print(f"\nüìå {var}")
    print(f"   Descri√ß√£o: {descricao}")
    print(f"   Valores: {df[var].unique().tolist()}")

---

## 4. Defini√ß√£o da Escala e Fun√ß√µes Auxiliares

In [None]:
# ============================================================================
# DEFINI√á√ÉO DA ESCALA LIKERT
# ============================================================================

# Ordem l√≥gica da escala (de mais negativo para mais positivo)
ordem_likert = [
    'Discordo totalmente',
    'Discordo',
    'Neutro',
    'Concordo',
    'Concordo totalmente'
]

# Mapeamento num√©rico (para c√°lculos estat√≠sticos)
mapa_numerico = {
    'Discordo totalmente': 1,
    'Discordo': 2,
    'Neutro': 3,
    'Concordo': 4,
    'Concordo totalmente': 5
}

# Mapeamento reverso
mapa_reverso = {v: k for k, v in mapa_numerico.items()}

# Agrupamento em 3 categorias
mapa_agrupado = {
    'Discordo totalmente': 'Discord√¢ncia',
    'Discordo': 'Discord√¢ncia',
    'Neutro': 'Neutro',
    'Concordo': 'Concord√¢ncia',
    'Concordo totalmente': 'Concord√¢ncia'
}

ordem_agrupado = ['Discord√¢ncia', 'Neutro', 'Concord√¢ncia']

# Cores para os gr√°ficos (divergente: vermelho -> cinza -> verde)
cores_likert = {
    'Discordo totalmente': '#d73027',  # Vermelho escuro
    'Discordo': '#fc8d59',              # Vermelho claro
    'Neutro': '#ffffbf',                # Amarelo claro
    'Concordo': '#91cf60',              # Verde claro
    'Concordo totalmente': '#1a9850'    # Verde escuro
}

cores_agrupado = {
    'Discord√¢ncia': '#e74c3c',
    'Neutro': '#f39c12',
    'Concord√¢ncia': '#27ae60'
}

print("‚úÖ Escala Likert configurada:")
print(f"   N√≠veis: {ordem_likert}")
print(f"   Agrupamento: {ordem_agrupado}")

In [None]:
# ============================================================================
# FUN√á√ïES AUXILIARES
# ============================================================================

def calcular_frequencias_likert(df, variavel):
    """
    Calcula frequ√™ncias para uma vari√°vel Likert mantendo a ordem correta.
    """
    freq = df[variavel].value_counts().reindex(ordem_likert).fillna(0).astype(int)
    freq_df = pd.DataFrame({
        'N√≠vel': freq.index,
        'Frequ√™ncia': freq.values,
        'Percentual': (freq.values / freq.values.sum() * 100).round(1)
    })
    return freq_df


def calcular_medidas_centrais(df, variavel):
    """
    Calcula mediana, moda e m√©dia da vari√°vel Likert (convertida para num√©rica).
    """
    valores_numericos = df[variavel].map(mapa_numerico).dropna()
    
    mediana = valores_numericos.median()
    moda = valores_numericos.mode().values[0] if len(valores_numericos.mode()) > 0 else np.nan
    media = valores_numericos.mean()
    desvio = valores_numericos.std()
    
    return {
        'media': round(media, 2),
        'mediana': mediana,
        'mediana_texto': mapa_reverso.get(mediana, 'N/A'),
        'moda': moda,
        'moda_texto': mapa_reverso.get(moda, 'N/A'),
        'desvio_padrao': round(desvio, 2),
        'n': len(valores_numericos)
    }


def calcular_concordancia_agrupada(df, variavel):
    """
    Agrupa respostas em Concord√¢ncia, Neutro e Discord√¢ncia.
    """
    agrupado = df[variavel].map(mapa_agrupado)
    freq = agrupado.value_counts().reindex(ordem_agrupado).fillna(0).astype(int)
    freq_df = pd.DataFrame({
        'Categoria': freq.index,
        'Frequ√™ncia': freq.values,
        'Percentual': (freq.values / freq.values.sum() * 100).round(1)
    })
    return freq_df


def teste_kruskal_wallis(df, variavel_likert, variavel_grupo='Vinculo_Padronizado'):
    """
    Realiza teste de Kruskal-Wallis para comparar grupos.
    Retorna estat√≠stica H, p-valor e interpreta√ß√£o.
    """
    # Converter para num√©rico
    df_temp = df[[variavel_likert, variavel_grupo]].dropna().copy()
    df_temp['valor_numerico'] = df_temp[variavel_likert].map(mapa_numerico)
    
    # Separar grupos
    grupos = [grupo['valor_numerico'].values for nome, grupo in df_temp.groupby(variavel_grupo)]
    nomes_grupos = list(df_temp[variavel_grupo].unique())
    
    # Realizar teste
    estatistica, p_valor = kruskal(*grupos)
    
    # Calcular tamanho do efeito (eta-quadrado)
    n_total = len(df_temp)
    k = len(grupos)
    eta_squared = (estatistica - k + 1) / (n_total - k)
    eta_squared = max(0, eta_squared)  # Garantir valor n√£o negativo
    
    # Interpreta√ß√£o do tamanho do efeito
    if eta_squared < 0.01:
        efeito = "desprez√≠vel"
    elif eta_squared < 0.06:
        efeito = "pequeno"
    elif eta_squared < 0.14:
        efeito = "m√©dio"
    else:
        efeito = "grande"
    
    return {
        'variavel': variavel_likert,
        'estatistica_H': round(estatistica, 3),
        'p_valor': p_valor,
        'eta_squared': round(eta_squared, 4),
        'efeito': efeito,
        'significativo': p_valor < ALPHA,
        'n_grupos': k,
        'grupos': nomes_grupos
    }


def calcular_medianas_por_grupo(df, variavel_likert, variavel_grupo='Vinculo_Padronizado'):
    """
    Calcula a mediana da vari√°vel Likert para cada grupo.
    """
    df_temp = df[[variavel_likert, variavel_grupo]].dropna().copy()
    df_temp['valor_numerico'] = df_temp[variavel_likert].map(mapa_numerico)
    
    medianas = df_temp.groupby(variavel_grupo)['valor_numerico'].agg(['median', 'mean', 'std', 'count'])
    medianas.columns = ['Mediana', 'M√©dia', 'Desvio Padr√£o', 'N']
    medianas['Mediana_Texto'] = medianas['Mediana'].map(mapa_reverso)
    medianas = medianas.round(2)
    
    return medianas


print("‚úÖ Fun√ß√µes auxiliares carregadas com sucesso!")

---

## 5. An√°lise Descritiva Geral

In [None]:
# ============================================================================
# TABELA DE FREQU√äNCIAS PARA TODAS AS VARI√ÅVEIS LIKERT
# ============================================================================

print("=" * 90)
print("DISTRIBUI√á√ÉO DE FREQU√äNCIAS - ESCALA LIKERT (5 PONTOS)")
print("=" * 90)

# Criar tabela consolidada
tabela_frequencias = pd.DataFrame()

for var, descricao in variaveis_likert.items():
    freq = calcular_frequencias_likert(df, var)
    freq['Vari√°vel'] = nomes_curtos[var]
    tabela_frequencias = pd.concat([tabela_frequencias, freq], ignore_index=True)

# Pivotar para visualiza√ß√£o
tabela_pivot = tabela_frequencias.pivot(index='Vari√°vel', columns='N√≠vel', values='Percentual')
tabela_pivot = tabela_pivot[ordem_likert]  # Reordenar colunas

print("\nPercentual por n√≠vel de concord√¢ncia (%):\n")
print(tabela_pivot.round(1))

In [None]:
# ============================================================================
# MEDIDAS DE TEND√äNCIA CENTRAL
# ============================================================================

print("\n" + "=" * 90)
print("MEDIDAS DE TEND√äNCIA CENTRAL")
print("=" * 90)

medidas_centrais = []

for var, descricao in variaveis_likert.items():
    medidas = calcular_medidas_centrais(df, var)
    medidas['Vari√°vel'] = nomes_curtos[var]
    medidas['Descri√ß√£o'] = descricao
    medidas_centrais.append(medidas)

df_medidas = pd.DataFrame(medidas_centrais)
df_medidas = df_medidas[['Vari√°vel', 'media', 'mediana', 'mediana_texto', 'moda_texto', 'desvio_padrao', 'n']]
df_medidas.columns = ['Vari√°vel', 'M√©dia', 'Mediana', 'Mediana (texto)', 'Moda', 'Desvio Padr√£o', 'N']

print("\n")
print(df_medidas.to_string(index=False))

print("\nüìä Interpreta√ß√£o da escala num√©rica:")
print("   1 = Discordo totalmente | 2 = Discordo | 3 = Neutro | 4 = Concordo | 5 = Concordo totalmente")

In [None]:
# ============================================================================
# CONCORD√ÇNCIA AGRUPADA (3 CATEGORIAS)
# ============================================================================

print("\n" + "=" * 90)
print("CONCORD√ÇNCIA AGRUPADA (Concord√¢ncia / Neutro / Discord√¢ncia)")
print("=" * 90)

tabela_agrupada = pd.DataFrame()

for var, descricao in variaveis_likert.items():
    freq_agrup = calcular_concordancia_agrupada(df, var)
    freq_agrup['Vari√°vel'] = nomes_curtos[var]
    tabela_agrupada = pd.concat([tabela_agrupada, freq_agrup], ignore_index=True)

# Pivotar para visualiza√ß√£o
tabela_agrup_pivot = tabela_agrupada.pivot(index='Vari√°vel', columns='Categoria', values='Percentual')
tabela_agrup_pivot = tabela_agrup_pivot[ordem_agrupado]  # Reordenar colunas

print("\nPercentual por categoria agrupada (%):\n")
print(tabela_agrup_pivot.round(1))

---

## 6. Visualiza√ß√µes Gerais

In [None]:
# ============================================================================
# GR√ÅFICO DE BARRAS DIVERGENTES (LIKERT PLOT)
# ============================================================================

def criar_likert_plot(tabela_pivot, titulo, arquivo_saida):
    """
    Cria gr√°fico de barras divergentes para visualiza√ß√£o de escala Likert.
    """
    fig, ax = plt.subplots(figsize=(12, 6))
    
    # Preparar dados
    variaveis = tabela_pivot.index.tolist()
    n_vars = len(variaveis)
    
    # Calcular posi√ß√µes
    # Negativos √† esquerda do centro, positivos √† direita
    discordo_total = tabela_pivot['Discordo totalmente'].values
    discordo = tabela_pivot['Discordo'].values
    neutro = tabela_pivot['Neutro'].values
    concordo = tabela_pivot['Concordo'].values
    concordo_total = tabela_pivot['Concordo totalmente'].values
    
    # Posi√ß√µes y
    y_pos = np.arange(n_vars)
    
    # Plotar barras (do centro para fora)
    # Lado esquerdo (negativo)
    ax.barh(y_pos, -discordo_total, left=-(discordo + neutro/2), 
            color=cores_likert['Discordo totalmente'], label='Discordo totalmente', height=0.6)
    ax.barh(y_pos, -discordo, left=-neutro/2, 
            color=cores_likert['Discordo'], label='Discordo', height=0.6)
    
    # Centro (neutro - dividido)
    ax.barh(y_pos, -neutro/2, left=0, 
            color=cores_likert['Neutro'], height=0.6)
    ax.barh(y_pos, neutro/2, left=0, 
            color=cores_likert['Neutro'], label='Neutro', height=0.6)
    
    # Lado direito (positivo)
    ax.barh(y_pos, concordo, left=neutro/2, 
            color=cores_likert['Concordo'], label='Concordo', height=0.6)
    ax.barh(y_pos, concordo_total, left=neutro/2 + concordo, 
            color=cores_likert['Concordo totalmente'], label='Concordo totalmente', height=0.6)
    
    # Configura√ß√µes
    ax.set_yticks(y_pos)
    ax.set_yticklabels(variaveis)
    ax.set_xlabel('Percentual (%)')
    ax.set_title(titulo, fontsize=14, fontweight='bold')
    ax.axvline(x=0, color='black', linewidth=0.5)
    
    # Legenda
    handles, labels = ax.get_legend_handles_labels()
    # Remover duplicatas mantendo a ordem
    by_label = dict(zip(labels, handles))
    ax.legend(by_label.values(), by_label.keys(), loc='lower right', fontsize=9)
    
    # Limites do eixo x
    ax.set_xlim(-100, 100)
    
    plt.tight_layout()
    plt.savefig(arquivo_saida, dpi=150, bbox_inches='tight')
    plt.show()
    print(f"\nGr√°fico salvo como: {arquivo_saida}")


# Criar gr√°fico
criar_likert_plot(tabela_pivot, 
                  'Grau de Concord√¢ncia com Afirma√ß√µes sobre IA', 
                  'grafico_likert_geral_etapa4.png')

In [None]:
# ============================================================================
# GR√ÅFICO DE BARRAS EMPILHADAS (100%)
# ============================================================================

fig, ax = plt.subplots(figsize=(12, 6))

# Preparar dados
variaveis = list(nomes_curtos.values())
dados_plot = tabela_pivot.reindex([nomes_curtos[v] for v in variaveis_likert.keys()])

# Cores na ordem correta
cores_ordem = [cores_likert[nivel] for nivel in ordem_likert]

# Plotar barras empilhadas
dados_plot.plot(kind='barh', stacked=True, ax=ax, color=cores_ordem, edgecolor='white', width=0.7)

ax.set_xlabel('Percentual (%)')
ax.set_ylabel('')
ax.set_title('Distribui√ß√£o das Respostas por Afirma√ß√£o', fontsize=14, fontweight='bold')
ax.legend(title='N√≠vel de Concord√¢ncia', bbox_to_anchor=(1.02, 1), loc='upper left', fontsize=9)
ax.set_xlim(0, 100)

# Adicionar linha de 50%
ax.axvline(x=50, color='black', linestyle='--', linewidth=0.8, alpha=0.5)

plt.tight_layout()
plt.savefig('grafico_likert_detalhado_etapa4.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_likert_detalhado_etapa4.png")

In [None]:
# ============================================================================
# GR√ÅFICO DE CONCORD√ÇNCIA AGRUPADA
# ============================================================================

fig, ax = plt.subplots(figsize=(10, 6))

# Preparar dados
dados_agrup = tabela_agrup_pivot.reindex([nomes_curtos[v] for v in variaveis_likert.keys()])
cores_agrup = [cores_agrupado[cat] for cat in ordem_agrupado]

# Plotar
dados_agrup.plot(kind='barh', stacked=True, ax=ax, color=cores_agrup, edgecolor='white', width=0.7)

ax.set_xlabel('Percentual (%)')
ax.set_ylabel('')
ax.set_title('Concord√¢ncia Agrupada por Afirma√ß√£o', fontsize=14, fontweight='bold')
ax.legend(title='Categoria', bbox_to_anchor=(1.02, 1), loc='upper left')
ax.set_xlim(0, 100)

# Adicionar percentuais nas barras
for i, var in enumerate(dados_agrup.index):
    cumsum = 0
    for cat in ordem_agrupado:
        valor = dados_agrup.loc[var, cat]
        if valor > 5:  # S√≥ mostrar se > 5%
            ax.text(cumsum + valor/2, i, f'{valor:.0f}%', 
                    ha='center', va='center', fontsize=9, fontweight='bold', color='white')
        cumsum += valor

plt.tight_layout()
plt.savefig('grafico_likert_agrupado_etapa4.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_likert_agrupado_etapa4.png")

---

## 7. An√°lise Estratificada por V√≠nculo Institucional

In [None]:
# ============================================================================
# MEDIANAS POR V√çNCULO INSTITUCIONAL
# ============================================================================

print("=" * 100)
print("MEDIANAS POR V√çNCULO INSTITUCIONAL")
print("=" * 100)

for var, descricao in variaveis_likert.items():
    print(f"\nüìå {nomes_curtos[var]}")
    print(f"   \"{descricao}\"")
    print("-" * 80)
    medianas = calcular_medianas_por_grupo(df, var)
    print(medianas.to_string())

In [None]:
# ============================================================================
# TESTE DE KRUSKAL-WALLIS (COMPARA√á√ÉO ENTRE V√çNCULOS)
# ============================================================================

print("\n" + "=" * 100)
print("TESTE DE KRUSKAL-WALLIS: Compara√ß√£o entre V√≠nculos Institucionais")
print("=" * 100)
print(f"\nH‚ÇÄ: N√£o h√° diferen√ßa nas distribui√ß√µes entre os grupos")
print(f"H‚ÇÅ: H√° diferen√ßa nas distribui√ß√µes entre os grupos")
print(f"N√≠vel de signific√¢ncia (Œ±): {ALPHA}")
print("-" * 100)

resultados_kruskal = []

for var, descricao in variaveis_likert.items():
    resultado = teste_kruskal_wallis(df, var)
    resultado['descricao'] = nomes_curtos[var]
    resultados_kruskal.append(resultado)
    
    status = "‚úì Significativo" if resultado['significativo'] else "‚úó N√£o significativo"
    p_fmt = "< 0,001" if resultado['p_valor'] < 0.001 else f"= {resultado['p_valor']:.4f}"
    
    print(f"\nüìå {nomes_curtos[var]}")
    print(f"   H = {resultado['estatistica_H']}, p {p_fmt}")
    print(f"   Œ∑¬≤ = {resultado['eta_squared']} (efeito {resultado['efeito']})")
    print(f"   Resultado: {status}")

In [None]:
# Criar DataFrame com resultados dos testes
df_kruskal = pd.DataFrame(resultados_kruskal)
df_kruskal['p_valor_fmt'] = df_kruskal['p_valor'].apply(lambda x: '< 0,001' if x < 0.001 else f'{x:.4f}')
df_kruskal['resultado'] = df_kruskal['significativo'].apply(lambda x: '‚úì Significativo' if x else '‚úó N√£o significativo')

df_kruskal_display = df_kruskal[['descricao', 'estatistica_H', 'p_valor_fmt', 'eta_squared', 'efeito', 'resultado']]
df_kruskal_display.columns = ['Afirma√ß√£o', 'H', 'p-valor', 'Œ∑¬≤', 'Efeito', 'Resultado']

print("\n" + "=" * 100)
print("RESUMO DOS TESTES DE KRUSKAL-WALLIS")
print("=" * 100)
print(df_kruskal_display.to_string(index=False))

In [None]:
# ============================================================================
# GR√ÅFICO COMPARATIVO POR V√çNCULO
# ============================================================================

fig, axes = plt.subplots(2, 3, figsize=(16, 10))
axes = axes.flatten()

for idx, (var, descricao) in enumerate(variaveis_likert.items()):
    ax = axes[idx]
    
    # Calcular percentuais por v√≠nculo
    tab_vinculo = pd.crosstab(df['Vinculo_Padronizado'], df[var], normalize='index') * 100
    tab_vinculo = tab_vinculo[[c for c in ordem_likert if c in tab_vinculo.columns]]
    
    # Plotar
    cores_plot = [cores_likert[c] for c in tab_vinculo.columns]
    tab_vinculo.plot(kind='barh', stacked=True, ax=ax, color=cores_plot, edgecolor='white', width=0.7)
    
    ax.set_title(nomes_curtos[var], fontsize=11, fontweight='bold')
    ax.set_xlabel('Percentual (%)')
    ax.set_ylabel('')
    ax.set_xlim(0, 100)
    ax.legend().set_visible(False)

# Remover subplot extra
axes[5].axis('off')

# Legenda √∫nica
handles = [plt.Rectangle((0,0),1,1, facecolor=cores_likert[nivel]) for nivel in ordem_likert]
fig.legend(handles, ordem_likert, loc='lower right', bbox_to_anchor=(0.98, 0.12), 
           title='N√≠vel de Concord√¢ncia', fontsize=9)

plt.suptitle('Distribui√ß√£o das Respostas por V√≠nculo Institucional', fontsize=14, fontweight='bold', y=1.02)
plt.tight_layout()
plt.savefig('grafico_likert_vinculo_etapa4.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_likert_vinculo_etapa4.png")

In [None]:
# ============================================================================
# GR√ÅFICO DE M√âDIAS POR V√çNCULO (COM INTERVALO DE CONFIAN√áA)
# ============================================================================

fig, ax = plt.subplots(figsize=(12, 6))

# Preparar dados
dados_medias = []
for var, descricao in variaveis_likert.items():
    df_temp = df[[var, 'Vinculo_Padronizado']].dropna().copy()
    df_temp['valor'] = df_temp[var].map(mapa_numerico)
    
    for vinculo in df['Vinculo_Padronizado'].dropna().unique():
        valores = df_temp[df_temp['Vinculo_Padronizado'] == vinculo]['valor']
        dados_medias.append({
            'Vari√°vel': nomes_curtos[var],
            'V√≠nculo': vinculo,
            'M√©dia': valores.mean(),
            'Erro': valores.std() / np.sqrt(len(valores)) * 1.96  # IC 95%
        })

df_medias = pd.DataFrame(dados_medias)

# Plotar
vinculos = df_medias['V√≠nculo'].unique()
variaveis_plot = list(nomes_curtos.values())
x = np.arange(len(variaveis_plot))
width = 0.15

cores_vinculo = sns.color_palette("Set2", n_colors=len(vinculos))

for i, vinculo in enumerate(vinculos):
    dados_vinculo = df_medias[df_medias['V√≠nculo'] == vinculo]
    dados_vinculo = dados_vinculo.set_index('Vari√°vel').reindex(variaveis_plot)
    
    ax.bar(x + i*width, dados_vinculo['M√©dia'], width, 
           label=vinculo, color=cores_vinculo[i], 
           yerr=dados_vinculo['Erro'], capsize=2)

ax.set_ylabel('M√©dia (1-5)')
ax.set_title('M√©dia de Concord√¢ncia por V√≠nculo Institucional', fontsize=14, fontweight='bold')
ax.set_xticks(x + width * (len(vinculos)-1) / 2)
ax.set_xticklabels(variaveis_plot, rotation=15, ha='right')
ax.legend(title='V√≠nculo', bbox_to_anchor=(1.02, 1), loc='upper left')
ax.set_ylim(1, 5)
ax.axhline(y=3, color='gray', linestyle='--', linewidth=0.8, alpha=0.5, label='Neutro')

# Adicionar escala de refer√™ncia
ax.set_yticks([1, 2, 3, 4, 5])
ax.set_yticklabels(['1\n(Discordo\ntotalmente)', '2\n(Discordo)', '3\n(Neutro)', '4\n(Concordo)', '5\n(Concordo\ntotalmente)'])

plt.tight_layout()
plt.savefig('grafico_likert_medias_etapa4.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_likert_medias_etapa4.png")

---

## 8. Resumo Executivo

In [None]:
print("=" * 80)
print("RESUMO EXECUTIVO - ETAPA 4")
print("=" * 80)

print(f"""
üìä PRINCIPAIS ACHADOS

1. CONCORD√ÇNCIA GERAL COM AS AFIRMA√á√ïES
""")

for var, descricao in variaveis_likert.items():
    concordancia = tabela_agrup_pivot.loc[nomes_curtos[var], 'Concord√¢ncia']
    medidas = calcular_medidas_centrais(df, var)
    print(f"   ‚Ä¢ {nomes_curtos[var]}: {concordancia:.1f}% de concord√¢ncia (m√©dia: {medidas['media']})")

print(f"""
2. AFIRMA√á√ÉO COM MAIOR CONCORD√ÇNCIA
   ‚Ä¢ {tabela_agrup_pivot['Concord√¢ncia'].idxmax()}: {tabela_agrup_pivot['Concord√¢ncia'].max():.1f}%

3. AFIRMA√á√ÉO COM MAIOR DISCORD√ÇNCIA
   ‚Ä¢ {tabela_agrup_pivot['Discord√¢ncia'].idxmax()}: {tabela_agrup_pivot['Discord√¢ncia'].max():.1f}%

4. DIFEREN√áAS ENTRE V√çNCULOS (Teste de Kruskal-Wallis)
""")

for resultado in resultados_kruskal:
    status = "‚úì" if resultado['significativo'] else "‚úó"
    print(f"   {status} {resultado['descricao']}: H = {resultado['estatistica_H']}, p {'< 0,001' if resultado['p_valor'] < 0.001 else f'= {resultado["p_valor"]:.4f}'} (efeito {resultado['efeito']})")

# Contar significativos
n_significativos = sum(1 for r in resultados_kruskal if r['significativo'])
print(f"""
üìå CONCLUS√ÉO:
   {n_significativos} de 5 afirma√ß√µes apresentam diferen√ßas significativas entre v√≠nculos.
""")

---

## 9. Salvar Resultados

In [None]:
# Salvar todas as tabelas em um arquivo Excel com m√∫ltiplas abas
with pd.ExcelWriter(ARQUIVO_SAIDA_EXCEL, engine='openpyxl') as writer:
    # Frequ√™ncias detalhadas
    tabela_pivot.to_excel(writer, sheet_name='Freq_Likert_5pts')
    
    # Concord√¢ncia agrupada
    tabela_agrup_pivot.to_excel(writer, sheet_name='Concordancia_Agrupada')
    
    # Medidas centrais
    df_medidas.to_excel(writer, sheet_name='Medidas_Centrais', index=False)
    
    # Medianas por v√≠nculo (para cada vari√°vel)
    for var, descricao in variaveis_likert.items():
        medianas = calcular_medianas_por_grupo(df, var)
        nome_aba = f'Med_{nomes_curtos[var][:20]}'  # Limitar nome da aba
        medianas.to_excel(writer, sheet_name=nome_aba)
    
    # Resultados Kruskal-Wallis
    df_kruskal_display.to_excel(writer, sheet_name='Testes_KruskalWallis', index=False)

print(f"‚úÖ Tabelas salvas em: {ARQUIVO_SAIDA_EXCEL}")

In [None]:
# Gerar relat√≥rio em Markdown
relatorio = f"""# RELAT√ìRIO DE AN√ÅLISE DAS VARI√ÅVEIS DE ESCALA LIKERT
## Etapa 4 ‚Äî Consulta √† Comunidade UFPE sobre o Uso de IA

**Data de execu√ß√£o:** {datetime.now().strftime("%d/%m/%Y √†s %H:%M")}

**N√≠vel de signific√¢ncia (Œ±):** {ALPHA}

---

## 1. AFIRMA√á√ïES AVALIADAS

| # | Vari√°vel | Afirma√ß√£o |
|---|----------|----------|
"""

for i, (var, descricao) in enumerate(variaveis_likert.items(), 1):
    relatorio += f"| {i} | {nomes_curtos[var]} | {descricao} |\n"

relatorio += f"""
---

## 2. DISTRIBUI√á√ÉO DE FREQU√äNCIAS (5 PONTOS)

| Afirma√ß√£o | Discordo totalmente | Discordo | Neutro | Concordo | Concordo totalmente |
|-----------|---------------------|----------|--------|----------|--------------------|
"""

for var in variaveis_likert.keys():
    nome = nomes_curtos[var]
    linha = f"| {nome} |"
    for nivel in ordem_likert:
        valor = tabela_pivot.loc[nome, nivel]
        linha += f" {valor:.1f}% |"
    relatorio += linha + "\n"

relatorio += f"""
---

## 3. CONCORD√ÇNCIA AGRUPADA

| Afirma√ß√£o | Discord√¢ncia | Neutro | Concord√¢ncia |
|-----------|--------------|--------|-------------|
"""

for var in variaveis_likert.keys():
    nome = nomes_curtos[var]
    disc = tabela_agrup_pivot.loc[nome, 'Discord√¢ncia']
    neut = tabela_agrup_pivot.loc[nome, 'Neutro']
    conc = tabela_agrup_pivot.loc[nome, 'Concord√¢ncia']
    relatorio += f"| {nome} | {disc:.1f}% | {neut:.1f}% | {conc:.1f}% |\n"

relatorio += f"""
---

## 4. MEDIDAS DE TEND√äNCIA CENTRAL

| Afirma√ß√£o | M√©dia | Mediana | Moda | Desvio Padr√£o | N |
|-----------|-------|---------|------|---------------|---|
"""

for _, row in df_medidas.iterrows():
    relatorio += f"| {row['Vari√°vel']} | {row['M√©dia']} | {row['Mediana (texto)']} | {row['Moda']} | {row['Desvio Padr√£o']} | {row['N']} |\n"

relatorio += f"""
**Escala:** 1 = Discordo totalmente | 2 = Discordo | 3 = Neutro | 4 = Concordo | 5 = Concordo totalmente

---

## 5. TESTE DE KRUSKAL-WALLIS (Compara√ß√£o entre V√≠nculos)

**Hip√≥teses:**
- H‚ÇÄ: N√£o h√° diferen√ßa nas distribui√ß√µes entre os grupos de v√≠nculo
- H‚ÇÅ: H√° diferen√ßa nas distribui√ß√µes entre os grupos de v√≠nculo

| Afirma√ß√£o | H | p-valor | Œ∑¬≤ | Efeito | Resultado |
|-----------|---|---------|-----|--------|----------|
"""

for _, row in df_kruskal_display.iterrows():
    relatorio += f"| {row['Afirma√ß√£o']} | {row['H']} | {row['p-valor']} | {row['Œ∑¬≤']} | {row['Efeito']} | {row['Resultado']} |\n"

relatorio += f"""
---

## 6. PRINCIPAIS CONCLUS√ïES

1. **Alta concord√¢ncia geral:** Todas as 5 afirma√ß√µes apresentaram n√≠veis elevados de concord√¢ncia (acima de {tabela_agrup_pivot['Concord√¢ncia'].min():.1f}%).

2. **Maior concord√¢ncia:** "{tabela_agrup_pivot['Concord√¢ncia'].idxmax()}" ({tabela_agrup_pivot['Concord√¢ncia'].max():.1f}% de concord√¢ncia).

3. **Diferen√ßas por v√≠nculo:** {n_significativos} de 5 afirma√ß√µes apresentam diferen√ßas estatisticamente significativas entre os grupos de v√≠nculo institucional.

4. **Consenso institucional:** A comunidade UFPE demonstra alto grau de alinhamento quanto √† necessidade de diretrizes e debates sobre IA.

---

## 7. ARQUIVOS GERADOS

| Arquivo | Descri√ß√£o |
|---------|----------|
| `{ARQUIVO_SAIDA_EXCEL}` | Tabelas de frequ√™ncia e testes estat√≠sticos |
| `grafico_likert_geral_etapa4.png` | Barras divergentes (vis√£o geral) |
| `grafico_likert_detalhado_etapa4.png` | Barras empilhadas (100%) |
| `grafico_likert_agrupado_etapa4.png` | Concord√¢ncia agrupada |
| `grafico_likert_vinculo_etapa4.png` | Compara√ß√£o por v√≠nculo |
| `grafico_likert_medias_etapa4.png` | M√©dias por v√≠nculo com IC 95% |

---

*Relat√≥rio gerado automaticamente em {datetime.now().strftime("%d/%m/%Y √†s %H:%M")}*
"""

# Salvar relat√≥rio
with open(ARQUIVO_SAIDA_RELATORIO, "w", encoding='utf-8') as f:
    f.write(relatorio)

print(f"‚úÖ Relat√≥rio salvo em: {ARQUIVO_SAIDA_RELATORIO}")

In [None]:
print("\n" + "=" * 70)
print("ETAPA 4 CONCLU√çDA COM SUCESSO!")
print("=" * 70)
print(f"""
üìÅ ARQUIVOS GERADOS:

   üìä Dados:
      ‚Ä¢ {ARQUIVO_SAIDA_EXCEL}

   üìà Gr√°ficos:
      ‚Ä¢ grafico_likert_geral_etapa4.png
      ‚Ä¢ grafico_likert_detalhado_etapa4.png
      ‚Ä¢ grafico_likert_agrupado_etapa4.png
      ‚Ä¢ grafico_likert_vinculo_etapa4.png
      ‚Ä¢ grafico_likert_medias_etapa4.png

   üìù Relat√≥rio:
      ‚Ä¢ {ARQUIVO_SAIDA_RELATORIO}

‚ñ∂Ô∏è  PR√ìXIMA ETAPA: Etapa 5 - An√°lise das Vari√°veis de M√∫ltipla Escolha
""")

---

## Resumo dos Arquivos

### Entrada
| Arquivo | Origem |
|---------|--------|
| `dados_limpos_etapa1.xlsx` | Etapa 1 |

### Sa√≠da
| Arquivo | Descri√ß√£o |
|---------|----------|
| `likert_etapa4.xlsx` | Tabelas de frequ√™ncia, medidas descritivas e testes (10 abas) |
| `grafico_likert_geral_etapa4.png` | Barras divergentes - vis√£o geral |
| `grafico_likert_detalhado_etapa4.png` | Barras empilhadas 100% |
| `grafico_likert_agrupado_etapa4.png` | Concord√¢ncia agrupada (3 categorias) |
| `grafico_likert_vinculo_etapa4.png` | Compara√ß√£o entre v√≠nculos |
| `grafico_likert_medias_etapa4.png` | M√©dias por v√≠nculo com IC 95% |
| `relatorio_likert_etapa4.md` | Relat√≥rio completo com testes estat√≠sticos |

---

**Pr√≥xima etapa:** Etapa 5 - An√°lise das Vari√°veis de M√∫ltipla Escolha