# ETAPA 1: Prepara√ß√£o e Limpeza dos Dados

## Consulta √† Comunidade UFPE sobre o Uso de Intelig√™ncia Artificial

---

**Objetivo:** Garantir a qualidade e integridade dos dados antes das an√°lises.

**Procedimentos:**
1. Remover as respostas sem consentimento de participa√ß√£o
2. Excluir a coluna vazia identificada ("Coluna 1")
3. Padronizar categorias de v√≠nculo institucional
4. Verificar e tratar valores ausentes (missing data)
5. Criar vari√°vel derivada "Vinculo_Padronizado"

**Produto:** Base de dados tratada com N = 2.164 registros v√°lidos.

**Crit√©rio de Valida√ß√£o:** Relat√≥rio de limpeza documentando todas as transforma√ß√µes realizadas.

## 1. Configura√ß√£o Inicial

In [None]:
!pip install -q pandas numpy

In [None]:
# Importa√ß√£o de bibliotecas
import pandas as pd
import numpy as np
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de exibi√ß√£o
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', 100)
pd.set_option('display.width', None)

print("Bibliotecas carregadas com sucesso!")
print(f"Pandas vers√£o: {pd.__version__}")

In [None]:
# ============================================================================
# CONFIGURA√á√ÉO: Altere o caminho do arquivo conforme necess√°rio
# ============================================================================

ARQUIVO_ENTRADA = "Consulta_a__Comunidade_UFPE_sobre_o_Uso_de_Intelige_ncia_Artificial__respostas_.xlsx"
ARQUIVO_SAIDA = "dados_limpos_etapa1.xlsx"
ARQUIVO_SAIDA_CSV = "dados_limpos_etapa1.csv"

## 2. Carregamento dos Dados Originais

In [None]:
# Carregar dados originais
df_original = pd.read_excel(f"data/{ARQUIVO_ENTRADA}")

print("=" * 70)
print("DADOS ORIGINAIS")
print("=" * 70)
print(f"Total de registros: {len(df_original)}")
print(f"Total de colunas: {len(df_original.columns)}")
print(f"\nColunas dispon√≠veis:")
for i, col in enumerate(df_original.columns, 1):
    print(f"  {i:2}. {col[:80]}{'...' if len(col) > 80 else ''}")

In [None]:
# Visualizar primeiras linhas
df_original.head(3)

## 3. Procedimento 1: Remo√ß√£o de Respostas sem Consentimento

In [None]:
# Identificar coluna de consentimento
col_consentimento = 'Voc√™ leu as informa√ß√µes acima e concorda em participar voluntariamente desta consulta p√∫blica, ciente de que suas respostas s√£o an√¥nimas?'

# Verificar distribui√ß√£o do consentimento
print("Distribui√ß√£o do consentimento:")
print(df_original[col_consentimento].value_counts())

In [None]:
# Filtrar apenas os que consentiram
df = df_original[df_original[col_consentimento] == 'Sim, concordo em participar'].copy()

n_removidos = len(df_original) - len(df)
print(f"Registros sem consentimento removidos: {n_removidos}")
print(f"Registros mantidos: {len(df)}")

## 4. Procedimento 2: Exclus√£o de Coluna Vazia

In [None]:
# Identificar colunas completamente vazias
colunas_vazias = df.columns[df.isna().all()].tolist()
print(f"Colunas completamente vazias identificadas: {colunas_vazias}")

# Remover colunas vazias
if colunas_vazias:
    df = df.drop(columns=colunas_vazias)
    print(f"Colunas removidas: {colunas_vazias}")
    
print(f"Total de colunas ap√≥s remo√ß√£o: {len(df.columns)}")

## 5. Procedimento 3: Padroniza√ß√£o de V√≠nculos Institucionais

In [None]:
# Identificar coluna de v√≠nculo
col_vinculo = 'V√≠nculo com a UFPE'

# Remover espa√ßos extras
df[col_vinculo] = df[col_vinculo].str.strip()

# Verificar valores √∫nicos antes da padroniza√ß√£o
print(f"Valores √∫nicos ANTES da padroniza√ß√£o: {df[col_vinculo].nunique()}")
print("\nDistribui√ß√£o original:")
print(df[col_vinculo].value_counts())

In [None]:
# Dicion√°rio de mapeamento para padroniza√ß√£o
mapeamento_vinculo = {
    # Discentes de Gradua√ß√£o
    'Discente de Gradua√ß√£o': 'Discente de Gradua√ß√£o',
    'Discente': 'Discente de Gradua√ß√£o',
    'Sou egresso de bach. de Educa√ß√£o F√≠sica e atualmente discente de Letras': 'Discente de Gradua√ß√£o',
    
    # Discentes de P√≥s-Gradua√ß√£o
    'Discente de P√≥s-Gradua√ß√£o': 'Discente de P√≥s-Gradua√ß√£o',
    'Discente de P√≥s-Gradua√ß√£o & T√©cnico Administrativo': 'Discente de P√≥s-Gradua√ß√£o',
    'Discente de P√≥s-Gradua√ß√£o e T√©cnico-administrativo': 'Discente de P√≥s-Gradua√ß√£o',
    'T√©cnico-administrativo e discente da p√≥s-gradua√ß√£o': 'Discente de P√≥s-Gradua√ß√£o',
    'T√©cnico-administrativo e discente de p√≥s-gradua√ß√£o': 'Discente de P√≥s-Gradua√ß√£o',
    'T√©cnica e Discente de p√≥s gradua√ß√£o': 'Discente de P√≥s-Gradua√ß√£o',
    
    # Docentes
    'Docente': 'Docente',
    'Docente aposentado.': 'Docente',
    'Docente da p√≥s-gradua√ß√£o': 'Docente',
    'p√≥s-doc': 'Docente',
    'P√≥s-doutor do Programa de P√≥s-gradua√ß√£o em Educa√ß√£o F√≠sica.': 'Docente',
    'Professor substituto': 'Docente',
    'Professor Visitante': 'Docente',
    
    # T√©cnico-administrativo
    'T√©cnico-administrativo': 'T√©cnico-administrativo',
    'T√©cnico adm e docente': 'T√©cnico-administrativo',
    'T√©cnico em Assuntos Educacionais': 'T√©cnico-administrativo',
    'Funcion√°rio FADE': 'T√©cnico-administrativo',
    
    # Egressos
    'Egresso de Gradua√ß√£o': 'Egresso',
    'Egresso de P√≥s-Gradua√ß√£o': 'Egresso',
    'Egresso': 'Egresso',
    'Rec√©m Graduado': 'Egresso',
    'Ex-discente de gradua√ß√£o e de p√≥s-gradua√ß√£o': 'Egresso',
    'Egresso de P√≥s-Gradua√ß√£o, atualmente peaquisador em um projeto de pesquisa': 'Egresso'
}

# Criar vari√°vel padronizada
df['Vinculo_Padronizado'] = df[col_vinculo].map(mapeamento_vinculo)

print("Mapeamento aplicado com sucesso!")

In [None]:
# Verificar se h√° valores n√£o mapeados
nao_mapeados = df[df['Vinculo_Padronizado'].isna()][col_vinculo].unique()

if len(nao_mapeados) > 0:
    print("‚ö†Ô∏è ATEN√á√ÉO: Valores n√£o mapeados encontrados:")
    for v in nao_mapeados:
        print(f"   - '{v}'")
    print("\nAdicione estes valores ao dicion√°rio de mapeamento acima.")
else:
    print("‚úì Todos os valores foram mapeados com sucesso!")

In [None]:
# Verificar distribui√ß√£o ap√≥s padroniza√ß√£o
print(f"Valores √∫nicos AP√ìS padroniza√ß√£o: {df['Vinculo_Padronizado'].nunique()}")
print("\nDistribui√ß√£o padronizada:")

dist_vinculo = df['Vinculo_Padronizado'].value_counts()
for vinculo, count in dist_vinculo.items():
    pct = count / len(df) * 100
    print(f"   ‚Ä¢ {vinculo}: {count} ({pct:.1f}%)")

print(f"\n   TOTAL: {len(df)} registros")

## 6. Procedimento 4: Renomea√ß√£o de Vari√°veis

In [None]:
# Dicion√°rio de renomea√ß√£o para nomes mais curtos e padronizados
nomes_curtos = {
    'Carimbo de data/hora': 'Timestamp',
    col_consentimento: 'Consentimento',
    'V√≠nculo com a UFPE': 'Vinculo_Original',
    'Centro, Unidade Acad√™mica ou Unidade Gestora': 'Centro_Unidade',
    'Curso (para discentes)': 'Curso',
    'Voc√™ j√° utilizou alguma ferramenta de IA (como ChatGPT, Copilot, Gemini, Claude, Perplexity etc.)?': 'Frequencia_Uso_IA',
    'Em quais contextos voc√™ utiliza ou pretende utilizar ferramentas de IA?': 'Contextos_Uso',
    'Quais benef√≠cios voc√™ percebe no uso da IA na UFPE?': 'Beneficios_Percebidos',
    'Quais riscos ou preocupa√ß√µes voc√™ identifica no uso da IA na universidade?': 'Riscos_Preocupacoes',
    'O uso que voc√™ faz (ou faria) de ferramentas de IA √© predominantemente:': 'Tipo_Uso',
    'Avalie as afirma√ß√µes abaixo de acordo com seu grau de concord√¢ncia. [A intelig√™ncia artificial j√° n√£o √© mais uma op√ß√£o, √© uma realidade com a qual precisamos aprender a lidar.]': 'Likert_IA_Realidade',
    'Avalie as afirma√ß√µes abaixo de acordo com seu grau de concord√¢ncia. [O uso √©tico e respons√°vel da intelig√™ncia artificial requer diretrizes e normativas claras.]': 'Likert_Diretrizes_Eticas',
    'Avalie as afirma√ß√µes abaixo de acordo com seu grau de concord√¢ncia. [A UFPE deve oferecer diretrizes sobre o uso de IA em trabalhos e avalia√ß√µes de atividades dos discentes.]': 'Likert_Diretrizes_Avaliacoes',
    'Avalie as afirma√ß√µes abaixo de acordo com seu grau de concord√¢ncia. [O uso de IA deve ser incentivado como ferramenta de apoio, desde que usado de forma respons√°vel.]': 'Likert_Incentivo_IA',
    'Avalie as afirma√ß√µes abaixo de acordo com seu grau de concord√¢ncia. [A universidade deve promover mais debates, orienta√ß√µes de uso e espa√ßos de reflex√£o sobre os impactos da IA na sociedade.]': 'Likert_Debates_Impactos',
    'Na sua percep√ß√£o, como a IA pode impactar a produ√ß√£o autoral?': 'Impacto_Producao_Autoral',
    'Na sua percep√ß√£o, como a IA pode impactar a integridade acad√™mica?': 'Impacto_Integridade_Academica',
    'Que medidas a UFPE deveria adotar para garantir o uso √©tico, transparente e respons√°vel da IA?': 'Medidas_Uso_Etico',
    'Quais temas devem ser priorizados no Plano Institucional de IA da UFPE?': 'Temas_Prioritarios',
    'Como a UFPE deve estruturar sua governan√ßa em rela√ß√£o √† IA?': 'Estrutura_Governanca',
    'Voc√™ se sente preparado(a) para usar ferramentas de IA de forma √©tica e eficaz?': 'Preparacao_Uso_Etico',
    'Que tipos de forma√ß√£o ou de suporte institucional voc√™ considera mais importantes?': 'Tipos_Formacao',
    'Deixe aqui sugest√µes ou coment√°rios finais.': 'Comentarios_Finais'
}

# Aplicar renomea√ß√£o
df = df.rename(columns=nomes_curtos)

print("Colunas renomeadas:")
for i, col in enumerate(df.columns, 1):
    print(f"  {i:2}. {col}")

## 7. Procedimento 5: An√°lise de Valores Ausentes (Missing Data)

In [None]:
# An√°lise de missing values
print("=" * 70)
print("AN√ÅLISE DE VALORES AUSENTES")
print("=" * 70)

missing_report = []
for col in df.columns:
    n_missing = df[col].isna().sum()
    pct_missing = (n_missing / len(df)) * 100
    missing_report.append({
        'Vari√°vel': col,
        'N_Missing': n_missing,
        'Pct_Missing': round(pct_missing, 1)
    })

# Criar DataFrame do relat√≥rio
df_missing = pd.DataFrame(missing_report)
df_missing = df_missing.sort_values('N_Missing', ascending=False)

# Exibir apenas vari√°veis com missing
print("\nVari√°veis com valores ausentes:")
print("-" * 50)
df_com_missing = df_missing[df_missing['N_Missing'] > 0]
print(df_com_missing.to_string(index=False))

print(f"\nVari√°veis sem valores ausentes: {len(df_missing[df_missing['N_Missing'] == 0])}")

In [None]:
# Visualiza√ß√£o dos missing values
import matplotlib.pyplot as plt

# Filtrar apenas vari√°veis com missing > 0
df_plot = df_com_missing[df_com_missing['Pct_Missing'] > 0].copy()

if len(df_plot) > 0:
    fig, ax = plt.subplots(figsize=(10, 6))
    bars = ax.barh(df_plot['Vari√°vel'], df_plot['Pct_Missing'], color='steelblue')
    ax.set_xlabel('% de Valores Ausentes')
    ax.set_title('Valores Ausentes por Vari√°vel')
    ax.invert_yaxis()
    
    # Adicionar labels nas barras
    for bar, pct in zip(bars, df_plot['Pct_Missing']):
        ax.text(bar.get_width() + 0.5, bar.get_y() + bar.get_height()/2, 
                f'{pct}%', va='center', fontsize=9)
    
    plt.tight_layout()
    plt.savefig('missing_values_etapa1.png', dpi=150, bbox_inches='tight')
    plt.show()
    print("\nGr√°fico salvo como: missing_values_etapa1.png")
else:
    print("Nenhuma vari√°vel com valores ausentes para plotar.")

## 8. Resumo da Etapa 1

In [None]:
print("=" * 70)
print("RESUMO DA ETAPA 1 - LIMPEZA CONCLU√çDA")
print("=" * 70)

print(f"""
üìã TRANSFORMA√á√ïES REALIZADAS:

   1. Remo√ß√£o de registros sem consentimento
      ‚Ä¢ Registros removidos: {n_removidos}
      ‚Ä¢ Registros mantidos: {len(df)}

   2. Exclus√£o de coluna vazia
      ‚Ä¢ Coluna removida: 'Coluna 1'
      ‚Ä¢ Total de colunas: {len(df.columns)}

   3. Padroniza√ß√£o de v√≠nculos institucionais
      ‚Ä¢ Categorias originais: 26
      ‚Ä¢ Categorias padronizadas: {df['Vinculo_Padronizado'].nunique()}
""")

for vinculo, count in df['Vinculo_Padronizado'].value_counts().items():
    pct = count / len(df) * 100
    print(f"        - {vinculo}: {count} ({pct:.1f}%)")

print(f"""
   4. Renomea√ß√£o de colunas para facilitar an√°lise
      ‚Ä¢ {len(df.columns)} colunas renomeadas com nomes curtos

   5. Documenta√ß√£o de valores ausentes
      ‚Ä¢ Vari√°veis com missing identificadas e documentadas

üìÅ BASE DE DADOS FINAL:
   ‚Ä¢ Registros v√°lidos: {len(df)}
   ‚Ä¢ Vari√°veis: {len(df.columns)}
""")

## 9. Salvar Base de Dados Limpa

In [None]:
# Salvar em Excel
df.to_excel(ARQUIVO_SAIDA, index=False)
print(f"‚úÖ Base de dados limpa salva em: {ARQUIVO_SAIDA}")

# Salvar em CSV (opcional)
df.to_csv(ARQUIVO_SAIDA_CSV, index=False)
print(f"‚úÖ Base de dados limpa salva em: {ARQUIVO_SAIDA_CSV}")

In [None]:
# Visualizar amostra da base final
print("Amostra da base de dados limpa:")
df.head()

## 10. Gera√ß√£o do Relat√≥rio de Limpeza

In [None]:
# Gerar relat√≥rio de limpeza em Markdown
relatorio = f"""# RELAT√ìRIO DE LIMPEZA DE DADOS
## Etapa 1 ‚Äî Consulta √† Comunidade UFPE sobre o Uso de IA

**Data de execu√ß√£o:** {datetime.now().strftime("%d/%m/%Y √†s %H:%M")}

---

## 1. DADOS ORIGINAIS

| M√©trica | Valor |
|---------|-------|
| Total de registros | {len(df_original)} |
| Total de colunas | {len(df_original.columns)} |

---

## 2. TRANSFORMA√á√ïES REALIZADAS

### 2.1 Remo√ß√£o de registros sem consentimento

| Descri√ß√£o | Quantidade |
|-----------|------------|
| Registros sem consentimento removidos | {n_removidos} |
| Registros mantidos | {len(df)} |
| Taxa de exclus√£o | {n_removidos/len(df_original)*100:.1f}% |

### 2.2 Exclus√£o de coluna vazia

| Coluna removida | Motivo |
|-----------------|--------|
| "Coluna 1" | Completamente vazia (100% missing) |

### 2.3 Padroniza√ß√£o de v√≠nculos institucionais

**De 26 categorias originais para {df['Vinculo_Padronizado'].nunique()} categorias padronizadas:**

| Categoria Padronizada | Registros | % |
|-----------------------|-----------|---|
"""

for vinculo, count in df['Vinculo_Padronizado'].value_counts().items():
    pct = count / len(df) * 100
    relatorio += f"| {vinculo} | {count} | {pct:.1f}% |\n"

relatorio += f"""| **TOTAL** | **{len(df)}** | **100%** |

---

## 3. AN√ÅLISE DE VALORES AUSENTES

| Vari√°vel | N Missing | % Missing |
|----------|-----------|----------|
"""

for _, row in df_com_missing.iterrows():
    relatorio += f"| {row['Vari√°vel']} | {row['N_Missing']} | {row['Pct_Missing']}% |\n"

relatorio += f"""
**Vari√°veis completas (0% missing):** {len(df_missing[df_missing['N_Missing'] == 0])} vari√°veis

---

## 4. BASE DE DADOS FINAL

| M√©trica | Valor |
|---------|-------|
| Total de registros v√°lidos | {len(df)} |
| Total de vari√°veis | {len(df.columns)} |
| Arquivo gerado | {ARQUIVO_SAIDA} |

---

## 5. VALIDA√á√ÉO

- [x] Todos os {len(df)} registros possuem consentimento v√°lido
- [x] Coluna vazia removida
- [x] 100% dos v√≠nculos mapeados para categorias padronizadas
- [x] Nomes de vari√°veis padronizados
- [x] Missing values documentados

---

*Relat√≥rio gerado automaticamente em {datetime.now().strftime("%d/%m/%Y √†s %H:%M")}*
"""

# Salvar relat√≥rio
with open("relatorio_limpeza_etapa1.md", "w", encoding='utf-8') as f:
    f.write(relatorio)

print("‚úÖ Relat√≥rio de limpeza salvo em: relatorio_limpeza_etapa1.md")
print("\n" + "=" * 70)
print("ETAPA 1 CONCLU√çDA COM SUCESSO!")
print("=" * 70)

---

## Arquivos Gerados

| Arquivo | Descri√ß√£o |
|---------|----------|
| `dados_limpos_etapa1.xlsx` | Base de dados tratada |
| `dados_limpos_etapa1.csv` | Base de dados tratada (CSV) |
| `relatorio_limpeza_etapa1.md` | Relat√≥rio documentando transforma√ß√µes |
| `missing_values_etapa1.png` | Gr√°fico de valores ausentes |

---

**Pr√≥xima etapa:** Etapa 2 - An√°lise do Perfil dos Respondentes