### Instalar e importar Bibliotecas

In [1]:
# =========================
# Bibliotecas Necessárias
# =========================

# Manipulação e análise de dados
import pandas as pd
import numpy as np

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Outras utilidades
import os
from itertools import combinations

# ==============================
# Configurações Globais
# ==============================

# Mostrar todas as colunas ao exibir DataFrames
pd.set_option('display.max_columns', None)

# Limitar o número de linhas exibidas (ajustável conforme necessário)
pd.set_option('display.max_rows', 10)

# Estilo dos gráficos com Seaborn
sns.set(style="whitegrid")

# Tamanho padrão das figuras
plt.rcParams["figure.figsize"] = (12, 6)

# Mensagem de início
print("Bibliotecas carregadas e configurações aplicadas com sucesso.")


Bibliotecas carregadas e configurações aplicadas com sucesso.


In [2]:
# ==========================================
# Carregamento dos Arquivos CSV em DataFrames
# ==========================================

import os
import pandas as pd

# Caminho base dos arquivos CSV
caminho_base = "/home/diego/Documentos/Semestre 2024.2/Nova_Analise/dados/tabelas"

# Dicionário para armazenar os DataFrames
tabelas = {}

# Lista os arquivos no diretório e carrega os arquivos .csv
for nome_arquivo in os.listdir(caminho_base):
    if nome_arquivo.lower().endswith('.csv'):
        caminho_completo = os.path.join(caminho_base, nome_arquivo)
        
        try:
            # Leitura com tratamento de possíveis problemas de codificação ou separador
            df = pd.read_csv(caminho_completo, encoding='utf-8', sep=',')  # ajuste o encoding/sep se necessário
            nome_base = os.path.splitext(nome_arquivo)[0]  # remove extensão
            tabelas[nome_base] = df
            print(f"✔️ Arquivo carregado: {nome_base}")
        
        except pd.errors.ParserError:
            print(f"❌ Erro de parsing ao carregar {nome_arquivo} — verifique o separador ou a estrutura.")
        except UnicodeDecodeError:
            print(f"❌ Erro de codificação ao carregar {nome_arquivo} — tente outro encoding como 'latin1'.")
        except Exception as e:
            print(f"❌ Erro inesperado ao carregar {nome_arquivo}: {e}")

print(f"\nTotal de arquivos carregados: {len(tabelas)}")


✔️ Arquivo carregado: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas
✔️ Arquivo carregado: alunos
✔️ Arquivo carregado: alunos-matriculados
✔️ Arquivo carregado: alunos-final
✔️ Arquivo carregado: alunos-filtrado-sem-metricas
✔️ Arquivo carregado: alunos-novos-filtrado-sem-metricas
✔️ Arquivo carregado: alunos-novos-sem-reingresso-filtrado-sem-metricas

Total de arquivos carregados: 7


### Visualizar Tabelas e colunas

In [4]:
# ================================
# Visualizar Colunas de Cada Tabela
# ================================

print("\n🔍 Estrutura de colunas por tabela:\n")

for nome, df in tabelas.items():
    print(f"📄 Tabela: {nome}")
    print(f"🧩 Colunas ({len(df.columns)}): {list(df.columns)}\n")



🔍 Estrutura de colunas por tabela:

📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas
🧩 Colunas (15): ['10057783454', '116210660', '2016.2', 'SISU', '2017', 'Casado', 'FEMININO', '1992-07-23 00:00:00.0', 'Branca', '2009', 'Somente escola pública', 'L1', 'ATIVO', 'REGULAR', '-']

📄 Tabela: alunos
🧩 Colunas (59): ['matricula_do_estudante', 'nome', 'codigo_do_curso', 'nome_do_curso', 'turno_do_curso', 'codigo_do_curriculo', 'campus', 'nome_do_campus', 'codigo_do_setor', 'nome_do_setor', 'estado_civil', 'endereco', 'sexo', 'data_de_nascimento', 'cpf', 'cep', 'telefone', 'situacao', 'motivo_de_evasao', 'periodo_de_evasao', 'forma_de_ingresso', 'periodo_de_ingresso', 'email', 'nacionalidade', 'local_de_nascimento', 'naturalidade', 'cor', 'deficiencias', 'ano_de_conclusao_ensino_medio', 'tipo_de_ensino_medio', 'politica_afirmativa', 'cra', 'mc', 'iech', 'iepl', 'iea', 'mcn', 'iean', 'creditos_do_cra', 'notas_acumuladas', 'periodos_completados', 'creditos_tentados', 'credit

### Padronizar alunos-final

In [5]:
# Padronização básica de colunas
tabelas['alunos-final'] = tabelas['alunos-final'].rename(columns={
    'CPF': 'cpf',
    'Matrícula': 'matricula_do_estudante',
    'Período de Ingresso': 'periodo_de_ingresso',
    'Forma de Ingresso': 'forma_de_ingresso',
    'Currículo': 'codigo_do_curriculo',
    'Estado Civil': 'estado_civil',
    'Sexo': 'sexo',
    'Idade Aproximada no Ingresso': 'idade_no_ingresso',
    'Cor': 'cor',
    'Cota': 'politica_afirmativa',
    'Status': 'situacao',
    'Tipo de Evasão': 'motivo_de_evasao',
    'Período de Evasão': 'periodo_de_evasao'
})


### Tratar tabelas com colunas genéricas ou numéricas

In [6]:
# Definindo colunas esperadas para uma dessas tabelas
colunas_corrigidas = [
    'cpf', 'matricula_do_estudante', 'periodo_de_ingresso', 'forma_de_ingresso',
    'codigo_do_curriculo', 'estado_civil', 'sexo', 'data_de_nascimento', 'cor',
    'ano_de_conclusao_ensino_medio', 'tipo_de_ensino_medio', 'politica_afirmativa',
    'situacao', 'motivo_de_evasao', 'periodo_de_evasao'
]

# Aplicar renomeação para as tabelas "problemáticas"
for nome in tabelas:
    if 'alunos-novos' in nome:
        df = tabelas[nome]
        if df.shape[1] == len(colunas_corrigidas):
            df.columns = colunas_corrigidas
            tabelas[nome] = df
        else:
            print(f"Tabela {nome} não tem o número esperado de colunas ({len(colunas_corrigidas)}).")


In [7]:

for nome, df in tabelas.items():
    print(f"📄 Tabela: {nome}")
    print(f"🧩 Colunas ({len(df.columns)}): {list(df.columns)}\n")


📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas
🧩 Colunas (15): ['cpf', 'matricula_do_estudante', 'periodo_de_ingresso', 'forma_de_ingresso', 'codigo_do_curriculo', 'estado_civil', 'sexo', 'data_de_nascimento', 'cor', 'ano_de_conclusao_ensino_medio', 'tipo_de_ensino_medio', 'politica_afirmativa', 'situacao', 'motivo_de_evasao', 'periodo_de_evasao']

📄 Tabela: alunos
🧩 Colunas (59): ['matricula_do_estudante', 'nome', 'codigo_do_curso', 'nome_do_curso', 'turno_do_curso', 'codigo_do_curriculo', 'campus', 'nome_do_campus', 'codigo_do_setor', 'nome_do_setor', 'estado_civil', 'endereco', 'sexo', 'data_de_nascimento', 'cpf', 'cep', 'telefone', 'situacao', 'motivo_de_evasao', 'periodo_de_evasao', 'forma_de_ingresso', 'periodo_de_ingresso', 'email', 'nacionalidade', 'local_de_nascimento', 'naturalidade', 'cor', 'deficiencias', 'ano_de_conclusao_ensino_medio', 'tipo_de_ensino_medio', 'politica_afirmativa', 'cra', 'mc', 'iech', 'iepl', 'iea', 'mcn', 'iean', 'creditos_do_cra',

### Alinhar as 3 primeiras colunas: cpf, matricula_do_estudante, nome

In [8]:
for nome, df in tabelas.items():
    colunas = df.columns.tolist()
    
    # Verifica se existem as colunas
    nova_ordem = []
    if 'cpf' in colunas:
        nova_ordem.append('cpf')
    if 'matricula_do_estudante' in colunas:
        nova_ordem.append('matricula_do_estudante')
    if 'nome' in colunas:
        nova_ordem.append('nome')
    
    # Adiciona o restante das colunas, excluindo as que já estão
    restantes = [col for col in colunas if col not in nova_ordem]
    
    # Reorganiza as colunas
    tabelas[nome] = df[nova_ordem + restantes]


In [10]:
for nome, df in tabelas.items():
    print(f"\n📄 Tabela: {nome}")
    display(df.head())



📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,70417737440,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
1,12305579462,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
2,7296494409,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-
3,10180403400,118110854,2018.1,SISU,2017,Solteiro,MASCULINO,1992-10-11 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-
4,7541169480,118210232,2018.2,SISU,2023,Solteiro,MASCULINO,1987-12-04 00:00:00.0,Parda,2007.0,Somente escola pública,L2,ATIVO,REGULAR,-



📄 Tabela: alunos


Unnamed: 0,cpf,matricula_do_estudante,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb
0,8410676000.0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,MASCULINO,1991-08-03 00:00:00.0,58400384.0,83996548001,ATIVO,REGULAR,-,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,-,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,
1,10057780000.0,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,FEMININO,1992-07-23 00:00:00.0,55730000.0,81997187920,ATIVO,REGULAR,-,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,
2,70417740000.0,117110237,CLECIANA MARIA DE SANTANA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA SÃO JUDAS TADEU 86,FEMININO,1998-07-19 00:00:00.0,55190048.0,81995738036,ATIVO,REGULAR,-,SISU,2017.1,cleciana.santana@ccc.ufcg.edu.br,Brasileira,OLINDA,PE,Parda,,2015.0,Somente escola pública,L2,5.77,7.44,0.65,0.42,2.04,359.5,98.6,242,1373.2,15,238,166,12,76,8,0,11.07,0.67,Sim,2024-11-21 10:15:46.0,PARDA,Não,Não,0.5,Não,,Sim,
3,12305580000.0,117210287,ABEL ANTUNES DE LIMA NETO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,,MASCULINO,1998-10-24 00:00:00.0,58155000.0,83996943375,ATIVO,REGULAR,-,SISU,2017.2,abel.neto@ccc.ufcg.edu.br,Brasileira,SOLEDADE,PB,Parda,,2016.0,Somente escola pública,L6,6.57,7.86,0.77,0.56,3.39,431.04,185.97,220,1497.6,13,228,184,8,36,16,0,14.15,0.83,Sim,2023-02-07 18:47:37.0,PARDA,Não,Não,1.5,Não,,Sim,
4,7296494000.0,118110050,CAIO CESAR NOBREGA BORGES,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,UMBUZEIRO 1237,MASCULINO,1999-09-15 00:00:00.0,58038182.0,8332468693,ATIVO,REGULAR,-,SISU,2018.1,caiocnborges@hotmail.com,Brasileira,SÃO PAULO,SP,Branca,,2017.0,Somente escola privada,-,4.92,7.43,0.64,0.51,2.4,357.98,115.82,276,1416.4,15,288,184,0,92,12,0,12.27,0.67,Sim,2023-09-11 11:06:02.0,BRANCA,Não,Não,10.0,Não,,Sim,



📄 Tabela: alunos-matriculados


Unnamed: 0,cpf,matricula_do_estudante,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb
0,8410676000.0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,MASCULINO,1991-08-03 00:00:00.0,58400384.0,83996548001,ATIVO,REGULAR,-,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,-,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,
1,10057780000.0,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,FEMININO,1992-07-23 00:00:00.0,55730000.0,81997187920,ATIVO,REGULAR,-,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,
2,70417740000.0,117110237,CLECIANA MARIA DE SANTANA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA SÃO JUDAS TADEU 86,FEMININO,1998-07-19 00:00:00.0,55190048.0,81995738036,ATIVO,REGULAR,-,SISU,2017.1,cleciana.santana@ccc.ufcg.edu.br,Brasileira,OLINDA,PE,Parda,,2015.0,Somente escola pública,L2,5.77,7.44,0.65,0.42,2.04,359.5,98.6,242,1373.2,15,238,166,12,76,8,0,11.07,0.67,Sim,2024-11-21 10:15:46.0,PARDA,Não,Não,0.5,Não,,Sim,
3,12305580000.0,117210287,ABEL ANTUNES DE LIMA NETO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,,MASCULINO,1998-10-24 00:00:00.0,58155000.0,83996943375,ATIVO,REGULAR,-,SISU,2017.2,abel.neto@ccc.ufcg.edu.br,Brasileira,SOLEDADE,PB,Parda,,2016.0,Somente escola pública,L6,6.57,7.86,0.77,0.56,3.39,431.04,185.97,220,1497.6,13,228,184,8,36,16,0,14.15,0.83,Sim,2023-02-07 18:47:37.0,PARDA,Não,Não,1.5,Não,,Sim,
4,7296494000.0,118110050,CAIO CESAR NOBREGA BORGES,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,UMBUZEIRO 1237,MASCULINO,1999-09-15 00:00:00.0,58038182.0,8332468693,ATIVO,REGULAR,-,SISU,2018.1,caiocnborges@hotmail.com,Brasileira,SÃO PAULO,SP,Branca,,2017.0,Somente escola privada,-,4.92,7.43,0.64,0.51,2.4,357.98,115.82,276,1416.4,15,288,184,0,92,12,0,12.27,0.67,Sim,2023-09-11 11:06:02.0,BRANCA,Não,Não,10.0,Não,,Sim,



📄 Tabela: alunos-final


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,idade_no_ingresso,cor,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,555406350,111210656,2011.2,VESTIBULAR ENEM,1999,Solteiro,MASCULINO,19,Branca,-,INATIVO,CANCELAMENTO POR ABANDONO,2014.2
1,583978339,111110092,2011.1,VESTIBULAR ENEM,1999,Solteiro,FEMININO,19,Branca,-,INATIVO,GRADUADO,2016.1
2,598360328,113210862,2013.2,VESTIBULAR ENEM,1999,Solteiro,FEMININO,19,Parda,-,INATIVO,CANCELAMENTO P SOLICITACAO ALUNO,2014.2
3,702842109,112110947,2012.1,VESTIBULAR ENEM,1999,Solteiro,MASCULINO,18,Parda,-,INATIVO,GRADUADO,2016.2
4,702859184,117210407,2017.2,SISU,2017,Solteiro,MASCULINO,18,Branca,-,INATIVO,CANCELADO 3 REPROV MESMA DISCIPLINA,2020.1



📄 Tabela: alunos-filtrado-sem-metricas


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,8410676000.0,116210554,2016.2,SISU,2017,Solteiro,MASCULINO,1991-08-03 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-
1,10057780000.0,116210660,2016.2,SISU,2017,Casado,FEMININO,1992-07-23 00:00:00.0,Branca,2009.0,Somente escola pública,L1,ATIVO,REGULAR,-
2,70417740000.0,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
3,12305580000.0,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
4,7296494000.0,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-



📄 Tabela: alunos-novos-filtrado-sem-metricas


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,10057783454,116210660,2016.2,SISU,2017,Casado,FEMININO,1992-07-23 00:00:00.0,Branca,2009.0,Somente escola pública,L1,ATIVO,REGULAR,-
1,70417737440,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
2,12305579462,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
3,7296494409,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-
4,10180403400,118110854,2018.1,SISU,2017,Solteiro,MASCULINO,1992-10-11 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-



📄 Tabela: alunos-novos-sem-reingresso-filtrado-sem-metricas


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,70417737440,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
1,12305579462,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
2,7296494409,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-
3,10180403400,118110854,2018.1,SISU,2017,Solteiro,MASCULINO,1992-10-11 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-
4,7541169480,118210232,2018.2,SISU,2023,Solteiro,MASCULINO,1987-12-04 00:00:00.0,Parda,2007.0,Somente escola pública,L2,ATIVO,REGULAR,-


### Visualizar tabelas com variaveis relevantes

In [11]:
import pandas as pd
from datetime import datetime

# Função para calcular idade aproximada
def calcular_idade(data_nascimento):
    if pd.isna(data_nascimento):
        return None
    try:
        nascimento = pd.to_datetime(data_nascimento, errors='coerce')
        hoje = pd.Timestamp.today()
        idade = hoje.year - nascimento.year - ((hoje.month, hoje.day) < (nascimento.month, nascimento.day))
        return idade
    except Exception:
        return None

# Variáveis de interesse
variaveis_socioeconomicas = ['prac_renda_per_capita_ate', 'prac_deficiente', 'prac_quilombola']
variaveis_demograficas = ['sexo', 'cota','estado_civil', 'cor', 'data_de_nascimento']  # idade será derivada 
variaveis_interesse = variaveis_socioeconomicas + variaveis_demograficas

# Analisar tabelas
for nome, df in tabelas.items():
    print(f"\n📊 Tabela: {nome}")
    colunas_disponiveis = df.columns.tolist()
    
    # Verifica e exibe as variáveis disponíveis na tabela
    for var in variaveis_interesse:
        if var in colunas_disponiveis:
            print(f"\n🔹 {var} (value_counts):")
            print(df[var].value_counts(dropna=False))
    
    # Calcula idade se possível
    if 'data_de_nascimento' in colunas_disponiveis:
        df['idade'] = df['data_de_nascimento'].apply(calcular_idade)
        print("\n🔹 idade (derivada de data_de_nascimento):")
        print(df['idade'].dropna().astype(int).value_counts().sort_index())



📊 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas

🔹 sexo (value_counts):
sexo
MASCULINO    1881
FEMININO      399
Name: count, dtype: int64

🔹 estado_civil (value_counts):
estado_civil
Solteiro      2212
Casado          58
-                7
Divorciado       3
Name: count, dtype: int64

🔹 cor (value_counts):
cor
Branca           1157
Parda             932
Preta             108
Amarela            51
Não declarada      28
Indígena            4
Name: count, dtype: int64

🔹 data_de_nascimento (value_counts):
data_de_nascimento
2001-04-13 00:00:00.0    4
1996-08-14 00:00:00.0    4
1996-11-01 00:00:00.0    4
1997-11-13 00:00:00.0    4
1995-03-15 00:00:00.0    4
                        ..
1999-04-11 00:00:00.0    1
1999-01-08 00:00:00.0    1
1997-09-11 00:00:00.0    1
1998-11-07 00:00:00.0    1
2002-03-18 00:00:00.0    1
Name: count, Length: 1893, dtype: int64

🔹 idade (derivada de data_de_nascimento):
idade
18      1
19     37
20    117
21    137
22    147
     ... 
54  

### Filtragem e Limpeza

In [12]:
import pandas as pd
import numpy as np

# Função para validar e filtrar pelo período de ingresso
def filtrar_periodo(df):
    if 'periodo_de_ingresso' in df.columns:
        df['periodo_de_ingresso'] = pd.to_numeric(df['periodo_de_ingresso'], errors='coerce')
        df = df[df['periodo_de_ingresso'].between(2011.1, 2023.2)]
    return df

# Função de limpeza
def limpar_dados(df):
    df.replace({'-': np.nan, 'Não declarada': np.nan}, inplace=True)
    if 'data_de_nascimento' in df.columns:
        df['data_de_nascimento'] = pd.to_datetime(df['data_de_nascimento'], errors='coerce')
        df.loc[df['data_de_nascimento'] == '1900-01-01', 'data_de_nascimento'] = pd.NaT
        hoje = pd.Timestamp.today()
        df['idade'] = df['data_de_nascimento'].apply(lambda x: hoje.year - x.year if pd.notnull(x) else np.nan)
    for col in ['sexo', 'estado_civil', 'cor']:
        if col in df.columns:
            df[col] = df[col].astype(str).str.strip().str.capitalize()
    return df

# Aplicação do tratamento para as tabelas relevantes
tabelas_relevantes = ['alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas', 
                      'alunos', 'alunos-matriculados', 
                      'alunos-final', 'alunos-filtrado-sem-metricas']

tabelas_tratadas = {}

for nome, df in tabelas.items():
    if nome in tabelas_relevantes:
        df_filtrado = filtrar_periodo(df)
        df_limpo = limpar_dados(df_filtrado)
        tabelas_tratadas[nome] = df_limpo


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.replace({'-': np.nan, 'Não declarada': np.nan}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['data_de_nascimento'] = pd.to_datetime(df['data_de_nascimento'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['idade'] = df['data_de_nascimento'].apply(lambda x: hoje.year - x.year if pd.notnull(x) else np.nan)
A value 

In [13]:
for nome, df in tabelas_tratadas.items():
    print(f"\n📄 Tabela: {nome}")
    display(df.head())


📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao,idade
0,70417737440,117110237,2017.1,SISU,2017,Solteiro,Feminino,1998-07-19,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,,27
1,12305579462,117210287,2017.2,SISU,2017,Solteiro,Masculino,1998-10-24,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,,27
2,7296494409,118110050,2018.1,SISU,2017,Solteiro,Masculino,1999-09-15,Branca,2017.0,Somente escola privada,,ATIVO,REGULAR,,26
3,10180403400,118110854,2018.1,SISU,2017,Solteiro,Masculino,1992-10-11,Parda,2009.0,Somente escola privada,,ATIVO,REGULAR,,33
4,7541169480,118210232,2018.2,SISU,2023,Solteiro,Masculino,1987-12-04,Parda,2007.0,Somente escola pública,L2,ATIVO,REGULAR,,38



📄 Tabela: alunos


Unnamed: 0,cpf,matricula_do_estudante,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb,idade
0,8410676000.0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,Masculino,1991-08-03,58400384.0,83996548001,ATIVO,REGULAR,,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,,34
1,10057780000.0,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,Feminino,1992-07-23,55730000.0,81997187920,ATIVO,REGULAR,,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,,33
2,70417740000.0,117110237,CLECIANA MARIA DE SANTANA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA SÃO JUDAS TADEU 86,Feminino,1998-07-19,55190048.0,81995738036,ATIVO,REGULAR,,SISU,2017.1,cleciana.santana@ccc.ufcg.edu.br,Brasileira,OLINDA,PE,Parda,,2015.0,Somente escola pública,L2,5.77,7.44,0.65,0.42,2.04,359.5,98.6,242,1373.2,15,238,166,12,76,8,0,11.07,0.67,Sim,2024-11-21 10:15:46.0,PARDA,Não,Não,0.5,Não,,Sim,,27
3,12305580000.0,117210287,ABEL ANTUNES DE LIMA NETO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,,Masculino,1998-10-24,58155000.0,83996943375,ATIVO,REGULAR,,SISU,2017.2,abel.neto@ccc.ufcg.edu.br,Brasileira,SOLEDADE,PB,Parda,,2016.0,Somente escola pública,L6,6.57,7.86,0.77,0.56,3.39,431.04,185.97,220,1497.6,13,228,184,8,36,16,0,14.15,0.83,Sim,2023-02-07 18:47:37.0,PARDA,Não,Não,1.5,Não,,Sim,,27
4,7296494000.0,118110050,CAIO CESAR NOBREGA BORGES,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,UMBUZEIRO 1237,Masculino,1999-09-15,58038182.0,8332468693,ATIVO,REGULAR,,SISU,2018.1,caiocnborges@hotmail.com,Brasileira,SÃO PAULO,SP,Branca,,2017.0,Somente escola privada,,4.92,7.43,0.64,0.51,2.4,357.98,115.82,276,1416.4,15,288,184,0,92,12,0,12.27,0.67,Sim,2023-09-11 11:06:02.0,BRANCA,Não,Não,10.0,Não,,Sim,,26



📄 Tabela: alunos-matriculados


Unnamed: 0,cpf,matricula_do_estudante,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb,idade
0,8410676000.0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,Masculino,1991-08-03,58400384.0,83996548001,ATIVO,REGULAR,,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,,34
1,10057780000.0,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,Feminino,1992-07-23,55730000.0,81997187920,ATIVO,REGULAR,,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,,33
2,70417740000.0,117110237,CLECIANA MARIA DE SANTANA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA SÃO JUDAS TADEU 86,Feminino,1998-07-19,55190048.0,81995738036,ATIVO,REGULAR,,SISU,2017.1,cleciana.santana@ccc.ufcg.edu.br,Brasileira,OLINDA,PE,Parda,,2015.0,Somente escola pública,L2,5.77,7.44,0.65,0.42,2.04,359.5,98.6,242,1373.2,15,238,166,12,76,8,0,11.07,0.67,Sim,2024-11-21 10:15:46.0,PARDA,Não,Não,0.5,Não,,Sim,,27
3,12305580000.0,117210287,ABEL ANTUNES DE LIMA NETO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,,Masculino,1998-10-24,58155000.0,83996943375,ATIVO,REGULAR,,SISU,2017.2,abel.neto@ccc.ufcg.edu.br,Brasileira,SOLEDADE,PB,Parda,,2016.0,Somente escola pública,L6,6.57,7.86,0.77,0.56,3.39,431.04,185.97,220,1497.6,13,228,184,8,36,16,0,14.15,0.83,Sim,2023-02-07 18:47:37.0,PARDA,Não,Não,1.5,Não,,Sim,,27
4,7296494000.0,118110050,CAIO CESAR NOBREGA BORGES,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,UMBUZEIRO 1237,Masculino,1999-09-15,58038182.0,8332468693,ATIVO,REGULAR,,SISU,2018.1,caiocnborges@hotmail.com,Brasileira,SÃO PAULO,SP,Branca,,2017.0,Somente escola privada,,4.92,7.43,0.64,0.51,2.4,357.98,115.82,276,1416.4,15,288,184,0,92,12,0,12.27,0.67,Sim,2023-09-11 11:06:02.0,BRANCA,Não,Não,10.0,Não,,Sim,,26



📄 Tabela: alunos-final


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,idade_no_ingresso,cor,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,555406350,111210656,2011.2,VESTIBULAR ENEM,1999,Solteiro,Masculino,19,Branca,,INATIVO,CANCELAMENTO POR ABANDONO,2014.2
1,583978339,111110092,2011.1,VESTIBULAR ENEM,1999,Solteiro,Feminino,19,Branca,,INATIVO,GRADUADO,2016.1
2,598360328,113210862,2013.2,VESTIBULAR ENEM,1999,Solteiro,Feminino,19,Parda,,INATIVO,CANCELAMENTO P SOLICITACAO ALUNO,2014.2
3,702842109,112110947,2012.1,VESTIBULAR ENEM,1999,Solteiro,Masculino,18,Parda,,INATIVO,GRADUADO,2016.2
4,702859184,117210407,2017.2,SISU,2017,Solteiro,Masculino,18,Branca,,INATIVO,CANCELADO 3 REPROV MESMA DISCIPLINA,2020.1



📄 Tabela: alunos-filtrado-sem-metricas


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao,idade
0,8410676000.0,116210554,2016.2,SISU,2017,Solteiro,Masculino,1991-08-03,Parda,2009.0,Somente escola privada,,ATIVO,REGULAR,,34
1,10057780000.0,116210660,2016.2,SISU,2017,Casado,Feminino,1992-07-23,Branca,2009.0,Somente escola pública,L1,ATIVO,REGULAR,,33
2,70417740000.0,117110237,2017.1,SISU,2017,Solteiro,Feminino,1998-07-19,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,,27
3,12305580000.0,117210287,2017.2,SISU,2017,Solteiro,Masculino,1998-10-24,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,,27
4,7296494000.0,118110050,2018.1,SISU,2017,Solteiro,Masculino,1999-09-15,Branca,2017.0,Somente escola privada,,ATIVO,REGULAR,,26


In [14]:
for nome, df in tabelas_tratadas.items():
    print(f"\n📄 Tabela: {nome}")
    print(f"➡️ Linhas: {df.shape[0]} | Colunas: {df.shape[1]}")



📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas
➡️ Linhas: 2280 | Colunas: 16

📄 Tabela: alunos
➡️ Linhas: 2888 | Colunas: 60

📄 Tabela: alunos-matriculados
➡️ Linhas: 2686 | Colunas: 60

📄 Tabela: alunos-final
➡️ Linhas: 2281 | Colunas: 13

📄 Tabela: alunos-filtrado-sem-metricas
➡️ Linhas: 2686 | Colunas: 16


In [15]:
for nome, df in tabelas_tratadas.items():
    print(f"\n📄 Tabela: {nome}")
    print("Valores nulos por coluna:")
    print(df.isnull().sum())
    print("-" * 50)



📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas
Valores nulos por coluna:
cpf                          0
matricula_do_estudante       0
periodo_de_ingresso          0
forma_de_ingresso            0
codigo_do_curriculo          0
                          ... 
politica_afirmativa       1377
situacao                     0
motivo_de_evasao             4
periodo_de_evasao          598
idade                        0
Length: 16, dtype: int64
--------------------------------------------------

📄 Tabela: alunos
Valores nulos por coluna:
cpf                          0
matricula_do_estudante       0
nome                         0
codigo_do_curso              0
nome_do_curso                0
                          ... 
prac_deficiente           1926
prac_deficiencias         2861
prac_deslocou_mudou       1926
ufpb                      2888
idade                        0
Length: 60, dtype: int64
--------------------------------------------------

📄 Tabela: alunos-matricul

In [16]:
for nome, df in tabelas_tratadas.items():
    tem_cpf = 'cpf' in df.columns
    print(f"📄 Tabela: {nome} | Possui coluna 'cpf'? {'Sim' if tem_cpf else 'Não'}")


📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas | Possui coluna 'cpf'? Sim
📄 Tabela: alunos | Possui coluna 'cpf'? Sim
📄 Tabela: alunos-matriculados | Possui coluna 'cpf'? Sim
📄 Tabela: alunos-final | Possui coluna 'cpf'? Sim
📄 Tabela: alunos-filtrado-sem-metricas | Possui coluna 'cpf'? Sim


### Tratar cpf

In [17]:
import re

def limpar_cpf(cpf):
    if pd.isnull(cpf):
        return None
    # Remove tudo que não for número
    cpf_limpo = re.sub(r'\D', '', str(cpf))
    # Preenche com zeros à esquerda se tiver menos que 11 dígitos
    cpf_limpo = cpf_limpo.zfill(11)
    # Se ainda não tiver 11 dígitos, considera inválido (retorna None)
    if len(cpf_limpo) != 11:
        return None
    return cpf_limpo

# Aplica para todas as tabelas
for nome, df in tabelas_tratadas.items():
    df['cpf'] = df['cpf'].apply(limpar_cpf)
    print(f"Tratado CPF na tabela: {nome}")


Tratado CPF na tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas
Tratado CPF na tabela: alunos
Tratado CPF na tabela: alunos-matriculados
Tratado CPF na tabela: alunos-final
Tratado CPF na tabela: alunos-filtrado-sem-metricas


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['cpf'] = df['cpf'].apply(limpar_cpf)


### Tratar duplicatas com base no CPF

In [18]:
for nome, df in tabelas_tratadas.items():
    before = df.shape[0]
    # Remove duplicatas considerando CPF, mantendo a primeira ocorrência
    df.drop_duplicates(subset=['cpf'], keep='first', inplace=True)
    after = df.shape[0]
    print(f"Tabela '{nome}': {before} linhas antes, {after} linhas depois da remoção de duplicatas por CPF.")


Tabela 'alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas': 2280 linhas antes, 2280 linhas depois da remoção de duplicatas por CPF.
Tabela 'alunos': 2888 linhas antes, 1307 linhas depois da remoção de duplicatas por CPF.
Tabela 'alunos-matriculados': 2686 linhas antes, 1256 linhas depois da remoção de duplicatas por CPF.
Tabela 'alunos-final': 2281 linhas antes, 2281 linhas depois da remoção de duplicatas por CPF.
Tabela 'alunos-filtrado-sem-metricas': 2686 linhas antes, 1256 linhas depois da remoção de duplicatas por CPF.


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop_duplicates(subset=['cpf'], keep='first', inplace=True)


In [19]:
# Bibliotecas necessárias
import pandas as pd
import numpy as np

# Tratamento das tabelas
tabelas_tratadas_limpo = {}

for nome, df in tabelas_tratadas.items():
    print(f"\n🔧 Tratando tabela: {nome}")
    
    df = df.copy()
    
    # 1. Remover duplicatas com base no CPF
    linhas_antes = df.shape[0]
    df = df.drop_duplicates(subset='cpf')
    linhas_depois = df.shape[0]
    print(f"✅ Removidas {linhas_antes - linhas_depois} duplicatas baseadas em CPF.")
    
    # 2. Padronizar nomes das colunas para facilitar
    df.columns = df.columns.str.strip().str.lower().str.replace(" ", "_")
    
    # 3. Normalização de colunas relevantes (se existirem)
    if 'sexo' in df.columns:
        df['sexo'] = df['sexo'].str.upper().str.strip()
        df['sexo'] = df['sexo'].replace({'FEMININO': 'F', 'MASCULINO': 'M'})

    if 'idade' in df.columns:
        df['idade'] = pd.to_numeric(df['idade'], errors='coerce')
        df.loc[(df['idade'] < 10) | (df['idade'] > 100), 'idade'] = np.nan

    if 'politica_afirmativa' in df.columns:
        df['politica_afirmativa'] = df['politica_afirmativa'].fillna('Nao Informado').str.strip()

    if 'estado_civil' in df.columns:
        df['estado_civil'] = df['estado_civil'].fillna('Nao Informado').str.strip().str.title()

    if 'cor' in df.columns:
        df['cor'] = df['cor'].fillna('Nao Informado').str.strip().str.title()

    if 'codigo_do_curriculo' in df.columns:
        df['codigo_do_curriculo'] = df['codigo_do_curriculo'].astype(str).str.strip()

    # 4. Armazenar a versão tratada
    tabelas_tratadas_limpo[nome] = df

print("\n✅ Todas as tabelas foram tratadas com sucesso!")



🔧 Tratando tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas
✅ Removidas 0 duplicatas baseadas em CPF.

🔧 Tratando tabela: alunos
✅ Removidas 0 duplicatas baseadas em CPF.

🔧 Tratando tabela: alunos-matriculados
✅ Removidas 0 duplicatas baseadas em CPF.

🔧 Tratando tabela: alunos-final
✅ Removidas 0 duplicatas baseadas em CPF.

🔧 Tratando tabela: alunos-filtrado-sem-metricas
✅ Removidas 0 duplicatas baseadas em CPF.

✅ Todas as tabelas foram tratadas com sucesso!


In [20]:
for nome, df in tabelas_tratadas_limpo.items():
    print(f"\n📄 Tabela: {nome}")
    display(df.head(2))


📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao,idade
0,70417737440,117110237,2017.1,SISU,2017,Solteiro,F,1998-07-19,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,,27.0
1,12305579462,117210287,2017.2,SISU,2017,Solteiro,M,1998-10-24,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,,27.0



📄 Tabela: alunos


Unnamed: 0,cpf,matricula_do_estudante,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb,idade
0,84106764350.0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,M,1991-08-03,58400384.0,83996548001,ATIVO,REGULAR,,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,Nao Informado,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,,34.0
1,,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,F,1992-07-23,55730000.0,81997187920,ATIVO,REGULAR,,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,,33.0



📄 Tabela: alunos-matriculados


Unnamed: 0,cpf,matricula_do_estudante,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb,idade
0,84106764350.0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,M,1991-08-03,58400384.0,83996548001,ATIVO,REGULAR,,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,Nao Informado,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,,34.0
1,,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,F,1992-07-23,55730000.0,81997187920,ATIVO,REGULAR,,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,,33.0



📄 Tabela: alunos-final


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,idade_no_ingresso,cor,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,555406350,111210656,2011.2,VESTIBULAR ENEM,1999,Solteiro,M,19,Branca,Nao Informado,INATIVO,CANCELAMENTO POR ABANDONO,2014.2
1,583978339,111110092,2011.1,VESTIBULAR ENEM,1999,Solteiro,F,19,Branca,Nao Informado,INATIVO,GRADUADO,2016.1



📄 Tabela: alunos-filtrado-sem-metricas


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao,idade
0,84106764350.0,116210554,2016.2,SISU,2017,Solteiro,M,1991-08-03,Parda,2009.0,Somente escola privada,Nao Informado,ATIVO,REGULAR,,34.0
1,,116210660,2016.2,SISU,2017,Casado,F,1992-07-23,Branca,2009.0,Somente escola pública,L1,ATIVO,REGULAR,,33.0


### Função principal Estatisticas

In [None]:
def calcular_evasao_por_periodo(df, periodos_ingresso, salto_periodo):
    evasao_resultados = []

    for periodo in periodos_ingresso:
        # Extrai ano e semestre
        ano, semestre = map(int, periodo.split('.'))

        # Calcula o período-alvo de evasão
        for _ in range(salto_periodo):
            semestre += 1
            if semestre > 2:
                semestre = 1
                ano += 1
        periodo_alvo = f"{ano}.{semestre}"

        # Filtro de quem ingressou no período
        ingressantes = df[df['periodo_de_ingresso'] == periodo]

        # Filtro de quem evadiu exatamente no período-alvo
        evadiram = ingressantes[ingressantes['periodo_de_evasao'] == periodo_alvo]

        # Identificação pela chave principal
        chave = 'cpf' if 'cpf' in df.columns and df['cpf'].notnull().any() else 'matricula_do_estudante'

        # Cálculo da taxa de evasão
        total = ingressantes[chave].nunique()
        evasao = evadiram[chave].nunique()
        taxa = round((evasao / total) * 100, 2) if total > 0 else 0.0

        evasao_resultados.append({
            'periodo_ingresso': periodo,
            'periodo_evasao': periodo_alvo,
            'total_ingressantes': total,
            'evadiram': evasao,
            'taxa_evasao_%': taxa
        })

    return pd.DataFrame(evasao_resultados)


###  Execução com suas tabelas

In [None]:
# Selecionar uma tabela limpa e relevante (escolha adequada com evasão e ingresso)
df_base = tabelas_tratadas_limpo['alunos-final'].copy()

# Garantir colunas padronizadas
df_base.columns = df_base.columns.str.strip().str.lower()

# Garantir que a chave existe
df_base = df_base[df_base['periodo_de_ingresso'].notnull() & df_base['codigo_do_curriculo'].notnull()]

# Definir períodos
periodos_1p = [f"{ano}.{sem}" for ano in range(2011, 2018) for sem in [1, 2]]
periodos_2p = [f"{ano}.{sem}" for ano in range(2011, 2018) for sem in [1, 2]][:-1]
periodos_3p = [f"{ano}.{sem}" for ano in range(2011, 2017) for sem in [1, 2]]
periodos_4p = [f"{ano}.{sem}" for ano in range(2011, 2017) for sem in [1, 2]][:-1]

# Executar
evasao_1p = calcular_evasao_por_periodo(df_base, periodos_1p, salto_periodo=1)
evasao_2p = calcular_evasao_por_periodo(df_base, periodos_2p, salto_periodo=2)
evasao_3p = calcular_evasao_por_periodo(df_base, periodos_3p, salto_periodo=3)
evasao_4p = calcular_evasao_por_periodo(df_base, periodos_4p, salto_periodo=4)


### Comparação entre currículos (1999 e 2017)

In [None]:
# Adicionar coluna de grade
df_base['grade'] = df_base['codigo_do_curriculo'].apply(lambda x: '1999' if '1999' in str(x) else '2017')

# Gerar DataFrames de evasão separados por grade
evasao_1p['grade'] = evasao_1p['periodo_ingresso'].map(
    df_base.set_index('periodo_de_ingresso')['grade'].to_dict()
)

# Você pode repetir isso para evasao_2p, evasao_3p e evasao_4p se desejar.


### Plotando com boxplot 

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Concatenar todas as estatísticas
df_evasoes = pd.concat([
    evasao_1p.assign(periodo="1º período"),
    evasao_2p.assign(periodo="2º período"),
    evasao_3p.assign(periodo="3º período"),
    evasao_4p.assign(periodo="4º período")
])

# Boxplot
plt.figure(figsize=(12, 6))
sns.boxplot(data=df_evasoes, x='periodo', y='taxa_evasao_%', hue='grade')
plt.title("📊 Taxa de Evasão por Período x Currículo (1999 vs 2017)")
plt.ylabel("Taxa de Evasão (%)")
plt.xlabel("Período de Análise")
plt.legend(title="Grade Curricular")
plt.grid(True)
plt.tight_layout()
plt.show()


### Cálculo de evasão com agrupamento por variáveis demográficas