### Importando bibliotecas

In [1]:
# Pacotes principais para análise de dados
import pandas as pd
import numpy as np
from itertools import combinations
import os
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações para visualização
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 10)
# Estilo bonito para os gráficos
sns.set(style="whitegrid")


### Definição do Caminho

In [2]:
# Caminho base dos arquivos
caminho_base = "/home/diego/Documentos/Semestre 2024.2/Nova_Analise/dados/tabelas"

### Listar e carregar os arquivos .csv do diretório

In [3]:
# Dicionário para armazenar os DataFrames
tabelas = {}

# Percorre os arquivos no diretório
for nome_arquivo in os.listdir(caminho_base):
    if nome_arquivo.endswith('.csv'):
        caminho_completo = os.path.join(caminho_base, nome_arquivo)
        try:
            # Tenta ler o CSV normalmente
            df = pd.read_csv(caminho_completo)
        except Exception as e:
            print(f"Erro ao carregar {nome_arquivo}: {e}")
            continue
        nome_base = nome_arquivo.replace('.csv', '')
        tabelas[nome_base] = df


### Visualizar os nomes das tabelas carregadas

In [4]:
# Lista os nomes das tabelas carregadas
print("Tabelas carregadas na memória:")
for nome in tabelas:
    print("-", nome)


Tabelas carregadas na memória:
- alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas
- alunos
- alunos-matriculados
- alunos-final
- alunos-filtrado-sem-metricas
- alunos-novos-filtrado-sem-metricas
- alunos-novos-sem-reingresso-filtrado-sem-metricas


In [5]:
for nome, df in tabelas.items():
    print(f"\n📄 Tabela: {nome}")
    display(df.head())



📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas


Unnamed: 0,10057783454,116210660,2016.2,SISU,2017,Casado,FEMININO,1992-07-23 00:00:00.0,Branca,2009,Somente escola pública,L1,ATIVO,REGULAR,-
0,70417737440,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
1,12305579462,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
2,7296494409,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-
3,10180403400,118110854,2018.1,SISU,2017,Solteiro,MASCULINO,1992-10-11 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-
4,7541169480,118210232,2018.2,SISU,2023,Solteiro,MASCULINO,1987-12-04 00:00:00.0,Parda,2007.0,Somente escola pública,L2,ATIVO,REGULAR,-



📄 Tabela: alunos


Unnamed: 0,matricula_do_estudante,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cpf,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb
0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,MASCULINO,1991-08-03 00:00:00.0,8410676000.0,58400384.0,83996548001,ATIVO,REGULAR,-,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,-,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,
1,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,FEMININO,1992-07-23 00:00:00.0,10057780000.0,55730000.0,81997187920,ATIVO,REGULAR,-,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,
2,117110237,CLECIANA MARIA DE SANTANA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA SÃO JUDAS TADEU 86,FEMININO,1998-07-19 00:00:00.0,70417740000.0,55190048.0,81995738036,ATIVO,REGULAR,-,SISU,2017.1,cleciana.santana@ccc.ufcg.edu.br,Brasileira,OLINDA,PE,Parda,,2015.0,Somente escola pública,L2,5.77,7.44,0.65,0.42,2.04,359.5,98.6,242,1373.2,15,238,166,12,76,8,0,11.07,0.67,Sim,2024-11-21 10:15:46.0,PARDA,Não,Não,0.5,Não,,Sim,
3,117210287,ABEL ANTUNES DE LIMA NETO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,,MASCULINO,1998-10-24 00:00:00.0,12305580000.0,58155000.0,83996943375,ATIVO,REGULAR,-,SISU,2017.2,abel.neto@ccc.ufcg.edu.br,Brasileira,SOLEDADE,PB,Parda,,2016.0,Somente escola pública,L6,6.57,7.86,0.77,0.56,3.39,431.04,185.97,220,1497.6,13,228,184,8,36,16,0,14.15,0.83,Sim,2023-02-07 18:47:37.0,PARDA,Não,Não,1.5,Não,,Sim,
4,118110050,CAIO CESAR NOBREGA BORGES,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,UMBUZEIRO 1237,MASCULINO,1999-09-15 00:00:00.0,7296494000.0,58038182.0,8332468693,ATIVO,REGULAR,-,SISU,2018.1,caiocnborges@hotmail.com,Brasileira,SÃO PAULO,SP,Branca,,2017.0,Somente escola privada,-,4.92,7.43,0.64,0.51,2.4,357.98,115.82,276,1416.4,15,288,184,0,92,12,0,12.27,0.67,Sim,2023-09-11 11:06:02.0,BRANCA,Não,Não,10.0,Não,,Sim,



📄 Tabela: alunos-matriculados


Unnamed: 0,matricula_do_estudante,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cpf,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb
0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,MASCULINO,1991-08-03 00:00:00.0,8410676000.0,58400384.0,83996548001,ATIVO,REGULAR,-,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,-,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,
1,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,FEMININO,1992-07-23 00:00:00.0,10057780000.0,55730000.0,81997187920,ATIVO,REGULAR,-,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,
2,117110237,CLECIANA MARIA DE SANTANA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA SÃO JUDAS TADEU 86,FEMININO,1998-07-19 00:00:00.0,70417740000.0,55190048.0,81995738036,ATIVO,REGULAR,-,SISU,2017.1,cleciana.santana@ccc.ufcg.edu.br,Brasileira,OLINDA,PE,Parda,,2015.0,Somente escola pública,L2,5.77,7.44,0.65,0.42,2.04,359.5,98.6,242,1373.2,15,238,166,12,76,8,0,11.07,0.67,Sim,2024-11-21 10:15:46.0,PARDA,Não,Não,0.5,Não,,Sim,
3,117210287,ABEL ANTUNES DE LIMA NETO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,,MASCULINO,1998-10-24 00:00:00.0,12305580000.0,58155000.0,83996943375,ATIVO,REGULAR,-,SISU,2017.2,abel.neto@ccc.ufcg.edu.br,Brasileira,SOLEDADE,PB,Parda,,2016.0,Somente escola pública,L6,6.57,7.86,0.77,0.56,3.39,431.04,185.97,220,1497.6,13,228,184,8,36,16,0,14.15,0.83,Sim,2023-02-07 18:47:37.0,PARDA,Não,Não,1.5,Não,,Sim,
4,118110050,CAIO CESAR NOBREGA BORGES,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,UMBUZEIRO 1237,MASCULINO,1999-09-15 00:00:00.0,7296494000.0,58038182.0,8332468693,ATIVO,REGULAR,-,SISU,2018.1,caiocnborges@hotmail.com,Brasileira,SÃO PAULO,SP,Branca,,2017.0,Somente escola privada,-,4.92,7.43,0.64,0.51,2.4,357.98,115.82,276,1416.4,15,288,184,0,92,12,0,12.27,0.67,Sim,2023-09-11 11:06:02.0,BRANCA,Não,Não,10.0,Não,,Sim,



📄 Tabela: alunos-final


Unnamed: 0,CPF,Matrícula,Período de Ingresso,Forma de Ingresso,Currículo,Estado Civil,Sexo,Idade Aproximada no Ingresso,Cor,Cota,Status,Tipo de Evasão,Período de Evasão
0,555406350,111210656,2011.2,VESTIBULAR ENEM,1999,Solteiro,MASCULINO,19,Branca,-,INATIVO,CANCELAMENTO POR ABANDONO,2014.2
1,583978339,111110092,2011.1,VESTIBULAR ENEM,1999,Solteiro,FEMININO,19,Branca,-,INATIVO,GRADUADO,2016.1
2,598360328,113210862,2013.2,VESTIBULAR ENEM,1999,Solteiro,FEMININO,19,Parda,-,INATIVO,CANCELAMENTO P SOLICITACAO ALUNO,2014.2
3,702842109,112110947,2012.1,VESTIBULAR ENEM,1999,Solteiro,MASCULINO,18,Parda,-,INATIVO,GRADUADO,2016.2
4,702859184,117210407,2017.2,SISU,2017,Solteiro,MASCULINO,18,Branca,-,INATIVO,CANCELADO 3 REPROV MESMA DISCIPLINA,2020.1



📄 Tabela: alunos-filtrado-sem-metricas


Unnamed: 0,cpf,matricula_do_estudante,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,8410676000.0,116210554,2016.2,SISU,2017,Solteiro,MASCULINO,1991-08-03 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-
1,10057780000.0,116210660,2016.2,SISU,2017,Casado,FEMININO,1992-07-23 00:00:00.0,Branca,2009.0,Somente escola pública,L1,ATIVO,REGULAR,-
2,70417740000.0,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
3,12305580000.0,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
4,7296494000.0,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-



📄 Tabela: alunos-novos-filtrado-sem-metricas


Unnamed: 0,08410676435,116210554,2016.2,SISU,2017,Solteiro,MASCULINO,1991-08-03 00:00:00.0,Parda,2009,Somente escola privada,-,ATIVO,REGULAR,-.1
0,10057783454,116210660,2016.2,SISU,2017,Casado,FEMININO,1992-07-23 00:00:00.0,Branca,2009.0,Somente escola pública,L1,ATIVO,REGULAR,-
1,70417737440,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
2,12305579462,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
3,7296494409,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-
4,10180403400,118110854,2018.1,SISU,2017,Solteiro,MASCULINO,1992-10-11 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-



📄 Tabela: alunos-novos-sem-reingresso-filtrado-sem-metricas


Unnamed: 0,10057783454,116210660,2016.2,SISU,2017,Casado,FEMININO,1992-07-23 00:00:00.0,Branca,2009,Somente escola pública,L1,ATIVO,REGULAR,-
0,70417737440,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
1,12305579462,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
2,7296494409,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-
3,10180403400,118110854,2018.1,SISU,2017,Solteiro,MASCULINO,1992-10-11 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-
4,7541169480,118210232,2018.2,SISU,2023,Solteiro,MASCULINO,1987-12-04 00:00:00.0,Parda,2007.0,Somente escola pública,L2,ATIVO,REGULAR,-


### Deixar todas as tabelas prontas para análise descritiva

In [7]:
colunas_padrao = [
    'cpf', 'matricula', 'periodo_de_ingresso', 'forma_de_ingresso', 'codigo_do_curriculo',
    'estado_civil', 'sexo', 'data_de_nascimento', 'cor', 'ano_de_conclusao_ensino_medio',
    'tipo_de_ensino_medio', 'politica_afirmativa', 'situacao', 'motivo_de_evasao', 'periodo_de_evasao'
]


### Corrigir tabelas sem cabeçalho

In [8]:
# Atribuir manualmente cabeçalhos às tabelas sem header
tabelas['alunos-novos-sem-reingresso-filtrado-sem-metricas'].columns = colunas_padrao
tabelas['alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas'].columns = colunas_padrao


### Análise descritiva básica

In [9]:
for nome, df in tabelas.items():
    print(f"\n=== {nome} ===")
    print(f"Linhas: {df.shape[0]} | Colunas: {df.shape[1]}")
    print("Colunas:", list(df.columns))
    print("Valores nulos por coluna:\n", df.isnull().sum())
    print("Duplicadas:", df.duplicated().sum())
    print("-" * 60)



=== alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas ===
Linhas: 2280 | Colunas: 15
Colunas: ['cpf', 'matricula', 'periodo_de_ingresso', 'forma_de_ingresso', 'codigo_do_curriculo', 'estado_civil', 'sexo', 'data_de_nascimento', 'cor', 'ano_de_conclusao_ensino_medio', 'tipo_de_ensino_medio', 'politica_afirmativa', 'situacao', 'motivo_de_evasao', 'periodo_de_evasao']
Valores nulos por coluna:
 cpf                      0
matricula                0
periodo_de_ingresso      0
forma_de_ingresso        0
codigo_do_curriculo      0
                        ..
tipo_de_ensino_medio    44
politica_afirmativa      0
situacao                 0
motivo_de_evasao         4
periodo_de_evasao        0
Length: 15, dtype: int64
Duplicadas: 0
------------------------------------------------------------

=== alunos ===
Linhas: 5097 | Colunas: 59
Colunas: ['matricula_do_estudante', 'nome', 'codigo_do_curso', 'nome_do_curso', 'turno_do_curso', 'codigo_do_curriculo', 'campus', 'nome_do_campus', 'codig

### Verificar elementos (linhas) em comum

In [10]:
# Verificar se todas têm a coluna "matricula"
for nome, df in tabelas.items():
    print(f"{nome}: {'matricula_do_estudante' in df.columns}")


alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas: False
alunos: True
alunos-matriculados: True
alunos-final: False
alunos-filtrado-sem-metricas: True
alunos-novos-filtrado-sem-metricas: False
alunos-novos-sem-reingresso-filtrado-sem-metricas: False


Têm nomes de colunas inconsistentes (matricula_do_estudante vs matricula);
Algumas estão sem cabeçalho, ou seja, os nomes das variáveis não foram lidos corretamente 

### Padronizar nomes das colunas de matrícula

In [11]:
for nome, df in tabelas.items():
    for col in df.columns:
        if col.lower() in ['matricula_do_estudante', 'matrícula', 'matrícula_do_estudante']:
            df.rename(columns={col: 'matricula'}, inplace=True)


In [12]:
for nome, df in tabelas.items():
    print(f"{nome}: {'matricula' in df.columns}")


alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas: True
alunos: True
alunos-matriculados: True
alunos-final: True
alunos-filtrado-sem-metricas: True
alunos-novos-filtrado-sem-metricas: False
alunos-novos-sem-reingresso-filtrado-sem-metricas: True


In [13]:
tabelas['alunos-novos-filtrado-sem-metricas'].columns


Index(['08410676435', '116210554', '2016.2', 'SISU', '2017', 'Solteiro',
       'MASCULINO', '1991-08-03 00:00:00.0', 'Parda', '2009',
       'Somente escola privada', '-', 'ATIVO', 'REGULAR', '-.1'],
      dtype='object')

In [14]:
tabelas['alunos-novos-filtrado-sem-metricas'].columns = colunas_padrao


In [16]:
print('matricula' in tabelas['alunos-novos-filtrado-sem-metricas'].columns)


True


### Comparar as tabelas são iguais

In [17]:
for a, b in combinations(tabelas.keys(), 2):
    df1 = tabelas[a]
    df2 = tabelas[b]
    iguais = df1.equals(df2)
    print(f"Tabelas {a} e {b} são IGUAIS? {'✅ Sim' if iguais else '❌ Não'}")


Tabelas alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas e alunos são IGUAIS? ❌ Não
Tabelas alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas e alunos-matriculados são IGUAIS? ❌ Não
Tabelas alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas e alunos-final são IGUAIS? ❌ Não
Tabelas alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas e alunos-filtrado-sem-metricas são IGUAIS? ❌ Não
Tabelas alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas e alunos-novos-filtrado-sem-metricas são IGUAIS? ❌ Não
Tabelas alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas e alunos-novos-sem-reingresso-filtrado-sem-metricas são IGUAIS? ❌ Não
Tabelas alunos e alunos-matriculados são IGUAIS? ❌ Não
Tabelas alunos e alunos-final são IGUAIS? ❌ Não
Tabelas alunos e alunos-filtrado-sem-metricas são IGUAIS? ❌ Não
Tabelas alunos e alunos-novos-filtrado-sem-metricas são IGUAIS? ❌ Não
Tabelas alunos e alunos-novos-sem-reingresso-filtrado-sem-metricas são IGUAIS? ❌ Não
Ta

### Quantos alunos estão presentes em mais de uma tabela:

In [18]:
# Criar um dicionário só com as colunas 'matricula'
matriculas = {nome: set(df['matricula']) for nome, df in tabelas.items()}

# Verificar interseção entre duas tabelas
intersecao = matriculas['alunos'] & matriculas['alunos-filtrado-sem-metricas']
print(f"Interseção entre 'alunos' e 'alunos-filtrado-sem-metricas': {len(intersecao)}")

# Gerar matriz de interseções entre todas as tabelas

for t1, t2 in combinations(matriculas.keys(), 2):
    inter = matriculas[t1] & matriculas[t2]
    print(f"Interseção entre '{t1}' e '{t2}': {len(inter)} alunos")


Interseção entre 'alunos' e 'alunos-filtrado-sem-metricas': 4764
Interseção entre 'alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas' e 'alunos': 2280 alunos
Interseção entre 'alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas' e 'alunos-matriculados': 2280 alunos
Interseção entre 'alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas' e 'alunos-final': 2280 alunos
Interseção entre 'alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas' e 'alunos-filtrado-sem-metricas': 2280 alunos
Interseção entre 'alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas' e 'alunos-novos-filtrado-sem-metricas': 2280 alunos
Interseção entre 'alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas' e 'alunos-novos-sem-reingresso-filtrado-sem-metricas': 2280 alunos
Interseção entre 'alunos' e 'alunos-matriculados': 4764 alunos
Interseção entre 'alunos' e 'alunos-final': 2281 alunos
Interseção entre 'alunos' e 'alunos-filtrado-sem-metricas': 4764 alunos
Interseção entre 'al

### Duas tabelas são realmente iguais

In [19]:
tabelas['alunos'].equals(tabelas['alunos-matriculados'])


False

### Padronizar todos os nomes de colunas para minúsculo em todas as tabelas:

In [24]:
# Padronizar nomes de colunas para minúsculo em todas as tabelas
for nome in tabelas:
    tabelas[nome].columns = [col.lower() for col in tabelas[nome].columns]


### Visualização depois de padronizar

In [25]:
for nome, df in tabelas.items():
    print(f"\n📄 Tabela: {nome}")
    display(df.head())



📄 Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas


Unnamed: 0,cpf,matricula,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,70417737440,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
1,12305579462,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
2,7296494409,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-
3,10180403400,118110854,2018.1,SISU,2017,Solteiro,MASCULINO,1992-10-11 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-
4,7541169480,118210232,2018.2,SISU,2023,Solteiro,MASCULINO,1987-12-04 00:00:00.0,Parda,2007.0,Somente escola pública,L2,ATIVO,REGULAR,-



📄 Tabela: alunos


Unnamed: 0,matricula,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cpf,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb
0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,MASCULINO,1991-08-03 00:00:00.0,8410676000.0,58400384.0,83996548001,ATIVO,REGULAR,-,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,-,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,
1,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,FEMININO,1992-07-23 00:00:00.0,10057780000.0,55730000.0,81997187920,ATIVO,REGULAR,-,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,
2,117110237,CLECIANA MARIA DE SANTANA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA SÃO JUDAS TADEU 86,FEMININO,1998-07-19 00:00:00.0,70417740000.0,55190048.0,81995738036,ATIVO,REGULAR,-,SISU,2017.1,cleciana.santana@ccc.ufcg.edu.br,Brasileira,OLINDA,PE,Parda,,2015.0,Somente escola pública,L2,5.77,7.44,0.65,0.42,2.04,359.5,98.6,242,1373.2,15,238,166,12,76,8,0,11.07,0.67,Sim,2024-11-21 10:15:46.0,PARDA,Não,Não,0.5,Não,,Sim,
3,117210287,ABEL ANTUNES DE LIMA NETO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,,MASCULINO,1998-10-24 00:00:00.0,12305580000.0,58155000.0,83996943375,ATIVO,REGULAR,-,SISU,2017.2,abel.neto@ccc.ufcg.edu.br,Brasileira,SOLEDADE,PB,Parda,,2016.0,Somente escola pública,L6,6.57,7.86,0.77,0.56,3.39,431.04,185.97,220,1497.6,13,228,184,8,36,16,0,14.15,0.83,Sim,2023-02-07 18:47:37.0,PARDA,Não,Não,1.5,Não,,Sim,
4,118110050,CAIO CESAR NOBREGA BORGES,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,UMBUZEIRO 1237,MASCULINO,1999-09-15 00:00:00.0,7296494000.0,58038182.0,8332468693,ATIVO,REGULAR,-,SISU,2018.1,caiocnborges@hotmail.com,Brasileira,SÃO PAULO,SP,Branca,,2017.0,Somente escola privada,-,4.92,7.43,0.64,0.51,2.4,357.98,115.82,276,1416.4,15,288,184,0,92,12,0,12.27,0.67,Sim,2023-09-11 11:06:02.0,BRANCA,Não,Não,10.0,Não,,Sim,



📄 Tabela: alunos-matriculados


Unnamed: 0,matricula,nome,codigo_do_curso,nome_do_curso,turno_do_curso,codigo_do_curriculo,campus,nome_do_campus,codigo_do_setor,nome_do_setor,estado_civil,endereco,sexo,data_de_nascimento,cpf,cep,telefone,situacao,motivo_de_evasao,periodo_de_evasao,forma_de_ingresso,periodo_de_ingresso,email,nacionalidade,local_de_nascimento,naturalidade,cor,deficiencias,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,cra,mc,iech,iepl,iea,mcn,iean,creditos_do_cra,notas_acumuladas,periodos_completados,creditos_tentados,creditos_completados,creditos_isentos,creditos_falhados,creditos_suspensos,creditos_em_andamento,velocidade_media,taxa_de_sucesso,prac_atualizado,prac_atualizado_em,prac_cor,prac_quilombola,prac_indigena_aldeado,prac_renda_per_capita_ate,prac_deficiente,prac_deficiencias,prac_deslocou_mudou,ufpb
0,116210554,AISLAN JEFFERSON DE SOUZA BRITO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA ARISTIDES LOBO 194,MASCULINO,1991-08-03 00:00:00.0,8410676000.0,58400384.0,83996548001,ATIVO,REGULAR,-,SISU,2016.2,aislanjsb@gmail.com,Brasileira,CAMPINA GRANDE,PB,Parda,,2009.0,Somente escola privada,-,11.0,8.25,0.67,0.27,1.51,495.92,91.01,286,1825.6,17,166,262,150,46,8,4,15.41,0.71,Sim,2023-04-12 15:48:00.0,PARDA,Não,Não,1.0,Não,,Não,
1,116210660,ANGELA CRISTINA DE ARAUJO SOUSA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Casado,SITIO DERBY 00,FEMININO,1992-07-23 00:00:00.0,10057780000.0,55730000.0,81997187920,ATIVO,REGULAR,-,SISU,2016.2,angela.sousa@ccc.ufcg.edu.br,Brasileira,BOM JARDIM,PE,Branca,,2009.0,Somente escola pública,L1,5.31,7.9,0.63,0.42,2.1,436.46,116.07,264,1549.6,18,292,188,4,76,32,0,10.44,0.71,Sim,2023-09-11 13:01:50.0,BRANCA,Não,Não,1.5,Não,,Sim,
2,117110237,CLECIANA MARIA DE SANTANA,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,RUA SÃO JUDAS TADEU 86,FEMININO,1998-07-19 00:00:00.0,70417740000.0,55190048.0,81995738036,ATIVO,REGULAR,-,SISU,2017.1,cleciana.santana@ccc.ufcg.edu.br,Brasileira,OLINDA,PE,Parda,,2015.0,Somente escola pública,L2,5.77,7.44,0.65,0.42,2.04,359.5,98.6,242,1373.2,15,238,166,12,76,8,0,11.07,0.67,Sim,2024-11-21 10:15:46.0,PARDA,Não,Não,0.5,Não,,Sim,
3,117210287,ABEL ANTUNES DE LIMA NETO,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,,MASCULINO,1998-10-24 00:00:00.0,12305580000.0,58155000.0,83996943375,ATIVO,REGULAR,-,SISU,2017.2,abel.neto@ccc.ufcg.edu.br,Brasileira,SOLEDADE,PB,Parda,,2016.0,Somente escola pública,L6,6.57,7.86,0.77,0.56,3.39,431.04,185.97,220,1497.6,13,228,184,8,36,16,0,14.15,0.83,Sim,2023-02-07 18:47:37.0,PARDA,Não,Não,1.5,Não,,Sim,
4,118110050,CAIO CESAR NOBREGA BORGES,14102100,CIÊNCIA DA COMPUTAÇÃO - D,Integral,2017,1,Campina Grande,14000000,CEEI - CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁ...,Solteiro,UMBUZEIRO 1237,MASCULINO,1999-09-15 00:00:00.0,7296494000.0,58038182.0,8332468693,ATIVO,REGULAR,-,SISU,2018.1,caiocnborges@hotmail.com,Brasileira,SÃO PAULO,SP,Branca,,2017.0,Somente escola privada,-,4.92,7.43,0.64,0.51,2.4,357.98,115.82,276,1416.4,15,288,184,0,92,12,0,12.27,0.67,Sim,2023-09-11 11:06:02.0,BRANCA,Não,Não,10.0,Não,,Sim,



📄 Tabela: alunos-final


Unnamed: 0,cpf,matricula,período de ingresso,forma de ingresso,currículo,estado civil,sexo,idade aproximada no ingresso,cor,cota,status,tipo de evasão,período de evasão
0,555406350,111210656,2011.2,VESTIBULAR ENEM,1999,Solteiro,MASCULINO,19,Branca,-,INATIVO,CANCELAMENTO POR ABANDONO,2014.2
1,583978339,111110092,2011.1,VESTIBULAR ENEM,1999,Solteiro,FEMININO,19,Branca,-,INATIVO,GRADUADO,2016.1
2,598360328,113210862,2013.2,VESTIBULAR ENEM,1999,Solteiro,FEMININO,19,Parda,-,INATIVO,CANCELAMENTO P SOLICITACAO ALUNO,2014.2
3,702842109,112110947,2012.1,VESTIBULAR ENEM,1999,Solteiro,MASCULINO,18,Parda,-,INATIVO,GRADUADO,2016.2
4,702859184,117210407,2017.2,SISU,2017,Solteiro,MASCULINO,18,Branca,-,INATIVO,CANCELADO 3 REPROV MESMA DISCIPLINA,2020.1



📄 Tabela: alunos-filtrado-sem-metricas


Unnamed: 0,cpf,matricula,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,8410676000.0,116210554,2016.2,SISU,2017,Solteiro,MASCULINO,1991-08-03 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-
1,10057780000.0,116210660,2016.2,SISU,2017,Casado,FEMININO,1992-07-23 00:00:00.0,Branca,2009.0,Somente escola pública,L1,ATIVO,REGULAR,-
2,70417740000.0,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
3,12305580000.0,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
4,7296494000.0,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-



📄 Tabela: alunos-novos-filtrado-sem-metricas


Unnamed: 0,cpf,matricula,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,10057783454,116210660,2016.2,SISU,2017,Casado,FEMININO,1992-07-23 00:00:00.0,Branca,2009.0,Somente escola pública,L1,ATIVO,REGULAR,-
1,70417737440,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
2,12305579462,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
3,7296494409,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-
4,10180403400,118110854,2018.1,SISU,2017,Solteiro,MASCULINO,1992-10-11 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-



📄 Tabela: alunos-novos-sem-reingresso-filtrado-sem-metricas


Unnamed: 0,cpf,matricula,periodo_de_ingresso,forma_de_ingresso,codigo_do_curriculo,estado_civil,sexo,data_de_nascimento,cor,ano_de_conclusao_ensino_medio,tipo_de_ensino_medio,politica_afirmativa,situacao,motivo_de_evasao,periodo_de_evasao
0,70417737440,117110237,2017.1,SISU,2017,Solteiro,FEMININO,1998-07-19 00:00:00.0,Parda,2015.0,Somente escola pública,L2,ATIVO,REGULAR,-
1,12305579462,117210287,2017.2,SISU,2017,Solteiro,MASCULINO,1998-10-24 00:00:00.0,Parda,2016.0,Somente escola pública,L6,ATIVO,REGULAR,-
2,7296494409,118110050,2018.1,SISU,2017,Solteiro,MASCULINO,1999-09-15 00:00:00.0,Branca,2017.0,Somente escola privada,-,ATIVO,REGULAR,-
3,10180403400,118110854,2018.1,SISU,2017,Solteiro,MASCULINO,1992-10-11 00:00:00.0,Parda,2009.0,Somente escola privada,-,ATIVO,REGULAR,-
4,7541169480,118210232,2018.2,SISU,2023,Solteiro,MASCULINO,1987-12-04 00:00:00.0,Parda,2007.0,Somente escola pública,L2,ATIVO,REGULAR,-


### Limpeza dos Dados

### Tratar duplicatas com base no CPF

In [26]:
for nome, df in tabelas.items():
    if 'cpf' in df.columns:
        print(f"\nTabela: {nome}")
        print("Total de CPFs duplicados:", df.duplicated(subset='cpf').sum())



Tabela: alunos-novos-sem-reingressos-novos-ou-antigos-sem-metricas
Total de CPFs duplicados: 0

Tabela: alunos
Total de CPFs duplicados: 1423

Tabela: alunos-matriculados
Total de CPFs duplicados: 1368

Tabela: alunos-final
Total de CPFs duplicados: 0

Tabela: alunos-filtrado-sem-metricas
Total de CPFs duplicados: 1368

Tabela: alunos-novos-filtrado-sem-metricas
Total de CPFs duplicados: 265

Tabela: alunos-novos-sem-reingresso-filtrado-sem-metricas
Total de CPFs duplicados: 232


### Tabela alunos-final

In [27]:
# Considerar tabela alunos-final
df = tabelas['alunos-final']
df.isnull().sum()
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2281 entries, 0 to 2280
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   cpf                           2281 non-null   int64  
 1   matricula                     2281 non-null   int64  
 2   período de ingresso           2281 non-null   float64
 3   forma de ingresso             2281 non-null   object 
 4   currículo                     2281 non-null   int64  
 5   estado civil                  2281 non-null   object 
 6   sexo                          2281 non-null   object 
 7   idade aproximada no ingresso  2281 non-null   int64  
 8   cor                           2281 non-null   object 
 9   cota                          2281 non-null   object 
 10  status                        2281 non-null   object 
 11  tipo de evasão                2281 non-null   object 
 12  período de evasão             2281 non-null   object 
dtypes: 

Padronizar nomes das colunas
Os nomes das colunas têm espaços e acentos, o que pode dificultar o manuseio. Vamos limpar isso:

In [28]:
df.columns = [col.lower().strip().replace(" ", "_").replace("á", "a").replace("ç", "c").replace("ã", "a").replace("é", "e") for col in df.columns]


### Converter CPF e matrícula para string

In [29]:
df['cpf'] = df['cpf'].astype(str)
df['matricula'] = df['matricula'].astype(str)


### Verificar valores únicos e possíveis inconsistências
Por exemplo, ver se colunas como sexo, estado_civil, cor, cota, status, tipo_de_evasao têm valores padronizados:

In [30]:
print(df['sexo'].unique())
print(df['estado_civil'].unique())
print(df['cor'].unique())
print(df['cota'].unique())
print(df['status'].unique())
print(df['tipo_de_evasao'].unique())


['MASCULINO' 'FEMININO']
['Solteiro' 'Casado' '-' 'Divorciado']
['Branca' 'Parda' 'Preta' 'Não declarada' 'Amarela' 'Indígena']
['-' 'L2' 'L5' 'L6' 'L1' 'L14' 'L13' 'L10' 'L9']
['INATIVO' 'ATIVO']
['CANCELAMENTO POR ABANDONO' 'GRADUADO' 'CANCELAMENTO P SOLICITACAO ALUNO'
 'CANCELADO 3 REPROV MESMA DISCIPLINA' 'REGULAR'
 'CANCELADO REPROVOU TODAS POR FALTAS'
 'CANCELADO NOVO INGRESSO OUTRO CURSO' 'CANCELAMENTO DE MATRICULA'
 'CANCELAMENTO P MUDANCA CURSO' 'TRANSFERIDO PARA OUTRA IES']
