# Limpeza de Dados


### Descrição do Conjunto de Dados

O conjunto de dados utilizado nesta análise contém informações detalhadas sobre os candidatos aprovados em um processo seletivo do SISU (Sistema de Seleção Unificada). Ele abrange 418 registros, cada um representando um candidato, com as seguintes variáveis:

1. **universidade** (*object*): Nome da universidade para a qual o candidato foi aprovado.  
2. **campus** (*object*): Identificação do campus associado à universidade.  
3. **nota_linguagens** (*float64*): Nota obtida na prova de Linguagens, Códigos e suas Tecnologias.  
4. **nota_ciencias_humanas** (*float64*): Nota obtida na prova de Ciências Humanas e suas Tecnologias.  
5. **nota_ciencias_natureza** (*float64*): Nota obtida na prova de Ciências da Natureza e suas Tecnologias.  
6. **nota_matematica** (*float64*): Nota obtida na prova de Matemática e suas Tecnologias.  
7. **nota_redacao** (*float64*): Nota obtida na redação.  
8. **nota_final** (*float64*): Média final do candidato, considerando os pesos das notas conforme os critérios do SISU.  
9. **sexo** (*object*): Gênero do candidato (masculino ou feminino).  
10. **data_nascimento** (*object*): Data de nascimento do candidato.  
11. **uf_candidato** (*object*): Unidade federativa de residência do candidato.  
12. **modalidade_concorrencia** (*object*): Categoria de concorrência na qual o candidato participou (ex.: ampla concorrência, cotas). 

### Observação importante:
Embora a análise estatística atual utilize principalmente as colunas **universidade** e **nota_final**, é importante ressaltar o potencial de exploração dos demais dados do dataset em futuras versões do projeto. Informações como as notas específicas por área do conhecimento, o perfil demográfico dos candidatos (sexo, UF de origem, data de nascimento) e as modalidades de concorrência oferecem oportunidades para análises mais amplas e aprofundadas. Esses dados poderão ser utilizados para investigar padrões de desempenho por região, disparidades entre categorias de concorrência e outras questões relacionadas à educação superior no Brasil. 

Assim, este dataset não apenas atende ao objetivo inicial, mas também proporciona uma base rica para extensões analíticas no futuro.

### Importação de Dados:

In [1]:
# Importação da bibliteca Pandas para manipulação de dados
import pandas as pd

In [2]:
# Formatando saída de dados
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [3]:
# Importação de dados
df = pd.read_csv('dataframe_sisu.csv')

### Verificação do Consumo de Memória do Conjunto de Dados:
Ao analisar o consumo de memória do dataset em gigabytes, identifiquei que as variáveis categóricas do tipo object representavam os maiores consumidores de memória. Em especial, as colunas modalidade_concorrencia, campus e nome_curso, juntas, utilizavam mais de 5 gigabytes de RAM. Com base nessa análise, direcionei os próximos passos do processo de limpeza de dados para otimizar o uso de memória de forma eficiente.

In [11]:
# Avaliando o consumo de memória RAM em bytes da máquina para cada variávels do conjunto de dados
RAM = df.memory_usage(deep = True)

In [13]:
# Resultados ordenados
RAM_sorted = RAM.sort_values(ascending=False)
print(RAM_sorted)

modalidade_concorrencia    25892
campus                     15581
nome_curso                 14490
data_nascimento             9246
universidade                8381
uf_candidato                8142
sexo                        8004
id_municipio_candidato      1104
nota_linguagens             1104
nota_ciencias_humanas       1104
nota_ciencias_natureza      1104
nota_matematica             1104
nota_redacao                1104
nota_corte                  1104
nota                        1104
Index                        128
dtype: int64


In [14]:
# Consumo total em Bytes
RAM.sum()

98696

In [19]:
# Convertendo bytes para GigaBytes
RAM_GB = RAM.sum() / (1024 ** 3)
RAM_GB

9.191781282424927e-05

In [20]:
# Consumo de memória por variável em porcentagem
RAM_sorted / RAM.sum() * 100

modalidade_concorrencia   26.23
campus                    15.79
nome_curso                14.68
data_nascimento            9.37
universidade               8.49
uf_candidato               8.25
sexo                       8.11
id_municipio_candidato     1.12
nota_linguagens            1.12
nota_ciencias_humanas      1.12
nota_ciencias_natureza     1.12
nota_matematica            1.12
nota_redacao               1.12
nota_corte                 1.12
nota                       1.12
Index                      0.13
dtype: float64

### Compreendendo o Conjunto de Dados:

In [7]:
# Visualizando forma do dataset em número de linhas e colunas
sp = df.shape
print(f"O conjunto de dados possui {sp[0]} linhas e {sp[1]} colunas.")

O conjunto de dados possui 138 linhas e 15 colunas.


In [8]:
# Visualizando cabeçalho do conjunto de dados
df.head(5)

Unnamed: 0,data_nascimento,sexo,modalidade_concorrencia,id_municipio_candidato,uf_candidato,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_corte,nota,nome_curso,universidade,campus
0,2003-02-07,M,Ampla concorrência,1501402,PA,635.8,714.8,693.3,803.2,900.0,770.26,775.0,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
1,1996-07-03,F,egressos de escolas públicas da rede federal. ...,2927408,BA,634.8,677.1,672.9,648.9,880.0,677.24,702.74,ENGENHARIA DA COMPUTAÇÃO,UPE,ESCOLA POLITÉCNICA
2,2004-05-19,M,Ampla concorrência,2211001,PI,641.5,679.6,682.2,826.3,780.0,721.92,721.92,ENGENHARIA DA COMPUTAÇÃO,UPE,ESCOLA POLITÉCNICA
3,2002-01-12,F,Ampla concorrência,2211001,PI,697.4,667.5,704.1,823.8,960.0,770.26,798.83,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
4,1999-01-09,M,Ampla concorrência,2211001,PI,630.5,651.6,677.6,797.2,940.0,770.26,770.61,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife


In [6]:
# Informações gerais sobre os dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   universidade             418 non-null    object 
 1   campus                   418 non-null    object 
 2   nota_linguagens          418 non-null    float64
 3   nota_ciencias_humanas    418 non-null    float64
 4   nota_ciencias_natureza   418 non-null    float64
 5   nota_matematica          418 non-null    float64
 6   nota_redacao             418 non-null    float64
 7   nota_final               418 non-null    float64
 8   sexo                     418 non-null    object 
 9   data_nascimento          418 non-null    object 
 10  uf_candidato             418 non-null    object 
 11  modalidade_concorrencia  418 non-null    object 
dtypes: float64(6), object(6)
memory usage: 39.3+ KB


### Limpeza de Dados:

In [7]:
# Verificação de dados duplicados
duplicatas = df.duplicated().sum()
print('O conjunto de dados possui', duplicatas, 'linhas duplicadas.')

O conjunto de dados possui 0 linhas duplicadas.


In [8]:
# Verificando valores nulos
df.isnull().sum()

universidade               0
campus                     0
nota_linguagens            0
nota_ciencias_humanas      0
nota_ciencias_natureza     0
nota_matematica            0
nota_redacao               0
nota_final                 0
sexo                       0
data_nascimento            0
uf_candidato               0
modalidade_concorrencia    0
dtype: int64

In [11]:
# Visualizando possíveis linhas com valores nulos

# Selecionando linhas com valores nulos
linhas_nulas = df[df.isnull().any(axis=1)]

# Linhas distintas com nulos (se houver duplicatas)
linhas_distintas_nulas = linhas_nulas.drop_duplicates()

In [12]:
linhas_distintas_nulas

Unnamed: 0,universidade,campus,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,uf_candidato,modalidade_concorrencia


### Normalizando colunas de texto:

Garanti que as colunas de texto, como `'campus'`, `'modalidade_concorrencia'` e `'nome_curso'`, estejam padronizadas (letras maiúsculas/minúsculas, sem espaços extras).

In [13]:
df['campus'] = df['campus'].str.strip().str.title()

In [14]:
df['modalidade_concorrencia'] = df['modalidade_concorrencia'].str.strip().str.title()

In [None]:
df['sigla_ies'] = df['sigla_ies'].str.strip().str.upper()

In [17]:
df['uf_candidato'] = df['uf_candidato'].str.strip().str.upper()

#### Verificando resultados:

In [18]:
# Visualizando as primeiras 5 linhas do dataframe
df.head(5)

Unnamed: 0,universidade,campus,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,uf_candidato,modalidade_concorrencia
0,UPE,Escola Politécnica,560.5,551.3,476.5,410.1,580.0,515.68,F,2001-06-01,SP,Egressos De Escolas Públicas Da Rede Federal. ...
1,UPE,Escola Politécnica,496.6,355.7,573.4,745.7,720.0,578.28,M,2002-10-19,SP,Ampla Concorrência
2,UFPE,Campus Universitário Cidade Do Recife,506.9,579.5,512.6,623.2,580.0,576.44,M,2003-01-21,SP,Candidatos Com Renda Familiar Bruta Per Capita...
3,UFPE,Campus Universitário Cidade Do Recife,616.1,607.4,555.4,747.3,820.0,696.35,M,2003-01-23,MG,Ampla Concorrência
4,UFPE,Campus Universitário Cidade Do Recife,588.5,648.6,547.1,651.0,820.0,657.53,M,2004-12-26,TO,Candidatos Autodeclarados Pretos. Pardos Ou In...


### Conversão dos tipos de dados e otimização de memória:

Podemos realizar a conversão dos tipos de dados necessários apenas após o tratamento dos valores ausentes. Isso ocorre porque, ao tentar converter esses valores para o tipo `int`, o Python lança um erro, já que o tipo inteiro não é capaz de representar valores indefinidos ou infinitos, o que resulta em falhas na conversão.  

Dessa forma, após o tratamento de valores faltantes, objetivando facilitar as futuras análises e otimizar memória e capacidade de processamento da máquina local, identifiquei que as colunas categórias e quantitativas discretas poderiam ter seus tipos de dados convertidos.

#### Verificando resultados:

In [122]:
# Visualizando as primeiras 5 linhas do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1833 entries, 0 to 1833
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nota_candidato           1833 non-null   float64
 1   sexo                     1833 non-null   object 
 2   modalidade_concorrencia  1833 non-null   object 
 3   sigla_uf_candidato       1833 non-null   object 
 4   id_municipio_candidato   1833 non-null   int32  
 5   data_nascimento          1833 non-null   object 
 6   status_aprovado          1833 non-null   bool   
 7   nome_curso               1833 non-null   object 
 8   sigla_ies                1833 non-null   object 
 9   campus                   1833 non-null   object 
dtypes: bool(1), float64(1), int32(1), object(7)
memory usage: 137.8+ KB


### Substituição de dados:
Garanti a padronização dos dados categóricos, como `'sexo'` e `'status_aprovado'`, essenciais nos próximos passos das análises.

In [129]:
# Substituindo o valor True por Aprovado na coluna 'status_aprovado'
df['status_aprovado'] = df['status_aprovado'].replace(True, 'Aprovado')

In [130]:
# Substituindo 'M' por 'Masculino' na coluna 'sexo'
df['sexo'] = df['sexo'].replace('M', 'Masculino')

In [131]:
# Substituindo 'F' por 'Feminino' na coluna 'sexo'
df['sexo'] = df['sexo'].replace('F', 'Feminino')

#### Verificando resultados:

In [132]:
# Visualizando as primeiras 5 linhas do dataframe
df.head(5)

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,id_municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,campus
0,803.65,Masculino,Ampla Concorrência,SE,2800308,2003-10-26,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
1,683.61,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,SE,2800308,2002-01-15,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
2,712.4,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,GO,5201405,2002-05-02,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
3,699.37,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,PA,1501402,2000-01-10,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
4,652.58,Masculino,Ampla Concorrência,PA,1500800,2000-11-16,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife


#### Importando tabela de códigos de município do IBGE:

In [133]:
# Carregando o DataFrame com os dados dos municípios do IBGE em Excel
df_municipios = pd.read_excel('codigos_municipios_ibge.xlsx', usecols=['Código Município Completo', 'Nome_Município'])

In [136]:
# Visualizando as primeiras 5 linhas da tabela de municípios
df_municipios.head(5)

Unnamed: 0,Código Município Completo,Nome_Município
0,1100015,Alta Floresta D'Oeste
1,1100379,Alto Alegre dos Parecis
2,1100403,Alto Paraíso
3,1100346,Alvorada D'Oeste
4,1100023,Ariquemes


#### Substituindo ids do município dos candidatos pelo nome do município:

In [137]:
# Realizando a mesclagem dos DataFrames com base na coluna de IDs
df_com_nomes = df.merge(df_municipios, left_on='id_municipio_candidato', right_on='Código Município Completo', how='left')

In [138]:
# Substituindo a coluna de ID pelo nome do município
df_com_nomes['id_municipio_candidato'] = df_com_nomes['Nome_Município']

In [139]:
# Renomeando coluna 'id_municipio_candidato' para 'municipio_candidato'
df_com_nomes = df_com_nomes.rename(columns={'id_municipio_candidato': 'municipio_candidato'})

In [149]:
# Verificando resultados
df_com_nomes.head()

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,campus,Código Município Completo,Nome_Município
0,803.65,Masculino,Ampla Concorrência,SE,Aracaju,2003-10-26,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,2800308,Aracaju
1,683.61,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,SE,Aracaju,2002-01-15,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,2800308,Aracaju
2,712.4,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,GO,Aparecida de Goiânia,2002-05-02,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,5201405,Aparecida de Goiânia
3,699.37,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,PA,Belém,2000-01-10,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,1501402,Belém
4,652.58,Masculino,Ampla Concorrência,PA,Ananindeua,2000-11-16,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,1500800,Ananindeua


### Remoção de colunas:
Removi as colunas `'Código Município Completo'` e `'Nome_Município'` obtidas através da mesclagem entre a tabela de municípios e o dataframe original.

In [154]:
# Removendo colunas 'Código Município Completo' e 'Nome_Município'
df_limpo = df_com_nomes.drop(columns=['Código Município Completo', 'Nome_Município'])

In [155]:
# Visualizando as primeiras 5 linhas da tabela de municípios 
df_limpo.head(5)

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,campus
0,803.65,Masculino,Ampla Concorrência,SE,Aracaju,2003-10-26,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
1,683.61,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,SE,Aracaju,2002-01-15,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
2,712.4,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,GO,Aparecida de Goiânia,2002-05-02,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
3,699.37,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,PA,Belém,2000-01-10,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
4,652.58,Masculino,Ampla Concorrência,PA,Ananindeua,2000-11-16,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
