# Etapa 1 - Limpeza de Dados


### Descrição do Conjunto de Dados

O conjunto de dados utilizado nesta análise contém informações detalhadas sobre os candidatos aprovados em um processo seletivo do SISU (Sistema de Seleção Unificada). Ele abrange 418 registros, cada um representando um candidato, com as seguintes variáveis:

1. **universidade** 
(*object*): Nome da universidade para a qual o candidato foi aprovado.  
2. **campus** 
(*object*): Identificação do campus associado à universidade.  
3. **nota_linguagens** (*float64*): Nota obtida na prova de Linguagens, Códigos e suas Tecnologias.  
4. **nota_ciencias_humanas** (*float64*): Nota obtida na prova de Ciências Humanas e suas Tecnologias.  
5. **nota_ciencias_natureza** (*float64*): Nota obtida na prova de Ciências da Natureza e suas Tecnologias.  
6. **nota_matematica** (*float64*): Nota obtida na prova de Matemática e suas Tecnologias.  
7. **nota_redacao** (*float64*): Nota obtida na redação.  
8. **nota_final** (*float64*): Média final do candidato, considerando os pesos das notas conforme os critérios do SISU.  
9. **sexo** (*object*): Gênero do candidato (masculino ou feminino).  
10. **data_nascimento** (*object*): Data de nascimento do candidato.  
11. **uf_candidato** (*object*): Unidade federativa de residência do candidato.  
12. **modalidade_concorrencia** (*object*): Categoria de concorrência na qual o candidato participou (ex.: ampla concorrência, cotas). 

### 1 - Importação de Dados:
Comecei importando as bibliotecas necessárias, como Pandas e Datetime, e configurei as opções de exibição do pandas para facilitar a visualização dos dados. Em seguida, carreguei o arquivo inicial, criando o DataFrame com os registros originais.

In [47]:
# Importação da bibliteca Pandas para manipulação de dados
import pandas as pd

# Importação da bibliteca Datetime para manipulação de datas
from datetime import datetime

In [48]:
# Formatando saída de dados
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [49]:
# Importação de dados
df = pd.read_csv('dataframe_sisu.csv')

### 2 - Verificação do Consumo de Memória do Conjunto de Dados:
Ao analisar o consumo de memória do dataset em gigabytes, identifiquei que as variáveis categóricas do tipo object representavam os maiores consumidores de memória. Em especial, as colunas **`'modalidade_concorrencia'`**, **`'campus'`** e **`'nome_curso'`**, juntas, utilizavam mais de 5 gigabytes de RAM. Com base nessa análise, direcionei os próximos passos do processo de compreensão e limpeza de dados para otimizar o uso de memória de forma eficiente.

In [50]:
# Avaliando o consumo de memória RAM em bytes da máquina para cada variávels do conjunto de dados
RAM = df.memory_usage(deep = True)
# Resultados ordenados
RAM_sorted = RAM.sort_values(ascending=False)
print(RAM_sorted)

modalidade_concorrencia    25892
campus                     15581
nome_curso                 14490
data_nascimento             9246
universidade                8381
uf_candidato                8142
sexo                        8004
id_municipio_candidato      1104
nota_linguagens             1104
nota_ciencias_humanas       1104
nota_ciencias_natureza      1104
nota_matematica             1104
nota_redacao                1104
nota_corte                  1104
nota                        1104
Index                        128
dtype: int64


In [51]:
# Consumo total em Bytes
RAM.sum()

98696

In [52]:
# Convertendo bytes para GigaBytes
RAM_GB = RAM.sum() / (1024 ** 3)
RAM_GB

9.191781282424927e-05

In [53]:
# Consumo de memória por variável em porcentagem
RAM_sorted / RAM.sum() * 100

modalidade_concorrencia   26.23
campus                    15.79
nome_curso                14.68
data_nascimento            9.37
universidade               8.49
uf_candidato               8.25
sexo                       8.11
id_municipio_candidato     1.12
nota_linguagens            1.12
nota_ciencias_humanas      1.12
nota_ciencias_natureza     1.12
nota_matematica            1.12
nota_redacao               1.12
nota_corte                 1.12
nota                       1.12
Index                      0.13
dtype: float64

### 3 - Compreendendo o Conjunto de Dados:

#### Estrutura do Conjunto de Dados:
O dataset analisado é composto por 138 linhas e 15 colunas, distribuídas entre diferentes tipos de variáveis:  
- 7 variáveis do tipo flutuante **(float)** 
- 7 variáveis do tipo objeto **(string ou categóricas)**
- 1 variável do tipo inteiro **(int)**

#### Análise de Valores Nulos e Duplicidades:
Uma avaliação preliminar revelou que o conjunto de dados não apresenta valores nulos ou registros duplicados. Essa qualidade garante maior consistência e confiabilidade para as análises subsequentes.

In [54]:
# Visualizando forma do dataset em número de linhas e colunas
sp = df.shape
print(f"O conjunto de dados possui {sp[0]} linhas e {sp[1]} colunas.")

O conjunto de dados possui 138 linhas e 15 colunas.


In [55]:
# Visualizando cabeçalho do conjunto de dados
df.head()

Unnamed: 0,data_nascimento,sexo,modalidade_concorrencia,id_municipio_candidato,uf_candidato,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_corte,nota,nome_curso,universidade,campus
0,2003-02-07,M,Ampla concorrência,1501402,PA,635.8,714.8,693.3,803.2,900.0,770.26,775.0,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
1,1996-07-03,F,egressos de escolas públicas da rede federal. ...,2927408,BA,634.8,677.1,672.9,648.9,880.0,677.24,702.74,ENGENHARIA DA COMPUTAÇÃO,UPE,ESCOLA POLITÉCNICA
2,2004-05-19,M,Ampla concorrência,2211001,PI,641.5,679.6,682.2,826.3,780.0,721.92,721.92,ENGENHARIA DA COMPUTAÇÃO,UPE,ESCOLA POLITÉCNICA
3,2002-01-12,F,Ampla concorrência,2211001,PI,697.4,667.5,704.1,823.8,960.0,770.26,798.83,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
4,1999-01-09,M,Ampla concorrência,2211001,PI,630.5,651.6,677.6,797.2,940.0,770.26,770.61,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife


In [56]:
# Informações gerais sobre os dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 138 entries, 0 to 137
Data columns (total 15 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   data_nascimento          138 non-null    object 
 1   sexo                     138 non-null    object 
 2   modalidade_concorrencia  138 non-null    object 
 3   id_municipio_candidato   138 non-null    int64  
 4   uf_candidato             138 non-null    object 
 5   nota_linguagens          138 non-null    float64
 6   nota_ciencias_humanas    138 non-null    float64
 7   nota_ciencias_natureza   138 non-null    float64
 8   nota_matematica          138 non-null    float64
 9   nota_redacao             138 non-null    float64
 10  nota_corte               138 non-null    float64
 11  nota                     138 non-null    float64
 12  nome_curso               138 non-null    object 
 13  universidade             138 non-null    object 
 14  campus                   1

In [57]:
# Verificação de dados duplicados
duplicatas = df.duplicated().sum()
print('O conjunto de dados possui', duplicatas, 'linhas duplicadas.')

O conjunto de dados possui 0 linhas duplicadas.


In [58]:
# Verificando valores nulos
df.isnull().sum()

data_nascimento            0
sexo                       0
modalidade_concorrencia    0
id_municipio_candidato     0
uf_candidato               0
nota_linguagens            0
nota_ciencias_humanas      0
nota_ciencias_natureza     0
nota_matematica            0
nota_redacao               0
nota_corte                 0
nota                       0
nome_curso                 0
universidade               0
campus                     0
dtype: int64

In [59]:
# Visualizando possíveis linhas com valores nulos

# Selecionando linhas com valores nulos
linhas_nulas = df[df.isnull().any(axis=1)]

# Linhas distintas com nulos (se houver duplicatas)
linhas_distintas_nulas = linhas_nulas.drop_duplicates()

In [60]:
linhas_distintas_nulas

Unnamed: 0,data_nascimento,sexo,modalidade_concorrencia,id_municipio_candidato,uf_candidato,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_corte,nota,nome_curso,universidade,campus


### 4 - Conversão dos tipos de dados e Otimização de Memória:

Após o tratamento de valores faltantes, objetivando facilitar as futuras análises e otimizar memória e capacidade de processamento da máquina local, identifiquei que as colunas categóricas e a quantitativa contínua, como **`'data_nascimento'`**, poderiam ter seus tipos de dados convertidos.

**Observação:** Podemos realizar a conversão dos tipos de dados necessários apenas após a compreensão do dataset. Isso ocorre porque, ao tentar converter esses valores para o tipo inteiro, o Python lança um erro, já que o tipo inteiro não é capaz de representar valores indefinidos ou infinitos, o que resulta em falhas na conversão.  

#### Colunas categóricas:

In [61]:
# Convertendo a coluna 'nome_curso' para o tipo category
df['nome_curso'] = df['nome_curso'].astype('category')

In [62]:
# Convertendo a coluna 'sexo' para o tipo category
df['sexo'] = df['sexo'].astype('category')

In [63]:
# Convertendo a coluna 'modalidade_concorrencia' para o tipo category
df['modalidade_concorrencia'] = df['modalidade_concorrencia'].astype('category')

In [64]:
# Convertendo a coluna 'uf_candidato' para o tipo category
df['uf_candidato'] = df['uf_candidato'].astype('category')

In [65]:
# Convertendo a coluna 'universidade' para o tipo category
df['universidade'] = df['universidade'].astype('category')

In [66]:
# Convertendo a coluna 'campus' para o tipo category
df['campus'] = df['campus'].astype('category')

In [67]:
# Convertendo a coluna 'id_municipio_candidato' para o tipo category
df['id_municipio_candidato'] = df['id_municipio_candidato'].astype('category')

#### Coluna de data de nascimento:

In [68]:
# Convertendo a coluna 'data_nascimento' para o formato datetime
df['data_nascimento'] = pd.to_datetime(df['data_nascimento'])

#### Verificando resultados:

In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 138 entries, 0 to 137
Data columns (total 15 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   data_nascimento          138 non-null    datetime64[ns]
 1   sexo                     138 non-null    category      
 2   modalidade_concorrencia  138 non-null    category      
 3   id_municipio_candidato   138 non-null    category      
 4   uf_candidato             138 non-null    category      
 5   nota_linguagens          138 non-null    float64       
 6   nota_ciencias_humanas    138 non-null    float64       
 7   nota_ciencias_natureza   138 non-null    float64       
 8   nota_matematica          138 non-null    float64       
 9   nota_redacao             138 non-null    float64       
 10  nota_corte               138 non-null    float64       
 11  nota                     138 non-null    float64       
 12  nome_curso               138 non-nul

In [70]:
df.head()

Unnamed: 0,data_nascimento,sexo,modalidade_concorrencia,id_municipio_candidato,uf_candidato,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_corte,nota,nome_curso,universidade,campus
0,2003-02-07,M,Ampla concorrência,1501402,PA,635.8,714.8,693.3,803.2,900.0,770.26,775.0,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
1,1996-07-03,F,egressos de escolas públicas da rede federal. ...,2927408,BA,634.8,677.1,672.9,648.9,880.0,677.24,702.74,ENGENHARIA DA COMPUTAÇÃO,UPE,ESCOLA POLITÉCNICA
2,2004-05-19,M,Ampla concorrência,2211001,PI,641.5,679.6,682.2,826.3,780.0,721.92,721.92,ENGENHARIA DA COMPUTAÇÃO,UPE,ESCOLA POLITÉCNICA
3,2002-01-12,F,Ampla concorrência,2211001,PI,697.4,667.5,704.1,823.8,960.0,770.26,798.83,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
4,1999-01-09,M,Ampla concorrência,2211001,PI,630.5,651.6,677.6,797.2,940.0,770.26,770.61,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife


### 5 - Normalização de Dados:

Substituí os IDs dos municípios pelos nomes correspondentes, utilizando dados do IBGE, e padronizei valores textuais em colunas como **`'nome_curso'`**, **`'modalidade_concorrencia'`** e **`'campus'`**, removendo espaços extras e uniformizando o formato. Adicionei também uma nova coluna, idade, calculada a partir da data de nascimento, posicionando-a logo após a coluna data_nascimento.

#### Importando tabela de códigos de município do IBGE:

In [71]:
# Carregando o DataFrame com os dados dos municípios do IBGE em Excel
df_municipios = pd.read_excel('codigos_municipios_ibge.xlsx', usecols=['Código Município Completo', 'Nome_Município'])

In [72]:
# Visualizando a tabela de municípios
df_municipios.head()

Unnamed: 0,Código Município Completo,Nome_Município
0,1100015,Alta Floresta D'Oeste
1,1100379,Alto Alegre dos Parecis
2,1100403,Alto Paraíso
3,1100346,Alvorada D'Oeste
4,1100023,Ariquemes


#### Substituindo ids do município dos candidatos pelo nome do município:

In [73]:
# Realizando a mesclagem dos DataFrames com base na coluna de IDs
df_com_nomes = df.merge(df_municipios, left_on='id_municipio_candidato', right_on='Código Município Completo', how='left')

In [74]:
# Substituindo a coluna de ID pelo nome do município
df_com_nomes['id_municipio_candidato'] = df_com_nomes['Nome_Município']

In [75]:
# Renomeando coluna 'id_municipio_candidato' para 'municipio_candidato'
df_com_nomes = df_com_nomes.rename(columns={'id_municipio_candidato': 'municipio_candidato'})

#### Verificando resultados:

In [76]:
df_com_nomes.head()

Unnamed: 0,data_nascimento,sexo,modalidade_concorrencia,municipio_candidato,uf_candidato,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_corte,nota,nome_curso,universidade,campus,Código Município Completo,Nome_Município
0,2003-02-07,M,Ampla concorrência,Belém,PA,635.8,714.8,693.3,803.2,900.0,770.26,775.0,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife,1501402,Belém
1,1996-07-03,F,egressos de escolas públicas da rede federal. ...,Salvador,BA,634.8,677.1,672.9,648.9,880.0,677.24,702.74,ENGENHARIA DA COMPUTAÇÃO,UPE,ESCOLA POLITÉCNICA,2927408,Salvador
2,2004-05-19,M,Ampla concorrência,Teresina,PI,641.5,679.6,682.2,826.3,780.0,721.92,721.92,ENGENHARIA DA COMPUTAÇÃO,UPE,ESCOLA POLITÉCNICA,2211001,Teresina
3,2002-01-12,F,Ampla concorrência,Teresina,PI,697.4,667.5,704.1,823.8,960.0,770.26,798.83,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife,2211001,Teresina
4,1999-01-09,M,Ampla concorrência,Teresina,PI,630.5,651.6,677.6,797.2,940.0,770.26,770.61,ENGENHARIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife,2211001,Teresina


#### Limpeza de colunas categóricas:

In [77]:
# Substituindo 'M' por 'Masculino' na coluna 'sexo'
df_com_nomes['sexo'] = df_com_nomes['sexo'].replace('M', 'Masculino')

In [78]:
# Substituindo 'F' por 'Feminino' na coluna 'sexo'
df_com_nomes['sexo'] = df_com_nomes['sexo'].replace('F', 'Feminino')

In [79]:
df_com_nomes['modalidade_concorrencia'] = df_com_nomes['modalidade_concorrencia'].str.strip().str.title()

In [80]:
df_com_nomes['nome_curso'] = df_com_nomes['nome_curso'].str.strip().str.title()

In [81]:
df_com_nomes['campus'] = df_com_nomes['campus'].str.strip().str.title()

In [82]:
df_com_nomes['uf_candidato'] = df_com_nomes['uf_candidato'].str.strip().str.upper()

#### Renomeando o conjunto de dados:

In [83]:
df = df_com_nomes.copy()

#### Criando coluna de idade

In [84]:
# Calculando a idade dos candidatos com base na data de referência (31 de dezembro de 2022)
data_referencia = datetime(2022, 12, 31)
df['idade'] = df['data_nascimento'].apply(lambda x: data_referencia.year - x.year - ((data_referencia.month, data_referencia.day) < (x.month, x.day)))

# Exibindo as primeiras linhas para verificar a nova coluna
print(df[['data_nascimento', 'idade']].head())

  data_nascimento  idade
0      2003-02-07     19
1      1996-07-03     26
2      2004-05-19     18
3      2002-01-12     20
4      1999-01-09     23


In [85]:
# Calculando a idade dos candidatos com base na data de referência (31 de dezembro de 2022)
data_referencia = datetime(2022, 12, 31)
df['idade'] = df['data_nascimento'].apply(lambda x: data_referencia.year - x.year - ((data_referencia.month, data_referencia.day) < (x.month, x.day)))

In [86]:
# Reposicionando a coluna 'idade' logo após 'data_nascimento'
posicao = df.columns.get_loc('data_nascimento') + 1
df.insert(posicao, 'idade', df.pop('idade'))

#### Verificando resultados:

In [87]:
df.head()

Unnamed: 0,data_nascimento,idade,sexo,modalidade_concorrencia,municipio_candidato,uf_candidato,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_corte,nota,nome_curso,universidade,campus,Código Município Completo,Nome_Município
0,2003-02-07,19,Masculino,Ampla Concorrência,Belém,PA,635.8,714.8,693.3,803.2,900.0,770.26,775.0,Engenharia Da Computação,UFPE,Campus Universitário Cidade Do Recife,1501402,Belém
1,1996-07-03,26,Feminino,Egressos De Escolas Públicas Da Rede Federal. ...,Salvador,BA,634.8,677.1,672.9,648.9,880.0,677.24,702.74,Engenharia Da Computação,UPE,Escola Politécnica,2927408,Salvador
2,2004-05-19,18,Masculino,Ampla Concorrência,Teresina,PI,641.5,679.6,682.2,826.3,780.0,721.92,721.92,Engenharia Da Computação,UPE,Escola Politécnica,2211001,Teresina
3,2002-01-12,20,Feminino,Ampla Concorrência,Teresina,PI,697.4,667.5,704.1,823.8,960.0,770.26,798.83,Engenharia Da Computação,UFPE,Campus Universitário Cidade Do Recife,2211001,Teresina
4,1999-01-09,23,Masculino,Ampla Concorrência,Teresina,PI,630.5,651.6,677.6,797.2,940.0,770.26,770.61,Engenharia Da Computação,UFPE,Campus Universitário Cidade Do Recife,2211001,Teresina


#### Remoção de colunas:
Removi as colunas **`'Código Município Completo'`** e **`'Nome_Município'`** obtidas através da mesclagem entre a tabela de municípios e o dataframe original.

In [88]:
# Removendo colunas 'Código Município Completo' e 'Nome_Município'
df = df.drop(columns=['Código Município Completo', 'Nome_Município'])

#### Verificando resultados:

In [89]:
df.head()

Unnamed: 0,data_nascimento,idade,sexo,modalidade_concorrencia,municipio_candidato,uf_candidato,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_corte,nota,nome_curso,universidade,campus
0,2003-02-07,19,Masculino,Ampla Concorrência,Belém,PA,635.8,714.8,693.3,803.2,900.0,770.26,775.0,Engenharia Da Computação,UFPE,Campus Universitário Cidade Do Recife
1,1996-07-03,26,Feminino,Egressos De Escolas Públicas Da Rede Federal. ...,Salvador,BA,634.8,677.1,672.9,648.9,880.0,677.24,702.74,Engenharia Da Computação,UPE,Escola Politécnica
2,2004-05-19,18,Masculino,Ampla Concorrência,Teresina,PI,641.5,679.6,682.2,826.3,780.0,721.92,721.92,Engenharia Da Computação,UPE,Escola Politécnica
3,2002-01-12,20,Feminino,Ampla Concorrência,Teresina,PI,697.4,667.5,704.1,823.8,960.0,770.26,798.83,Engenharia Da Computação,UFPE,Campus Universitário Cidade Do Recife
4,1999-01-09,23,Masculino,Ampla Concorrência,Teresina,PI,630.5,651.6,677.6,797.2,940.0,770.26,770.61,Engenharia Da Computação,UFPE,Campus Universitário Cidade Do Recife


  ### 6 - Exportação do Conjunto de Dados Limpo:
Após a limpeza, o DataFrame final foi salvo em um arquivo CSV chamado **`'dataframe_sisu_limpo.csv'`**, pronto para as etapas de análise exploratória e estatística.

In [90]:
# Salvar o DataFrame limpo em um arquivo CSV
df.to_csv('dataframe_sisu_limpo.csv', index=False)