# Limpeza de Dados


### Descrição do Conjunto de Dados

O conjunto de dados utilizado nesta análise contém informações detalhadas sobre os candidatos aprovados em um processo seletivo do SISU (Sistema de Seleção Unificada). Ele abrange 418 registros, cada um representando um candidato, com as seguintes variáveis:

1. **universidade** 
(*object*): Nome da universidade para a qual o candidato foi aprovado.  
2. **campus** 
(*object*): Identificação do campus associado à universidade.  
3. **nota_linguagens** (*float64*): Nota obtida na prova de Linguagens, Códigos e suas Tecnologias.  
4. **nota_ciencias_humanas** (*float64*): Nota obtida na prova de Ciências Humanas e suas Tecnologias.  
5. **nota_ciencias_natureza** (*float64*): Nota obtida na prova de Ciências da Natureza e suas Tecnologias.  
6. **nota_matematica** (*float64*): Nota obtida na prova de Matemática e suas Tecnologias.  
7. **nota_redacao** (*float64*): Nota obtida na redação.  
8. **nota_final** (*float64*): Média final do candidato, considerando os pesos das notas conforme os critérios do SISU.  
9. **sexo** (*object*): Gênero do candidato (masculino ou feminino).  
10. **data_nascimento** (*object*): Data de nascimento do candidato.  
11. **uf_candidato** (*object*): Unidade federativa de residência do candidato.  
12. **modalidade_concorrencia** (*object*): Categoria de concorrência na qual o candidato participou (ex.: ampla concorrência, cotas). 

### 1 - Importação de Dados:
Comecei importando as bibliotecas necessárias, como Pandas e Datetime, e configurei as opções de exibição do pandas para facilitar a visualização dos dados. Em seguida, carreguei o arquivo inicial, criando o DataFrame com os registros originais.

In [89]:
# Importação da bibliteca Pandas para manipulação de dados
import pandas as pd

# Importação da bibliteca Datetime para manipulação de datas
from datetime import datetime

In [90]:
# Formatando saída de dados
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [91]:
# Importação de dados
df = pd.read_csv('dataframe_sisu.csv')

### 2 - Verificação do Consumo de Memória do Conjunto de Dados:
Ao analisar o consumo de memória do dataset em gigabytes, identifiquei que as variáveis categóricas do tipo object representavam os maiores consumidores de memória. Em especial, as colunas **`'modalidade_concorrencia'`**, **`'campus'`** e **`'nome_curso'`**, juntas, utilizavam mais de 5 gigabytes de RAM. Com base nessa análise, direcionei os próximos passos do processo de compreensão e limpeza de dados para otimizar o uso de memória de forma eficiente.

In [92]:
# Avaliando o consumo de memória RAM em bytes da máquina para cada variávels do conjunto de dados
RAM = df.memory_usage(deep = True)
# Resultados ordenados
RAM_sorted = RAM.sort_values(ascending=False)
print(RAM_sorted)

modalidade_concorrencia    81910
data_nascimento            28006
universidade               25294
uf_candidato               24662
sexo                       24244
nota_linguagens             3344
nota_ciencias_humanas       3344
nota_ciencias_natureza      3344
nota_matematica             3344
nota_redacao                3344
nota_final                  3344
id_municipio_candidato      3344
Index                        128
dtype: int64


In [93]:
# Consumo total em Bytes
RAM.sum()

207652

In [94]:
# Convertendo bytes para GigaBytes
RAM_GB = RAM.sum() / (1024 ** 3)
RAM_GB

0.00019339099526405334

In [95]:
# Consumo de memória por variável em porcentagem
RAM_sorted / RAM.sum() * 100

modalidade_concorrencia   39.45
data_nascimento           13.49
universidade              12.18
uf_candidato              11.88
sexo                      11.68
nota_linguagens            1.61
nota_ciencias_humanas      1.61
nota_ciencias_natureza     1.61
nota_matematica            1.61
nota_redacao               1.61
nota_final                 1.61
id_municipio_candidato     1.61
Index                      0.06
dtype: float64

### 3 - Compreendendo o Conjunto de Dados:

#### Estrutura do Conjunto de Dados:
O dataset analisado é composto por 138 linhas e 15 colunas, distribuídas entre diferentes tipos de variáveis:  
- 7 variáveis do tipo flutuante **(float)** 
- 7 variáveis do tipo objeto **(string ou categóricas)**
- 1 variável do tipo inteiro **(int)**

#### Análise de Valores Nulos e Duplicidades:
Uma avaliação preliminar revelou que o conjunto de dados não apresenta valores nulos ou registros duplicados. Essa qualidade garante maior consistência e confiabilidade para as análises subsequentes.

In [96]:
# Visualizando forma do dataset em número de linhas e colunas
sp = df.shape
print(f"O conjunto de dados possui {sp[0]} linhas e {sp[1]} colunas.")

O conjunto de dados possui 418 linhas e 12 colunas.


In [97]:
# Visualizando cabeçalho do conjunto de dados
df.head()

Unnamed: 0,universidade,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,uf_candidato,id_municipio_candidato,modalidade_concorrencia
0,UFPE,588.5,648.6,547.1,651.0,820.0,657.53,M,2004-12-26,TO,1701002,Candidatos autodeclarados pretos. pardos ou in...
1,UPE,560.5,551.3,476.5,410.1,580.0,515.68,F,2001-06-01,SP,3550308,egressos de escolas públicas da rede federal. ...
2,UPE,496.6,355.7,573.4,745.7,720.0,578.28,M,2002-10-19,SP,3547809,Ampla concorrência
3,UFPE,506.9,579.5,512.6,623.2,580.0,576.44,M,2003-01-21,SP,3509502,Candidatos com renda familiar bruta per capita...
4,UFPE,592.9,606.6,553.4,689.7,560.0,618.51,M,1997-08-05,MG,3131307,Ampla concorrência


In [98]:
# Informações gerais sobre os dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   universidade             418 non-null    object 
 1   nota_linguagens          418 non-null    float64
 2   nota_ciencias_humanas    418 non-null    float64
 3   nota_ciencias_natureza   418 non-null    float64
 4   nota_matematica          418 non-null    float64
 5   nota_redacao             418 non-null    float64
 6   nota_final               418 non-null    float64
 7   sexo                     418 non-null    object 
 8   data_nascimento          418 non-null    object 
 9   uf_candidato             418 non-null    object 
 10  id_municipio_candidato   418 non-null    int64  
 11  modalidade_concorrencia  418 non-null    object 
dtypes: float64(6), int64(1), object(5)
memory usage: 39.3+ KB


In [99]:
# Verificação de dados duplicados
duplicatas = df.duplicated().sum()
print('O conjunto de dados possui', duplicatas, 'linhas duplicadas.')

O conjunto de dados possui 0 linhas duplicadas.


In [100]:
# Verificando valores nulos
df.isnull().sum()

universidade               0
nota_linguagens            0
nota_ciencias_humanas      0
nota_ciencias_natureza     0
nota_matematica            0
nota_redacao               0
nota_final                 0
sexo                       0
data_nascimento            0
uf_candidato               0
id_municipio_candidato     0
modalidade_concorrencia    0
dtype: int64

In [101]:
# Visualizando possíveis linhas com valores nulos

# Selecionando linhas com valores nulos
linhas_nulas = df[df.isnull().any(axis=1)]

# Linhas distintas com nulos (se houver duplicatas)
linhas_distintas_nulas = linhas_nulas.drop_duplicates()

In [102]:
linhas_distintas_nulas

Unnamed: 0,universidade,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,uf_candidato,id_municipio_candidato,modalidade_concorrencia


### 4 - Conversão dos tipos de dados e Otimização de Memória:

Após o tratamento de valores faltantes, objetivando facilitar as futuras análises e otimizar memória e capacidade de processamento da máquina local, identifiquei que as colunas categóricas e a quantitativa contínua, como **`'data_nascimento'`**, poderiam ter seus tipos de dados convertidos.

**Observação:** Podemos realizar a conversão dos tipos de dados necessários apenas após a compreensão do dataset. Isso ocorre porque, ao tentar converter esses valores para o tipo inteiro, o Python lança um erro, já que o tipo inteiro não é capaz de representar valores indefinidos ou infinitos, o que resulta em falhas na conversão.  

#### Colunas categóricas:

In [103]:
# Convertendo a coluna 'sexo' para o tipo category
df['sexo'] = df['sexo'].astype('category')

In [104]:
# Convertendo a coluna 'modalidade_concorrencia' para o tipo category
df['modalidade_concorrencia'] = df['modalidade_concorrencia'].astype('category')

In [105]:
# Convertendo a coluna 'uf_candidato' para o tipo category
df['uf_candidato'] = df['uf_candidato'].astype('category')

In [106]:
# Convertendo a coluna 'universidade' para o tipo category
df['universidade'] = df['universidade'].astype('category')

In [107]:
# Convertendo a coluna 'id_municipio_candidato' para o tipo category
df['id_municipio_candidato'] = df['id_municipio_candidato'].astype('category')

#### Coluna de data de nascimento:

In [108]:
# Convertendo a coluna 'data_nascimento' para o formato datetime
df['data_nascimento'] = pd.to_datetime(df['data_nascimento'])

#### Verificando resultados:

#### Economia: Memória otimizada em 8,10 KB

In [109]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   universidade             418 non-null    category      
 1   nota_linguagens          418 non-null    float64       
 2   nota_ciencias_humanas    418 non-null    float64       
 3   nota_ciencias_natureza   418 non-null    float64       
 4   nota_matematica          418 non-null    float64       
 5   nota_redacao             418 non-null    float64       
 6   nota_final               418 non-null    float64       
 7   sexo                     418 non-null    category      
 8   data_nascimento          418 non-null    datetime64[ns]
 9   uf_candidato             418 non-null    category      
 10  id_municipio_candidato   418 non-null    category      
 11  modalidade_concorrencia  418 non-null    category      
dtypes: category(5), datetime64[ns](1), f

In [110]:
df.head()

Unnamed: 0,universidade,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,uf_candidato,id_municipio_candidato,modalidade_concorrencia
0,UFPE,588.5,648.6,547.1,651.0,820.0,657.53,M,2004-12-26,TO,1701002,Candidatos autodeclarados pretos. pardos ou in...
1,UPE,560.5,551.3,476.5,410.1,580.0,515.68,F,2001-06-01,SP,3550308,egressos de escolas públicas da rede federal. ...
2,UPE,496.6,355.7,573.4,745.7,720.0,578.28,M,2002-10-19,SP,3547809,Ampla concorrência
3,UFPE,506.9,579.5,512.6,623.2,580.0,576.44,M,2003-01-21,SP,3509502,Candidatos com renda familiar bruta per capita...
4,UFPE,592.9,606.6,553.4,689.7,560.0,618.51,M,1997-08-05,MG,3131307,Ampla concorrência


### 5 - Limpeza de Dados:

Substituí os IDs dos municípios pelos nomes correspondentes, utilizando dados do IBGE, e padronizei valores textuais em colunas como **`'nome_curso'`**, **`'modalidade_concorrencia'`** e **`'campus'`**, removendo espaços extras e uniformizando o formato. Adicionei também uma nova coluna, idade, calculada a partir da data de nascimento, posicionando-a logo após a coluna data_nascimento.

#### Importando tabela de códigos de município do IBGE:

In [111]:
# Carregando o DataFrame com os dados dos municípios do IBGE em Excel
df_municipios = pd.read_excel('codigos_municipios_ibge.xlsx', usecols=['Código Município Completo', 'Nome_Município'])

In [112]:
# Visualizando a tabela de municípios
df_municipios.head()

Unnamed: 0,Código Município Completo,Nome_Município
0,1100015,Alta Floresta D'Oeste
1,1100379,Alto Alegre dos Parecis
2,1100403,Alto Paraíso
3,1100346,Alvorada D'Oeste
4,1100023,Ariquemes


#### Substituindo ids do município dos candidatos pelo nome do município:

In [113]:
# Realizando a mesclagem dos DataFrames com base na coluna de IDs
df_com_nomes = df.merge(df_municipios, left_on='id_municipio_candidato', right_on='Código Município Completo', how='left')

In [114]:
# Substituindo a coluna de ID pelo nome do município
df_com_nomes['id_municipio_candidato'] = df_com_nomes['Nome_Município']

In [115]:
# Renomeando coluna 'id_municipio_candidato' para 'municipio_candidato'
df_com_nomes = df_com_nomes.rename(columns={'id_municipio_candidato': 'municipio_candidato'})

#### Verificando resultados:

In [116]:
df_com_nomes.head()

Unnamed: 0,universidade,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,uf_candidato,municipio_candidato,modalidade_concorrencia,Código Município Completo,Nome_Município
0,UFPE,588.5,648.6,547.1,651.0,820.0,657.53,M,2004-12-26,TO,Ananás,Candidatos autodeclarados pretos. pardos ou in...,1701002,Ananás
1,UPE,560.5,551.3,476.5,410.1,580.0,515.68,F,2001-06-01,SP,São Paulo,egressos de escolas públicas da rede federal. ...,3550308,São Paulo
2,UPE,496.6,355.7,573.4,745.7,720.0,578.28,M,2002-10-19,SP,Santo André,Ampla concorrência,3547809,Santo André
3,UFPE,506.9,579.5,512.6,623.2,580.0,576.44,M,2003-01-21,SP,Campinas,Candidatos com renda familiar bruta per capita...,3509502,Campinas
4,UFPE,592.9,606.6,553.4,689.7,560.0,618.51,M,1997-08-05,MG,Ipatinga,Ampla concorrência,3131307,Ipatinga


#### Limpeza e padronização de variáveis categóricas:

In [117]:
# Substituindo 'M' por 'Masculino' na coluna 'sexo'
df_com_nomes['sexo'] = df_com_nomes['sexo'].replace('M', 'Masculino')

In [118]:
# Substituindo 'F' por 'Feminino' na coluna 'sexo'
df_com_nomes['sexo'] = df_com_nomes['sexo'].replace('F', 'Feminino')

In [119]:
# Alterando letras maiúsculas e minúsculas e removendo espaços em brancos nas extremidades
df_com_nomes['modalidade_concorrencia'] = df_com_nomes['modalidade_concorrencia'].str.strip().str.title()

In [120]:
# Padronizando nomenclatura das modalidades de concorrência

# Dicionário para mapeamento
mapa_modalidade = {
    "Ampla Concorrência": "Ampla Concorrência",
    "Egressos De Escolas Públicas Da Rede Federal. Estadual Ou Municipal. Que Cursaram Os Anos Finais Do Ensino Fundamental (6º Ao 9º Anos) E Todo O Ensino Médio (1º Ao 3º Anos). Com Renda Familiar Bruta Per Capita Igual Ou Inferior A 1.5 Salário Mínimo. Devendo Essa Condição Ser Comprovada No Ato Da Matrícula.": "Cota - Escola Pública, Renda ≤ 1.5 SM",
    "Egressos De Escolas Públicas Da Rede Federal. Estadual Ou Municipal. Que Cursaram Os Anos Finais Do Ensino Fundamental (6º Ao 9º Anos) E Todo O Ensino Médio (1º Ao 3º Anos). Com Qualquer Renda Renda Per Capita Bruta. Devendo Essa Condição Ser Comprovada No Ato Da Matrícula.": "Cota - Escola Pública, Qualquer Renda",
    "Candidatos Autodeclarados Pretos. Pardos Ou Indígenas. Com Renda Familiar Bruta Per Capita Igual Ou Inferior A 1.5 Salário Mínimo E Que Tenham Cursado Integralmente O Ensino Médio Em Escolas Públicas (Lei Nº 12.711/2012).": "Cota - PPI, Escola Pública, Renda ≤ 1.5 SM",
    "Candidatos Autodeclarados Pretos. Pardos Ou Indígenas Que. Independentemente Da Renda (Art. 14. Ii. Portaria Normativa Nº 18/2012). Tenham Cursado Integralmente O Ensino Médio Em Escolas Públicas (Lei Nº 12.711/2012).": "Cota - PPI, Escola Pública, Qualquer Renda",
    "Candidatos Com Renda Familiar Bruta Per Capita Igual Ou Inferior A 1.5 Salário Mínimo Que Tenham Cursado Integralmente O Ensino Médio Em Escolas Públicas (Lei Nº 12.711/2012).": "Cota - Escola Pública, Renda ≤ 1.5 SM",
    "Candidatos Que. Independentemente Da Renda (Art. 14. Ii. Portaria Normativa Nº 18/2012). Tenham Cursado Integralmente O Ensino Médio Em Escolas Públicas (Lei Nº 12.711/2012).": "Cota - Escola Pública, Qualquer Renda",
    "Candidatos Com Deficiência Autodeclarados Pretos. Pardos Ou Indígenas Que. Independentemente Da Renda (Art. 14. Ii. Portaria Normativa Nº 18/2012). Tenham Cursado Integralmente O Ensino Médio Em Escolas Públicas (Lei Nº 12.711/2012).": "Cota - Deficiência, PPI, Escola Pública, Qualquer Renda",
    "Candidatos Com Deficiência Que Tenham Renda Familiar Bruta Per Capita Igual Ou Inferior A 1.5 Salário Mínimo E Que Tenham Cursado Integralmente O Ensino Médio Em Escolas Públicas (Lei Nº 12.711/2012).": "Cota - Deficiência, Escola Pública, Renda ≤ 1.5 SM",
}

# Aplicando a padronização no DataFrame
df_com_nomes['modalidade_concorrencia'] = df_com_nomes['modalidade_concorrencia'].replace(mapa_modalidade)


In [122]:
# Alterando letras maiúsculas e minúsculas e removendo espaços em brancos nas extremidades
df_com_nomes['uf_candidato'] = df_com_nomes['uf_candidato'].str.strip().str.upper()

#### Renomeando o conjunto de dados:

In [123]:
df = df_com_nomes.copy()

#### Criando coluna de idade

In [124]:
# Calculando a idade dos candidatos com base na data de referência (31 de dezembro de 2022)
data_referencia = datetime(2022, 12, 31)
df['idade'] = df['data_nascimento'].apply(lambda x: data_referencia.year - x.year - ((data_referencia.month, data_referencia.day) < (x.month, x.day)))

# Exibindo as primeiras linhas para verificar a nova coluna
print(df[['data_nascimento', 'idade']].head())

  data_nascimento  idade
0      2004-12-26     18
1      2001-06-01     21
2      2002-10-19     20
3      2003-01-21     19
4      1997-08-05     25


In [125]:
# Calculando a idade dos candidatos com base na data de referência (31 de dezembro de 2022)
data_referencia = datetime(2022, 12, 31)
df['idade'] = df['data_nascimento'].apply(lambda x: data_referencia.year - x.year - ((data_referencia.month, data_referencia.day) < (x.month, x.day)))

In [126]:
# Reposicionando a coluna 'idade' logo após 'data_nascimento'
posicao = df.columns.get_loc('data_nascimento') + 1
df.insert(posicao, 'idade', df.pop('idade'))

#### Verificando resultados:

In [127]:
df.head()

Unnamed: 0,universidade,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,idade,uf_candidato,municipio_candidato,modalidade_concorrencia,Código Município Completo,Nome_Município
0,UFPE,588.5,648.6,547.1,651.0,820.0,657.53,Masculino,2004-12-26,18,TO,Ananás,"Cota - PPI, Escola Pública, Renda ≤ 1.5 SM",1701002,Ananás
1,UPE,560.5,551.3,476.5,410.1,580.0,515.68,Feminino,2001-06-01,21,SP,São Paulo,"Cota - Escola Pública, Renda ≤ 1.5 SM",3550308,São Paulo
2,UPE,496.6,355.7,573.4,745.7,720.0,578.28,Masculino,2002-10-19,20,SP,Santo André,Ampla Concorrência,3547809,Santo André
3,UFPE,506.9,579.5,512.6,623.2,580.0,576.44,Masculino,2003-01-21,19,SP,Campinas,"Cota - Escola Pública, Renda ≤ 1.5 SM",3509502,Campinas
4,UFPE,592.9,606.6,553.4,689.7,560.0,618.51,Masculino,1997-08-05,25,MG,Ipatinga,Ampla Concorrência,3131307,Ipatinga


#### Remoção de colunas:
Removi as colunas **`'Código Município Completo'`** e **`'Nome_Município'`** obtidas através da mesclagem entre a tabela de municípios e o dataframe original.

In [128]:
# Removendo colunas 'Código Município Completo' e 'Nome_Município'
df = df.drop(columns=['Código Município Completo', 'Nome_Município'])

#### Verificando resultados:

In [129]:
df.head()

Unnamed: 0,universidade,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,idade,uf_candidato,municipio_candidato,modalidade_concorrencia
0,UFPE,588.5,648.6,547.1,651.0,820.0,657.53,Masculino,2004-12-26,18,TO,Ananás,"Cota - PPI, Escola Pública, Renda ≤ 1.5 SM"
1,UPE,560.5,551.3,476.5,410.1,580.0,515.68,Feminino,2001-06-01,21,SP,São Paulo,"Cota - Escola Pública, Renda ≤ 1.5 SM"
2,UPE,496.6,355.7,573.4,745.7,720.0,578.28,Masculino,2002-10-19,20,SP,Santo André,Ampla Concorrência
3,UFPE,506.9,579.5,512.6,623.2,580.0,576.44,Masculino,2003-01-21,19,SP,Campinas,"Cota - Escola Pública, Renda ≤ 1.5 SM"
4,UFPE,592.9,606.6,553.4,689.7,560.0,618.51,Masculino,1997-08-05,25,MG,Ipatinga,Ampla Concorrência


  ### 6 - Exportação do Conjunto de Dados Limpo:
Após a limpeza, o DataFrame final foi salvo em um arquivo CSV chamado **`'dataframe_sisu_limpo.csv'`**, pronto para as etapas de análise exploratória e estatística.

In [130]:
# Salvar o DataFrame limpo em um arquivo CSV
df.to_csv('dataframe_sisu_limpo.csv', index=False)

In [131]:
df_limpo = pd.read_csv("dataframe_sisu_limpo.csv")

In [132]:
df_limpo.head()

Unnamed: 0,universidade,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,idade,uf_candidato,municipio_candidato,modalidade_concorrencia
0,UFPE,588.5,648.6,547.1,651.0,820.0,657.53,Masculino,2004-12-26,18,TO,Ananás,"Cota - PPI, Escola Pública, Renda ≤ 1.5 SM"
1,UPE,560.5,551.3,476.5,410.1,580.0,515.68,Feminino,2001-06-01,21,SP,São Paulo,"Cota - Escola Pública, Renda ≤ 1.5 SM"
2,UPE,496.6,355.7,573.4,745.7,720.0,578.28,Masculino,2002-10-19,20,SP,Santo André,Ampla Concorrência
3,UFPE,506.9,579.5,512.6,623.2,580.0,576.44,Masculino,2003-01-21,19,SP,Campinas,"Cota - Escola Pública, Renda ≤ 1.5 SM"
4,UFPE,592.9,606.6,553.4,689.7,560.0,618.51,Masculino,1997-08-05,25,MG,Ipatinga,Ampla Concorrência
