## Limpeza de Dados


### Sobre o Conjunto de Dados:

#### sexo
Descrição: Sexo declarado pelo candidato.
Tipo: Categórico.
#### modalidade_concorrencia
Descrição: Modalidade de concorrência escolhida pelo candidato (ex.: ampla concorrência, cotas, etc.).
Tipo: Categórico.
#### sigla_uf_candidato
Descrição: Unidade Federativa (UF) de residência do candidato.
Tipo: Texto.
#### id_municipio_candidato
Descrição: Identificador único do município de residência do candidato.
Tipo: Numérico.
#### data_nascimento
Descrição: Data de nascimento do candidato.
Tipo: Data.
#### status_aprovado
Descrição: Indica se o candidato foi aprovado no curso.
Tipo: Booleano (True/False).
#### nome_curso
Descrição: Nome do curso para o qual o candidato concorreu (neste caso, sempre "Ciência da Computação").
Tipo: Texto.
#### sigla_ies
Descrição: Sigla da Instituição de Ensino Superior (IES) para a qual o candidato foi aprovado.
Tipo: Texto.
#### campus
Descrição: Nome do campus da universidade onde o curso é ofertado.
Tipo: Texto.


### Resumo:

Durante o processo de limpeza do DataFrame, comecei analisando a estrutura geral dos dados para entender seu formato e identificar possíveis inconsistências. Inspecionei o conjunto de dados em busca de valores nulos, duplicados e inconsistências nas colunas mais relevantes. Removi duplicatas que poderiam distorcer os resultados e converti os tipos de dados para formatos mais adequados, como datas e categorias. Além disso, adicionei uma nova coluna para calcular a idade dos candidatos com base em suas datas de nascimento, o que permitiu enriquecer as análises subsequentes. Ao final desse processo, garanti que o DataFrame estivesse limpo e consistente, pronto para as etapas de análise exploratória e estatística.

### Importação dos Dados:

In [92]:
# Importação da bibliteca Pandas para manipulação de dados
import pandas as pd

In [93]:
# Formatando saída de dados
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [94]:
# Importação de dados
df = pd.read_csv('dataframe_sisu.csv')

### Compreendendo o Conjunto de Dados:

In [95]:
# Visualizando forma do dataset em número de linhas e colunas
df.shape

(1834, 10)

In [96]:
# Visualizando cabeçalho do conjunto de dados
df.head()

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,id_municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,campus
0,803.65,M,Ampla concorrência,SE,2800308.0,2003-10-26,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
1,683.61,M,Candidatos autodeclarados pretos. pardos ou in...,SE,2800308.0,2002-01-15,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
2,712.4,M,Candidatos autodeclarados pretos. pardos ou in...,GO,5201405.0,2002-05-02,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
3,699.37,M,Candidatos autodeclarados pretos. pardos ou in...,PA,1501402.0,2000-01-10,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife
4,652.58,M,Ampla concorrência,PA,1500800.0,2000-11-16,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife


In [97]:
# Informações gerais sobre os dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1834 entries, 0 to 1833
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nota_candidato           1834 non-null   float64
 1   sexo                     1834 non-null   object 
 2   modalidade_concorrencia  1834 non-null   object 
 3   sigla_uf_candidato       1833 non-null   object 
 4   id_municipio_candidato   1833 non-null   float64
 5   data_nascimento          1834 non-null   object 
 6   status_aprovado          1834 non-null   bool   
 7   nome_curso               1834 non-null   object 
 8   sigla_ies                1834 non-null   object 
 9   campus                   1834 non-null   object 
dtypes: bool(1), float64(2), object(7)
memory usage: 130.9+ KB


### Limpeza de Dados:

In [98]:
# Verificação de dados duplicados
duplicatas = df.duplicated().sum()
print('O conjunto de dados possui', duplicatas, 'linhas duplicadas.')

O conjunto de dados possui 0 linhas duplicadas.


In [99]:
# Verificando valores nulos
df.isnull().sum()

nota_candidato             0
sexo                       0
modalidade_concorrencia    0
sigla_uf_candidato         1
id_municipio_candidato     1
data_nascimento            0
status_aprovado            0
nome_curso                 0
sigla_ies                  0
campus                     0
dtype: int64

In [100]:
# Visualizando linha com valores nulos

# Selecionando linhas com valores nulos
linhas_nulas = df[df.isnull().any(axis=1)]

# Linhas distintas com nulos (se houver duplicatas)
linhas_distintas_nulas = linhas_nulas.drop_duplicates()

In [101]:
linhas_distintas_nulas

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,id_municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,campus
836,699.48,M,Candidatos autodeclarados pretos. pardos ou in...,,,1999-07-09,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,Campus Universitário Cidade do Recife


Neste caso, por se tratar de apenas uma linha, optei por remover a linha com valores nulos, uma vez que tal medida não afetaria de forma drástica os resultados.

In [102]:
# Removendo linha 836
df.drop(836, inplace=True)

In [103]:
# Verificando remoção
df.isnull().sum()

nota_candidato             0
sexo                       0
modalidade_concorrencia    0
sigla_uf_candidato         0
id_municipio_candidato     0
data_nascimento            0
status_aprovado            0
nome_curso                 0
sigla_ies                  0
campus                     0
dtype: int64

Valores nulos removidos com sucesso das colunas `'sigla_uf_candidato'` e `'id_municipio_candidato'`

### Normalizando colunas de texto:

Garanti que as colunas de texto, como `'campus'`, `'modalidade_concorrencia'` e `'nome_curso'`, estejam padronizadas (letras maiúsculas/minúsculas, sem espaços extras).

In [111]:
df['campus'] = df['campus'].str.strip().str.title()

In [112]:
df['modalidade_concorrencia'] = df['modalidade_concorrencia'].str.strip().str.title()

In [113]:
df['nome_curso'] = df['nome_curso'].str.strip().str.title()

In [114]:
df['sigla_ies'] = df['sigla_ies'].str.strip().str.upper()

In [115]:
df['sigla_uf_candidato'] = df['sigla_uf_candidato'].str.strip().str.upper()

#### Verificando resultados:

In [116]:
# Visualizando as primeiras 5 linhas do dataframe
df.head(5)

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,id_municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,campus
0,803.65,M,Ampla Concorrência,SE,2800308.0,2003-10-26,True,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
1,683.61,M,Candidatos Autodeclarados Pretos. Pardos Ou In...,SE,2800308.0,2002-01-15,True,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
2,712.4,M,Candidatos Autodeclarados Pretos. Pardos Ou In...,GO,5201405.0,2002-05-02,True,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
3,699.37,M,Candidatos Autodeclarados Pretos. Pardos Ou In...,PA,1501402.0,2000-01-10,True,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
4,652.58,M,Ampla Concorrência,PA,1500800.0,2000-11-16,True,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife


### Convertendo tipos de dados:

Podemos realizar a conversão dos tipos de dados necessários apenas após o tratamento dos valores ausentes. Isso ocorre porque, ao tentar converter esses valores para o tipo `int`, o Python lança um erro, já que o tipo inteiro não é capaz de representar valores indefinidos ou infinitos, o que resulta em falhas na conversão.  

Dessa forma, identifiquei que a coluna `'id_municipio_candidato'` estava no tipo `float`. Para evitar possíveis inconsistências nos dados durante a futura substituição de valores, optei por converter a coluna de ID para o tipo inteiro.

In [121]:
# Convertendo coluna tipo de dados da 'id_municipio_candidato' de float para int
df['id_municipio_candidato'] = df['id_municipio_candidato'].astype(int)

#### Verificando resultados:

In [122]:
# Visualizando as primeiras 5 linhas do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1833 entries, 0 to 1833
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nota_candidato           1833 non-null   float64
 1   sexo                     1833 non-null   object 
 2   modalidade_concorrencia  1833 non-null   object 
 3   sigla_uf_candidato       1833 non-null   object 
 4   id_municipio_candidato   1833 non-null   int32  
 5   data_nascimento          1833 non-null   object 
 6   status_aprovado          1833 non-null   bool   
 7   nome_curso               1833 non-null   object 
 8   sigla_ies                1833 non-null   object 
 9   campus                   1833 non-null   object 
dtypes: bool(1), float64(1), int32(1), object(7)
memory usage: 137.8+ KB


### Substituição de dados:
Garanti a padronização dos dados categóricos, como `'sexo'` e `'status_aprovado'`, essenciais nos próximos passos das análises.

In [129]:
# Substituindo o valor True por Aprovado na coluna 'status_aprovado'
df['status_aprovado'] = df['status_aprovado'].replace(True, 'Aprovado')

In [130]:
# Substituindo 'M' por 'Masculino' na coluna 'sexo'
df['sexo'] = df['sexo'].replace('M', 'Masculino')

In [131]:
# Substituindo 'F' por 'Feminino' na coluna 'sexo'
df['sexo'] = df['sexo'].replace('F', 'Feminino')

#### Verificando resultados:

In [132]:
# Visualizando as primeiras 5 linhas do dataframe
df.head(5)

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,id_municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,campus
0,803.65,Masculino,Ampla Concorrência,SE,2800308,2003-10-26,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
1,683.61,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,SE,2800308,2002-01-15,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
2,712.4,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,GO,5201405,2002-05-02,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
3,699.37,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,PA,1501402,2000-01-10,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
4,652.58,Masculino,Ampla Concorrência,PA,1500800,2000-11-16,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife


#### Importando tabela de códigos de município do IBGE:

In [133]:
# Carregando o DataFrame com os dados dos municípios do IBGE em Excel
df_municipios = pd.read_excel('codigos_municipios_ibge.xlsx', usecols=['Código Município Completo', 'Nome_Município'])

In [136]:
# Visualizando as primeiras 5 linhas da tabela de municípios
df_municipios.head(5)

Unnamed: 0,Código Município Completo,Nome_Município
0,1100015,Alta Floresta D'Oeste
1,1100379,Alto Alegre dos Parecis
2,1100403,Alto Paraíso
3,1100346,Alvorada D'Oeste
4,1100023,Ariquemes


#### Substituindo ids do município dos candidatos pelo nome do município:

In [137]:
# Realizando a mesclagem dos DataFrames com base na coluna de IDs
df_com_nomes = df.merge(df_municipios, left_on='id_municipio_candidato', right_on='Código Município Completo', how='left')

In [138]:
# Substituindo a coluna de ID pelo nome do município
df_com_nomes['id_municipio_candidato'] = df_com_nomes['Nome_Município']

In [139]:
# Renomeando coluna 'id_municipio_candidato' para 'municipio_candidato'
df_com_nomes = df_com_nomes.rename(columns={'id_municipio_candidato': 'municipio_candidato'})

In [149]:
# Verificando resultados
df_com_nomes.head()

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,campus,Código Município Completo,Nome_Município
0,803.65,Masculino,Ampla Concorrência,SE,Aracaju,2003-10-26,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,2800308,Aracaju
1,683.61,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,SE,Aracaju,2002-01-15,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,2800308,Aracaju
2,712.4,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,GO,Aparecida de Goiânia,2002-05-02,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,5201405,Aparecida de Goiânia
3,699.37,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,PA,Belém,2000-01-10,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,1501402,Belém
4,652.58,Masculino,Ampla Concorrência,PA,Ananindeua,2000-11-16,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife,1500800,Ananindeua


### Remoção de colunas:
Removi as colunas `'Código Município Completo'` e `'Nome_Município'` obtidas através da mesclagem entre a tabela de municípios e o dataframe original.

In [154]:
# Removendo colunas 'Código Município Completo' e 'Nome_Município'
df_limpo = df_com_nomes.drop(columns=['Código Município Completo', 'Nome_Município'])

In [155]:
# Visualizando as primeiras 5 linhas da tabela de municípios 
df_limpo.head(5)

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,campus
0,803.65,Masculino,Ampla Concorrência,SE,Aracaju,2003-10-26,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
1,683.61,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,SE,Aracaju,2002-01-15,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
2,712.4,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,GO,Aparecida de Goiânia,2002-05-02,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
3,699.37,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,PA,Belém,2000-01-10,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
4,652.58,Masculino,Ampla Concorrência,PA,Ananindeua,2000-11-16,Aprovado,Ciência Da Computação,UFPE,Campus Universitário Cidade Do Recife
