## Limpeza de Dados


### Sobre o Conjunto de Dados:

#### sexo
Descrição: Sexo declarado pelo candidato.
Tipo: Categórico.
#### modalidade_concorrencia
Descrição: Modalidade de concorrência escolhida pelo candidato (ex.: ampla concorrência, cotas, etc.).
Tipo: Categórico.
#### sigla_uf_candidato
Descrição: Unidade Federativa (UF) de residência do candidato.
Tipo: Texto.
#### id_municipio_candidato
Descrição: Identificador único do município de residência do candidato.
Tipo: Numérico.
#### data_nascimento
Descrição: Data de nascimento do candidato.
Tipo: Data.
#### status_aprovado
Descrição: Indica se o candidato foi aprovado no curso.
Tipo: Booleano (True/False).
#### nome_curso
Descrição: Nome do curso para o qual o candidato concorreu (neste caso, sempre "Ciência da Computação").
Tipo: Texto.
#### sigla_ies
Descrição: Sigla da Instituição de Ensino Superior (IES) para a qual o candidato foi aprovado.
Tipo: Texto.
#### id_municipio_campus
Descrição: Identificador único do município onde o campus da universidade está localizado.
Tipo: Numérico.
#### campus
Descrição: Nome do campus da universidade onde o curso é ofertado.
Tipo: Texto.


### Resumo:

Durante o processo de limpeza do DataFrame, comecei analisando a estrutura geral dos dados para entender seu formato e identificar possíveis inconsistências. Inspecionei o conjunto de dados em busca de valores nulos, duplicados e inconsistências nas colunas mais relevantes. Removi duplicatas que poderiam distorcer os resultados e converti os tipos de dados para formatos mais adequados, como datas e categorias. Além disso, adicionei uma nova coluna para calcular a idade dos candidatos com base em suas datas de nascimento, o que permitiu enriquecer as análises subsequentes. Ao final desse processo, garanti que o DataFrame estivesse limpo e consistente, pronto para as etapas de análise exploratória e estatística.

### Importação dos Dados:

In [49]:
# Importação da bibliteca Pandas para manipulação de dados
import pandas as pd

In [50]:
# Formatando saída de dados
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [51]:
# Importação de dados
df = pd.read_csv('dataframe_sisu.csv')

### Compreendendo o Conjunto de Dados:

In [13]:
# Visualizando forma do dataset em número de linhas e colunas
df.shape

(1834, 11)

In [11]:
# Visualizando cabeçalho do conjunto de dados
df.head()

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,id_municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,id_municipio_campus,campus
0,657.91,M,Candidatos autodeclarados pretos. pardos ou in...,SE,2800308.0,1999-04-08,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,2611606,Campus Universitário Cidade do Recife
1,781.4,M,Ampla concorrência,SE,2800308.0,2002-01-08,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,2611606,Campus Universitário Cidade do Recife
2,786.74,M,Ampla concorrência,BA,2914703.0,2002-04-07,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,2611606,Campus Universitário Cidade do Recife
3,634.92,M,Ampla concorrência,BA,2924009.0,2001-01-29,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,2611606,Campus Universitário Cidade do Recife
4,786.42,M,Ampla concorrência,PI,2211001.0,2002-06-28,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,2611606,Campus Universitário Cidade do Recife


In [14]:
# Informações gerais sobre os dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1834 entries, 0 to 1833
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nota_candidato           1834 non-null   float64
 1   sexo                     1834 non-null   object 
 2   modalidade_concorrencia  1834 non-null   object 
 3   sigla_uf_candidato       1833 non-null   object 
 4   id_municipio_candidato   1833 non-null   float64
 5   data_nascimento          1834 non-null   object 
 6   status_aprovado          1834 non-null   bool   
 7   nome_curso               1834 non-null   object 
 8   sigla_ies                1834 non-null   object 
 9   id_municipio_campus      1834 non-null   int64  
 10  campus                   1834 non-null   object 
dtypes: bool(1), float64(2), int64(1), object(7)
memory usage: 145.2+ KB


### Tratamento de Dados:

In [25]:
# Verificação de dados duplicados
duplicatas = df.duplicated().sum()
print('O conjunto de dados possui', duplicatas, 'linhas duplicadas.')

O conjunto de dados possui 0 linhas duplicadas.


In [52]:
# Verificando valores nulos
df.isnull().sum()

nota_candidato             0
sexo                       0
modalidade_concorrencia    0
sigla_uf_candidato         1
id_municipio_candidato     1
data_nascimento            0
status_aprovado            0
nome_curso                 0
sigla_ies                  0
id_municipio_campus        0
campus                     0
dtype: int64

In [53]:
# Visualizando linha com valores nulos

# Selecionando linhas com valores nulos
linhas_nulas = df[df.isnull().any(axis=1)]

# Linhas distintas com nulos (se houver duplicatas)
linhas_distintas_nulas = linhas_nulas.drop_duplicates()

In [54]:
linhas_distintas_nulas

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,id_municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,id_municipio_campus,campus
377,699.48,M,Candidatos autodeclarados pretos. pardos ou in...,,,1999-07-09,True,CIÊNCIA DA COMPUTAÇÃO,UFPE,2611606,Campus Universitário Cidade do Recife


In [55]:
# Removendo linha 377
df.drop(377, inplace=True)

Neste caso, por se tratar de apenas uma linha, optei por remover a linha com valores nulos, uma vez que tal medida não afetaria de forma drástica os resultados.

In [56]:
# Verificando remoção
df.isnull().sum()

nota_candidato             0
sexo                       0
modalidade_concorrencia    0
sigla_uf_candidato         0
id_municipio_candidato     0
data_nascimento            0
status_aprovado            0
nome_curso                 0
sigla_ies                  0
id_municipio_campus        0
campus                     0
dtype: int64

### Normalizando colunas de texto:

In [76]:
df['campus'] = df['campus'].str.strip().str.upper()

In [77]:
df['modalidade_concorrencia'] = df['modalidade_concorrencia'].str.strip().str.title()

In [85]:
df['nome_curso'] = df['nome_curso'].str.strip().str.title()

In [87]:
df['campus'] = df['campus'].str.strip().str.title()

In [78]:
df['sigla_ies'] = df['sigla_ies'].str.strip().str.upper()

In [80]:
df['sigla_uf_candidato'] = df['sigla_uf_candidato'].str.strip().str.upper()

Garanti que as colunas de texto, como campus e modalidade_concorrencia, estejam padronizadas (letras maiúsculas/minúsculas, sem espaços extras).

### Substituição de dados:

In [69]:
# Substituindo o valor True por Aprovado na coluna 'status_aprovado'
df['status_aprovado'] = df['status_aprovado'].replace(True, 'Aprovado')

In [71]:
# Substituindo o valor False por Reprovado na coluna 'status_aprovado'
df['status_aprovado'] = df['status_aprovado'].replace(False, 'Reprovado')

In [82]:
# Substituindo 'M' por 'Masculino' na coluna 'sexo'
df['sexo'] = df['sexo'].replace('M', 'Masculino')

In [83]:
# Substituindo 'F' por 'Feminino' na coluna 'sexo'
df['sexo'] = df['sexo'].replace('F', 'Feminino')

#### Substituindo ids do município dos candidatos pelo nome do município:

In [113]:
# Carregar o DataFrame com os dados dos municípios do IBGE em Excel
df_municipios = pd.read_excel('codigos_municipios_ibge.xlsx', usecols=['Código Município Completo', 'Nome_Município'])

In [118]:
df_municipios.head()

Unnamed: 0,Código Município Completo,Nome_Município
0,1100015,Alta Floresta D'Oeste
1,1100379,Alto Alegre dos Parecis
2,1100403,Alto Paraíso
3,1100346,Alvorada D'Oeste
4,1100023,Ariquemes


In [132]:
# Convertendo a coluna 'id_municipio_candidato' para inteiro para remover a parte decimal
df['id_municipio_candidato'] = df['id_municipio_candidato'].astype(int)

# Convertendo a coluna 'id_municipio_campus' para inteiro para remover a parte decimal
df['id_municipio_campus'] = df['id_municipio_campus'].astype(int)

In [141]:
# Realizando a mesclagem dos DataFrames com base na coluna de IDs
df_com_nomes = df.merge(df_municipios, left_on='id_municipio_candidato', right_on='Código Município Completo', how='left')

# Substituindo a coluna de ID pelo nome do município
df_com_nomes['id_municipio_candidato'] = df_com_nomes['Nome_Município']

#### Substituindo ids do município do campus pelo nome do município:

In [142]:
# Realizando a mesclagem dos DataFrames com base na coluna de IDs
df_com_nomes = df.merge(df_municipios, left_on='id_municipio_campus', right_on='Código Município Completo', how='left')

# Substituindo a coluna de ID pelo nome do município
df_com_nomes['id_municipio_campus'] = df_com_nomes['Nome_Município']

#### Verificando transformações:

In [143]:
df_limpo.head()

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,id_municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,id_municipio_campus,campus,Código Município Completo,Nome_Município
0,657.91,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,SE,2800308,1999-04-08,Aprovado,Ciência Da Computação,UFPE,Recife,Campus Universitário Cidade Do Recife,2611606,Recife
1,781.4,Masculino,Ampla Concorrência,SE,2800308,2002-01-08,Aprovado,Ciência Da Computação,UFPE,Recife,Campus Universitário Cidade Do Recife,2611606,Recife
2,786.74,Masculino,Ampla Concorrência,BA,2914703,2002-04-07,Aprovado,Ciência Da Computação,UFPE,Recife,Campus Universitário Cidade Do Recife,2611606,Recife
3,634.92,Masculino,Ampla Concorrência,BA,2924009,2001-01-29,Aprovado,Ciência Da Computação,UFPE,Recife,Campus Universitário Cidade Do Recife,2611606,Recife
4,786.42,Masculino,Ampla Concorrência,PI,2211001,2002-06-28,Aprovado,Ciência Da Computação,UFPE,Recife,Campus Universitário Cidade Do Recife,2611606,Recife


In [136]:
df.head()

Unnamed: 0,nota_candidato,sexo,modalidade_concorrencia,sigla_uf_candidato,id_municipio_candidato,data_nascimento,status_aprovado,nome_curso,sigla_ies,id_municipio_campus,campus
0,657.91,Masculino,Candidatos Autodeclarados Pretos. Pardos Ou In...,SE,2800308,1999-04-08,Aprovado,Ciência Da Computação,UFPE,2611606,Campus Universitário Cidade Do Recife
1,781.4,Masculino,Ampla Concorrência,SE,2800308,2002-01-08,Aprovado,Ciência Da Computação,UFPE,2611606,Campus Universitário Cidade Do Recife
2,786.74,Masculino,Ampla Concorrência,BA,2914703,2002-04-07,Aprovado,Ciência Da Computação,UFPE,2611606,Campus Universitário Cidade Do Recife
3,634.92,Masculino,Ampla Concorrência,BA,2924009,2001-01-29,Aprovado,Ciência Da Computação,UFPE,2611606,Campus Universitário Cidade Do Recife
4,786.42,Masculino,Ampla Concorrência,PI,2211001,2002-06-28,Aprovado,Ciência Da Computação,UFPE,2611606,Campus Universitário Cidade Do Recife
