# Configuração de ambiente

Importação das bibliotecas:
- Pandas: para manipulação de dados através do alias "pd"
- Google Colab: para manipulação de arquivos no Google Drive

E execução do comando "%matplotlib inline" para que os gráficos sejam exibidos no notebook logo abaixo da célula de código que os gerou.

In [1]:
import pandas as pd
from google.colab import drive

%matplotlib inline

Carregamento do Drive para que o notebook possa acessar os arquivos do Google Drive e com o parâmetro "force_remount=True" para que o Drive seja montado a cada execução do notebook.

In [3]:
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


# Leitura e visualização do dataset

Leitura do arquivo "dataset.csv" através da função "read_csv" do Pandas e armazenamento do resultado na variável "df". Uso do parâmetro "sep" para informar qual o separador de colunas do arquivo e do parâmetro "encoding" para informar qual o tipo de codificação do arquivo.

In [4]:
csv_url = "https://github.com/viniciusgugelmin/data-science-2/blob/master/projects/cursos-prouni/data/dataset.csv?raw=true"

df = pd.read_csv(csv_url, sep=',', encoding='utf-8', low_memory=False)

Exibição das 5 primeiras linhas do DataFrame através da função "head" do Pandas para verificar se o arquivo foi carregado corretamente e ter uma ideia do que ele contém.

In [5]:
df.head()

Unnamed: 0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,curso_id,curso_busca,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
0,Bacharelado,Integral,9999.99,15.0,14.0,,,706710394154,Medicina,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
1,Bacharelado,Noturno,9836.4,1.0,,,,104191210567043,Enfermagem,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
2,Bacharelado,Integral,9715.61,2.0,5.0,6.0,10.0,1002328574024,Medicina,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
3,Bacharelado,Noturno,9689.34,3.0,2.0,,,104191212798093,Psicologia,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
4,Bacharelado,Integral,9674.34,4.0,1.0,5.0,2.0,65899611932754,Medicina,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26


# Processo de limpeza de dados nulos e padronização de dados

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41447 entries, 0 to 41446
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   grau                  41447 non-null  object 
 1   turno                 41447 non-null  object 
 2   mensalidade           41447 non-null  float64
 3   bolsa_integral_cotas  32520 non-null  float64
 4   bolsa_integral_ampla  25404 non-null  float64
 5   bolsa_parcial_cotas   8828 non-null   float64
 6   bolsa_parcial_ampla   13041 non-null  float64
 7   curso_id              41447 non-null  int64  
 8   curso_busca           41447 non-null  object 
 9   cidade_busca          41447 non-null  object 
 10  uf_busca              41447 non-null  object 
 11  cidade_filtro         41447 non-null  object 
 12  universidade_nome     41447 non-null  object 
 13  campus_nome           41447 non-null  object 
 14  campus_id             41447 non-null  int64  
 15  nome               

Preenchimento de colunas que estão com valores nulos para 0 para não interferir em possíveis cálculos.

In [9]:
df_cleaned = df.copy()

df_cleaned['bolsa_integral_cotas'] = df_cleaned['bolsa_integral_cotas'].fillna(0)
df_cleaned['bolsa_integral_ampla'] = df_cleaned['bolsa_integral_ampla'].fillna(0)
df_cleaned['bolsa_parcial_cotas'] = df_cleaned['bolsa_parcial_cotas'].fillna(0)
df_cleaned['bolsa_parcial_ampla'] = df_cleaned['bolsa_parcial_ampla'].fillna(0)
df_cleaned['nota_integral_ampla'] = df_cleaned['nota_integral_ampla'].fillna(0)
df_cleaned['nota_integral_cotas'] = df_cleaned['nota_integral_cotas'].fillna(0)
df_cleaned['nota_parcial_ampla'] = df_cleaned['nota_parcial_ampla'].fillna(0)
df_cleaned['nota_parcial_cotas'] = df_cleaned['nota_parcial_cotas'].fillna(0)

df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41447 entries, 0 to 41446
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   grau                  41447 non-null  object 
 1   turno                 41447 non-null  object 
 2   mensalidade           41447 non-null  float64
 3   bolsa_integral_cotas  41447 non-null  float64
 4   bolsa_integral_ampla  41447 non-null  float64
 5   bolsa_parcial_cotas   41447 non-null  float64
 6   bolsa_parcial_ampla   41447 non-null  float64
 7   curso_id              41447 non-null  int64  
 8   curso_busca           41447 non-null  object 
 9   cidade_busca          41447 non-null  object 
 10  uf_busca              41447 non-null  object 
 11  cidade_filtro         41447 non-null  object 
 12  universidade_nome     41447 non-null  object 
 13  campus_nome           41447 non-null  object 
 14  campus_id             41447 non-null  int64  
 15  nome               

# Salvando dados limpos

Para salvar os dados limpos em um arquivo, vamos usar o método to_csv

In [10]:
df_cleaned.to_csv('/content/drive/MyDrive/UP/Ciência de Dados/Notebooks/data/dataset_clean.csv', index=False, sep=';')