<a href="https://colab.research.google.com/github/ViniViniAntunes/Fazendo-uma-limpeza-em-uma-dataset-da-Secretaria-da-Educacao-do-Estado-de-Sao-Paulo./blob/master/limpeza_em_dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fazendo uma limpeza em uma dataset da Secretaria da Educação do Estado de São Paulo.
___
### Os dados foram baixados do link:
  https://dados.educacao.sp.gov.br/dataset/profici%C3%AAncia-do-sistema-de-avalia%C3%A7%C3%A3o-de-rendimento-escolar-do-estado-de-s%C3%A3o-paulo-saresp-por

### Na data 05/04/2020

### A limpeza foi feita por:

#### Nome: Vini Antunes
#### O que faz: professor de Física e estudande de Data Science
#### Github: https://github.com/ViniViniAntunes
#### LinkedIn: https://www.linkedin.com/in/vini-antunes/

In [0]:
# Importando as bibliotecas utilizadas
import pandas as pd
import warnings
warnings.filterwarnings(action='ignore')

In [39]:
# Baixando o .csv e colocando em uma variável
# Apenas no arquivo 'SARESP_escolas_2018.csv', é preciso trocar o parâmetro 'encoding' de 'utf-8' para 'latin-1'
saresp = pd.read_csv('SARESP_escolas_2016.csv', sep=';', encoding='utf-8')

# Visualizando os 5 primeiros linhas do DataFrame
saresp.head(5)

Unnamed: 0,DEPADM,DepBol,NomeDepBol,codRMet,CODESC,NOMESC,SERIE_ANO,cod_per,periodo,co_comp,ds_comp,medprof
0,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,1,MANHA,1,LÍNGUA PORTUGUESA,241.5
1,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,1,MANHA,2,MATEMÁTICA,255.2
2,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,9,GERAL,1,LÍNGUA PORTUGUESA,241.5
3,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,9,GERAL,2,MATEMÁTICA,255.2
4,1,1,Rede Estadual,1,24,GAVIAO PEIXOTO BRIGADEIRO ...,3º Ano EF,2,TARDE,1,LÍNGUA PORTUGUESA,164.7


In [40]:
# Mostrando o tamanho do DataFrame
saresp.shape

(54700, 12)

In [41]:
# Observando quantos dados nulos tem o DataFrame
saresp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54700 entries, 0 to 54699
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   DEPADM      54700 non-null  int64  
 1   DepBol      54700 non-null  int64  
 2   NomeDepBol  54700 non-null  object 
 3   codRMet     54700 non-null  int64  
 4   CODESC      54700 non-null  int64  
 5   NOMESC      54700 non-null  object 
 6   SERIE_ANO   54700 non-null  object 
 7   cod_per     54700 non-null  int64  
 8   periodo     54700 non-null  object 
 9   co_comp     54700 non-null  int64  
 10  ds_comp     54700 non-null  object 
 11  medprof     54700 non-null  float64
dtypes: float64(1), int64(6), object(5)
memory usage: 5.0+ MB


In [42]:
# Observando quantos dados nulos tem o DataFrame de forma mais clara
saresp.isnull().sum()

DEPADM        0
DepBol        0
NomeDepBol    0
codRMet       0
CODESC        0
NOMESC        0
SERIE_ANO     0
cod_per       0
periodo       0
co_comp       0
ds_comp       0
medprof       0
dtype: int64

In [43]:
# Criando uma coluna nova ('tipo_var_medprof') com os tipos das variáveis em cada linha da coluna 'medprof'
tipos_var = []
for valor in saresp['medprof']:
  tipos_var.append(type(valor))
saresp['tipo_var_medprof'] = tipos_var
saresp.head(5)

Unnamed: 0,DEPADM,DepBol,NomeDepBol,codRMet,CODESC,NOMESC,SERIE_ANO,cod_per,periodo,co_comp,ds_comp,medprof,tipo_var_medprof
0,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,1,MANHA,1,LÍNGUA PORTUGUESA,241.5,<class 'float'>
1,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,1,MANHA,2,MATEMÁTICA,255.2,<class 'float'>
2,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,9,GERAL,1,LÍNGUA PORTUGUESA,241.5,<class 'float'>
3,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,9,GERAL,2,MATEMÁTICA,255.2,<class 'float'>
4,1,1,Rede Estadual,1,24,GAVIAO PEIXOTO BRIGADEIRO ...,3º Ano EF,2,TARDE,1,LÍNGUA PORTUGUESA,164.7,<class 'float'>


### Note que temos dois tipos de variáveis na coluna 'medprof', string e float. Isso nos impede de fazer qualquer tipo de conta com os valores dessa coluna. Como por exemplo, fazer a substituição dos valores nulos pela média dos valores da coluna.

In [44]:
# Mostrando os diferentes tipos de variáveis
saresp['tipo_var_medprof'].unique()

array([<class 'float'>], dtype=object)

### Se quisermos realizar contas com esses valores, teremos que trocar as variáveis do tipo string para o tipo float. Porém, essas que são do tipo string, estão escritas com vígula ' , ' no lugar do ponto ' . '. Então temos dois problemas para resolver:
<ol>
  <li> Trocar a vírgula por um ponto ( , por . ); </li>
  <li> Trocar para o tipo float todas as variáveis que forem do tipo string </li>
</ol>

### Resolvendo os problemas

In [45]:
# ANTES da transformação
print('{} do tipo {}'.format(saresp['medprof'][0], type(saresp['medprof'][0])))

241.5 do tipo <class 'numpy.float64'>


In [0]:
# Troca o caracter ',' pelo caracter '.' e transforma do tipo string para o tipo float
for pos, item in enumerate(saresp['medprof']):
    if type(item) == str:
        saresp['medprof'][pos] = float(item.replace(',', '.'))

In [47]:
# DEPOIS da transformação
print('{} do tipo {}'.format(saresp['medprof'][0], type(saresp['medprof'][0])))

241.5 do tipo <class 'numpy.float64'>


In [48]:
# Atualizando a coluna 'tipo_var_medprof' com os novos tipos das variáveis da coluna 'medprof'
tipos_var = []
for valor in saresp['medprof']:
  tipos_var.append(type(valor))
saresp['tipo_var_medprof'] = tipos_var
saresp.head(5) 

Unnamed: 0,DEPADM,DepBol,NomeDepBol,codRMet,CODESC,NOMESC,SERIE_ANO,cod_per,periodo,co_comp,ds_comp,medprof,tipo_var_medprof
0,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,1,MANHA,1,LÍNGUA PORTUGUESA,241.5,<class 'float'>
1,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,1,MANHA,2,MATEMÁTICA,255.2,<class 'float'>
2,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,9,GERAL,1,LÍNGUA PORTUGUESA,241.5,<class 'float'>
3,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,9,GERAL,2,MATEMÁTICA,255.2,<class 'float'>
4,1,1,Rede Estadual,1,24,GAVIAO PEIXOTO BRIGADEIRO ...,3º Ano EF,2,TARDE,1,LÍNGUA PORTUGUESA,164.7,<class 'float'>


### Resolvemos os problemas, mas ainda estamos com os mesmos valores nulos

In [49]:
# Observando quantos dados nulos tem o DataFrame
# Só pra mostrar que ainda temos os mesmos dados nulos
saresp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54700 entries, 0 to 54699
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   DEPADM            54700 non-null  int64  
 1   DepBol            54700 non-null  int64  
 2   NomeDepBol        54700 non-null  object 
 3   codRMet           54700 non-null  int64  
 4   CODESC            54700 non-null  int64  
 5   NOMESC            54700 non-null  object 
 6   SERIE_ANO         54700 non-null  object 
 7   cod_per           54700 non-null  int64  
 8   periodo           54700 non-null  object 
 9   co_comp           54700 non-null  int64  
 10  ds_comp           54700 non-null  object 
 11  medprof           54700 non-null  float64
 12  tipo_var_medprof  54700 non-null  object 
dtypes: float64(1), int64(6), object(6)
memory usage: 5.4+ MB


In [50]:
# Observando quantos dados nulos tem o DataFrame de forma mais clara
# Só pra mostrar de forma mais clara que ainda temos os mesmos dados nulos
saresp.isnull().sum()

DEPADM              0
DepBol              0
NomeDepBol          0
codRMet             0
CODESC              0
NOMESC              0
SERIE_ANO           0
cod_per             0
periodo             0
co_comp             0
ds_comp             0
medprof             0
tipo_var_medprof    0
dtype: int64

### Então, vamos fazer a substituição dos dados nulos por uma valor que seja a média dos valores da coluna. (Já podemos fazer isso, pois agora são todos do tipo float)

In [0]:
# Substituindo os dados nulos pela média dos valores desta coluna
saresp['medprof'].fillna(saresp['medprof'].mean(), inplace=True)

In [52]:
# Observando que os dados nulos do DataFrame já se foram
saresp.isnull().sum()

DEPADM              0
DepBol              0
NomeDepBol          0
codRMet             0
CODESC              0
NOMESC              0
SERIE_ANO           0
cod_per             0
periodo             0
co_comp             0
ds_comp             0
medprof             0
tipo_var_medprof    0
dtype: int64

### Como não precisamos mais da coluna 'tipo_var_medprof', podemos retirá-la

In [53]:
# Removendo a coluna 'tipo_var_medprof' que acrescentamos antes só para analisar os tipos de variáveis da coluna 'medprof'
saresp.drop(columns=['tipo_var_medprof'], inplace=True)
saresp.head()

Unnamed: 0,DEPADM,DepBol,NomeDepBol,codRMet,CODESC,NOMESC,SERIE_ANO,cod_per,periodo,co_comp,ds_comp,medprof
0,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,1,MANHA,1,LÍNGUA PORTUGUESA,241.5
1,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,1,MANHA,2,MATEMÁTICA,255.2
2,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,9,GERAL,1,LÍNGUA PORTUGUESA,241.5
3,1,1,Rede Estadual,1,12,AYRES DE MOURA PROFESSOR ...,9º Ano EF,9,GERAL,2,MATEMÁTICA,255.2
4,1,1,Rede Estadual,1,24,GAVIAO PEIXOTO BRIGADEIRO ...,3º Ano EF,2,TARDE,1,LÍNGUA PORTUGUESA,164.7


### Pronto! Agora temos a coluna 'medprof' com todos os valores preenchidos e todos do tipo float, o que nos permite fazer as contas que forem necessárias.

### O bacana é que basta trocar o nome do arquivo lá no começo e baixar os datasets de outros anos e rodar o mesmo código, que rapidamente faremos a limpeza de todos eles.

### Se quiser é só exportar o dataset em formato .csv novamente

In [0]:
# Exportando o DataFrame para o formato .csv
saresp.to_csv('SARESP_escolas_2016_modificado.csv', sep=';', index=False)