In [2]:
import pandas as pd
import numpy as np 
import os
import re
from pathlib import Path
import datetime as dt 
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns

In [3]:
########Função para carregar todos os arquivos csv em uma pasta e converter em dataframe########
def load_all_csv(folder_name,sep):
    """Carrega todos os arquivos do tipo CSV de uma pasta
    e retorna uma lista de dataframes 
    
    Arguments:
        folder_name {str} -- string com o nome da pasta onde estão os arquivos
        sep {str} -- string com o tipo de separador ';'; ',', etc.
    
    Returns:
        list -- lista com os arquivos convertidos em DataFrame
    """    
    #formata nome do caminho
    path_name = folder_name+'/'
    #cria array com todos os arquivos do diretório
    n_path = np.array(os.listdir(path_name))
    print('#verificando diretório: {}'.format(n_path))
    #cria dataframe de retorno
    df_list = list()
    #itera sobre o array de arquivos listados na pasta
    for filename in np.nditer(n_path):
        print('#inicio carregamento de arquivo {}'.format(filename))
        #verifica se o arquivo é csv
        if 'csv' in str(filename):
            #concatena o nome do caminho com o nome do arquivo
            arch = str(path_name) + str(filename)
            with open(arch,encoding='UTF-8') as f:
                df_temp = pd.read_csv(f,sep=sep,error_bad_lines=False)
            #adiciona o nome do arquivo no dataframe
            df_temp['arquivo'] = filename
            #adiciona dataframe na lista
            df_list.append(df_temp)
    return df_list


In [4]:
#cria dataframe auxiliar
def create_df_aux(dataframe):
    """Cria um dataframe de especificações do dataframe passado
    
    Arguments:
        dataframe {DataFrame} -- dataframe passado para análise
    
    Returns:
        DataFrame -- DataFrame {
            colunas: nome das colunas 
            tipos_dados: tipos de dados de cada coluna
            total_registros: total de registros de cada coluna
            NA #: número de registros nulos de cada coluna
            NA %: porcentagem de registros nulos de cada coluna
        }
    """    
    df_return = pd.DataFrame({
        'colunas' : dataframe.columns,
        'tipos_dados' : dataframe.dtypes,
        'total_registros' : dataframe.count(),
        'NA #': dataframe.isna().sum(),
        'NA %': (dataframe.isna().sum() / dataframe.shape[0]) * 100
    },index=None)
    return df_return

def convert_to_categorical(dataframe,columns):
    """converte uma lista de colunas para o tipo category
    
    Arguments:
        dataframe {DataFrame} -- dataframe que contém as colunas para conversão
        columns {list} -- lista com o nome das colunas
    
    Returns:
        DataFrame -- dataframe com as colunas convertidas
    """    
    for col in columns:
        dataframe[col] = dataframe[col].astype('category')
    return dataframe

In [5]:
#carregando todos os arquivos em uma lista, ja convertidos em dataframes
ls_resultado_saresp = load_all_csv('../raw_data/saresp_resultado',';')



#verificando diretório: ['SARESP_escolas_2016.csv' 'SARESP_escolas_2017.csv'
 'SARESP_escolas_2015.csv' 'SARESP_escolas_2014.csv'
 'SARESP_escolas_2011.csv' 'SARESP_escolas_2013.csv'
 'SARESP_escolas_2012.csv' 'SARESP_escolas_2018.csv']
#inicio carregamento de arquivo SARESP_escolas_2016.csv
#inicio carregamento de arquivo SARESP_escolas_2017.csv
#inicio carregamento de arquivo SARESP_escolas_2015.csv
#inicio carregamento de arquivo SARESP_escolas_2014.csv
#inicio carregamento de arquivo SARESP_escolas_2011.csv
#inicio carregamento de arquivo SARESP_escolas_2013.csv
#inicio carregamento de arquivo SARESP_escolas_2012.csv
#inicio carregamento de arquivo SARESP_escolas_2018.csv


# Perguntas
1. Como estão os comportamentos das notas com relação à média, moda, mediana, máximo e mínimo
2. Como as notas evoluem por competência ao longo dos anos
3. Quais são as notas 

In [6]:
# Análises Descritiva resultados Saresp 2011 à 2018
ls_resultado_saresp[4]

Unnamed: 0,DEPADM,DepBol,NomeDepBol,CODESC,NOMESC,SERIE_ANO,cod_per,periodo,co_comp,ds_comp,medprof,arquivo
0,1,1,Rede Estadual,12,AYRES DE MOURA PROF ...,7º Ano EF,1,MANHA,1,LÍNGUA PORTUGUESA,1961,SARESP_escolas_2011.csv
1,1,1,Rede Estadual,12,AYRES DE MOURA PROF ...,7º Ano EF,1,MANHA,2,MATEMÁTICA,2072,SARESP_escolas_2011.csv
2,1,1,Rede Estadual,12,AYRES DE MOURA PROF ...,7º Ano EF,1,MANHA,5,GEOGRAFIA,2133,SARESP_escolas_2011.csv
3,1,1,Rede Estadual,12,AYRES DE MOURA PROF ...,7º Ano EF,1,MANHA,6,HISTÓRIA,216,SARESP_escolas_2011.csv
4,1,1,Rede Estadual,12,AYRES DE MOURA PROF ...,7º Ano EF,9,GERAL,1,LÍNGUA PORTUGUESA,1961,SARESP_escolas_2011.csv
...,...,...,...,...,...,...,...,...,...,...,...,...
109927,1,1,Rede Estadual,926097,BAIRRO SERRA DO INDAIA ...,9º Ano EF,9,GERAL,6,HISTÓRIA,2691,SARESP_escolas_2011.csv
109928,1,1,Rede Estadual,926103,PARQUE NACOES UNIDAS II ...,5º Ano EF,1,MANHA,1,LÍNGUA PORTUGUESA,194,SARESP_escolas_2011.csv
109929,1,1,Rede Estadual,926103,PARQUE NACOES UNIDAS II ...,5º Ano EF,1,MANHA,2,MATEMÁTICA,2218,SARESP_escolas_2011.csv
109930,1,1,Rede Estadual,926103,PARQUE NACOES UNIDAS II ...,5º Ano EF,9,GERAL,1,LÍNGUA PORTUGUESA,194,SARESP_escolas_2011.csv


In [7]:
#inserindo coluna codRMet no dataframe de 2011 index [4]
df_temp = ls_resultado_saresp[4]
df_temp.insert(loc=3,column='codRMet',value='Unknow')

In [8]:
#remove item da lista
del ls_resultado_saresp[4]

In [9]:
#adiciona dataframe com a coluna faltante adicionada
ls_resultado_saresp.append(df_temp)



In [10]:
#cria um único dataframe concatenando a lista com os demais
df_completo = pd.DataFrame()
for df in ls_resultado_saresp:
    df_completo = pd.concat([df_completo,df],
    sort=False,ignore_index=True)
df_completo.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 556996 entries, 0 to 556995
Data columns (total 13 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   DEPADM      556996 non-null  int64 
 1   DepBol      556996 non-null  int64 
 2   NomeDepBol  556996 non-null  object
 3   codRMet     556996 non-null  object
 4   CODESC      556996 non-null  int64 
 5   NOMESC      556996 non-null  object
 6   SERIE_ANO   556996 non-null  object
 7   cod_per     556996 non-null  int64 
 8   periodo     556996 non-null  object
 9   co_comp     556996 non-null  int64 
 10  ds_comp     556996 non-null  object
 11  medprof     554884 non-null  object
 12  arquivo     556996 non-null  object
dtypes: int64(5), object(8)
memory usage: 55.2+ MB


In [11]:
#Transformação dos dataframe nota_saresp
df_completo['arquivo'] = df_completo['arquivo'].str.extract(r'(\d+)')
df_completo['medprof'] = df_completo['medprof'].str.replace(',','.').astype('float')

In [12]:
df_completo['arquivo'] = pd.to_datetime(df_completo['arquivo'],format='%Y')

# Perguntas
1. Como está o comportamento das notas independente de período com relação à média, moda, mediana, máximo e mínimo;
2. Como as notas evoluem por competência ao longo dos anos;
3. Quais são as notas por série para as competências de Matemática e Português;
4. Quais as porcentagens das escolas de acordo com os níveis de proficiência;
5. Qual a correlação entre as variáveis com a nota das competências;

In [13]:
#visualização do novo dataframe
create_df_aux(df_completo)


Unnamed: 0,colunas,tipos_dados,total_registros,NA #,NA %
DEPADM,DEPADM,int64,556996,0,0.0
DepBol,DepBol,int64,556996,0,0.0
NomeDepBol,NomeDepBol,object,556996,0,0.0
codRMet,codRMet,object,556996,0,0.0
CODESC,CODESC,int64,556996,0,0.0
NOMESC,NOMESC,object,556996,0,0.0
SERIE_ANO,SERIE_ANO,object,556996,0,0.0
cod_per,cod_per,int64,556996,0,0.0
periodo,periodo,object,556996,0,0.0
co_comp,co_comp,int64,556996,0,0.0


In [14]:
df_competencias = df_completo.groupby(['ds_comp','arquivo'])['medprof'].mean().reset_index()

In [15]:
fig = go.Figure()
fig = (px.scatter(x=df_competencias['arquivo'],y=df_competencias['medprof'],
color=df_competencias['ds_comp'],labels={
    'x' : 'Ano',
    'y':'Nota Competência'
}).update_traces(mode='lines+markers'))
fig.show()


In [16]:
df_serieano = df_completo.groupby(['SERIE_ANO','arquivo'])['medprof'].mean().reset_index()
df_serieano

Unnamed: 0,SERIE_ANO,arquivo,medprof
0,3º Ano EF,2014-01-01,203.555849
1,3º Ano EF,2015-01-01,201.020859
2,3º Ano EF,2016-01-01,187.693849
3,3º Ano EF,2017-01-01,191.899602
4,3º Ano EF,2018-01-01,203.886709
5,5º Ano EF,2011-01-01,204.438089
6,5º Ano EF,2012-01-01,204.483372
7,5º Ano EF,2013-01-01,205.371248
8,5º Ano EF,2014-01-01,211.546738
9,5º Ano EF,2015-01-01,220.077755


In [17]:
fig = (px.scatter(x=df_serieano['arquivo'],y=df_serieano['medprof'],
color=df_serieano['SERIE_ANO'],labels={
    'x' : 'Ano',
    'y':'Nota Competência'
}).update_traces(mode='lines+markers'))
fig.show()

In [18]:
df_nota_serie = df_completo.groupby(['SERIE_ANO','ds_comp'])['medprof'].mean().reset_index()
df_nota = df_nota_serie.query('ds_comp != "HISTÓRIA" & ds_comp != "CIÊNCIAS" & ds_comp != "GEOGRAFIA"')

In [19]:
fig = px.bar(df_nota,x='SERIE_ANO',y='medprof',color='ds_comp',barmode='group')
fig.show()

In [20]:
df_mat = df_completo.query('ds_comp =="MATEMÁTICA" ')
df_port = df_completo.query('ds_comp == "LÍNGUA PORTUGUESA"')
series = df_serieano.SERIE_ANO.unique()
series

array(['3º Ano EF', '5º Ano EF', '7º Ano EF', '9º Ano EF', 'EM-3ª série'],
      dtype=object)

In [21]:
label = ['Abaixo do Básico','Básico','Adequado','Avançado']
#bins para português
bin_3ef = [0,125,175,225,400]
bin_5ef = [0,150,200,250,400]
bin_7ef = [0,175,225,275,400]
bin_9ef = [0,200,275,325,400]
bin_3em = [0,250,300,375,400]
bins = [bin_3ef,bin_5ef,bin_7ef,bin_9ef,bin_3em]
tp = tuple(zip(series,bins))
tp

(('3º Ano EF', [0, 125, 175, 225, 400]),
 ('5º Ano EF', [0, 150, 200, 250, 400]),
 ('7º Ano EF', [0, 175, 225, 275, 400]),
 ('9º Ano EF', [0, 200, 275, 325, 400]),
 ('EM-3ª série', [0, 250, 300, 375, 400]))

In [22]:
#inserindo classicicação para a média de proficiêcia do português
df_temp = pd.DataFrame()
for serie,b in tp:
    df_cut = df_port[df_port['SERIE_ANO']==serie]
    df_cut['classification'] = pd.cut(df_cut['medprof'],bins=b,labels=label)
    df_temp = df_temp.append(df_cut)

In [23]:
#bins para matemática
bin_3ef_m = [0,150,200,250,400]
bin_5ef_m = [0,175,225,275,400]
bin_7ef_m = [0,200,250,300,400]
bin_9ef_m = [0,225,300,350,400]
bin_3em_m = [0,275,350,400,500]
bins_mat = [bin_3ef_m,bin_5ef_m,bin_7ef_m,bin_9ef_m,bin_3em_m]
tp_m = tuple(zip(series,bins))

In [24]:
df_temp_m = pd.DataFrame()
for serie,b in tp_m:
    df_cut_m = df_mat[df_mat['SERIE_ANO']==serie]
    df_cut_m['classification'] = pd.cut(df_cut_m['medprof'],bins=b,labels=label)
    df_temp_m = df_temp_m.append(df_cut_m)

In [25]:
df_temp_m.classification.value_counts()

Básico              144543
Adequado             48624
Avançado              6868
Abaixo do Básico      3544
Name: classification, dtype: int64

In [26]:
df_final = df_temp_m.append(df_temp)


In [34]:
df_final.to_pickle('../dados/sarespv1.pkl')
df_final.to_csv('../dados/sarespv1.csv',index=False)

In [33]:
df_final['arquivo'] = pd.to_datetime(df_final['arquivo'],format='%Y')
df_final.groupby(['ds_comp','classification','arquivo'])['cod_per'].count().reset_index()

Unnamed: 0,ds_comp,classification,arquivo,cod_per
0,LÍNGUA PORTUGUESA,Abaixo do Básico,2011-01-01,1419
1,LÍNGUA PORTUGUESA,Abaixo do Básico,2012-01-01,1212
2,LÍNGUA PORTUGUESA,Abaixo do Básico,2013-01-01,2312
3,LÍNGUA PORTUGUESA,Abaixo do Básico,2014-01-01,1729
4,LÍNGUA PORTUGUESA,Abaixo do Básico,2015-01-01,1396
...,...,...,...,...
59,MATEMÁTICA,Avançado,2014-01-01,1478
60,MATEMÁTICA,Avançado,2015-01-01,1855
61,MATEMÁTICA,Avançado,2016-01-01,1041
62,MATEMÁTICA,Avançado,2017-01-01,1102
