# Totais de matrículas - Série Histórica

Pode ser que seu interesse, ao trabalhar com os microdados das matrículas, seja selecionar determinada série histórica.

Os arquivos utilizados podem ser acessados no [Portal de Dados Abertos](http://dados.prefeitura.sp.gov.br/dataset/microdados-da-rede-municipal-de-ensino-matriculas). 

É possível que você necessite de só alguns dos anos, ou um intervalo menor. Por isso, nem sempre é interessante trabalhar com a base completa -- as operações podem ficar muito lentas ou mesmo inviáveis, por insuficiência de memória.

[Saiba mais](https://github.com/prefeiturasp/dados-educacao/blob/master/README.md) sobre os tutoriais dos dados abertos da SME.

*Importante: também estamos aprendendo! Tem sugestões para melhorar os códigos? Não deixe de contribuir com este repositório :)*

In [101]:
import pandas as pd
import numpy as np

Trabalhamos aqui com os arquivos .csv disponíveis no Portal de Dados Abertos, já descompactados. Diferente do outro tutorial, porém, importaremos apenas algumas colunas (com que vamos trabalhar), para evitar insuficiência de memória: 

In [119]:
anos = ['2009','2010', '2011', '2012', '2013', '2014', '2015', '2016']
#anos letivos que serão selecionados

colunas = ['AN_LETIVO', 'CD_ALUNO_SME', 'SITUACAO_MAT', 'MODALIDADE_SEGMENTO']
#variáveis que serão selecionadas

Um pourquinho de paciência para rodar o código abaixo (em especial com a quantidade de anos acima!)

In [120]:
df_mat_total = []

for ano in anos:
    
    matriculas = pd.read_csv('Microdados_EOL_Matriculas_'+str(ano)+'.csv', sep=';', encoding='ISO-8859-1', low_memory=False, usecols=colunas)
    #Lê o arquivo e transforma em DataFrame
    
    df_mat_total.append(matriculas)

df_mat_total = pd.concat(df_mat_total, axis=0)

In [129]:
filtros = ['CRECHE', 'PRE', 'Fund1', 'Fund2']
#escolhendo algumas modalidades/segmentos específicos para totalizar

df_filtrada = df_mat_total[(df_mat_total.MODALIDADE_SEGMENTO.isin(filtros)) 
                           & (df_mat_total['SITUACAO_MAT'] == 'Concluido')]

In [130]:
df_filtrada.tail()

Unnamed: 0,AN_LETIVO,MODALIDADE_SEGMENTO,CD_ALUNO_SME,SITUACAO_MAT
1651238,2016,Fund2,4203276,Concluido
1651239,2016,Fund2,4846283,Concluido
1651240,2016,Fund2,4986111,Concluido
1651241,2016,Fund2,3597690,Concluido
1651242,2016,Fund1,5972658,Concluido


In [131]:
df_filtrada.shape

(7014157, 4)

In [134]:
totais = pd.pivot_table(df_filtrada, values='CD_ALUNO_SME', 
                     index=['AN_LETIVO', 'MODALIDADE_SEGMENTO'],
                     aggfunc=np.count_nonzero)

In [135]:
totais

Unnamed: 0_level_0,Unnamed: 1_level_0,CD_ALUNO_SME
AN_LETIVO,MODALIDADE_SEGMENTO,Unnamed: 2_level_1
2009,CRECHE,123263
2009,Fund1,246280
2009,Fund2,243675
2009,PRE,310051
2010,CRECHE,130378
2010,Fund1,233269
2010,Fund2,246612
2010,PRE,289531
2011,CRECHE,195652
2011,Fund1,215088


In [136]:
totais.to_excel('totais.xlsx')