# Exploração - Censo Escolar - Turma

**OBJETIVOS**: Explorar a base de Turma do censo escolar e fazer o rascunho do processamento de dados

---

## Cabeçalho 

### Imports 

In [1]:
import os
import pyunpack
import rarfile
import shutil
import zipfile
import numpy as np
import pandas as pd

from pathlib import Path
from tqdm import tqdm

### Caminhos 

In [2]:
PASTA_PROJETO = Path("C:/Users/pedro.forli/PycharmProjects/curso-ciencia-dados")
PASTA_DADOS = PASTA_PROJETO / "dados"
PASTA_SAIDA = PASTA_PROJETO / "saidas"
PASTA_NOTEBOOK = PASTA_PROJETO / "notebooks"
os.chdir(PASTA_PROJETO)

### Variáveis 

### Configurações 

In [3]:
%config Completer.use_jedi = False
%load_ext autoreload
%autoreload 2

### Código Próprio 

In [4]:
import src.io.le_dados as le_dados
import src.io.caminho as caminho
import src.io.data_store as data_store

---

## Carregamento de Dados 

In [5]:
os.chdir(PASTA_PROJETO)
dados = {
    f: le_dados.le_dados_comprimidos(
        f"dados/completo/externo/censo_escolar/{f}",
        ext="zip",
        como_df=True,
        padrao_comp="(turmas|TURMAS|Turmas)[.](csv|CSV|rar|RAR|zip|ZIP)",
        sep="|",
        encoding="latin-1",
    )
    for f in os.listdir("dados/completo/externo/censo_escolar")
}
dados = {k: v for k, v in dados.items() if v is not None}

---

## Exploração 

Visualiza como os dados aparecem na base

In [6]:
dados["2020.zip"].head()

Unnamed: 0,NU_ANO_CENSO,ID_TURMA,NO_TURMA,TP_MEDIACAO_DIDATICO_PEDAGO,TX_HR_INICIAL,TX_MI_INICIAL,IN_DIA_SEMANA_DOMINGO,IN_DIA_SEMANA_SEGUNDA,IN_DIA_SEMANA_TERCA,IN_DIA_SEMANA_QUARTA,...,IN_MANT_ESCOLA_PRIVADA_EMP,IN_MANT_ESCOLA_PRIVADA_ONG,IN_MANT_ESCOLA_PRIVADA_OSCIP,IN_MANT_ESCOLA_PRIV_ONG_OSCIP,IN_MANT_ESCOLA_PRIVADA_SIND,IN_MANT_ESCOLA_PRIVADA_SIST_S,IN_MANT_ESCOLA_PRIVADA_S_FINS,TP_REGULAMENTACAO,TP_LOCALIZACAO_DIFERENCIADA,IN_EDUCACAO_INDIGENA
0,2020,146,6º ANO TARDE,1,13.0,0.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
1,2020,160,7º ANO MANHA,1,7.0,0.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
2,2020,177,INFANTIL II - TARDE,1,13.0,0.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
3,2020,202,2º ANO C ALFABETIZAR COM SUCESSO,1,7.0,30.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0
4,2020,205,4º ANO B DO ALFABETIZAR COM SUCESSO,1,12.0,45.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0


In [7]:
dados["2020.zip"].tail()

Unnamed: 0,NU_ANO_CENSO,ID_TURMA,NO_TURMA,TP_MEDIACAO_DIDATICO_PEDAGO,TX_HR_INICIAL,TX_MI_INICIAL,IN_DIA_SEMANA_DOMINGO,IN_DIA_SEMANA_SEGUNDA,IN_DIA_SEMANA_TERCA,IN_DIA_SEMANA_QUARTA,...,IN_MANT_ESCOLA_PRIVADA_EMP,IN_MANT_ESCOLA_PRIVADA_ONG,IN_MANT_ESCOLA_PRIVADA_OSCIP,IN_MANT_ESCOLA_PRIV_ONG_OSCIP,IN_MANT_ESCOLA_PRIVADA_SIND,IN_MANT_ESCOLA_PRIVADA_SIST_S,IN_MANT_ESCOLA_PRIVADA_S_FINS,TP_REGULAMENTACAO,TP_LOCALIZACAO_DIFERENCIADA,IN_EDUCACAO_INDIGENA
2353346,2020,21849427,AEE MANHA,1,8.0,0.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0
2353347,2020,21850426,AEE TARDE,1,12.0,30.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0
2353348,2020,21850427,AEE-1,1,7.0,0.0,0.0,1.0,0.0,0.0,...,,,,,,,,1,0,0
2353349,2020,21850428,AEE-2,1,13.0,0.0,0.0,0.0,1.0,1.0,...,,,,,,,,1,0,0
2353350,2020,21850429,AEE TARDE,1,14.0,0.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0


In [8]:
dados["2020.zip"].sample(5)

Unnamed: 0,NU_ANO_CENSO,ID_TURMA,NO_TURMA,TP_MEDIACAO_DIDATICO_PEDAGO,TX_HR_INICIAL,TX_MI_INICIAL,IN_DIA_SEMANA_DOMINGO,IN_DIA_SEMANA_SEGUNDA,IN_DIA_SEMANA_TERCA,IN_DIA_SEMANA_QUARTA,...,IN_MANT_ESCOLA_PRIVADA_EMP,IN_MANT_ESCOLA_PRIVADA_ONG,IN_MANT_ESCOLA_PRIVADA_OSCIP,IN_MANT_ESCOLA_PRIV_ONG_OSCIP,IN_MANT_ESCOLA_PRIVADA_SIND,IN_MANT_ESCOLA_PRIVADA_SIST_S,IN_MANT_ESCOLA_PRIVADA_S_FINS,TP_REGULAMENTACAO,TP_LOCALIZACAO_DIFERENCIADA,IN_EDUCACAO_INDIGENA
2033641,2020,21330176,243899663 1006 ENFERMAGEM 2 MODULO 09 NOITE ANUAL,1,19.0,0.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
1088302,2020,19340481,EDUCACAO INFANTIL 1º PERIODO,1,7.0,0.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0
1283666,2020,19557917,240604348 8 ANO B TARDE ANUAL,1,13.0,0.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0
520583,2020,17483845,2º ANO - A,1,7.0,30.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0
1990683,2020,21276354,244754503 4 ANO B TARDE ANUAL,1,13.0,10.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0


In [26]:
dados["2020.zip"][dados["2020.zip"]["IN_REGULAR"].notnull()]

Unnamed: 0,NU_ANO_CENSO,ID_TURMA,NO_TURMA,TP_MEDIACAO_DIDATICO_PEDAGO,TX_HR_INICIAL,TX_MI_INICIAL,IN_DIA_SEMANA_DOMINGO,IN_DIA_SEMANA_SEGUNDA,IN_DIA_SEMANA_TERCA,IN_DIA_SEMANA_QUARTA,...,IN_MANT_ESCOLA_PRIVADA_EMP,IN_MANT_ESCOLA_PRIVADA_ONG,IN_MANT_ESCOLA_PRIVADA_OSCIP,IN_MANT_ESCOLA_PRIV_ONG_OSCIP,IN_MANT_ESCOLA_PRIVADA_SIND,IN_MANT_ESCOLA_PRIVADA_SIST_S,IN_MANT_ESCOLA_PRIVADA_S_FINS,TP_REGULAMENTACAO,TP_LOCALIZACAO_DIFERENCIADA,IN_EDUCACAO_INDIGENA
0,2020,146,6º ANO TARDE,1,13.0,0.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
1,2020,160,7º ANO MANHA,1,7.0,0.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
2,2020,177,INFANTIL II - TARDE,1,13.0,0.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
3,2020,202,2º ANO C ALFABETIZAR COM SUCESSO,1,7.0,30.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0
4,2020,205,4º ANO B DO ALFABETIZAR COM SUCESSO,1,12.0,45.0,0.0,1.0,1.0,1.0,...,,,,,,,,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2353322,2020,21847428,MATERNAL 1,1,7.0,30.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
2353323,2020,21847429,PRE 1,1,7.0,30.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
2353325,2020,21847431,3º ANO B TARDE,1,13.0,0.0,0.0,1.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1,0,0
2353328,2020,21847434,1º ANO,3,,,,,,,...,1.0,0.0,0.0,0.0,0.0,0.0,1.0,1,0,0


In [23]:
dados["2020.zip"].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2353351 entries, 0 to 2353350
Data columns (total 79 columns):
 #   Column                          Dtype  
---  ------                          -----  
 0   NU_ANO_CENSO                    int64  
 1   ID_TURMA                        int64  
 2   NO_TURMA                        object 
 3   TP_MEDIACAO_DIDATICO_PEDAGO     int64  
 4   TX_HR_INICIAL                   float64
 5   TX_MI_INICIAL                   float64
 6   IN_DIA_SEMANA_DOMINGO           float64
 7   IN_DIA_SEMANA_SEGUNDA           float64
 8   IN_DIA_SEMANA_TERCA             float64
 9   IN_DIA_SEMANA_QUARTA            float64
 10  IN_DIA_SEMANA_QUINTA            float64
 11  IN_DIA_SEMANA_SEXTA             float64
 12  IN_DIA_SEMANA_SABADO            float64
 13  NU_DIAS_ATIVIDADE               float64
 14  NU_DURACAO_TURMA                float64
 15  TP_TIPO_ATENDIMENTO_TURMA       int64  
 16  TP_TIPO_LOCAL_TURMA             float64
 17  CO_TIPO_ATIVIDADE_1        

In [15]:
dados["2007.zip"].columns

Index(['ANO_CENSO', 'PK_COD_TURMA', 'NO_TURMA', 'HR_INICIAL',
       'HR_INICIAL_MINUTO', 'NU_DURACAO_TURMA', 'NUM_MATRICULAS',
       'FK_COD_MOD_ENSINO', 'FK_COD_ETAPA_ENSINO', 'FK_COD_CURSO_PROF',
       'FK_COD_TIPO_TURMA', 'ID_QUIMICA', 'ID_FISICA', 'ID_MATEMATICA',
       'ID_BIOLOGIA', 'ID_CIENCIAS', 'ID_LINGUA_LITERAT_PORTUGUESA',
       'ID_LINGUA_LITERAT_INGLES', 'ID_LINGUA_LITERAT_ESPANHOL',
       'ID_LINGUA_LITERAT_OUTRA', 'ID_ARTES', 'ID_EDUCACAO_FISICA',
       'ID_HISTORIA', 'ID_GEOGRAFIA', 'ID_FILOSOFIA', 'ID_ESTUDOS_SOCIAIS',
       'ID_INFORMATICA_COMPUTACAO', 'ID_PROFISSIONALIZANTE',
       'ID_DIDATICA_METODOLOGIA', 'ID_FUNDAMENTOS_EDUCACAO',
       'ID_DISC_ATENDIMENTO_ESPECIAIS', 'ID_DISC_DIVERSIDADE_SOCIO_CULT',
       'ID_OUTRAS_DISCIPLINAS_PEDAG', 'ID_LIBRAS', 'ID_OUTRAS_DISCIPLINAS',
       'PK_COD_ENTIDADE', 'FK_COD_ESTADO', 'SIGLA', 'FK_COD_MUNICIPIO',
       'ID_LOCALIZACAO', 'ID_DEPENDENCIA_ADM', 'DESC_CATEGORIA_ESCOLA_PRIVADA',
       'ID_CONVENIADA_PP',

In [22]:
dados["2008.zip"].columns

Index(['ANO_CENSO', 'PK_COD_TURMA', 'NO_TURMA', 'HR_INICIAL',
       'HR_INICIAL_MINUTO', 'NU_DURACAO_TURMA', 'NUM_MATRICULAS',
       'FK_COD_MOD_ENSINO', 'FK_COD_ETAPA_ENSINO', 'FK_COD_CURSO_PROF',
       'FK_COD_TIPO_TURMA', 'ID_VEZ_ATIVIDADE_COMPLEMENTAR',
       'FK_COD_TIPO_ATIVIDADE_1', 'FK_COD_TIPO_ATIVIDADE_2',
       'FK_COD_TIPO_ATIVIDADE_3', 'FK_COD_TIPO_ATIVIDADE_4',
       'FK_COD_TIPO_ATIVIDADE_5', 'FK_COD_TIPO_ATIVIDADE_6', 'ID_QUIMICA',
       'ID_FISICA', 'ID_MATEMATICA', 'ID_BIOLOGIA', 'ID_CIENCIAS',
       'ID_LINGUA_LITERAT_PORTUGUESA', 'ID_LINGUA_LITERAT_INGLES',
       'ID_LINGUA_LITERAT_ESPANHOL', 'ID_LINGUA_LITERAT_OUTRA', 'ID_ARTES',
       'ID_EDUCACAO_FISICA', 'ID_HISTORIA', 'ID_GEOGRAFIA', 'ID_FILOSOFIA',
       'ID_ESTUDOS_SOCIAIS', 'ID_INFORMATICA_COMPUTACAO',
       'ID_PROFISSIONALIZANTE', 'ID_DIDATICA_METODOLOGIA',
       'ID_FUNDAMENTOS_EDUCACAO', 'ID_DISC_ATENDIMENTO_ESPECIAIS',
       'ID_DISC_DIVERSIDADE_SOCIO_CULT', 'ID_OUTRAS_DISCIPLINAS_PEDAG',


In [16]:
dados["2009.zip"].columns

Index(['ANO_CENSO', 'PK_COD_TURMA', 'NO_TURMA', 'HR_INICIAL',
       'HR_INICIAL_MINUTO', 'NU_DURACAO_TURMA', 'NUM_MATRICULAS',
       'FK_COD_MOD_ENSINO', 'FK_COD_ETAPA_ENSINO', 'FK_COD_CURSO_PROF',
       'FK_COD_TIPO_TURMA', 'ID_VEZ_ATIVIDADE_COMPLEMENTAR',
       'FK_COD_TIPO_ATIVIDADE_1', 'FK_COD_TIPO_ATIVIDADE_2',
       'FK_COD_TIPO_ATIVIDADE_3', 'FK_COD_TIPO_ATIVIDADE_4',
       'FK_COD_TIPO_ATIVIDADE_5', 'FK_COD_TIPO_ATIVIDADE_6', 'ID_BRAILLE',
       'ID_AUTONOMA', 'ID_RECURSOS_BAIXA_VISAO', 'ID_PROCESSOS_MENTAIS',
       'ID_ORIENTACAO_MOBILIDADE', 'ID_SINAIS', 'ID_COM_ALT_AUMENT',
       'ID_ENRIQ_CURRICULAR', 'ID_SOROBAN', 'ID_INF_ACESSIVEL', 'ID_PORT_ESC',
       'ID_QUIMICA', 'ID_FISICA', 'ID_MATEMATICA', 'ID_BIOLOGIA',
       'ID_CIENCIAS', 'ID_LINGUA_LITERAT_PORTUGUESA',
       'ID_LINGUA_LITERAT_INGLES', 'ID_LINGUA_LITERAT_ESPANHOL',
       'ID_LINGUA_LITERAT_OUTRA', 'ID_LINGUA_LITERAT_INDIGENA', 'ID_ARTES',
       'ID_EDUCACAO_FISICA', 'ID_HISTORIA', 'ID_GEOGRAFIA', 

In [17]:
dados["2011.zip"].columns

Index(['ANO_CENSO', 'PK_COD_TURMA', 'NO_TURMA', 'HR_INICIAL',
       'HR_INICIAL_MINUTO', 'NU_DURACAO_TURMA', 'NUM_MATRICULAS',
       'FK_COD_MOD_ENSINO', 'FK_COD_ETAPA_ENSINO', 'FK_COD_CURSO_PROF',
       'FK_COD_TIPO_TURMA', 'ID_VEZ_ATIVIDADE_COMPLEMENTAR',
       'FK_COD_TIPO_ATIVIDADE_1', 'FK_COD_TIPO_ATIVIDADE_2',
       'FK_COD_TIPO_ATIVIDADE_3', 'FK_COD_TIPO_ATIVIDADE_4',
       'FK_COD_TIPO_ATIVIDADE_5', 'FK_COD_TIPO_ATIVIDADE_6', 'ID_BRAILLE',
       'ID_RECURSOS_BAIXA_VISAO', 'ID_PROCESSOS_MENTAIS',
       'ID_ORIENTACAO_MOBILIDADE', 'ID_SINAIS', 'ID_COM_ALT_AUMENT',
       'ID_ENRIQ_CURRICULAR', 'ID_SOROBAN', 'ID_INF_ACESSIVEL', 'ID_PORT_ESC',
       'ID_AUT_ESCOLAR', 'ID_QUIMICA', 'ID_FISICA', 'ID_MATEMATICA',
       'ID_BIOLOGIA', 'ID_CIENCIAS', 'ID_LINGUA_LITERAT_PORTUGUESA',
       'ID_LINGUA_LITERAT_INGLES', 'ID_LINGUA_LITERAT_ESPANHOL',
       'ID_LINGUA_LITERAT_OUTRA', 'ID_LINGUA_LITERAT_INDIGENA', 'ID_ARTES',
       'ID_EDUCACAO_FISICA', 'ID_HISTORIA', 'ID_GEOGRAFIA

In [18]:
dados["2013.zip"].columns

Index(['ANO_CENSO', 'PK_COD_TURMA', 'NO_TURMA', 'HR_INICIAL',
       'HR_INICIAL_MINUTO', 'NU_DURACAO_TURMA', 'NUM_MATRICULAS',
       'FK_COD_MOD_ENSINO', 'FK_COD_ETAPA_ENSINO', 'FK_COD_CURSO_PROF',
       'FK_COD_TIPO_TURMA', 'ID_MAIS_EDUCACAO', 'ID_DIA_SEMANA_DOMINGO',
       'ID_DIA_SEMANA_SEGUNDA', 'ID_DIA_SEMANA_TERCA', 'ID_DIA_SEMANA_QUARTA',
       'ID_DIA_SEMANA_QUINTA', 'ID_DIA_SEMANA_SEXTA', 'ID_DIA_SEMANA_SABADO',
       'FK_COD_TIPO_ATIVIDADE_1', 'FK_COD_TIPO_ATIVIDADE_2',
       'FK_COD_TIPO_ATIVIDADE_3', 'FK_COD_TIPO_ATIVIDADE_4',
       'FK_COD_TIPO_ATIVIDADE_5', 'FK_COD_TIPO_ATIVIDADE_6', 'ID_BRAILLE',
       'ID_RECURSOS_BAIXA_VISAO', 'ID_PROCESSOS_MENTAIS',
       'ID_ORIENTACAO_MOBILIDADE', 'ID_SINAIS', 'ID_COM_ALT_AUMENT',
       'ID_ENRIQ_CURRICULAR', 'ID_SOROBAN', 'ID_INF_ACESSIVEL', 'ID_PORT_ESC',
       'ID_AUT_ESCOLAR', 'ID_QUIMICA', 'ID_FISICA', 'ID_MATEMATICA',
       'ID_BIOLOGIA', 'ID_CIENCIAS', 'ID_LINGUA_LITERAT_PORTUGUESA',
       'ID_LINGUA_LITERAT_ING

In [19]:
dados["2015.zip"].columns

Index(['NU_ANO_CENSO', 'ID_TURMA', 'NO_TURMA', 'TX_HR_INICIAL',
       'TX_MI_INICIAL', 'NU_DURACAO_TURMA', 'NU_MATRICULAS',
       'TP_MEDIACAO_DIDATICO_PEDAGO', 'IN_ESPECIAL_EXCLUSIVA', 'IN_REGULAR',
       'IN_EJA', 'IN_PROFISSIONALIZANTE', 'TP_ETAPA_ENSINO',
       'CO_CURSO_EDUC_PROFISSIONAL', 'TP_TIPO_TURMA', 'IN_MAIS_EDUCACAO',
       'NU_DIAS_ATIVIDADE', 'IN_DIA_SEMANA_DOMINGO', 'IN_DIA_SEMANA_SEGUNDA',
       'IN_DIA_SEMANA_TERCA', 'IN_DIA_SEMANA_QUARTA', 'IN_DIA_SEMANA_QUINTA',
       'IN_DIA_SEMANA_SEXTA', 'IN_DIA_SEMANA_SABADO', 'CO_TIPO_ATIVIDADE_1',
       'CO_TIPO_ATIVIDADE_2', 'CO_TIPO_ATIVIDADE_3', 'CO_TIPO_ATIVIDADE_4',
       'CO_TIPO_ATIVIDADE_5', 'CO_TIPO_ATIVIDADE_6', 'IN_BRAILLE',
       'IN_RECURSOS_BAIXA_VISAO', 'IN_PROCESSOS_MENTAIS',
       'IN_ORIENTACAO_MOBILIDADE', 'IN_SINAIS', 'IN_COMUNICACAO_ALT_AUMENT',
       'IN_ENRIQ_CURRICULAR', 'IN_SOROBAN', 'IN_INFORMATICA_ACESSIVEL',
       'IN_PORT_ESCRITA', 'IN_AUTONOMIA_ESCOLAR', 'IN_DISC_QUIMICA',
       'IN_

In [30]:
dados["2018.zip"].columns

Index(['NU_ANO_CENSO', 'ID_TURMA', 'NO_TURMA', 'TX_HR_INICIAL',
       'TX_MI_INICIAL', 'NU_DURACAO_TURMA', 'QT_MATRICULAS',
       'TP_MEDIACAO_DIDATICO_PEDAGO', 'IN_ESPECIAL_EXCLUSIVA', 'IN_REGULAR',
       'IN_EJA', 'IN_PROFISSIONALIZANTE', 'TP_ETAPA_ENSINO',
       'CO_CURSO_EDUC_PROFISSIONAL', 'TP_TIPO_TURMA', 'IN_MAIS_EDUCACAO',
       'NU_DIAS_ATIVIDADE', 'IN_DIA_SEMANA_DOMINGO', 'IN_DIA_SEMANA_SEGUNDA',
       'IN_DIA_SEMANA_TERCA', 'IN_DIA_SEMANA_QUARTA', 'IN_DIA_SEMANA_QUINTA',
       'IN_DIA_SEMANA_SEXTA', 'IN_DIA_SEMANA_SABADO', 'CO_TIPO_ATIVIDADE_1',
       'CO_TIPO_ATIVIDADE_2', 'CO_TIPO_ATIVIDADE_3', 'CO_TIPO_ATIVIDADE_4',
       'CO_TIPO_ATIVIDADE_5', 'CO_TIPO_ATIVIDADE_6', 'IN_BRAILLE',
       'IN_RECURSOS_BAIXA_VISAO', 'IN_PROCESSOS_MENTAIS',
       'IN_ORIENTACAO_MOBILIDADE', 'IN_SINAIS', 'IN_COMUNICACAO_ALT_AUMENT',
       'IN_ENRIQ_CURRICULAR', 'IN_SOROBAN', 'IN_INFORMATICA_ACESSIVEL',
       'IN_PORT_ESCRITA', 'IN_AUTONOMIA_ESCOLAR', 'IN_DISC_QUIMICA',
       'IN_

In [None]:
TP_MEDIACAO_DIDATICO_PEDAGO
TP_TIPO_ATENDIMENTO_TURMA

In [None]:
IN_ESPECIAL_EXCLUSIVA = TP_MOD_ENSINO == 2
IN_DISC_EST_SOCIAIS_SOCIOLOGIA = IN_DISC_SOCIOLOGIA | IN_DISC_ESTUDOS_SOCIAIS

In [None]:
IN_REGULAR	1,2,3,56,4,5,6,7,8,9,10,11,12,13,14, 15,16,17,18,19,20,21,22,23,24,41,25,26,27,28,29,30,31, 32,33,34,35,36,37 ou 38.
IN_EJA	Etapas consideradas (nas antigas modalidades 2 ou 3): TP_ETAPA_ENSINO igual a 65,67,69,70,71,72,73 ou 74.
IN_PROFISSIONALIZANTE	Etapas consideradas (nas antigas modalidades 1, 2 ou 3): TP_ETAPA_ENSINO igual a 30,31,32,33,34, 35,36,37,38,39,40,64,65,67,68,73 ou 74.


In [28]:
dados["2008.zip"].loc[lambda f: f["FK_COD_MOD_ENSINO"] == 1]

Unnamed: 0,ANO_CENSO,PK_COD_TURMA,NO_TURMA,HR_INICIAL,HR_INICIAL_MINUTO,NU_DURACAO_TURMA,NUM_MATRICULAS,FK_COD_MOD_ENSINO,FK_COD_ETAPA_ENSINO,FK_COD_CURSO_PROF,...,DESC_CATEGORIA_ESCOLA_PRIVADA,ID_CONVENIADA_PP,ID_TIPO_CONVENIO_PODER_PUBLICO,ID_MANT_ESCOLA_PRIVADA_EMP,ID_MANT_ESCOLA_PRIVADA_ONG,ID_MANT_ESCOLA_PRIVADA_SIND,ID_MANT_ESCOLA_PRIVADA_APAE,ID_DOCUMENTO_REGULAMENTACAO,ID_LOCALIZACAO_DIFERENCIADA,ID_EDUCACAO_INDIGENA
0,2008,6777713,4º D,13,0,250,24,1.0,17.0,,...,,,,,,,,1,0,0
1,2008,6777714,4º C,13,0,250,23,1.0,17.0,,...,,,,,,,,1,0,0
2,2008,6777716,4º B,7,0,250,33,1.0,17.0,,...,,,,,,,,1,0,0
3,2008,6777717,4º A,7,0,250,38,1.0,17.0,,...,,,,,,,,1,0,0
4,2008,6777719,3º D,13,0,250,18,1.0,16.0,,...,,,,,,,,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2198974,2008,9221724,5A,7,10,320,15,1.0,8.0,,...,1.0,0.0,,1.0,,,,1,0,0
2198975,2008,9221725,6A,7,10,320,19,1.0,9.0,,...,1.0,0.0,,1.0,,,,1,0,0
2198976,2008,9221726,8A,7,10,320,9,1.0,11.0,,...,1.0,0.0,,1.0,,,,1,0,0
2198977,2008,9221727,3A,13,0,270,7,1.0,6.0,,...,1.0,0.0,,1.0,,,,1,0,0


In [29]:
dados["2013.zip"].loc[lambda f: f["FK_COD_MOD_ENSINO"] == 1]

Unnamed: 0,ANO_CENSO,PK_COD_TURMA,NO_TURMA,HR_INICIAL,HR_INICIAL_MINUTO,NU_DURACAO_TURMA,NUM_MATRICULAS,FK_COD_MOD_ENSINO,FK_COD_ETAPA_ENSINO,FK_COD_CURSO_PROF,...,ID_CONVENIADA_PP,ID_TIPO_CONVENIO_PODER_PUBLICO,ID_MANT_ESCOLA_PRIVADA_EMP,ID_MANT_ESCOLA_PRIVADA_ONG,ID_MANT_ESCOLA_PRIVADA_SIST_S,ID_MANT_ESCOLA_PRIVADA_SIND,ID_MANT_ESCOLA_PRIVADA_S_FINS,ID_DOCUMENTO_REGULAMENTACAO,ID_LOCALIZACAO_DIFERENCIADA,ID_EDUCACAO_INDIGENA
0,2013,3233601,FUND 1 AO 5 ANO - 4 G VESP,13,0,240,28,1.0,17.0,,...,,,0,0,0,0,0,1,0,0
1,2013,362545,3º ANO TURMA B VESPERTINO,13,0,255,27,1.0,16.0,,...,,,0,0,0,0,0,1,0,0
2,2013,3233602,FUND 1 AO 5 ANO - 4 H VESP,13,0,240,24,1.0,17.0,,...,,,0,0,0,0,0,1,0,0
3,2013,362598,3º ANO TURMA C VESPERTINO,13,0,255,27,1.0,16.0,,...,,,0,0,0,0,0,1,0,0
4,2013,3219190,FUND 1 AO 5 ANO - 5 A MAT,7,0,240,30,1.0,18.0,,...,,,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2486520,2013,3375299,A006171107642,7,30,570,20,1.0,1.0,,...,,,0,0,0,0,0,1,0,0
2486521,2013,3375300,A006171107667,7,30,570,26,1.0,1.0,,...,,,0,0,0,0,0,1,0,0
2486522,2013,3375288,A006171107675,7,30,240,4,1.0,1.0,,...,,,0,0,0,0,0,1,0,0
2486523,2013,3375301,AB06171107618,7,30,570,29,1.0,1.0,,...,,,0,0,0,0,0,1,0,0


Verifica informações básicas de tamanho

In [22]:
dados["2020.zip"].shape

(188361, 83)

---

In [10]:
df = pd.read_parquet("dados/completo/aquisicao/censo_turma.parquet", filters=[("ANO", "=", 2020)])

In [11]:
df["TP_TIPO_LOCAL_TURMA"].value_counts()

NENHUM            2279985
SALA ANEXA          62141
PRISIONAL            4617
SOCIOEDUCATIVO       1883
Name: TP_TIPO_LOCAL_TURMA, dtype: int64

In [7]:
df.shape

(33357092, 73)