<a href="https://colab.research.google.com/github/lcsbiffi/projetoTera_evasaoescolar/blob/main/Projeto_Tera_Evas%C3%A3o_Escolar.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto Tera - Evasão Escolar

**Problema**

Prever a evasão escolar e suas principais variáveis para que gestores escolares atuem ativamente em políticas de combate.


**Hipóteses**

1) As principais variáveis de evasão estão relacionadas a renda familiar.

2) A variável de transporte está diretamente relacionada à evasão.

3) Maternidade e paternidade na adolescência está entre as principais variáveis de evasão.

4) A falta de professores está relacionada a evasão.

## Carregando bibliotecas

In [221]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

## Importando bancos de dados

In [2]:
ideb = pd.read_csv('.\BDs\ideb_escola.csv')
inep = pd.read_csv('.\BDs\inep.csv')

In [3]:
censo = pd.read_csv('.\BDs\censo_escolar.csv')

# Analisando o df do Ideb

**Legenda**

*ano* - Ano

*sigla-uf* - Sigla da Unidade da Federação

*id_município* - ID Município - IBGE 7 Dígitos

*id_escola* - ID Escola

*rede* - Rede Escolar

*ensino* - Tipo de Ensino (fundamental ou médio)

*anos_escolares* - Anos escolares (Iniciais (1-5), Finais (6-9), Todos (1-4) <- Ensino Médio)

*taxa_aprovação* - Taxa de Aprovação (0 a 100)

*indicador_rendimento* - Indicador de Rendimento (P)

*nota_saeb_matematica* - Nota SAEB - Matemática

*nota_saeb_lingua_portuguesa* - Nota SAEB - Português

*nota_saeb_media_padronizada* - Nota SAEB - Média Padronizada (N)

*ideb* - IDEB (Média Padronizada (N) X Indicador de Rendimento (P)

*projecao* - Projeção (sei lá)

In [4]:
ideb.head()

Unnamed: 0,ano,sigla_uf,id_municipio,id_escola,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
0,2005,AC,1200013,12008966,municipal,fundamental,finais (6-9),,,,,,,
1,2005,AC,1200013,12008966,municipal,fundamental,iniciais (1-5),,,,,,,
2,2005,AC,1200013,12009156,municipal,fundamental,finais (6-9),,,,,,,
3,2005,AC,1200013,12009156,municipal,fundamental,iniciais (1-5),,,,,,,
4,2005,AC,1200013,12009164,estadual,fundamental,finais (6-9),,,,,,,


In [5]:
ideb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1027767 entries, 0 to 1027766
Data columns (total 14 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       --------------    -----  
 0   ano                          1027767 non-null  int64  
 1   sigla_uf                     1027767 non-null  object 
 2   id_municipio                 1027767 non-null  int64  
 3   id_escola                    1027767 non-null  int64  
 4   rede                         1027767 non-null  object 
 5   ensino                       1027767 non-null  object 
 6   anos_escolares               1027767 non-null  object 
 7   taxa_aprovacao               619628 non-null   float64
 8   indicador_rendimento         619580 non-null   float64
 9   nota_saeb_matematica         488139 non-null   float64
 10  nota_saeb_lingua_portuguesa  488139 non-null   float64
 11  nota_saeb_media_padronizada  556480 non-null   float64
 12  ideb                         556306 non-nu

Temos valores NaN nas seguintes colunas:

- taxa_aprovacao
- indicador_rendimento
- nota_saeb_matematica
- nota_saeb_lingua_portuguesa
- nota_saeb_media_padronizada
- ideb 
- projecao

In [6]:
ideb.describe(include = 'all').round(1)

Unnamed: 0,ano,sigla_uf,id_municipio,id_escola,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
count,1027767.0,1027767,1027767.0,1027767.0,1027767,1027767,1027767,619628.0,619580.0,488139.0,488139.0,556480.0,556306.0,705363.0
unique,,27,,,4,2,3,,,,,,,
top,,SP,,,municipal,fundamental,iniciais (1-5),,,,,,,
freq,,130434,,,645582,965727,559242,,,,,,,
mean,2013.4,,3088825.9,30875714.7,,,,86.7,0.9,222.2,211.5,5.0,4.4,4.7
std,5.2,,995739.8,9926413.0,,,,11.4,0.1,34.8,37.5,0.9,1.2,1.1
min,2005.0,,1100015.0,11000058.0,,,,0.0,0.0,99.9,103.7,1.4,0.1,0.6
25%,2009.0,,2311306.0,23197269.0,,,,80.5,0.8,196.1,181.7,4.4,3.6,3.9
50%,2013.0,,3114402.0,31044164.0,,,,89.5,0.9,223.9,212.6,4.9,4.3,4.7
75%,2017.0,,3550308.0,35436690.0,,,,95.7,1.0,246.6,239.0,5.6,5.2,5.4


In [7]:
ideb_anos = ideb['ano'].value_counts()
print(ideb_anos)

2017    127983
2019    127983
2021    127983
2005    107303
2007    107303
2009    107303
2011    107303
2013    107303
2015    107303
Name: ano, dtype: int64


Temos dados de escolas nos anos:

- 2005
- 2007
- 2009
- 2011
- 2013
- 2015 (ano com menos observações)
- 2017 (ano com mais observações)
- 2019
- 2021

In [8]:
ideb_ensino = ideb['ensino'].value_counts(normalize=True)*100
print(ideb_ensino)

fundamental    93.963612
medio           6.036388
Name: ensino, dtype: float64


In [9]:
ideb_anos_escolares = ideb['anos_escolares'].value_counts()
print(ideb_anos_escolares)

iniciais (1-5)    559242
finais (6-9)      406485
todos (1-4)        62040
Name: anos_escolares, dtype: int64


Maioria das observações (93%) são de *turmas do Ensino Fundamental*

In [10]:
ideb_em_bool = ideb['anos_escolares'] == 'todos (1-4)'
ideb_em = ideb[ideb_em_bool]
print(ideb_em)

          ano sigla_uf  id_municipio  id_escola      rede ensino  \
643828   2017       AC       1200013   12018422  estadual  medio   
643829   2017       AC       1200013   12021768  estadual  medio   
643835   2017       AC       1200013   12128236  estadual  medio   
643839   2017       AC       1200054   12015946  estadual  medio   
643845   2017       AC       1200104   12016284  estadual  medio   
...       ...      ...           ...        ...       ...    ...   
1027737  2021       TO       1722081   17009995  estadual  medio   
1027742  2021       TO       1722081   17010020  estadual  medio   
1027751  2021       TO       1722107   17010322  estadual  medio   
1027754  2021       TO       1722107   17010330  estadual  medio   
1027764  2021       TO       1722107   17010462  estadual  medio   

        anos_escolares  taxa_aprovacao  indicador_rendimento  \
643828     todos (1-4)            89.7              0.894401   
643829     todos (1-4)            74.6              0.7

Confirmando aqui que o valor *todos (1-4)* da coluna *anos_escolares* se refere ao **ensino médio**

## Arrumando valores NaN em cada Estado

Primeiro, vamos criar DataFrames separados para cada estado.

In [11]:
# Checando quais as siglas
ideb['sigla_uf'].value_counts()

SP    130434
MG     99678
BA     91995
RS     70107
MA     62844
CE     61152
RJ     57183
PA     54213
PR     47964
PE     47484
SC     39036
GO     32241
PI     30117
PB     27693
AM     23148
RN     21585
MT     20739
AL     19974
ES     18351
SE     14583
MS     14148
TO     12486
RO     10698
DF      6105
AC      5202
AP      4869
RR      3738
Name: sigla_uf, dtype: int64

## São Paulo (SP)

In [18]:
colunas = ['taxa_aprovacao', 'indicador_rendimento', 'nota_saeb_matematica', 'nota_saeb_lingua_portuguesa', 'nota_saeb_media_padronizada', 'ideb']
df_SP = ideb.loc[ideb['sigla_uf'] == "SP"]
df_SP[colunas].describe()

Unnamed: 0,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb
count,88752.0,88750.0,69704.0,69704.0,80440.0,80432.0
mean,94.064977,0.939289,236.406227,225.164133,5.45157,5.159987
std,5.844558,0.060461,28.920474,33.584867,0.898935,1.020607
min,0.0,0.122145,131.82,122.2,2.386667,0.6
25%,91.5,0.913416,217.75,199.17,4.765667,4.4
50%,95.8,0.957283,237.69,226.44,5.326333,5.1
75%,98.4,0.983575,255.07,248.33,6.077823,5.9
max,100.0,1.0,432.67,377.85,9.102075,9.0


In [19]:
df_SP.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 130434 entries, 92937 to 1026180
Data columns (total 14 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   ano                          130434 non-null  int64  
 1   sigla_uf                     130434 non-null  object 
 2   id_municipio                 130434 non-null  int64  
 3   id_escola                    130434 non-null  int64  
 4   rede                         130434 non-null  object 
 5   ensino                       130434 non-null  object 
 6   anos_escolares               130434 non-null  object 
 7   taxa_aprovacao               88752 non-null   float64
 8   indicador_rendimento         88750 non-null   float64
 9   nota_saeb_matematica         69704 non-null   float64
 10  nota_saeb_lingua_portuguesa  69704 non-null   float64
 11  nota_saeb_media_padronizada  80440 non-null   float64
 12  ideb                         80432 non-null   float64

In [20]:
df_SP.isnull().sum()

ano                                0
sigla_uf                           0
id_municipio                       0
id_escola                          0
rede                               0
ensino                             0
anos_escolares                     0
taxa_aprovacao                 41682
indicador_rendimento           41684
nota_saeb_matematica           60730
nota_saeb_lingua_portuguesa    60730
nota_saeb_media_padronizada    49994
ideb                           50002
projecao                       37102
dtype: int64

In [21]:
for row in df_SP:
    for coluna in colunas:
        df_SP[coluna].fillna((df_SP[coluna].mean()), inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return self._update_inplace(result)


In [186]:
df_SP.head()

Unnamed: 0,ano,sigla_uf,id_municipio,id_escola,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
92937,2005,SP,3500105,35030806,estadual,fundamental,finais (6-9),94.064977,0.939289,236.406227,225.164133,5.45157,5.159987,
92938,2005,SP,3500105,35031045,estadual,fundamental,finais (6-9),94.064977,0.939289,236.406227,225.164133,5.45157,5.159987,
92939,2005,SP,3500105,35031112,estadual,fundamental,finais (6-9),94.064977,0.939289,236.406227,225.164133,5.45157,5.159987,
92940,2005,SP,3500105,35079911,municipal,fundamental,iniciais (1-5),90.5,0.901503,184.16,177.78,4.711114,4.2,
92941,2005,SP,3500105,35079923,municipal,fundamental,iniciais (1-5),94.2,0.939028,171.97,168.77,4.314822,4.1,


In [23]:
df_SP.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 130434 entries, 92937 to 1026180
Data columns (total 14 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   ano                          130434 non-null  int64  
 1   sigla_uf                     130434 non-null  object 
 2   id_municipio                 130434 non-null  int64  
 3   id_escola                    130434 non-null  int64  
 4   rede                         130434 non-null  object 
 5   ensino                       130434 non-null  object 
 6   anos_escolares               130434 non-null  object 
 7   taxa_aprovacao               130434 non-null  float64
 8   indicador_rendimento         130434 non-null  float64
 9   nota_saeb_matematica         130434 non-null  float64
 10  nota_saeb_lingua_portuguesa  130434 non-null  float64
 11  nota_saeb_media_padronizada  130434 non-null  float64
 12  ideb                         130434 non-null  float64

In [182]:
# Renomeando
ideb_sp = df_SP.drop('projecao', axis=1)
ideb_sp.head()

Unnamed: 0,ano,sigla_uf,id_municipio,id_escola,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb
92937,2005,SP,3500105,35030806,estadual,fundamental,finais (6-9),94.064977,0.939289,236.406227,225.164133,5.45157,5.159987
92938,2005,SP,3500105,35031045,estadual,fundamental,finais (6-9),94.064977,0.939289,236.406227,225.164133,5.45157,5.159987
92939,2005,SP,3500105,35031112,estadual,fundamental,finais (6-9),94.064977,0.939289,236.406227,225.164133,5.45157,5.159987
92940,2005,SP,3500105,35079911,municipal,fundamental,iniciais (1-5),90.5,0.901503,184.16,177.78,4.711114,4.2
92941,2005,SP,3500105,35079923,municipal,fundamental,iniciais (1-5),94.2,0.939028,171.97,168.77,4.314822,4.1


## Matriz de correlação (com os dados tratados)

In [176]:
corr = ideb_tratado.corr()
corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,ano,id_municipio,id_escola,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb
ano,1.0,0.011018,0.010951,0.172311,0.174546,0.2109,0.239594,0.228496,0.246405
id_municipio,0.011018,1.0,0.99982,0.199361,0.19665,0.362174,0.305954,0.39262,0.361467
id_escola,0.010951,0.99982,1.0,0.197932,0.195244,0.360019,0.304125,0.390846,0.359568
taxa_aprovacao,0.172311,0.199361,0.197932,1.0,0.988052,0.228417,0.187547,0.485305,0.746434
indicador_rendimento,0.174546,0.19665,0.195244,0.988052,1.0,0.234392,0.194812,0.483197,0.749406
nota_saeb_matematica,0.2109,0.362174,0.360019,0.228417,0.234392,1.0,0.959769,0.587465,0.513861
nota_saeb_lingua_portuguesa,0.239594,0.305954,0.304125,0.187547,0.194812,0.959769,1.0,0.489761,0.425685
nota_saeb_media_padronizada,0.228496,0.39262,0.390846,0.485305,0.483197,0.587465,0.489761,1.0,0.92654
ideb,0.246405,0.361467,0.359568,0.746434,0.749406,0.513861,0.425685,0.92654,1.0


## Planilha do Inse 2019

### LEGENDA

**COLUNAS** (deixei as com significados óbvios)

* ID_AREA - Área da Escola (relacionada ao município) 1 - Capital 2 - Interior
* TP_LOCALIZACAO - Localização da Escola 1 - Urbana 2 - Rural
* TP_DEPENDENCIA - Dependência adm da escola 1 - Federal 2 - Estadual 3 - Municipal
* INSE_CLASSIFICACAO - Classificação do Indicador de Nível Socioeconômico

**INDICADOR DE NÍVEL SOCIOECONÔMICO**

* **Nível I** - Este é o nível inferior da escala, no qual os estudantes têm dois ou mais desvios-padrão abaixo da média nacional do Inse. Considerando a maioria dos estudantes, o pai/responsável não completou o 5º ano do ensino fundamental e a mãe/responsável tem o 5º ano do ensino fundamental incompleto ou completo. A maioria dos estudantes deste nível possui uma geladeira, um ou dois quartos, uma televisão e um banheiro. Mas não possui muitos dos bens e serviços pesquisados (i.e., computador, carro, wi-fi, mesa para estudar, garagem, micro-ondas, aspirador de pó, máquina de lavar roupa e freezer).
* **Nível II** - Neste nível, os estudantes estão entre um e dois desvios-padrão abaixo da média nacional do Inse. Considerando a maioria dos estudantes, a mãe/responsável e/ou o pai/responsável tem o 5º ano do ensino fundamental incompleto ou completo. A maioria possui uma geladeira, um ou dois quartos, uma televisão e um banheiro. Mas não possui muitos dos bens e serviços pesquisados, exceto uma parte dos estudantes deste nível passa a ter freezer, máquina de lavar roupa e três ou mais quartos para dormir em sua casa.
* **Nível III** - Neste nível, os estudantes estão entre meio e um desvio-padrão abaixo da média nacional do Inse. Considerando a maioria dos estudantes, a mãe/responsável e o pai/responsável têm o ensino fundamental incompleto ou completo e/ou ensino médio completo. A maioria possui uma geladeira, um ou dois quartos, uma televisão, um banheiro, wi-fi e máquina de lavar roupas, mas não possui computador, carro, garagem e aspirador de pó. Parte dos estudantes passa a ter também freezer e forno de micro-ondas.
* **Nível IV** - Neste nível, os estudantes estão até meio desvio-padrão abaixo da média nacional do Inse. Considerando a maioria dos estudantes, a mãe/responsável e o pai/responsável têm o ensino fundamental incompleto ou completo e/ou ensino médio completo. A maioria possui uma geladeira, um ou dois quartos, um banheiro, wi-fi, máquina de lavar roupas e freezer, mas não possui aspirador de pó. Parte dos estudantes deste nível passa a ter também computador, carro, mesa de estudos, garagem, forno de micro-ondas e uma ou duas televisões.
* **Nível V** - Neste nível, os estudantes estão até meio desvio-padrão acima da média nacional do Inse. Considerando a maioria dos estudantes, a mãe/responsável tem o ensino médio completo ou ensino superior completo, o pai/responsável tem do ensino fundamental completo até o ensino superior completo. A maioria possui uma geladeira, um ou dois quartos, um banheiro, wi-fi, máquina de lavar roupas, freezer, um carro, garagem, forno de micro-ondas. Parte dos estudantes deste nível passa a ter também dois banheiros.
* **Nível VI** - Neste nível, os estudantes estão de meio a um desvio-padrão acima da média nacional do Inse. Considerando a maioria dos estudantes, a mãe/responsável e/ou o pai/responsável têm o ensino médio completo ou o ensino superior completo. A maioria possui uma geladeira, dois ou três ou mais quartos, um banheiro, wi-fi, máquina de lavar roupas, freezer, um carro, garagem, forno de micro-ondas, mesa para estudos e aspirador de pó. Parte dos estudantes deste nível passa a ter também dois ou mais computadores e três ou mais televisões
* **Nível VII** - Neste nível, os estudantes estão de um a dois desvios-padrão acima da média nacional do Inse. Considerando a maioria dos estudantes, a mãe/responsável e/ou o pai/responsável têm ensino médio completo ou ensino superior completo. A maioria possui uma geladeira, três ou mais quartos, um banheiro, wi-fi, máquina de lavar roupas, freezer, um carro, garagem, forno de micro-ondas, mesa para estudos e aspirador de pó. Parte dos estudantes deste nível passa a ter também dois ou mais carros, três ou mais banheiros e duas ou mais geladeiras.
* **Nível VIII** - Este é o nível superior da escala, no qual os estudantes estão dois desvios-padrão ou mais acima da média nacional do Inse. Considerando a maioria dos estudantes, a mãe/responsável e/ou o pai/responsável têm ensino superior completo. Além de possuírem os bens dos níveis anteriores, a maioria dos estudantes deste nível passa a ter duas ou mais geladeiras, dois ou mais computadores, três ou mais televisões, três ou mais banheiros e dois ou mais carros.

In [177]:
inse_2019 = pd.read_excel('.\BDs\inse_2019.xlsx')

In [236]:
inse_sp = inse_2019[inse_2019['NOME_UF'] == 'São Paulo'].drop(['CO_UF'], axis=1)
inse_sp.head()

Unnamed: 0,CO_ESCOLA,NOME_ESCOLA,NOME_UF,CO_MUNICIPIO,NOME_MUNICIPIO,ID_AREA,TP_DEPENDENCIA,TP_LOCALIZACAO,QTD_ALUNOS_INSE,INSE_VALOR_ABSOLUTO,INSE_CLASSIFICACAO,PC_NIVEL_1,PC_NIVEL_2,PC_NIVEL_3,PC_NIVEL_4,PC_NIVEL_5,PC_NIVEL_6,PC_NIVEL_7,PC_NIVEL_8
43415,35030806,HELEN KELLER,São Paulo,3500105,Adamantina,2,2,1,123,5.31,Nível V,0.0,4.83,7.75,18.56,33.39,22.45,12.31,0.71
43416,35031045,DURVALINO GRION PROF,São Paulo,3500105,Adamantina,2,2,1,110,5.36,Nível V,0.0,0.0,9.36,14.4,38.21,23.56,13.46,1.02
43417,35031082,EUDECIO LUIZ VICENTE PROF ETEC,São Paulo,3500105,Adamantina,2,2,1,140,5.78,Nível VI,0.0,2.17,1.42,9.94,17.16,30.66,33.61,5.02
43418,35031100,HERVAL BELLUSCI ENGENHEIRO ETEC,São Paulo,3500105,Adamantina,2,2,2,19,5.39,Nível V,0.0,0.0,10.53,15.79,26.32,31.58,10.53,5.26
43419,35031112,FLEURIDES CAVALLINI MENECHINO PROFA,São Paulo,3500105,Adamantina,2,2,1,146,5.54,Nível VI,0.0,1.94,6.69,16.58,21.18,19.57,32.1,1.94


In [191]:
inse_sp.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10202 entries, 43415 to 53616
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   CO_ESCOLA            10202 non-null  int64  
 1   NOME_ESCOLA          10202 non-null  object 
 2   NOME_UF              10202 non-null  object 
 3   CO_MUNICIPIO         10202 non-null  int64  
 4   NOME_MUNICIPIO       10202 non-null  object 
 5   ID_AREA              10202 non-null  int64  
 6   TP_LOCALIZACAO       10202 non-null  int64  
 7   QTD_ALUNOS_INSE      10202 non-null  int64  
 8   INSE_VALOR_ABSOLUTO  10202 non-null  float64
 9   INSE_CLASSIFICACAO   10202 non-null  object 
 10  PC_NIVEL_1           10202 non-null  float64
 11  PC_NIVEL_2           10202 non-null  float64
 12  PC_NIVEL_3           10202 non-null  float64
 13  PC_NIVEL_4           10202 non-null  float64
 14  PC_NIVEL_5           10202 non-null  float64
 15  PC_NIVEL_6           10202 non-n

In [233]:
inse_sp.rename(columns = {'CO_ESCOLA' : 'id_escola'}, inplace=True)
inse_sp.head()

Unnamed: 0,id_escola,NOME_ESCOLA,NOME_UF,CO_MUNICIPIO,NOME_MUNICIPIO,ID_AREA,TP_DEPENDENCIA,TP_LOCALIZACAO,QTD_ALUNOS_INSE,INSE_VALOR_ABSOLUTO,INSE_CLASSIFICACAO,PC_NIVEL_1,PC_NIVEL_2,PC_NIVEL_3,PC_NIVEL_4,PC_NIVEL_5,PC_NIVEL_6,PC_NIVEL_7,PC_NIVEL_8
43415,35030806,HELEN KELLER,São Paulo,3500105,Adamantina,2,2,1,123,5.31,Nível V,0.0,4.83,7.75,18.56,33.39,22.45,12.31,0.71
43416,35031045,DURVALINO GRION PROF,São Paulo,3500105,Adamantina,2,2,1,110,5.36,Nível V,0.0,0.0,9.36,14.4,38.21,23.56,13.46,1.02
43417,35031082,EUDECIO LUIZ VICENTE PROF ETEC,São Paulo,3500105,Adamantina,2,2,1,140,5.78,Nível VI,0.0,2.17,1.42,9.94,17.16,30.66,33.61,5.02
43418,35031100,HERVAL BELLUSCI ENGENHEIRO ETEC,São Paulo,3500105,Adamantina,2,2,2,19,5.39,Nível V,0.0,0.0,10.53,15.79,26.32,31.58,10.53,5.26
43419,35031112,FLEURIDES CAVALLINI MENECHINO PROFA,São Paulo,3500105,Adamantina,2,2,1,146,5.54,Nível VI,0.0,1.94,6.69,16.58,21.18,19.57,32.1,1.94


# Analisando o df do INEP (Indicadores Educacionais)

## CONTINUAR DAQUI

Legenda

* *ano* - Ano
* *id_municipio* - ID do município (7 dígitos)
* *id_escola* - ID da Escola
* *localizacao* - Localização (rural ou urbana)
* *rede* - Estadual ou Municipal
* *atu_ei* - Média de Alunos por Turma - Educação Infantil
* *atu_ei_creche* - Média de Alunos por Turma - Educação Infantil - Creche
* *atu_ei_pre_escola* - Média de Alunos por Turma - Educação Infantil - Pré escola
* *atu_ef* - Média de Alunos por Turma - Ensino Fundamental (Turmas Unificadas inclusas no cálculo do indicador a partir de 2017)
* *atu_ef_anos_iniciais* - Média de Alunos por Turma - Ensino Fundamental Anos Iniciais
* *atu_ef_anos_finais* - Média de Alunos por Turma - Ensino Fundamental Anos Finais
* *atu_ef_1_ano* - Média de Alunos por Turma - Ensino Fundamental 1º ano
* *atu_ef_2_ano* - Média de Alunos por Turma - Ensino Fundamental 2º ano
* *atu_ef_3_ano* - Média de Alunos por Turma - Ensino Fundamental 3º ano
* *atu_ef_4_ano* - Média de Alunos por Turma - Ensino Fundamental 4º ano
* *atu_ef_5_ano* - Média de Alunos por Turma - Ensino Fundamental 5º ano
* *atu_ef_6_ano* - Média de Alunos por Turma - Ensino Fundamental 6º ano


In [217]:
colunas = ['atu_ei', 'atu_ei_creche', 'atu_ei_pre_escola', 'atu_ef', 'atu_ef_anos_iniciais', 'atu_ef_anos_finais', 'atu_ef_1_ano', 'atu_ef_2_ano', 'atu_ef_3_ano', 'atu_ef_4_ano', 'atu_ef_5_ano', 'atu_ef_6_ano', 'atu_ef_7_ano', 'atu_ef_8_ano', 'atu_ef_9_ano', 'atu_ef_turmas_unif_multi_fluxo', 'had_ei', 'had_ei_creche', 'had_ei_pre_escola', 'had_ef', 'had_ef_anos_iniciais', 'had_ef_anos_finais', 'had_ef_1_ano', 'had_ef_2_ano', 'had_ef_3_ano', 'had_ef_4_ano', 'had_ef_5_ano', 'had_ef_6_ano', 'had_ef_7_ano', 'had_ef_8_ano', 'had_ef_9_ano', 'tdi_ef', 'tdi_ef_anos_iniciais', 'tdi_ef_anos_finais', 'tdi_ef_1_ano', 'tdi_ef_2_ano', 'tdi_ef_3_ano', 'tdi_ef_4_ano', 'tdi_ef_5_ano', 'tdi_ef_6_ano', 'tdi_ef_7_ano', 'tdi_ef_8_ano', 'tdi_ef_9_ano', 'taxa_aprovacao_ef', 'taxa_aprovacao_ef_anos_iniciais', 'taxa_aprovacao_ef_anos_finais', 'taxa_aprovacao_ef_1_ano', 'taxa_aprovacao_ef_2_ano', 'taxa_aprovacao_ef_3_ano', 'taxa_aprovacao_ef_4_ano', 'taxa_aprovacao_ef_5_ano', 'taxa_aprovacao_ef_6_ano', 'taxa_aprovacao_ef_7_ano', 'taxa_aprovacao_ef_8_ano', 'taxa_aprovacao_ef_9_ano', 'taxa_reprovacao_ef', 'taxa_reprovacao_ef_anos_iniciais', 'taxa_reprovacao_ef_anos_finais', 'taxa_reprovacao_ef_1_ano', 'taxa_reprovacao_ef_2_ano', 'taxa_reprovacao_ef_3_ano', 'taxa_reprovacao_ef_4_ano', 'taxa_reprovacao_ef_5_ano', 'taxa_reprovacao_ef_6_ano', 'taxa_reprovacao_ef_7_ano', 'taxa_reprovacao_ef_8_ano', 'taxa_reprovacao_ef_9_ano', 'taxa_abandono_ef', 'taxa_abandono_ef_anos_iniciais', 'taxa_abandono_ef_anos_finais', 'taxa_abandono_ef_1_ano', 'taxa_abandono_ef_2_ano', 'taxa_abandono_ef_3_ano', 'taxa_abandono_ef_4_ano', 'taxa_abandono_ef_5_ano', 'taxa_abandono_ef_6_ano', 'taxa_abandono_ef_7_ano', 'taxa_abandono_ef_8_ano', 'taxa_abandono_ef_9_ano', 'tnr_ef', 'tnr_ef_anos_iniciais', 'tnr_ef_anos_finais', 'tnr_ef_1_ano', 'tnr_ef_2_ano', 'tnr_ef_3_ano', 'tnr_ef_4_ano', 'tnr_ef_5_ano', 'tnr_ef_6_ano', 'tnr_ef_7_ano', 'tnr_ef_8_ano', 'tnr_ef_9_ano', 'dsu_ei', 'dsu_ei_creche', 'dsu_ei_pre_escola', 'dsu_ef', 'dsu_ef_anos_iniciais', 'dsu_ef_anos_finais', 'dsu_ep', 'dsu_eja', 'dsu_ee', 'afd_ei_grupo_1', 'afd_ei_grupo_2', 'afd_ei_grupo_3', 'afd_ei_grupo_4', 'afd_ei_grupo_5', 'afd_ef_grupo_1', 'afd_ef_grupo_2', 'afd_ef_grupo_3', 'afd_ef_grupo_4', 'afd_ef_grupo_5', 'afd_ef_anos_iniciais_grupo_1', 'afd_ef_anos_iniciais_grupo_2', 'afd_ef_anos_iniciais_grupo_3', 'afd_ef_anos_iniciais_grupo_4', 'afd_ef_anos_iniciais_grupo_5', 'afd_ef_anos_finais_grupo_1', 'afd_ef_anos_finais_grupo_2', 'afd_ef_anos_finais_grupo_3', 'afd_ef_anos_finais_grupo_4', 'afd_ef_anos_finais_grupo_5', 'afd_eja_fundamental_grupo_1', 'afd_eja_fundamental_grupo_2', 'afd_eja_fundamental_grupo_3', 'afd_eja_fundamental_grupo_4', 'afd_eja_fundamental_grupo_5', 'ird_media_regularidade_docente', 'ied_ef_nivel_1', 'ied_ef_nivel_2', 'ied_ef_nivel_3', 'ied_ef_nivel_4', 'ied_ef_nivel_5', 'ied_ef_nivel_6', 'ied_ef_anos_iniciais_nivel_1', 'ied_ef_anos_iniciais_nivel_2', 'ied_ef_anos_iniciais_nivel_3', 'ied_ef_anos_iniciais_nivel_4', 'ied_ef_anos_iniciais_nivel_5', 'ied_ef_anos_iniciais_nivel_6', 'ied_ef_anos_finais_nivel_1', 'ied_ef_anos_finais_nivel_2', 'ied_ef_anos_finais_nivel_3', 'ied_ef_anos_finais_nivel_4', 'ied_ef_anos_finais_nivel_5', 'ied_ef_anos_finais_nivel_6', 'icg_nivel_complexidade_gestao_escola']
inep = inep.drop(colunas, axis=1)

In [218]:
inep.head()

Unnamed: 0,ano,id_municipio,rede,id_escola,localizacao,atu_em,atu_em_1_ano,atu_em_2_ano,atu_em_3_ano,atu_em_4_ano,...,afd_eja_medio_grupo_2,afd_eja_medio_grupo_3,afd_eja_medio_grupo_4,afd_eja_medio_grupo_5,ied_em_nivel_1,ied_em_nivel_2,ied_em_nivel_3,ied_em_nivel_4,ied_em_nivel_5,ied_em_nivel_6
0,2007,1100015,estadual,11022558,rural,,,,,,...,,,,,,,,,,
1,2007,1100015,estadual,11037938,rural,,,,,,...,,,,,,,,,,
2,2007,1100015,estadual,11037946,rural,,,,,,...,,,,,,,,,,
3,2007,1100015,estadual,11037962,rural,,,,,,...,,,,,,,,,,
4,2007,1100015,estadual,11038047,rural,,,,,,...,,,,,,,,,,


In [228]:
inep.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2637557 entries, 0 to 2637556
Data columns (total 63 columns):
 #   Column                          Dtype  
---  ------                          -----  
 0   ano                             int64  
 1   id_municipio                    int64  
 2   rede                            object 
 3   id_escola                       int64  
 4   localizacao                     object 
 5   atu_em                          float64
 6   atu_em_1_ano                    float64
 7   atu_em_2_ano                    float64
 8   atu_em_3_ano                    float64
 9   atu_em_4_ano                    float64
 10  atu_em_nao_seriado              float64
 11  had_em                          float64
 12  had_em_1_ano                    float64
 13  had_em_2_ano                    float64
 14  had_em_3_ano                    float64
 15  had_em_4_ano                    float64
 16  had_em_nao_seriado              float64
 17  tdi_em                     

In [None]:
inep['atu_em'].isnull

# Combinando os DFs do inep, inse e ideb

In [234]:
ideb_sp.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 130434 entries, 92937 to 1026180
Data columns (total 13 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   ano                          130434 non-null  int64  
 1   sigla_uf                     130434 non-null  object 
 2   id_municipio                 130434 non-null  int64  
 3   id_escola                    130434 non-null  int64  
 4   rede                         130434 non-null  object 
 5   ensino                       130434 non-null  object 
 6   anos_escolares               130434 non-null  object 
 7   taxa_aprovacao               130434 non-null  float64
 8   indicador_rendimento         130434 non-null  float64
 9   nota_saeb_matematica         130434 non-null  float64
 10  nota_saeb_lingua_portuguesa  130434 non-null  float64
 11  nota_saeb_media_padronizada  130434 non-null  float64
 12  ideb                         130434 non-null  float64

In [237]:
inse_sp.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10202 entries, 43415 to 53616
Data columns (total 19 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   CO_ESCOLA            10202 non-null  int64  
 1   NOME_ESCOLA          10202 non-null  object 
 2   NOME_UF              10202 non-null  object 
 3   CO_MUNICIPIO         10202 non-null  int64  
 4   NOME_MUNICIPIO       10202 non-null  object 
 5   ID_AREA              10202 non-null  int64  
 6   TP_DEPENDENCIA       10202 non-null  int64  
 7   TP_LOCALIZACAO       10202 non-null  int64  
 8   QTD_ALUNOS_INSE      10202 non-null  int64  
 9   INSE_VALOR_ABSOLUTO  10202 non-null  float64
 10  INSE_CLASSIFICACAO   10202 non-null  object 
 11  PC_NIVEL_1           10202 non-null  float64
 12  PC_NIVEL_2           10202 non-null  float64
 13  PC_NIVEL_3           10202 non-null  float64
 14  PC_NIVEL_4           10202 non-null  float64
 15  PC_NIVEL_5           10202 non-n

In [238]:
inep.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2637557 entries, 0 to 2637556
Data columns (total 63 columns):
 #   Column                          Dtype  
---  ------                          -----  
 0   ano                             int64  
 1   id_municipio                    int64  
 2   rede                            object 
 3   id_escola                       int64  
 4   localizacao                     object 
 5   atu_em                          float64
 6   atu_em_1_ano                    float64
 7   atu_em_2_ano                    float64
 8   atu_em_3_ano                    float64
 9   atu_em_4_ano                    float64
 10  atu_em_nao_seriado              float64
 11  had_em                          float64
 12  had_em_1_ano                    float64
 13  had_em_2_ano                    float64
 14  had_em_3_ano                    float64
 15  had_em_4_ano                    float64
 16  had_em_nao_seriado              float64
 17  tdi_em                     

In [None]:
evasao_sp = ideb_sp.merge(inse_sp, how)

# CENSO ESCOLAR

In [226]:
censo = censo[censo['sigla_uf'] == 'SP']
censo.head()

Unnamed: 0,ano,sigla_uf,id_municipio,rede,id_escola,id_turma,etapa_ensino,tipo_turma,hora_inicial,minuto_inicial,dia_semana_domingo,dia_semana_segunda,dia_semana_terca,dia_semana_quarta,dia_semana_quinta,dia_semana_sexta,dia_semana_sabado,numero_dias_atividade,numero_duracao_turma,tipo_atividade_1,tipo_atividade_2,tipo_atividade_3,tipo_atividade_4,tipo_atividade_5,tipo_atividade_6,id_curso_educacao_profissional,quantidade_matriculas,disciplina_lingua_portuguesa,disciplina_educacao_fisica,disciplina_artes,disciplina_lingua_ingles,disciplina_lingua_espanhol,disciplina_lingua_frances,disciplina_lingua_outra,disciplina_libras,disciplina_lingua_indigena,disciplina_matematica,disciplina_ciencias,disciplina_fisica,disciplina_quimica,disciplina_biologia,disciplina_historia,disciplina_geografia,disciplina_sociologia,disciplina_filosofia,disciplina_estudos_sociais,disciplina_informatica_comp,disciplina_ensino_religioso,disciplina_profissionalizante,disciplina_pedagogicas,disciplina_outras,tipo_localizacao,tipo_categoria_escola_privada,conveniada_poder_publico,tipo_convenio_poder_publico,mantenedora_privada_emp,mantenedora_privada_ong,mantenedora_privada_sind,mantenedora_privada_sist_s,mantenedora_privada_s_fins,tipo_regulamentacao,tipo_localizacao_diferenciada,educacao_indigena,braille,recursos_baixa_visao,processos_mentais,orientacao_mobilidade,sinais,comunicacao_alt_aument,enriquecimento_curricular,soroban,informatica_acessivel,port_escrita,autonomia_escolar,disciplina_atendimento_especiais,disciplina_diver_socio_cultural
1809641,2009,SP,3508603.0,estadual,35013055.0,12853067.0,10.0,0.0,7.0,0.0,,,,,,,,,320.0,,,,,,,,20.0,1.0,1.0,1.0,1.0,0.0,,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,1.0,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,,,,0.0,0.0,0.0,,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1809642,2009,SP,3508603.0,estadual,35013055.0,12853068.0,9.0,0.0,7.0,0.0,,,,,,,,,320.0,,,,,,,,32.0,1.0,1.0,1.0,1.0,0.0,,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,1.0,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,,,,0.0,0.0,0.0,,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1809643,2009,SP,3508603.0,estadual,35013055.0,12853069.0,26.0,0.0,7.0,0.0,,,,,,,,,320.0,,,,,,,,34.0,0.0,1.0,1.0,1.0,0.0,,0.0,0.0,0.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,,1.0,1.0,0.0,0.0,0.0,0.0,0.0,2.0,,,,0.0,0.0,0.0,,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1809644,2009,SP,3508603.0,estadual,35013055.0,12853070.0,8.0,0.0,12.0,30.0,,,,,,,,,320.0,,,,,,,,25.0,1.0,1.0,1.0,1.0,0.0,,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,1.0,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,,,,0.0,0.0,0.0,,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1809645,2009,SP,3508603.0,estadual,35013055.0,12853071.0,45.0,0.0,18.0,30.0,,,,,,,,,240.0,,,,,,,,24.0,1.0,0.0,0.0,1.0,0.0,,0.0,0.0,0.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,,1.0,1.0,0.0,0.0,0.0,0.0,1.0,2.0,,,,0.0,0.0,0.0,,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [227]:
censo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 423166 entries, 1809641 to 2232806
Data columns (total 76 columns):
 #   Column                            Non-Null Count   Dtype  
---  ------                            --------------   -----  
 0   ano                               423166 non-null  int64  
 1   sigla_uf                          423166 non-null  object 
 2   id_municipio                      423166 non-null  float64
 3   rede                              423166 non-null  object 
 4   id_escola                         423166 non-null  float64
 5   id_turma                          423166 non-null  float64
 6   etapa_ensino                      413498 non-null  float64
 7   tipo_turma                        423166 non-null  float64
 8   hora_inicial                      423166 non-null  float64
 9   minuto_inicial                    423166 non-null  float64
 10  dia_semana_domingo                0 non-null       float64
 11  dia_semana_segunda                0 non-null 

In [229]:
censo_turma = pd.read_csv('.\BDs\censo_turma.csv')

MemoryError: Unable to allocate 14.1 GiB for an array with shape (65, 29046919) and data type float64