<a href="https://colab.research.google.com/github/lcsbiffi/projetoTera_evasaoescolar/blob/main/Projeto_Tera_Evas%C3%A3o_Escolar.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto Tera - Evasão Escolar

**Problema**

Prever a evasão escolar e suas principais variáveis para que gestores escolares atuem ativamente em políticas de combate.


**Hipóteses**

1) As principais variáveis de evasão estão relacionadas a renda familiar.

2) A variável de transporte está diretamente relacionada à evasão.

3) Maternidade e paternidade na adolescência está entre as principais variáveis de evasão.

4) A falta de professores está relacionada a evasão.

## Carregando bibliotecas

In [13]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Importando bancos de dados

In [16]:
ideb = pd.read_csv('.\BDs\ideb.csv')
inep = pd.read_csv('.\BDs\inep.csv')

In [None]:
#censo = pd.read_csv('.\BDs\censo_escolar.csv', nrows=1000)

## Analisando o df do Ideb

**Legenda**

*ano* - Ano

*sifla-uf* - Sigla da Unidade da Federação

*id_município* - ID Município - IBGE 7 Dígitos

*id_escola* - ID Escola

*rede* - Rede Escolar

*ensino* - Tipo de Ensino (fundamental ou médio)

*anos_escolares* - Anos escolares (Iniciais (1-5), Finais (6-9), Todos (1-4) <- Ensino Médio)

*taxa_aprovação* - Taxa de Aprovação (0 a 100)

*indicador_rendimento* - Indicador de Rendimento (P)

*nota_saeb_matematica* - Nota SAEB - Matemática

*nota_saeb_lingua_portuguesa* - Nota SAEB - Português

*nota_saeb_media_padronizada* - Nota SAEB - Média Padronizada (N)

*ideb* - IDEB (Média Padronizada (N) X Indicador de Rendimento (P)

*projecao* - Projeção (sei lá)

In [31]:
ideb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1027767 entries, 0 to 1027766
Data columns (total 14 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       --------------    -----  
 0   ano                          1027767 non-null  int64  
 1   sigla_uf                     1027767 non-null  object 
 2   id_municipio                 1027767 non-null  int64  
 3   id_escola                    1027767 non-null  int64  
 4   rede                         1027767 non-null  object 
 5   ensino                       1027767 non-null  object 
 6   anos_escolares               1027767 non-null  object 
 7   taxa_aprovacao               619628 non-null   float64
 8   indicador_rendimento         619580 non-null   float64
 9   nota_saeb_matematica         488139 non-null   float64
 10  nota_saeb_lingua_portuguesa  488139 non-null   float64
 11  nota_saeb_media_padronizada  556480 non-null   float64
 12  ideb                         556306 non-nu

Temos valores NaN nas seguintes colunas:

- taxa_aprovacao
- indicador_rendimento
- nota_saeb_matematica
- nota_saeb_lingua_portuguesa
- nota_saeb_media_padronizada
- ideb 
- projecao

In [35]:
ideb.describe(include = 'all').round(1)

Unnamed: 0,ano,sigla_uf,id_municipio,id_escola,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
count,1027767.0,1027767,1027767.0,1027767.0,1027767,1027767,1027767,619628.0,619580.0,488139.0,488139.0,556480.0,556306.0,705363.0
unique,,27,,,4,2,3,,,,,,,
top,,SP,,,municipal,fundamental,iniciais (1-5),,,,,,,
freq,,130434,,,645582,965727,559242,,,,,,,
mean,2013.4,,3088825.9,30875714.7,,,,86.7,0.9,222.2,211.5,5.0,4.4,4.7
std,5.2,,995739.8,9926413.0,,,,11.4,0.1,34.8,37.5,0.9,1.2,1.1
min,2005.0,,1100015.0,11000058.0,,,,0.0,0.0,99.9,103.7,1.4,0.1,0.6
25%,2009.0,,2311306.0,23197269.0,,,,80.5,0.8,196.1,181.7,4.4,3.6,3.9
50%,2013.0,,3114402.0,31044164.0,,,,89.5,0.9,223.9,212.6,4.9,4.3,4.7
75%,2017.0,,3550308.0,35436690.0,,,,95.7,1.0,246.6,239.0,5.6,5.2,5.4


In [37]:
ideb_anos = ideb['ano'].value_counts()
print(ideb_anos)

2017    127983
2019    127983
2021    127983
2005    107303
2007    107303
2009    107303
2011    107303
2013    107303
2015    107303
Name: ano, dtype: int64


Temos dados de escolas nos anos:

- 2005
- 2007
- 2009
- 2011
- 2013
- 2015 (ano com menos observações)
- 2017 (ano com mais observações)
- 2019
- 2021

In [41]:
ideb_ensino = ideb['ensino'].value_counts(normalize=True)*100
print(ideb_ensino)

fundamental    93.963612
medio           6.036388
Name: ensino, dtype: float64


In [43]:
ideb_anos_escolares = ideb['anos_escolares'].value_counts()
print(ideb_anos_escolares)

iniciais (1-5)    559242
finais (6-9)      406485
todos (1-4)        62040
Name: anos_escolares, dtype: int64


Maioria das observações (93%) são de *turmas do Ensino Fundamental*

In [52]:
ideb_em_bool = ideb['anos_escolares'] == 'todos (1-4)'
ideb_em = ideb[ideb_em_bool]
print(ideb_em)

          ano sigla_uf  id_municipio  id_escola      rede ensino  \
643828   2017       AC       1200013   12018422  estadual  medio   
643829   2017       AC       1200013   12021768  estadual  medio   
643835   2017       AC       1200013   12128236  estadual  medio   
643839   2017       AC       1200054   12015946  estadual  medio   
643845   2017       AC       1200104   12016284  estadual  medio   
...       ...      ...           ...        ...       ...    ...   
1027737  2021       TO       1722081   17009995  estadual  medio   
1027742  2021       TO       1722081   17010020  estadual  medio   
1027751  2021       TO       1722107   17010322  estadual  medio   
1027754  2021       TO       1722107   17010330  estadual  medio   
1027764  2021       TO       1722107   17010462  estadual  medio   

        anos_escolares  taxa_aprovacao  indicador_rendimento  \
643828     todos (1-4)            89.7              0.894401   
643829     todos (1-4)            74.6              0.7

Confirmando aqui que o valor *todos (1-4)* da coluna *anos_escolares* se refere ao **ensino médio**

## Checando os estados com maiores taxas de aprovação (CONTINUAR)

In [60]:
ideb_aprov = ideb[['sigla_uf', 'taxa_aprovacao']]
ideb_aprov = ideb_aprov.set_index('sigla_uf')


Unnamed: 0_level_0,taxa_aprovacao
sigla_uf,Unnamed: 1_level_1
AC,
AC,
AC,
AC,
AC,
AC,
AC,90.1
AC,83.7
AC,
AC,


## Matriz de correlação (com os dados NaN ainda, só pra ver)

In [20]:
corr = ideb.corr()
corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,ano,id_municipio,id_escola,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
ano,1.0,0.011018,0.010951,0.264246,0.267623,0.348161,0.393844,0.368267,0.405196,0.506271
id_municipio,0.011018,1.0,0.99982,0.164834,0.162383,0.261862,0.216358,0.306056,0.284877,0.287445
id_escola,0.010951,0.99982,1.0,0.163462,0.16104,0.25997,0.21476,0.30455,0.283216,0.286083
taxa_aprovacao,0.264246,0.164834,0.163462,1.0,0.988583,0.148723,0.106126,0.480553,0.773379,0.563586
indicador_rendimento,0.267623,0.162383,0.16104,0.988583,1.0,0.157676,0.116528,0.47731,0.775296,0.558933
nota_saeb_matematica,0.348161,0.261862,0.25997,0.148723,0.157676,1.0,0.955514,0.524083,0.432615,0.348091
nota_saeb_lingua_portuguesa,0.393844,0.216358,0.21476,0.106126,0.116528,0.955514,1.0,0.419509,0.339045,0.281164
nota_saeb_media_padronizada,0.368267,0.306056,0.30455,0.480553,0.47731,0.524083,0.419509,1.0,0.920521,0.739657
ideb,0.405196,0.284877,0.283216,0.773379,0.775296,0.432615,0.339045,0.920521,1.0,0.781037
projecao,0.506271,0.287445,0.286083,0.563586,0.558933,0.348091,0.281164,0.739657,0.781037,1.0
