**Índice de Desenvolvimento da Educação Básica (Ideb)**

O Índice de Desenvolvimento da Educação Básica (Ideb) foi criado em 2007 e reúne, em um só indicador, os resultados de dois conceitos igualmente importantes para a qualidade da educação: o fluxo escolar e as médias de desempenho nas avaliações.

Ele é calculado a partir dos dados sobre aprovação escolar, obtidos no Censo Escolar, e das médias de desempenho nas avaliações do Inep, o Sistema de Avaliação da Educação Básica (Saeb) – para as unidades da federação e para o país, e a Prova Brasil – para os municípios.

## Importando bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

## Carregando a base de dados

In [2]:
df = pd.read_csv("municipio.csv")

# Conhecendo os dados

Antes de iniciar qualquer análise é preciso conhecer os dados que estamos trabalhando.

## 1. O que tem no conjunto de dados?

Para visualizar 5 primeiros valores do dataset, execute o seguinte comando:

In [3]:
df.head()

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
0,2005,AC,1200013,estadual,fundamental,finais (6-9),90.0,0.899595,223.3,209.69,3.88221,3.5,
1,2005,AC,1200013,estadual,fundamental,iniciais (1-5),80.4,0.7606,167.8,154.39,3.972965,3.0,
2,2005,AC,1200013,municipal,fundamental,finais (6-9),,,,,,,
3,2005,AC,1200013,municipal,fundamental,iniciais (1-5),66.3,0.68156,169.8,163.0,4.168093,2.8,
4,2005,AC,1200013,publica,fundamental,finais (6-9),89.0,0.893661,223.3,209.69,3.882167,3.5,


Para visualizar os últimos valores do dataset, execute o seguinte comando: 

In [4]:
df.tail()

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
294421,2021,TO,1722107,municipal,fundamental,finais (6-9),,,,,,,4.1
294422,2021,TO,1722107,municipal,fundamental,iniciais (1-5),,,,,,,5.0
294423,2021,TO,1722107,publica,fundamental,finais (6-9),,,,,,,5.4
294424,2021,TO,1722107,publica,fundamental,iniciais (1-5),,,,,,,5.7
294425,2021,TO,1722107,publica,medio,todos (1-4),,,,,,,4.3


Olhando de forma rápida, conseguimos identificar dados faltantes nas colunas. Essas informações estão identificadas como **NaN**

In [5]:
x = df.shape[0]
y = df.shape[1]


print("O dataset possui %s linhas" %x)
print("O dataset possui %s colunas" %y)

O dataset possui 294426 linhas
O dataset possui 13 colunas


In [6]:
df.dtypes # mostra os tipos de dados presentes no conjunto de dados

ano                              int64
sigla_uf                        object
id_municipio                     int64
rede                            object
ensino                          object
anos_escolares                  object
taxa_aprovacao                 float64
indicador_rendimento           float64
nota_saeb_matematica           float64
nota_saeb_lingua_portuguesa    float64
nota_saeb_media_padronizada    float64
ideb                           float64
projecao                       float64
dtype: object

In [7]:
## Como apresentar essas informações de uma única maneira

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 294426 entries, 0 to 294425
Data columns (total 13 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   ano                          294426 non-null  int64  
 1   sigla_uf                     294426 non-null  object 
 2   id_municipio                 294426 non-null  int64  
 3   rede                         294426 non-null  object 
 4   ensino                       294426 non-null  object 
 5   anos_escolares               294426 non-null  object 
 6   taxa_aprovacao               230833 non-null  float64
 7   indicador_rendimento         230823 non-null  float64
 8   nota_saeb_matematica         197870 non-null  float64
 9   nota_saeb_lingua_portuguesa  197870 non-null  float64
 10  nota_saeb_media_padronizada  222078 non-null  float64
 11  ideb                         222045 non-null  float64
 12  projecao                     242395 non-null  float64
dtyp

## Quais colunas possuem dados faltantes?

In [8]:
df.isnull().sum()

ano                                0
sigla_uf                           0
id_municipio                       0
rede                               0
ensino                             0
anos_escolares                     0
taxa_aprovacao                 63593
indicador_rendimento           63603
nota_saeb_matematica           96556
nota_saeb_lingua_portuguesa    96556
nota_saeb_media_padronizada    72348
ideb                           72381
projecao                       52031
dtype: int64

## O que fazemos com os dados que estão faltando? Quais ideias vocês sugerem?

<img src="assets/duvida1.gif">

Há diversas abordagens para escolher o que se pode fazer com dados faltantes

- Remover todos os valores nulos
- Para valores numéricos: substituir todos os valores faltantes pela média, mediana, etc
- Para valores categóricos: substituir pelo valor que mais recorrente

Neste tutorial iremos seguir a primeira abordagem, remover todos os valores nulos.

## Limpeza dos dados

In [9]:
# Removendo valores nulos

df.dropna(axis=0, inplace=True)

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 158133 entries, 28839 to 253961
Data columns (total 13 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   ano                          158133 non-null  int64  
 1   sigla_uf                     158133 non-null  object 
 2   id_municipio                 158133 non-null  int64  
 3   rede                         158133 non-null  object 
 4   ensino                       158133 non-null  object 
 5   anos_escolares               158133 non-null  object 
 6   taxa_aprovacao               158133 non-null  float64
 7   indicador_rendimento         158133 non-null  float64
 8   nota_saeb_matematica         158133 non-null  float64
 9   nota_saeb_lingua_portuguesa  158133 non-null  float64
 10  nota_saeb_media_padronizada  158133 non-null  float64
 11  ideb                         158133 non-null  float64
 12  projecao                     158133 non-null  float64


In [11]:
x = df.shape[0]

print("O dataset possui %s linhas" %x)

O dataset possui 158133 linhas


## Agora, vamos começar os trabalhos!!

<img src="assets/lets.gif" width="300px">

## Hmmm, Como os dados estão agora?

In [12]:
df.head()

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
28839,2007,AC,1200013,estadual,fundamental,finais (6-9),87.3,0.870601,235.0,221.32,4.272,3.7,3.5
28840,2007,AC,1200013,estadual,fundamental,iniciais (1-5),83.2,0.803809,165.13,151.88,3.876843,3.1,3.1
28842,2007,AC,1200013,municipal,fundamental,iniciais (1-5),73.7,0.757963,178.88,157.08,4.234166,3.2,2.9
28843,2007,AC,1200013,publica,fundamental,finais (6-9),88.4,0.883613,235.0,221.32,4.272,3.8,3.5
28844,2007,AC,1200013,publica,fundamental,iniciais (1-5),75.3,0.765777,172.46,154.66,4.067274,3.1,2.9


# Análise exploratória dos dados

Conseguimos responder algumas perguntas que fizemos lá em cima! Bora lá?!

## Qual taxa média de aprovação em todos os estados?

In [13]:
media = df["taxa_aprovacao"].mean()

print("A taxa média de aprovação entre todos os estados é", media)

A taxa média de aprovação entre todos os estados é 87.17310681514876


## Qual a menor média da taxa de aprovação em todos os estados?

In [14]:
menor_media = df["taxa_aprovacao"].min()

print("A menor taxa de aprovação entre todos os estados é", menor_media)

A menor taxa de aprovação entre todos os estados é 6.1


## Qual a maior média da taxa de aprovação em todos os estados?

In [15]:
maior_media = df["taxa_aprovacao"].max()

print("A maior taxa de aprovação entre todos os estados é", maior_media)

A maior taxa de aprovação entre todos os estados é 100.0


## Qual o estado com menor média? 

In [16]:
df[df["taxa_aprovacao"] == menor_media]

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
41967,2007,PA,1505700,estadual,fundamental,iniciais (1-5),6.1,0.027385,170.66,160.11,4.132387,0.1,3.1


## E quem tem a maior?

In [17]:
df[df["taxa_aprovacao"] == maior_media]

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
29343,2007,AL,2706448,estadual,fundamental,iniciais (1-5),100.0,1.0,171.19,149.35,3.946683,3.9,3.3
31002,2007,BA,2916500,municipal,fundamental,iniciais (1-5),100.0,1.0,172.38,158.80,4.141202,4.1,2.5
31004,2007,BA,2916500,publica,fundamental,iniciais (1-5),100.0,1.0,172.38,158.80,4.141202,4.1,2.5
31267,2007,BA,2920452,municipal,fundamental,finais (6-9),100.0,1.0,204.96,192.07,3.283833,3.3,2.8
33648,2007,GO,5202601,estadual,fundamental,iniciais (1-5),100.0,1.0,167.52,151.89,3.922817,3.9,3.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...
253443,2019,TO,1712157,publica,medio,todos (1-4),100.0,1.0,244.49,248.27,3.839979,3.8,4.3
253454,2019,TO,1712454,estadual,medio,todos (1-4),100.0,1.0,263.35,260.13,4.282552,4.3,4.2
253458,2019,TO,1712454,publica,medio,todos (1-4),100.0,1.0,263.35,260.13,4.282552,4.3,4.2
253476,2019,TO,1712801,estadual,medio,todos (1-4),100.0,1.0,253.64,249.96,3.993930,4.0,3.7


Alguma coisa está diferente, né? A gente queria o estado com a maior taxa de aprovação, mas vieram dados de diversos anos. Pois bem, agora vamos ver como filtrar essas informações de uma melhor maneira.

## Como montar uma pesquisa no dataset com mais argumentos

In [25]:
pesquisa = df[(df["ano"] == 2019)]
pesquisa

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
213500,2019,AC,1200013,estadual,medio,todos (1-4),67.3,0.729732,277.27,274.75,4.696920,3.4,3.8
213502,2019,AC,1200013,municipal,fundamental,iniciais (1-5),96.5,0.965048,217.05,201.16,5.763874,5.6,4.8
213504,2019,AC,1200013,publica,fundamental,iniciais (1-5),96.5,0.965048,217.05,201.16,5.763874,5.6,4.8
213505,2019,AC,1200013,publica,medio,todos (1-4),67.3,0.729732,277.27,274.75,4.696920,3.4,3.8
213506,2019,AC,1200054,estadual,fundamental,finais (6-9),87.8,0.878964,260.77,251.58,5.206167,4.6,4.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...
253957,2019,TO,1722107,municipal,fundamental,finais (6-9),90.0,0.899433,248.44,250.22,4.977833,4.5,3.8
253958,2019,TO,1722107,municipal,fundamental,iniciais (1-5),96.0,0.955456,190.33,176.97,4.814123,4.6,4.7
253959,2019,TO,1722107,publica,fundamental,finais (6-9),88.8,0.888363,250.30,246.97,4.954833,4.4,5.1
253960,2019,TO,1722107,publica,fundamental,iniciais (1-5),96.0,0.960677,203.46,187.77,5.260877,5.1,5.4


## Quais as notas da rede estadual no ano de 2019?

Adicionando o segundo argumento

In [26]:
pesquisa = df[(df["ano"] == 2019) & (df["rede"] == "estadual")]
pesquisa

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
213500,2019,AC,1200013,estadual,medio,todos (1-4),67.3,0.729732,277.27,274.75,4.696920,3.4,3.8
213506,2019,AC,1200054,estadual,fundamental,finais (6-9),87.8,0.878964,260.77,251.58,5.206167,4.6,4.7
213508,2019,AC,1200054,estadual,medio,todos (1-4),86.6,0.881131,293.89,282.29,5.043081,4.4,3.9
213513,2019,AC,1200104,estadual,fundamental,finais (6-9),97.1,0.971231,291.54,285.01,6.275833,6.1,4.8
213514,2019,AC,1200104,estadual,fundamental,iniciais (1-5),98.2,0.980807,288.92,263.10,8.261611,8.1,5.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...
253928,2019,TO,1721208,estadual,medio,todos (1-4),80.5,0.810120,283.33,283.23,4.909128,4.0,3.9
253946,2019,TO,1722081,estadual,fundamental,finais (6-9),97.8,0.979065,251.91,248.53,5.007500,4.9,5.5
253954,2019,TO,1722107,estadual,fundamental,finais (6-9),88.4,0.884206,250.72,246.25,4.949667,4.4,5.1
253955,2019,TO,1722107,estadual,fundamental,iniciais (1-5),96.5,0.971722,224.46,205.02,5.975459,5.8,5.6


## Quais as notas da rede estadual no Pará no ano de 2019?

Agora vamos adicionar um terceiro argumento

In [27]:
pesquisa = df[(df["ano"] == 2019) & (df["rede"] == "estadual") & (df["sigla_uf"] == "PA")]
pesquisa

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
231258,2019,PA,1500107,estadual,fundamental,finais (6-9),87.8,0.878414,221.77,221.86,4.060500,3.6,5.0
231259,2019,PA,1500107,estadual,medio,todos (1-4),85.7,0.860884,245.55,249.16,3.868340,3.3,3.3
231265,2019,PA,1500131,estadual,medio,todos (1-4),81.3,0.812133,250.67,245.30,3.882606,3.2,3.1
231271,2019,PA,1500206,estadual,medio,todos (1-4),65.4,0.652360,231.83,239.11,3.525335,2.3,2.7
231283,2019,PA,1500347,estadual,medio,todos (1-4),76.2,0.768647,238.41,240.14,3.633170,2.8,2.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...
232194,2019,PA,1508159,estadual,medio,todos (1-4),79.0,0.797664,235.78,239.22,3.582459,2.9,2.7
232200,2019,PA,1508209,estadual,fundamental,finais (6-9),86.6,0.866834,232.10,233.47,4.426333,3.8,5.0
232202,2019,PA,1508209,estadual,medio,todos (1-4),83.2,0.858222,244.58,248.49,3.844677,3.3,3.0
232208,2019,PA,1508308,estadual,medio,todos (1-4),69.8,0.703346,225.36,231.78,3.324593,2.3,2.2


## Quais as notas da rede estadual no Pará no ano de 2019 do ensino médio?

In [28]:
pesquisa = df[(df["ano"] == 2019) & (df["rede"] == "estadual") & (df["sigla_uf"] == "PA") & (df["ensino"] == "medio")]
pesquisa

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
231259,2019,PA,1500107,estadual,medio,todos (1-4),85.7,0.860884,245.55,249.16,3.868340,3.3,3.3
231265,2019,PA,1500131,estadual,medio,todos (1-4),81.3,0.812133,250.67,245.30,3.882606,3.2,3.1
231271,2019,PA,1500206,estadual,medio,todos (1-4),65.4,0.652360,231.83,239.11,3.525335,2.3,2.7
231283,2019,PA,1500347,estadual,medio,todos (1-4),76.2,0.768647,238.41,240.14,3.633170,2.8,2.9
231291,2019,PA,1500404,estadual,medio,todos (1-4),81.7,0.819189,246.80,249.86,3.896366,3.2,2.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...
232188,2019,PA,1508126,estadual,medio,todos (1-4),75.6,0.767919,247.14,253.41,3.954285,3.0,2.7
232194,2019,PA,1508159,estadual,medio,todos (1-4),79.0,0.797664,235.78,239.22,3.582459,2.9,2.7
232202,2019,PA,1508209,estadual,medio,todos (1-4),83.2,0.858222,244.58,248.49,3.844677,3.3,3.0
232208,2019,PA,1508308,estadual,medio,todos (1-4),69.8,0.703346,225.36,231.78,3.324593,2.3,2.2


Perguntas extras

- Qual a menor nota de matemática?
- Qual a menor nota de matemática da rede estadual no ano de 2018?
- Qual a cidade com menor nota?
   Verifica o id_municipio nesse site https://novo.qedu.org.br/