# Explorando dados da Educação Básica

No [Portal Brasileiro de Dados Abertos](http://dados.gov.br/) é possível selecionar uma organização e verificar quais os conjuntos de dados que ela dispõe.


[Olhando o conjunto de dados do INEP](http://dados.gov.br/organization/instituto-nacional-de-estudos-e-pesquisas-educacionais-anisio-teixeira-inep) - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira)
selecionamos o [conjunto Instituições de Ensino Básico](http://dados.gov.br/dataset/instituicoes-de-ensino-basico) a fim de explorar esse contexto e também por existir um link direto para os dados.

Vamos ao contexto!

Conforme a documentação no site esses são dados do cadastro das escolas da educação básica fornecido pelo INEP, oriundo do Censo Escolar de 2012. Lá existem arquivos separados para cada Região, vamos dar uma olhada em um deles e fica como exercício fazer o mesmo processo com os demais arquivos. Beleza!?

Eu escolhi os dados [Cadastro das Matrículas da Região Nordeste(1)](http://dados.gov.br/dataset/instituicoes-de-ensino-basico/resource/4c6e4fd5-4584-480c-9e30-317a80d30060). Eles são referentes aos estados de Pernambuco, Alagoas, Sergipe e Bahia.

***Ihuu! :D***


### Bibliotecas

Para isso nós vamos precisar importar algumas bibliotecas.
Bibliotecas são algoritmos que outra pessoas fizeram e deixaram disponíveis para que outras pessoas pudessem recusar.
*Ah Comunidade s2 *

**[Pandas](https://pandas.pydata.org/)** - É uma biblioteca para manipulação e análise de dados em Python.
Permite que a gente importe arquivos, agrupe dados, calcule médias entre muitas muuuitas outras coisas.

**[Requests](https://2.python-requests.org/en/master)** - É uma biblioteca que nos permite interagir com links,
semelhante a como fazemos ao colocar eles no nosso navegador, porém temos o resultado do
link a nossa disposição para percorrer e buscar informações.

**[Matplotlib](https://matplotlib.org/)** - É uma biblioteca para visualização de dados.
Ela tem integração direta com o Pandas e isso vai facilitar muito a nossa vida.

**Importando as bibliotecas para que possamos usar os pedaços de código que existem nelas**

In [5]:
import pandas as pd
import requests
import matplotlib.pyplot as plt

**Pronto! Que comecem os jogos!**

Vamos iniciar com 3 passos básicos que sempre serão necessários ao dar início a uma atividade de análise:

**1 - Vamos importar os dados que estão lá no link para dentro do nosso Notebook.**

URL é um outro nome para os links que conhecemos. 
Na página do conjunto de dados que queremos existe uma informação exatamente assim:

<img src="../imagens/print_url.png">

Vamos copiar o que tem no campo 'URL' e colar abaixo como o valor da nossa variável 'url'

In [7]:
url = 'http://repositorio.dados.gov.br/educacao/CADASTRO_MATRICULAS_REGIAO_NORDESTE_PE_AL_SE_BA_2012.csv'

Explicando: Aqui criamos uma variável para armazenar o link para o cvs que queremos analisar.

In [10]:
educacao_basica = pd.read_csv(filepath_or_buffer=url, delimiter=';', header=11, encoding = "ISO-8859-1")

  interactivity=interactivity, compiler=compiler, result=result)


Explicando: Aqui criamos uma outra variável para armazenar os dados do cvs que queremos analisar.
E usamos o método  'pd.read_csv' para ler os dados do cvs. Para que o método possa funcionar 
e ir buscar os dados para a gente, precisamos dar algumas informações para ele, como:
- filepath_or_buffer = Local onde o arquivo está
- delimiter = Símbolo que delimita as colunas do arquvio. Pode ser vírgula, ponto e vírgula, espaço. Os mais comuns são vírgula e ponto e vírgula.
- header = Quantas linhas ele deve pular até começar a ler o arquivo. 
- encoding = O formato nos quais os dados foram codificados, isso diz respeito à forma como os acentos e caracteres especiais foram convertidos na hora de salvar o arquivo. Os mais comuns são 'utf-8' e 'ISO-8859-1'

Só dá pra descobrir essas informações quando olhamos o arquivo que queremos importar antes. Por exemplo, se você baixar o arquivo que está nessa url você vai ver a seguinte estrutura:

<img src="../imagens/print_dados_educacao_basica.png">

O que indica que as 11 primeiras linhas não são exatamente os dados que queremos 
analisar e sim um descritivo deles, o que para nós não é interessante nesse momento.

**2 - Vamos dar uma olhada nos dados que importamos**

In [11]:
educacao_basica.head(5)

Unnamed: 0,ANO_CENSO,PK_COD_ENTIDADE,Nome_Escola,REDE,ID_DEPENDENCIA_ADM,Dependencia_Administrativa,CATESCPRIVADA,Localizacao,REGIAO,FK_COD_ESTADO,...,MATEEINCL,NESCEE,MATESPTOT,NESCEDESP,MATESP,NESCEDESPEXCLUS,MATESPEXCLUS,NESCEDESPCLESP,MATESPCLESP,ESCACESS
0,2012,26000016.0,CENTRO EDUCACIONAL DO ARARIPE,Privada,4.0,Privada,Particular,Urbana,Nordeste,26.0,...,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
1,2012,26000024.0,ESCOLA LUIZ GONZAGA DUARTE,Pública,2.0,Estadual,,Urbana,Nordeste,26.0,...,20.0,1.0,45.0,1.0,25.0,0.0,0.0,1.0,25.0,1.0
2,2012,26000032.0,CRECHE CORACAO DE MARIA,Pública,3.0,Municipal,,Urbana,Nordeste,26.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2012,26000067.0,ESCOLA ALEXANDRE GUALTER DE ALENCAR,Pública,3.0,Municipal,,Rural,Nordeste,26.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,2012,26000075.0,ESCOLA ALMEIDA JUNIOR,Pública,3.0,Municipal,,Rural,Nordeste,26.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


**3 - Vamos dar uma olhada em quais campos ele possui?**

In [13]:
educacao_basica.columns.values

array(['ANO_CENSO', 'PK_COD_ENTIDADE', 'Nome_Escola', 'REDE',
       'ID_DEPENDENCIA_ADM', 'Dependencia_Administrativa', 'CATESCPRIVADA',
       'Localizacao', 'REGIAO', 'FK_COD_ESTADO', 'UF', 'Municipio',
       'Cod_Municipio', 'PK_COD_MUNICIPIO_OLD', 'NO_DISTRITO', 'Endereco',
       'Nr_Endereco', 'Complemento_Endereco', 'Bairro', 'CEP', 'DDD',
       'Telefone', 'Telefone_Publico_1', 'Fax', 'Correio_Eletronico',
       'Situacao_Funcionamento', 'ID_LATITUDE', 'ID_LONGITUDE',
       'DT_ANO_LETIVO_INICIO', 'DT_ANO_LETIVO_TERMINO', 'FINSLUCRATIVOS',
       'MANT_EMP', 'MANT_SIND', 'MANT_SIST_S', 'MANT_ONG', 'MANT_S_FINS',
       'MOD_ATIV_COMPLEMENTAR', 'ORGCICLOS', 'FUNC_PREDIO_ESCOLAR',
       'FUNC_SALAS_EMPRESA', 'FUNC_PRISIONAL', 'FUNC_TEMPLO_IGREJA',
       'FUNC_CASA_PROFESSOR', 'FUNC_GALPAO', 'FUNC_OUTROS',
       'FUNC_SALAS_OUTRA_ESC', 'NUM_CNPJ_ESCOLA_PRIVADA',
       'NUM_CNPJ_UNIDADE_EXECUTORA', 'DOCUMENTO_REGULAMENTACAO',
       'CONVENIADA_PP', 'TIPO_CONVENIO_PODER_PU

## Ah Pronto!

Agora temos uma noção das perguntas que podemos fazer e responder com esses dados.
Por exemplo, eu fiquei muito curiosa sobre:
- Como se distribui a quantidade de escolas da rede pública e privada nos estados de Alagoas, Bahia, Pernambuco e Sergipe?
- E olhando a dependência administrativa e localidade? Essa distribuição muda?
- Quantas escolas tem laboratório de Ciência e Informática?
- Quantas escolas tem sanitário dentro do prédio?

## Não, pera! 

**Como a gente responde isso?**

Agrupando os dados

**O que é o agrupamento de dados?**

O agrupamento de dados é basicamente realizar uma operação sobre um dos atributos dos dados considerando que eles tem um outro atributo em comum, o que indica semelhança entre eles. Essa operação pode ser uma média, soma de valores, selecionar o valor máximo, contar a quantidade de linhas, entre outros.

**Por exemplo**, uma vez que tenhamos uma tabela com as colunas 'Região', 'Estado', 'Cidade' e 'Quantidade', 
podemos agrupar os dados de forma a descobrir qual o valor total da quantidade considerando a Região. 

Como fazemos isso na prática? Somando todos os valores da coluna 'Quantidade' que tenham os valores iguais para a coluna 'Região'.

Com o infográfico abaixo vai ficar mais fácil de ver:
<img src="../imagens/agrupamento_regiao.png">

O mesmo pode ser feito para o 'Estado' ficando dessa forma:
<img src="../imagens/agrupamento_estado.png">

## Ah Pronto! Agora vai! 

Agora que entendemos isso, simbora analisar esses dados!

#### 1 -  Como se distribui a quantidade de escolas da rede pública e privada nos estados de Alagoas, Bahia, Pernambuco e Sergipe?

In [15]:
educacao_basica.groupby(['REDE', 'UF']).size().reset_index(name='Quantidade').sort_values('Quantidade')

Unnamed: 0,REDE,UF,Quantidade
3,Privada,Sergipe,486
0,Privada,Alagoas,583
7,Pública,Sergipe,2426
1,Privada,Bahia,2848
4,Pública,Alagoas,3217
2,Privada,Pernambuco,3247
6,Pública,Pernambuco,9507
5,Pública,Bahia,22921


#### 2 - E quando olhamos por localização e dependência administrativa?

In [16]:
educacao_basica.groupby(['REDE', 
                    'UF', 
                    'Dependencia_Administrativa', 
                    'Localizacao']).size().reset_index(name='Quantidade').sort_values('Quantidade')

Unnamed: 0,REDE,UF,Dependencia_Administrativa,Localizacao,Quantidade
27,Pública,Sergipe,Federal,Rural,3
15,Pública,Bahia,Federal,Rural,4
28,Pública,Sergipe,Federal,Urbana,4
21,Pública,Pernambuco,Federal,Rural,5
22,Pública,Pernambuco,Federal,Urbana,12
10,Pública,Alagoas,Federal,Urbana,12
6,Privada,Sergipe,Privada,Rural,15
16,Pública,Bahia,Federal,Urbana,25
0,Privada,Alagoas,Privada,Rural,34
8,Pública,Alagoas,Estadual,Rural,41


#### 3 -  Quantas tem laboratório de Informática?

In [18]:
educacao_basica.groupby([
                    'UF', 
                    'LABORATORIO_INFORMATICA']).size().reset_index(name='Quantidade').sort_values('Quantidade')

Unnamed: 0,UF,LABORATORIO_INFORMATICA,Quantidade
7,Sergipe,Sim,849
1,Alagoas,Sim,1337
6,Sergipe,Não,2063
0,Alagoas,Não,2463
5,Pernambuco,Sim,3493
3,Bahia,Sim,6186
4,Pernambuco,Não,9261
2,Bahia,Não,19583


#### 4 -  Quantas tem laboratório de Ciência?

In [19]:
educacao_basica.groupby([ 
                    'UF',
                    'LABORATORIO_CIENCIAS']).size().reset_index(name='Quantidade').sort_values('Quantidade')

Unnamed: 0,UF,LABORATORIO_CIENCIAS,Quantidade
7,Sergipe,Sim,123
1,Alagoas,Sim,211
5,Pernambuco,Sim,711
3,Bahia,Sim,871
6,Sergipe,Não,2789
0,Alagoas,Não,3589
4,Pernambuco,Não,12043
2,Bahia,Não,24898


#### 5 - Quantas tem sanitário dentro do prédio?

In [52]:
edu_basica.groupby(['UF', 
                    'SANITARIO_DENTRO_PREDIO']).size().reset_index(name='Quantidade').sort_values('UF')

Unnamed: 0,UF,SANITARIO_DENTRO_PREDIO,Quantidade
0,Alagoas,Não,662
1,Alagoas,Sim,3138
2,Bahia,Não,9034
3,Bahia,Sim,16735
4,Pernambuco,Não,3799
5,Pernambuco,Sim,8955
6,Sergipe,Não,1082
7,Sergipe,Sim,1830


## Procure saber:

#### 1- Quantas tem MATERIAL_ESP_QUILOMBOLA ou MATERIAL_ESP_INDIGENA?

Dica: Para responder isso você pode explorar os seguintes atributos:
- MATERIAL_ESP_INDIGENA
- MATERIAL_ESP_QUILOMBOLA

In [None]:
edu_basica.groupby(['UF', 'Coloque o campo aqui!']).size().reset_index(name='Quantidade').sort_values('UF')

#### 2 - Existem escolas que não tenham água disponpivel para suas atividades?

Dica: Para responder isso você pode explorar os seguintes atributos:
- 'AGUA_FILTRADA'
- 'AGUA_REDE_PUBLICA'
- 'AGUA_POCO_ARTESIANO'
- 'AGUA_CACIMBA'
- 'AGUA_FONTE_RIO'
- 'AGUA_INEXISTENTE',

In [None]:
edu_basica.groupby(['UF', 'Coloque o campo aqui!']).size().reset_index(name='Quantidade').sort_values('UF')