# Notebook 3 - Estudo de Caso
*Python, Dados e Narrativas*

<img src="../imagens/slide13.png">

### Explorando dados da Educação Básica

[Olhando o conjunto de dados do INEP](http://dados.gov.br/organization/instituto-nacional-de-estudos-e-pesquisas-educacionais-anisio-teixeira-inep) - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira)
selecionamos o [conjunto Instituições de Ensino Básico](http://dados.gov.br/dataset/instituicoes-de-ensino-basico) a fim de explorar esse contexto e também por ser um exemplo onde você tem um link direto para um cvs.

Vamos ao contexto!

Conforme a documentação no site esses são dados do cadastro das escolas da educação básica fornecido pelo INEP, oriundo do Censo Escolar de 2012. Lá existem arquivos separados para cada Região, vamos dar uma olhada em um deles e fica como exercício fazer o mesmo processo com os demais arquivos. Beleza!? 

Eu escolhi os dados [Cadastro das Matrículas da Região Nordeste(1)](http://dados.gov.br/dataset/instituicoes-de-ensino-basico/resource/4c6e4fd5-4584-480c-9e30-317a80d30060). Eles são referentes aos estados de Pernambuco, Alagoas, Sergipe e Bahia.

Olha que interessante:
Podemos comparar o resultado da nossa análise com 
- [Educação Inteligente](http://educacao.dadosabertosbr.com/)

*** Simbora!? :D***

In [None]:
%matplotlib inline

import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = (9, 9)

**Pronto! Que comecem os jogos!**

Vamos iniciar com 3 passos básicos que você vai fazer sempre

**1 - Vamos importar os dados que estão lá no link para dentro do nosso Notebook.**

URL é um outro nome para os links que conhecemos, então na página do conjunto de dados que queremos existe uma informação exatamente assim:
<img src="../imagens/print_url.png">

Vamos copiar o que tem no campo 'URL' e colar abaixo como o valor da nossa variável 'url'

In [None]:
url = 'http://repositorio.dados.gov.br/educacao/CADASTRO_MATRICULAS_REGIAO_NORDESTE_PE_AL_SE_BA_2012.csv'
url

In [None]:
educacao_basica = pd.read_csv(filepath_or_buffer=url, delimiter=';', header=11, encoding = "ISO-8859-1")

Explicando: Aqui criamos uma outra variável para armazenar os dados do cvs que queremos analisar.
E usamos a o método  'pd.read_csv' para ler os dados do cvs. Para que o método possa funcionar 
e ir buscar os dados para a gente, precisamos dar algumas informações para ele, como:
- filepath_or_buffer = Local onde o arquivo está
- delimiter = Símbolo que delimita as colunas do arquvio. Pode ser vírgula, ponto e vírgula, espaço. Os mais comuns são vírgula e ponto e vírgula.
- header = Quantas linhas ele deve pular até começar a ler o arquivo. 
- encoding = O formato nos quais os dados foram codificados, isso diz respeito a forma como os acentos e acaracteres especiais foram convertidos na hora de salvar o arquivo. Os mais comuns são 'utf-8' e 'ISO-8859-1'

Só dá pra descobrir essas informações quando olhamos o arquivo que queremos importar antes. Por exemplo, se você baixar o arquivo que está nessa url você vai ver a sequinte estrutura:

<img src="../imagens/print_dados_educacao_basica.png">

O que indica que teremos que as 11 primeiras linhas não são exatamente os dados que queremos 
analisar e sim um descritivo deles, o que para nós não é interessante agora.

**2 - Vamos dar uma olhada nos dados que importamos**

In [None]:
educacao_basica.head(5)

**3 - Vamos dar uma olhada em quais campos ele possui?**

In [None]:
educacao_basica.columns.values

## Ah Pronto!

Quais perguntas vamos responder com esses dados?

- Como se distribui a quantidade de escolas da rede pública e privada nos estados de Alagoas, Bahia, Pernambuco e Sergipe?
- E olhando a dependencia administrativa e localidade?
- Quantas tem laboratório de Ciência e Informática?
- Quantas tem sanitário dentro do prédio?

## Ah Pronto! Agora vai! 

Agora que entendemos isso, simbora analisar esses dados!

### 1 -  Como se distribui a quantidade de escolas da rede pública e privada nos estados de Alagoas, Bahia, Pernambuco e Sergipe?

In [None]:
educacao_basica.groupby(['REDE', 'UF']).size().reset_index(name='Quantidade').sort_values('Quantidade')

### 2 - E olhando a dependencia administrativa e localidade?

In [None]:
educacao_basica.groupby(['REDE', 
                    'UF', 
                    'Dependencia_Administrativa', 
                    'Localizacao']).size().reset_index(name='Quantidade').sort_values('Quantidade')

#### 3 -  Quantas tem laboratório de Informática?

In [None]:
educacao_basica.groupby([
                    'UF', 
                    'LABORATORIO_INFORMATICA']).size().reset_index(name='Quantidade').sort_values('Quantidade')

#### 4 -  Quantas tem laboratório de Ciência?

In [None]:
educacao_basica.groupby([ 
                    'UF',
                    'LABORATORIO_CIENCIAS']).size().reset_index(name='Quantidade').sort_values('Quantidade')

#### 5 - Quantas tem sanitário dentro do prédio?

In [None]:
educacao_basica.groupby(['UF', 
                    'SANITARIO_DENTRO_PREDIO']).size().reset_index(name='Quantidade').sort_values('UF')

## Procure saber:

#### 1- Quantas tem MATERIAL_ESP_QUILOMBOLA ou MATERIAL_ESP_INDIGENA?

Dica: Para responder isso você pode explorar os seguintes atributos:
- MATERIAL_ESP_INDIGENA
- MATERIAL_ESP_QUILOMBOLA

In [None]:
educacao_basica.groupby(['UF', 'Coloque o campo aqui!']).size().reset_index(name='Quantidade').sort_values('UF')

#### 2 - Existem escolas que não tenham água disponpivel para suas atividades?

Dica: Para responder isso você pode explorar os seguintes atributos:
- 'AGUA_FILTRADA'
- 'AGUA_REDE_PUBLICA'
- 'AGUA_POCO_ARTESIANO'
- 'AGUA_CACIMBA'
- 'AGUA_FONTE_RIO'
- 'AGUA_INEXISTENTE',

In [None]:
educacao_basica.groupby(['UF', 'Coloque o campo aqui!']).size().reset_index(name='Quantidade').sort_values('UF')

In [None]:
dados.to_csv("../dados/analise.csv", index=False)

## Visualizando os Dados

- [Infogram](https://infogram.com/)
- [Flourish](https://flourish.studio/)
- [Tabelas dinâmicas - Excel](https://rockcontent.com/blog/tabela-dinamica/)


- [Matplolib](https://matplotlib.org/)
- [Visualização com Matplotlib e Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)
- [Vega Lite](https://vega.github.io/vega-lite/examples/)

<img src="../imagens/slide14.png">

### Template da apresentação utilizada nesse curso por [SlidesCarnival](https://www.slidescarnival.com/) ❤