<img src="../imagens/slide01.png">


No [Portal Brasileiro de Dados Abertos](http://dados.gov.br/) é possível selecionar uma organização e verificar quais os conjuntos de dados que ela dispõe.


[Olhando o conjunto de dados do INEP](http://dados.gov.br/organization/instituto-nacional-de-estudos-e-pesquisas-educacionais-anisio-teixeira-inep) (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira)
selecionamos o [conjunto Instituições de Ensino Básico](http://dados.gov.br/dataset/instituicoes-de-ensino-basico) a fim de explorar esse contexto.

**Do que falam esses dados?**

Conforme a documentação no site esses são dados do cadastro das escolas da educação básica fornecido pelo INEP, oriundo do Censo Escolar de 2012. Lá existem arquivos separados para cada Região. Vamos dar uma olhada em um deles e fica como exercício fazer o mesmo processo com os demais arquivos. Beleza?!

Eu escolhi os dados [Cadastro das Matrículas da Região Nordeste(1)](http://dados.gov.br/dataset/instituicoes-de-ensino-basico/resource/4c6e4fd5-4584-480c-9e30-317a80d30060). Eles são referentes aos estados de Pernambuco, Alagoas, Sergipe e Bahia.

***Ihuu! :D***

**Bibliotecas**

Para essa prática nós vamos usar a biblioteca Pandas. Bibliotecas são algoritmos que outras pessoas fizeram e deixaram disponíveis para que outros pudessem reusar. ❤

**[Pandas](https://pandas.pydata.org/)** - É uma biblioteca para manipulação e análise de dados em Python.
Permite que a gente importe arquivos, agrupe dados, calcule médias entre muitas, muuuitas outras coisas.

**Importando a biblioteca para que possamos usar os pedaços de código que existem nela**

In [None]:
import pandas as pd

## Primeiros passos

Vamos iniciar com 3 passos básicos que sempre serão necessários ao dar início a uma atividade de análise:

**1 - Vamos importar os dados que estão lá no link para dentro do nosso Notebook.**

URL é um outro nome para os links que conhecemos. 
Na página do conjunto de dados que queremos existe uma informação exatamente assim:

<img src="../imagens/print_url.png">

Vamos copiar o que tem no campo 'URL' e colar abaixo como o valor da nossa variável 'url'

In [None]:
url = 'http://repositorio.dados.gov.br/educacao/CADASTRO_MATRICULAS_REGIAO_NORDESTE_PE_AL_SE_BA_2012.csv'

Os dados que queremos importar têm essa aparência.

<img src="../imagens/print_dados_educacao_basica.png">

Olhar isso é importante pois assim podemos perceber a estrutura dos dados. 

No nosso caso podemos perceber que as 11 primeiras linhas não são exatamente os dados que queremos 
analisar e sim um descritivo deles, o que para nós não é interessante nesse momento.

Agora vamos baixar os dados e colocá-los dentro desse nosso ambiente.

In [None]:
educacao_basica = pd.read_csv(filepath_or_buffer=url, delimiter=';', header=11, encoding = "ISO-8859-1")

Como isso aconteceu? 

Na célula anterior criamos uma outra variável para armazenar os dados do cvs que queremos analisar.
E usamos o método  'pd.read_csv' para ler os dados do arquivo cvs. Para que o método possa funcionar 
e ir buscar os dados para a gente, precisamos dar algumas informações para ele, como:

- filepath_or_buffer = local onde o arquivo está;
- delimiter = símbolo que delimita as colunas do arquivo. Pode ser vírgula, ponto e vírgula, espaço. Os mais comuns são vírgula e ponto e vírgula;
- header = quantas linhas ele deve pular até começar a ler o arquivo;
- encoding = o formato nos quais os dados foram codificados, isso diz respeito à forma como os acentos e caracteres especiais foram convertidos na hora de salvar o arquivo. Os mais comuns são 'utf-8' e 'ISO-8859-1'.


**2 - Vamos dar uma olhada nos dados que importamos**

In [None]:
educacao_basica.head()

**3 - Vamos dar uma olhada em quais colunas ele possui?**

In [None]:
educacao_basica.columns.values

Agora temos uma noção das perguntas que podemos fazer e responder com esses dados.
Por exemplo, eu fiquei muito curiosa sobre o seguinte:
       
- Como se distribui a quantidade de escolas da rede pública e privada nos estados de Alagoas, Bahia, Pernambuco e Sergipe?
- Quantas escolas têm laboratório de Ciência?
- Quantas escolas têm laboratório de Informática?
- Quantas escolas têm sanitário dentro do prédio?


## Como a gente responde isso?

Agrupando os dados.

**E o que é o agrupamento de dados?**

O agrupamento de dados é basicamente realizar uma operação sobre um dos atributos dos dados considerando que eles têm um outro atributo em comum, o que indica semelhança entre eles. Essa operação pode ser uma média, soma de valores, selecionar o valor máximo, contar a quantidade de linhas, entre outros.

**Por exemplo**, uma vez que tenhamos uma tabela com as colunas 'Região', 'Estado', 'Cidade' e 'Quantidade', 
podemos agrupar os dados de forma a descobrir qual o valor total da quantidade considerando a Região. 

Como fazemos isso na prática? Somando todos os valores da coluna 'Quantidade' que tenham os valores iguais para a coluna 'Região'.

Com a figura abaixo, fica mais fácil de entender:
<img src="../imagens/agrupamento_regiao.png">

O mesmo pode ser feito para o 'Estado', ficando dessa forma:
<img src="../imagens/agrupamento_estado.png">

**Como fazemos o exemplo acima no código?**

Aqui utilizamos o método 'pd.DataFrame()' para criar um Data Frame utilizando Pandas, o que de forma simples nós podemos entender como uma tabela, só que com todos os recursos que a biblioteca Pandas nos proporciona como ver a lista de colunas e agrupar dados.

In [6]:
tabela = pd.DataFrame({'Regiao': ['Nordeste', 'Nordeste', 'Nordeste','Nordeste'], 
         'Estado': ['Bahia', 'Bahia', 'Paraíba', 'Paraíba'],
         'Cidade': ['Feira de Santana', 'Salvador', 'Campina Grande', 'João Pessoa'],
         'Quantidade': [10, 20, 30, 40]})

Visualizando tabela

In [7]:
tabela

Unnamed: 0,Regiao,Estado,Cidade,Quantidade
0,Nordeste,Bahia,Feira de Santana,10
1,Nordeste,Bahia,Salvador,20
2,Nordeste,Paraíba,Campina Grande,30
3,Nordeste,Paraíba,João Pessoa,40


Visualizando colunas das tabelas

In [8]:
tabela.columns.values

array(['Regiao', 'Estado', 'Cidade', 'Quantidade'], dtype=object)

Agrupando dados por 'Regiao' e somando os valores

In [9]:
tabela.groupby('Regiao').sum()

Unnamed: 0_level_0,Quantidade
Regiao,Unnamed: 1_level_1
Nordeste,100


Aqui utilizamos o método **groupby()** e dentro dele indicamos entre aspas simples **'nome_da_coluna'**
qual a coluna que devemos considerar para agrupar os dados. E depois com o **sum()** indicamos qual operação desejamos realizar, no caso o somatório da coluna numérica que temos - Quantidade


Agrupando dados por 'Estado' e somando os valores.

In [10]:
tabela.groupby('Estado').sum()

Unnamed: 0_level_0,Quantidade
Estado,Unnamed: 1_level_1
Bahia,30
Paraíba,70


Nesses exemplos usamos apenas uma coluna para agrupar os dados, mas é possível fazer isso com mais de uma.

Como veremos a seguir :)

## Ah Pronto! Agora vai! 

Agora que entendemos isso, simbora responder às nossas perguntas!

## 1 -  Como se distribui a quantidade de escolas da rede pública e privada nos estados de Alagoas, Bahia, Pernambuco e Sergipe?

In [None]:
educacao_basica.groupby(['REDE', 'UF']).size().reset_index(name='Quantidade').sort_values('UF')

## 2 -  Quantas têm laboratório de Informática?

In [None]:
educacao_basica.groupby([
                    'UF', 
                    'LABORATORIO_INFORMATICA']).size().reset_index(name='Quantidade').sort_values('UF')

## 3 -  Quantas têm laboratório de Ciência?

In [None]:
educacao_basica.groupby([ 
                    'UF',
                    'LABORATORIO_CIENCIAS']).size().reset_index(name='Quantidade').sort_values('UF')

## 4 - Quantas têm sanitário dentro do prédio?

In [None]:
educacao_basica.groupby(['UF', 
                    'SANITARIO_DENTRO_PREDIO']).size().reset_index(name='Quantidade').sort_values('UF')

## Extra: Procure saber!

### 5 - Quantas tem MATERIAL_ESP_QUILOMBOLA ou MATERIAL_ESP_INDIGENA?

Dica: Para responder isso você pode explorar os seguintes atributos:
- MATERIAL_ESP_INDIGENA
- MATERIAL_ESP_QUILOMBOLA

In [None]:
educacao_basica.groupby(['UF', 'Coloque o campo aqui!']).size().reset_index(name='Quantidade').sort_values('UF')

### 6 - Existem escolas que não tenham água disponível para suas atividades?

Dica: Para responder isso você pode explorar os seguintes atributos:
- 'AGUA_FILTRADA'
- 'AGUA_REDE_PUBLICA'
- 'AGUA_POCO_ARTESIANO'
- 'AGUA_CACIMBA'
- 'AGUA_FONTE_RIO'
- 'AGUA_INEXISTENTE',

In [None]:
educacao_basica.groupby(['UF', 'Coloque o campo aqui!']).size().reset_index(name='Quantidade').sort_values('UF')