# MBA FIAP Business Process Digital Automation & Emerging Technologies

## Python para IA & Dados: Análise Exploratória dos Microdados do ENEM 2019

> Atenção: este notebook foi desenhado para funcionar no **Google Collab**. Se pretende executar localmente prefira a versão local deste notebook, sem o sufixo ```-collab```.

## 1. Introdução

O Exame Nacional do Ensino Médio é uma prova de admissão à educação superior realizada pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Foi criada em 1998 inicialmente para avaliar a qualidade do ensino médio no país e que hoje foi ampliado para os resultados poderem ser utilizados como entrada em diversas universidades públicas e particulares pelo Brasil.

Seus resultados gerais nos trazem outras questões de como o ensino nacinoal evolui. A partir dele podemos correlacionar as notas dos estudantes dado as condições geográficas e socio-econômicas.

Uma análise criteriosa destes dados podem responder a questões como:

>Um estudante tende a ter mais sucesso se morar uma região específica?
>Estudantes com melhores condições financeiras implicam em melhores resultados

## 2. Instruções

Este projeto tem como objetivo explorar os conhecimentos adquiridos nas aulas práticas.

Por meio de uma trilha guiada, iremos explorar os dados para conhecer alguns padrões e entender o panorama geral do ensino médio no Brasil.

Este projeto poderá ser feita por grupos de até 4 pessoas.
Caso este projeto seja substitutivo, deverá ser realizado por apenas uma pessoa.

| Nome dos Integrantes     | RM            | Turma |
| :----------------------- | :------------- | :-----: |
| Integrante 1             | RM 12345      |  |
| Integrante 2             | RM 12345      |  |
| Integrante 3             | RM 12345      |  |
| Integrante 4             | RM 12345      |  |

Por ser um projeto guiado, fique atento quando houver as marcações **Implementação** indica que é necessário realizar alguma implementação em Python no bloco a seguir onde há a inscrição ```##IMPLEMENTAR``` e **Resposta** indica que é esperado uma resposta objetiva relacionado a algum questionamento. 

**Cada grupo pode utilizar nas respostas objetivas quaisquer itens necessários que enriqueçam seu ponto vista, como gráficos, fotos e, até mesmo, trechos de código-fonte.**

Pode-se utilizar quantos blocos forem necessários para realizar determinadas implementações ou utilizá-las para justificar as respostas. Não é obrigatório utilizar somente o bloco indicado.

Ao final não se esqueça de subir os arquivos do projeto nas contas do GitHub de cada membro, ou subir na do representante do grupo e os membros realizarem o fork do projeto.

A avaliação terá mais ênfase nos seguintes tópicos de desenvolvimento do projeto (note o peso da avaliação final):
 
1. __Carregamento dos Dados (1,0)__
2. __Inspeção e Remoção de Dados Inválidos (2,0)__
3. __Exploração (4,0)__
4. __Conclusões Finais (3,0)__

## 1. Carregamento dos Dados

Os dados utilizados estão no conjunto de dados [Amostra Enem 2019 do Kaggle](https://www.kaggle.com/viniciusmontagner/amostra-enem-2019). A versão orignal possui muito mais arquivos e é mais pesada, por isso recomendamos utilizar este conjunto de dados.

Você também pode baixar diretamente do [repositório](https://github.com/michelpf/fiap-bpm-python-dados-ia-analise-exploratoria-enem/blob/master/dados/MICRODADOS_ENEM_2019_SAMPLE_43278.csv).

É necessário baixar o arquivo, descompactar e carregar no Colab para a análise.

>Este conjunto de dados possui 80 MB, avalie utilizar o Google Drive para não ter que enviar o arquivo toda vez que for realizar os estaudos.

In [None]:
# Importação das bibliotecas necessárias
# Atenção: você pode incluir outras bibliotecas se achar necessário!

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [None]:
# IMPLEMENTAR: carregue os dados do arquivo CSV utilizando o Pandas
# Por se tratar de um arquivo CSV utilize o método específico do Pandas para abrir este arquivo.


In [None]:
# IMPLEMENTAR: faça a leitura dos primeiros registros e verifique se os dados foram importados com sucesso ou se houve algum problema 
# com o carregamento, como caracteres inválidos, por exemplo.


## Inspeção e Remoção de Dados Inválidos

Para ter uma melhor visão dos dados e não haver contaminações de dados inválidos, como valores nulos ou zerados (em algumas situações), é importante remover tais registros.

Algumas classes de dados inválidos para verificar:

* Dados nulos
* Dados inválidos
  1. Todas as notas zerada2
  2. Notas menores do que 0 (mínimo)
  3. Notas maiores do que 1000 (máximo)

In [None]:
# IMPLEMENTAR: verifique se existem dados nulos

Para a avaliação de dados inválidos, nota zerada por exemplo, é necessário ter cuidado. Podemos concluir que um aluno que não compareceu em todas as avaliações não deve ser utilizado para correlações de suas notas. Nesse caso, podemos dispensar os registros dos quais todas as notas foram zeradas.

Os campos referentes as notas são:

* ```NU_NOTA_CN```: Ciências Naturais
* ```NU_NOTA_CH```: Ciências Humanas
* ```NU_NOTA_MT```: Ciências Matemática
* ```NU_NOTA_LC```: Linguagens e Códigos
* ```NU_NOTA_REDACAO```: Redação

In [None]:
# IMPLEMENTAR: verifique se existem dados inválidos (nota zerada em todas as provas)
# Neste caso podemos somar todas as notas em um novo atributo e fazer o filtro neste campo novo


In [None]:
# IMPLEMENTAR: verifique se existem notas somadas iguais a zero


In [None]:
# IMPLEMENTAR: remova os dados de notas zeradas totais e armazene em um outro dataframe, por exemplo, dados_limpos


## 2. Exploração

Agora que temos os dados padronizados e devidamente sanitizados, estamos prontos para realizar uma análise exploratória.

Noss intuito é encontrar relações e possíveis padrões nas distribuições dos dados e assim conhecer melhor o que os dados desta edição do ENEM nos trazem.

Considere as descrições dos campos que poderão ser utilizados (não limitados a eles):

* ```TP_ESCOLA```:	Tipo de escola do Ensino Médio (os valores possíveis para esse campo são: 1. Não informou; 2. Pública; 3. Privada; 4. Exterior.)
* ```NU_NOTA_CN```:	Nota da prova de Ciências da Natureza
* ```NU_NOTA_CH```:	Nota da prova de Ciências Humanas
* ```NU_NOTA_LC```:	Nota da prova de Linguagens e Códigos
* ```NU_NOTA_MT```:	Nota da prova de Matemática
* ```NU_NOTA_REDACAO```:	Nota da prova de redação
* ```TP_ESCOLA```:	Tipo de escola do Ensino Médio
* ```TP_ENSINO```:	Tipo de instituição que concluiu ou concluirá o Ensino Médio
* ```SG_UF_ESC```:	Sigla da Unidade da Federação da escola
* ```TP_SEXO```:	Sexo
* ```TP_COR_RACA```: Cor/raça
* ```Q001```: Formação acadêmica do pai (do menor grau A para o maior grau Q)
* ```Q002```:	Formação acadêmica da mãe (do menor grau A para o maior grau Q)
* ```Q005```:	Número de pessoas na residência (do menor número A para o maior número Q)
* ```Q006```:	Faixa de renda familiar mensal (da menor renda A para a maior renda Q)
* ```Q007```:	Família contrata empregada doméstica (do menor grau A indica não e para o maior grau indica a maior frequência de dias)

Consulte a tabela [Dicionário_Microdados_Enem_2019](https://github.com/michelpf/fiap-bpm-python-dados-ia-analise-exploratoria-enem/blob/master/dados/Dicionário_Microdados_Enem_2019.xlsx) para ter acesso ao dicionário de dados completo.

### 2.1 Faixa etária

Qual a distribuição de faixa etária do exame?



In [None]:
#IMPLEMENTAR: Implemente um gráfico que mostre a distribuição das idades dos estudantes que fizeram a prova.


O que foi observado nesta distribuição? Algo diferente do senso comum foi identificado?

**Resposta**

### 2.2 Geografia

Qual a quantidade de inscritos por Estado?

In [None]:
# IMPLEMENTAR: implemente um gráfico que conte o número de estudantes por estado de residência



Qual o Estado com o maior número de estudantes? Qual o que tem o menor? Quais suas conclusões sobre estes números?

**Resposta**

### 2.3 Notas das avaliações 

Relacione os dados de todas as notas na forma que seja possível verificar a média, desvio padrão, nota máxima e nota mínima.

In [None]:
# IMPLEMENTAR: exiba as informações de contagem, média, desvio padrão, nota mínima, quartil 25%, quartil 50%, quartil 75% e nota máxima


Existe alguma correlação entre as diferentes disciplinas (```CN:Ciências Naturais```, ```CH: Ciências Humanas```, ```MT: Ciências Matemática```, ```LC: Linguagens e Códigos``` e ```Redação```)?

In [None]:
# IMPLEMENTAR: utilize um gráfico heat para exibir as correlações entre as notas das avaliações


Encontrou alguma correlação (>70%) entre as notas das diferentes disciplinas? Qual foi? Quais os aspectos que você entende, se houver, nesta correlação?

**Resposta**

### 2.4 Renda

Existe correlação entre renda familia dos estudantes (campo ```Q006```) e a nota das avaliações?

In [None]:
# IMPLEMENTAR: exiba um gráfico que correlacione as notas totais das avaliações com a renda familiar dos estudantes.
# O gráfico de Box Plot é uma das formas para exibir estas informações.



Existe alguma potencial correlação entre alunos com maior renda e suas notas? Explique suas conclusões.

**Resposta**

### 2.5 Educação do pais

Existe correlação entre a formação do pai (campo ```Q001```) e/ou da mãe (campo ```Q002```) e a nota das avaliações?

In [None]:
# IMPLEMENTAR: exiba um gráfico que correlacione as notas totais das avaliações com o graud de formação do pai
# O gráfico de Box Plot é uma das formas para exibir estas informações.



In [None]:
# IMPLEMENTAR: exiba um gráfico que correlacione as notas totais das avaliações com o graud de formação da mãe
# O gráfico de Box Plot é uma das formas para exibir estas informações.



Há alguma influência na nota dos estudantes comparando com a formação de seus pais? Explique sua resposta.

**Resposta**

## 3. Conclusões

Quais são os aspectos mais importantes de uma análise exploratória como essa?

**Resposta**

Quais as aplicações destes dados podem ter para as escolas, estudantes e ao governo?

**Resposta**

Se você fosse construir um modelo de regressão para estimar a nota de uma determinada disciplina ou geral, quais atributos você poderia escolher, com base na análise exploratória?

**Resposta**