# <font color=blue> MBA em Ciência de Dados</font>
# <font color=blue>Programação para Ciência de Dados</font>

## <font color=blue>Revisão para Avaliação Final</font>
**Material Produzido por Luis Gustavo Nonato**<br>
**Cemeai - ICMC/USP São Carlos**
---

Nesta aula de revisão iremos utilizar a base de dados `INEP_ATU_BRASIL_REGIOES_UFS_2020.csv`, que contém informações sobre o desempenho escolar de alunos nos estados da federação (e no Brasil como um todo) no ano de 2020.

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('INEP_ATU_BRASIL_REGIOES_UFS_2020.csv')
print(df.shape)
df.head(20)

Vamos verificar quais são os valores contidos na coluna `Unidade Geografica`.

In [None]:
df['Unidade Geografica'].unique()

Quais são todas as informações disponíveis para cada um dos estados? Vamos pegar o estado de São Paulo como exemplo.

In [None]:
df.loc[df['Unidade Geografica']=='São Paulo']

Verificando se existem dados faltantes nas coluna do DataFrame.

In [None]:
df.isna().sum()

Calculando a porcentagem de dados faltantes por coluna e a porcentagem total de dados faltantes.

In [None]:
print(df.isna().sum()/df.shape[0]*100) # porcentagem de dados faltantes por coluna
print('Porcentagem total de dados faltantes',df.isna().sum().sum()/df.size*100)

Poderiamos remover as linhas contendo dados faltantes utilizando o comando <font color='blue'> dropna </font>, porém isto eliminaria muitos registros. Ao invés disso,
vamos preencher os dados faltantes das colunas `Ed. Inf. Total`, `En. Fund. Total` e `En. Medio Total` com o valor 0, pois estas serão as colunas que utilizaremos em nossas análises.

In [None]:
df[['Ed. Inf. Total', 'En. Fund. Total','En. Medio Total']] = df[['Ed. Inf. Total', 'En. Fund. Total','En. Medio Total']].fillna(0)
df[['Ed. Inf. Total', 'En. Fund. Total','En. Medio Total']].isna().sum()

A coluna `Localizacao` fornece informações de onde a unidade escolar está localizada. Vejamos quais são os tipos de localização possíveis.

In [None]:
df['Localizacao'].unique()

Vamos verificar qual é o desempenho escolar no ensino médio (coluna `En. Medio Total`), em área urbana, para cada estado e o distrito federal.

In [None]:
estados = ['Rondônia', 'Acre', 'Amazonas', 'Roraima', 'Pará', 'Amapá',
       'Tocantins', 'Maranhão', 'Piauí', 'Ceará', 'Rio Grande do Norte',
       'Paraíba', 'Pernambuco', 'Alagoas', 'Sergipe', 'Bahia',
       'Minas Gerais', 'Espírito Santo', 'Rio de Janeiro', 'São Paulo',
       'Paraná', 'Santa Catarina', 'Rio Grande do Sul',
       'Mato Grosso do Sul', 'Mato Grosso', 'Goiás', 'Distrito Federal']

df_urbana = df.loc[df['Localizacao']=='Urbana']
df_urbana_Total = df_urbana.loc[df_urbana['Dep. Adm.']=='Total']
df_estados = df_urbana_Total.loc[df_urbana_Total['Unidade Geografica'].isin(estados)]
df_estados[['Unidade Geografica','En. Medio Total']]

Qual o estado com o melhor desempenho total no ensino médio?

In [None]:
df_estados[['Unidade Geografica','En. Medio Total']].loc[df_estados['En. Medio Total'].idxmax()]

E o estado com o pior desempenho?

In [None]:
df_estados[['Unidade Geografica','En. Medio Total']].loc[df_estados['En. Medio Total'].idxmin()]

Vamos verificar agora qual estado apresenta o melhor desempenho no ensino médio considerando apenas as escolas estaduais.

In [None]:
df_desemp_esc_estaduais = df.loc[df['Unidade Geografica'].isin(estados)]
df_desemp_esc_estaduais = df_desemp_esc_estaduais.loc[df_desemp_esc_estaduais['Localizacao']=='Total']
df_desemp_esc_estaduais = df_desemp_esc_estaduais.loc[df_desemp_esc_estaduais['Dep. Adm.']=='Estadual']
df_desemp_esc_estaduais.head()

In [None]:
df_desemp_esc_estaduais[['Unidade Geografica','En. Medio Total']].loc[df_desemp_esc_estaduais['En. Medio Total'].idxmax()]

Vamos comparar qual o desempenho médio, no ensino médio, das escolas públicas de dois grupos de estados: "São Paulo, Paraná e Santa Catarina" e "Rio de Janeiro, Minas Gerais e Espírito Santo".

In [None]:
grupo_1 = ['São Paulo', 'Paraná', 'Santa Catarina']
grupo_2 = ['Rio de Janeiro', 'Minas Gerais', 'Espírito Santo']

df_grupo_1 = df.loc[df['Unidade Geografica'].isin(grupo_1)]
df_grupo_1 = df_grupo_1.loc[df_grupo_1['Localizacao']=='Total']
df_grupo_1 = df_grupo_1.loc[df_grupo_1['Dep. Adm.']=='Estadual']
print(df_grupo_1[['Unidade Geografica','En. Medio Total']].head())

df_grupo_2 = df.loc[df['Unidade Geografica'].isin(grupo_2)]
df_grupo_2 = df_grupo_2.loc[df_grupo_2['Localizacao']=='Total']
df_grupo_2 = df_grupo_2.loc[df_grupo_2['Dep. Adm.']=='Estadual']
print(df_grupo_2[['Unidade Geografica','En. Medio Total']].head())

In [None]:
print('Desempenho médio grupo 1',df_grupo_1['En. Medio Total'].mean())
print('Desempenho médio grupo 2',df_grupo_2['En. Medio Total'].mean())

Vamos criar um dicionário onde a chave é o estado e o valor é uma lista com o desempenho total na educação infantil, ensino fundamental e médio.

In [None]:
gb = df.loc[df['Unidade Geografica'].isin(estados)].groupby('Unidade Geografica')

for e, g in gb:
    print('Estado',e)
    print(g[['Ed. Inf. Total','En. Fund. Total','En. Medio Total']])

In [None]:
d = {}
for e, g in gb:
    total_total = g.query('Localizacao == "Total" & `Dep. Adm.`=="Total"')
    v = total_total[['Ed. Inf. Total','En. Fund. Total','En. Medio Total']].values[0]
    d[e] = [v[i] for i in range(len(v))]
    
for c,v in d.items():
    print(c,v)