***
## <font color="#106eb2" size=12>Introdução a Data Science com Python</font>
***



## <font color="#1D334A" size=8>Aula 01 - Conhecendo os Dados</font>

Esta primeira aula é dedicada a realizar uma análise inicial de uma amostra de dados dos participantes do ENEM 2019.

É importante conhecer a semântica dos dados descrita no dicionário de dados. A exploração inicial, o conhecimento do negócio, e do dicionário de dados é importante para a formulação de hipóteses.

Os dados foram extraídos de http://inep.gov.br/microdados




### Importando bibliotecas

In [3]:
import pandas as pd
import numpy as np

### Exploração Inicial

Os dados serão carregados em um dataframe.

Um dataframe é a estrutura fundamental do Pandas. 

É uma estrutura bidimensional homogênea. As linhas representam os indivíduos da minha amostra ou população. As colunas são os 
atributos destes indivíduos

Para explorar os métodos e atributos dos dataframes: https://pandas.pydata.org/pandas-docs/stable/reference/frame.html


In [4]:
#uri = 'https://github.com/pooinf008/inf032/blob/master/data/microdados_sample.csv?raw=true'
caminho = 'data/microdados_sample.csv'
dados = pd.read_csv(caminho)
dados.head()

FileNotFoundError: [Errno 2] File data/microdados_sample.csv does not exist: 'data/microdados_sample.csv'

### Observando as dimensões do dataframe - linhas e colunas

In [5]:
dados.shape

NameError: name 'dados' is not defined

In [6]:
dados

NameError: name 'dados' is not defined

In [7]:
dados.info()

NameError: name 'dados' is not defined

In [None]:
dados.dtypes

In [None]:
dados.describe()

### Vendo o nome das colunas do dataframe

In [None]:
dados.columns.values

## Categorize os seus dados

Os nossos atributos podem assumir diversos valores e por isso são chamados de variáveis.

As variáveis podem ser classificadas entre:

variáveis qualitativas:  qualidade

    ordinal - pode-se estabelecer uma ordem entre as categorias: Q001 e Q002
    
    nominal - não é possível hierarquizar as categorias: TP_SEXO
    
variáveis quantitativas: contagens e medidas

    discretos - contagem discreta formada por inteiros: 'NU_IDADE'
    
    contínuos - contagem contínua formada por inteiros: 'NU_NOTA_CN' e 'NU_NOTA_CH'
       
    
    


<img src='img/variaveis.png' width='70%'>

### Selecionando SubConjuntos do Dataframe

Um subconjunto bidimensional de um dataframe, também será um dataframe.

Quando este subconjunto for unidimensional o seu tipo será um objeto do tipo Pandas Series. Diversos são as operações disponíveis para lidar com Series. 

Veja a documentação em: https://pandas.pydata.org/pandas-docs/stable/reference/series.html  

In [None]:
dados['SG_UF_RESIDENCIA']


In [None]:
dados.SG_UF_RESIDENCIA

In [None]:
sub = dados[['SG_UF_RESIDENCIA', 'TP_COR_RACA']].copy()
sub

In [None]:
dados[10:30]

In [None]:
dados.iloc[10:30, 1:3]

In [None]:
dados[dados.TP_COR_RACA == 3]

In [None]:
dados.query('NU_IDADE == 20 & TP_COR_RACA == 3')

### Identificando o domínio de uma coluna

In [None]:
dados.SG_UF_RESIDENCIA.unique()

In [None]:
dados.SG_UF_RESIDENCIA.unique().size

In [None]:
dados.SG_UF_RESIDENCIA.value_counts()

In [None]:
dados.SG_UF_RESIDENCIA.value_counts(normalize=True).round(4) * 100

### Verificando a frequencia de inscritos por faixa de renda

In [None]:
dados.Q006.value_counts(normalize=True).sort_index() * 100

## Avaliação Visual Com Histograma

### "Plot" dos dados de uma coluna

In [None]:
dados.NU_IDADE.plot()

### Avaliação Visual da Idade (Histograma)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()

dados.NU_IDADE.plot(bins=25, kind='hist', figsize=(12, 8))

In [None]:
dados.TP_NACIONALIDADE.plot(bins=25, kind='hist', figsize=(12, 8))

### Investigando Idade dos Treineiros

In [None]:
dados.query('IN_TREINEIRO == 1').NU_IDADE.hist(bins=30)

### Avaliação Visual da Nota da Redação


In [None]:
dados.NU_NOTA_REDACAO.hist(bins=22, figsize=(15,8))

In [None]:
dados[dados.NU_NOTA_REDACAO==0].NU_IDADE.hist(bins=22, figsize=(15,8))

In [None]:
dados[['NU_NOTA_REDACAO', 'NU_IDADE']]
dados['ZEROU_REDACAO'] = dados.NU_NOTA_REDACAO == 0
sns.scatterplot(data = dados, x='NU_IDADE', y='ZEROU_REDACAO', alpha=0.1)

### Avaliação Visual da Nota de Linguagens e Códigos

In [None]:
dados.NU_NOTA_LC.hist(bins=22, figsize=(15,8))

In [None]:
ax = sns.histplot(dados.NU_NOTA_LC, kde=True)
ax.set_title('Distribuição das Notas de Linguagens e Códigos')


### Relacionando visualmente a idade do conjunto e dos treineiros

In [None]:
sns.set_style("whitegrid")
ax0 = sns.histplot(dados.NU_IDADE, kde=True, bins=75, color='#000000', label='TODOS')
sns.histplot(dados.query('IN_TREINEIRO == 1').NU_IDADE, kde=True, bins=50, color='#FFD700', label='TREINEIROS', ax=ax0)
ax0.set_title('Histograma de Relação da Idade dos Treineiros com o Conjunto', {'fontsize' : 14})
ax0.figure.set_size_inches(12, 6)
ax0.set_xlabel('Idade dos Inscritos')
ax0.set_ylabel('')
ax0.legend()

### Agrupando as notas por estados e tirando a média da nota de Redação 

Um objeto GroupBy pode ser usado para calcular valores (contagem, máximos, mínimos, média) sobre dados agrupados por algum atributo.

Veja os atributos e métodos dos objetos GroupBy em: https://pandas.pydata.org/pandas-docs/stable/reference/groupby.html

In [None]:
dados.head()
dados.groupby("SG_UF_RESIDENCIA").NU_NOTA_REDACAO.mean().round(2)

### Criando Categorias por faixas de valores

In [None]:
print(dados.NU_NOTA_REDACAO.min())
print(dados.NU_NOTA_REDACAO.max())

In [None]:
faixas=[0, 200, 400, 600, 800, 1000]
rotulos = ['0 a 200', '200 a 400', '400 a 600', '600 a 800', '800 a 1000']
redacao_classes = pd.cut(x=dados.NU_NOTA_REDACAO, bins=faixas, labels=rotulos, include_lowest=False)
redacao_classes.value_counts(sort=False, normalize=False) * 100

In [None]:
faixas=[0, 200, 400, 600, 800, 1000]
rotulos = ['0 a 200', '200 a 400', '400 a 600', '600 a 800', '800 a 1000']
redacao_classes = pd.cut(x=dados.NU_NOTA_REDACAO, bins=faixas, labels=rotulos, include_lowest=True)
redacao_classes.value_counts(sort=False, normalize=False) * 100

## Resumindo os dados

### Medidas de Tendência Central 

In [None]:
print(dados.NU_IDADE.mean())
print(dados.NU_IDADE.median())
print(dados.NU_IDADE.mode()[0])

### Assimetria e medidas de Tendência Central

<img src='img/assimetria.png' width='70%'>

In [None]:
salaA = [2.5, 2.5, 10]
salaB = [5, 5, 5]

print(np.mean(salaA))
print(np.mean(salaB))

### Medidas de Dispersão

In [None]:
dados_idade = dados[['NU_IDADE']].copy()
dados_idade['DIST_MEDIA'] = np.power(dados_idade.NU_IDADE - dados_idade.NU_IDADE.mean(), 2)
np.sqrt(dados_idade.DIST_MEDIA.sum() / dados_idade.DIST_MEDIA.count())

In [None]:
print(dados.NU_IDADE.mad())
print(dados.NU_IDADE.var())
print(dados.NU_IDADE.std())

In [None]:
print(f'Media / Desvio da nota de matemática: {dados.NU_NOTA_MT.mean()} / {dados.NU_NOTA_MT.std()}')
print(f'Media / Desvio da nota de linguagens: {dados.NU_NOTA_LC.mean()} / {dados.NU_NOTA_LC.std()}')

### Medidas Separatrizes:

In [None]:
dados.NU_IDADE.quantile([0.25, 0.5, 0.75, 1])

###  Medidas Separatrizes: Percentiles e Quartiles

In [None]:
nota_sup = dados.NU_NOTA_REDACAO.quantile(0.95)
print(f'Apenas 5% dos alunos tiraram acima de {nota_sup} em redacao')

In [None]:
dados.NU_IDADE.max()

### Estatísticas Descritivas das Notas

In [None]:
provas=['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_MT', 'NU_NOTA_LC', 'NU_NOTA_REDACAO']

dados[provas].describe()

## Avaliação Visual Com Boxplots

O uso de boxplot permite visualizar medidas centrais, de dispersão e outliers (medidas discrepantes), além da assimetria da distribuição

<img src='img/boxplot.png' width='65%'>

### Visualizando a distribuição das notas de redação

In [None]:
dados.NU_NOTA_REDACAO.plot.box(figsize=(12,8))

In [None]:

iiq = dados.NU_NOTA_REDACAO.quantile(0.75) - dados.NU_NOTA_REDACAO.quantile(0.25)
dados.NU_NOTA_REDACAO.quantile(0.25) - (iiq * 1.5)

### Visualizando a distribuição das notas


In [None]:
dados[provas].plot.box(figsize=(12,8))

## <font color="#1D334A" size=8>Aula 02 - Análise Exploratória: Visualizando os dados </font>

### Biblioteca Seaborn: Visualizando a distribuição das notas de redação II

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.pyplot import GridSpec


fig = plt.figure(constrained_layout=True)
fig.set_size_inches(12, 8)
gs = GridSpec(2,1, figure=fig)

ax0 = fig.add_subplot(gs[0, 0])
ax1 = fig.add_subplot(gs[1, 0])

sns.set_style("whitegrid")
sns.boxplot(data=dados.NU_NOTA_REDACAO, orient='h', palette='Accent', ax= ax0)
#ax.figure.set_size_inches(12,6)
ax0.set_title('Distribuição das Notas de Redação - ENEM 2019', fontsize=14)
ax0.set_xlabel('Notas', fontsize=16)
ax0.set_xlim(xmin=0, xmax=dados.NU_NOTA_REDACAO.max() * 1.05)
ax0.grid(True)

ax1.set_title('Distribuição das Notas de Matemática - ENEM 2019', fontsize=14)
sns.boxplot(data=dados.NU_NOTA_MT, orient='h', palette='Accent', ax= ax1)
ax1.set_xlabel('Notas', fontsize=16)
ax1.set_xlim(xmin=0, xmax=dados.NU_NOTA_MT.max() * 1.05)
ax1.grid(True)

Paleta de Cores Pré-Fixadas no seaborn

'Accent', 'Accent_r', 'Blues', 'Blues_r', 'BrBG', 'BrBG_r', 'BuGn', 'BuGn_r', 'BuPu', 'BuPu_r', 'CMRmap', 'CMRmap_r', 'Dark2', 'Dark2_r', 'GnBu', 'GnBu_r', 'Greens', 'Greens_r', 'Greys', 'Greys_r', 'OrRd', 'OrRd_r', 'Oranges', 'Oranges_r', 'PRGn', 'PRGn_r', 'Paired', 'Paired_r', 'Pastel1', 'Pastel1_r', 'Pastel2', 'Pastel2_r', 'PiYG', 'PiYG_r', 'PuBu', 'PuBuGn', 'PuBuGn_r', 'PuBu_r', 'PuOr', 'PuOr_r', 'PuRd', 'PuRd_r', 'Purples', 'Purples_r', 'RdBu', 'RdBu_r', 'RdGy', 'RdGy_r', 'RdPu', 'RdPu_r', 'RdYlBu', 'RdYlBu_r', 'RdYlGn', 'RdYlGn_r', 'Reds', 'Reds_r', 'Set1', 'Set1_r', 'Set2', 'Set2_r', 'Set3', 'Set3_r', 'Spectral', 'Spectral_r', 'Wistia', 'Wistia_r', 'YlGn', 'YlGnBu', 'YlGnBu_r', 'YlGn_r', 'YlOrBr', 'YlOrBr_r', 'YlOrRd', 'YlOrRd_r', 'afmhot', 'afmhot_r', 'autumn', 'autumn_r', 'binary', 'binary_r', 'bone', 'bone_r', 'brg', 'brg_r', 'bwr', 'bwr_r', 'cividis', 'cividis_r', 'cool', 'cool_r', 'coolwarm', 'coolwarm_r', 'copper', 'copper_r', 'crest', 'crest_r', 'cubehelix', 'cubehelix_r', 'flag', 'flag_r', 'flare', 'flare_r', 'gist_earth', 'gist_earth_r', 'gist_gray', 'gist_gray_r', 'gist_heat', 'gist_heat_r', 'gist_ncar', 'gist_ncar_r', 'gist_rainbow', 'gist_rainbow_r', 'gist_stern', 'gist_stern_r', 'gist_yarg', 'gist_yarg_r', 'gnuplot', 'gnuplot2', 'gnuplot2_r', 'gnuplot_r', 'gray', 'gray_r', 'hot', 'hot_r', 'hsv', 'hsv_r', 'icefire', 'icefire_r', 'inferno', 'inferno_r', 'jet', 'jet_r', 'magma', 'magma_r', 'mako', 'mako_r', 'nipy_spectral', 'nipy_spectral_r', 'ocean', 'ocean_r', 'pink', 'pink_r', 'plasma', 'plasma_r', 'prism', 'prism_r', 'rainbow', 'rainbow_r', 'rocket', 'rocket_r', 'seismic', 'seismic_r', 'spring', 'spring_r', 'summer', 'summer_r', 'tab10', 'tab10_r', 'tab20', 'tab20_r', 'tab20b', 'tab20b_r', 'tab20c', 'tab20c_r', 'terrain', 'terrain_r', 'turbo', 'turbo_r', 'twilight', 'twilight_r', 'twilight_shifted', 'twilight_shifted_r', 'viridis', 'viridis_r', 'vlag', 'vlag_r', 'winter', 'winter_r'

## Explorando os dados de pessoas novas

In [None]:
dados.query('NU_IDADE <= 14').SG_UF_RESIDENCIA.value_counts()

In [None]:
dados.query('NU_IDADE <= 14').SG_UF_RESIDENCIA.value_counts(normalize=True) *100


In [None]:
idadeInscMenor14 = pd.DataFrame()
idadeInscMenor14['QTDE'] = dados.query('NU_IDADE <= 14').SG_UF_RESIDENCIA.value_counts()
idadeInscMenor14['PCT'] = dados.query('NU_IDADE <= 14').SG_UF_RESIDENCIA.value_counts(normalize=True) *100

idadeInscMenor14

## Escolhendo a melhor visualização para estes dados

## Gráfico de Pizza - Pie Chart

In [None]:
idadeInscMenor14.PCT.plot.pie()

In [None]:
fig, ax = plt.subplots()
fig.set_size_inches(10, 8)
ax.pie(idadeInscMenor14.QTDE,
       colors=sns.color_palette(palette="husl", n_colors=30, desat=None),
       labels=idadeInscMenor14.index, startangle=90)
plt.title('UF dos Inscritos com menos de 14 anos', fontsize=25)
plt.show()

In [None]:
sns.set_style('whitegrid')
ax = sns.barplot(x=idadeInscMenor14.index, y= idadeInscMenor14.QTDE,
             palette=sns.color_palette(palette="husl", n_colors=30, desat=None))
ax.figure.set_size_inches(10, 8)
ax.set_yticks([x for x in range(19)])
ax.set_title('UF dos Inscritos com menos de 14 anos', fontsize=25)

## Análise Exploratória - Avaliando Notas x Renda Familiar

### Boxplot da Q006 x Nota Matemática

In [None]:
sns.set_style('whitegrid')
faixas_salariais = dados.Q006.unique()
faixas_salariais.sort()
ax = sns.boxplot(x = 'Q006', y = 'NU_NOTA_MT', data=dados,
                 order = faixas_salariais, palette=sns.color_palette(palette="husl", n_colors=30, desat=None))

ax.figure.set_size_inches(16, 10)
ax.set_title('Distribuição das Notas de Matemática Considerado as Faixas de Renda', fontsize=25)

### Criando Coluna com a soma das notas de todas as provas

In [None]:
provas=['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_MT', 'NU_NOTA_LC', 'NU_NOTA_REDACAO']
dados['NU_NOTA_TOTAL'] = dados[provas].sum(axis=1)
provas.append('NU_NOTA_TOTAL')
dados[provas].head()

### Escrevendo Função para plotar um boxplot da Questão 006 x Coluna Indicada

In [None]:
def boxplot_Q006(dados : pd.DataFrame, col_ref : str, title : str, 
                 ax : plt.Axes = None, ymax : int = 1000) :
    sns.set_style('whitegrid')
    faixas_salariais = dados.Q006.unique()
    faixas_salariais.sort()
    if(ax == None) :
        ax = sns.boxplot(x = 'Q006', y = col_ref, data=dados,
                 order = faixas_salariais, 
                 palette=sns.color_palette(palette="husl", n_colors=30, 
                                           desat=None))
    else :     
        sns.boxplot(x = 'Q006', y = col_ref, data=dados,
                    order = faixas_salariais, 
                    palette=sns.color_palette(palette="husl", n_colors=30,
                                              desat=None),
                    ax=ax)
    ax.set_ylim(ymin=0, ymax=ymax)
    ax.figure.set_size_inches(16, 10)
    ax.set_title(title, fontsize=25)
    return ax
    

### Plotando a relação das Classes Sociais com a Nota Total do ENEM

In [None]:
ax= boxplot_Q006(dados, col_ref = 'NU_NOTA_TOTAL', 
                 title = 'Distribuição da Nota Total Considerado as Faixas de Renda', 
                 ymax = dados.NU_NOTA_TOTAL.max() * 1.05)
ax

### Plotando a relação das Classes Sociais com a Nota de cada prova

In [None]:
fig = plt.figure(constrained_layout=True)
fig.set_size_inches(16, 14)
gs = GridSpec(ncols=2, nrows=2, figure=fig)
ax0 = fig.add_subplot(gs[0, 0])
ax1 = fig.add_subplot(gs[0, 1])
ax2 = fig.add_subplot(gs[1, 0])
ax3 = fig.add_subplot(gs[1, 1])

boxplot_Q006(dados, 'NU_NOTA_MT', 'Q006 x Matemática', ax=ax0)
boxplot_Q006(dados, 'NU_NOTA_LC', 'Q006 x Linguagens e Códigos', ax=ax1)
boxplot_Q006(dados, 'NU_NOTA_CN', 'Q006 x Ciências da Natureza', ax=ax2)
boxplot_Q006(dados, 'NU_NOTA_CH', 'Q006 x Ciências Humanas', ax=ax3)



## Examinando o comportamento do boxplot através do histograma de notas

In [None]:
sns.set_style('whitegrid')
ax = sns.histplot(data = dados.NU_NOTA_TOTAL, 
                  palette=sns.color_palette(palette="husl", n_colors=1,
                                              desat=None))
ax.set_title('Distribuição da Frequencia da Nota Total das Provas', fontsize=25)
ax.figure.set_size_inches(12,6)
ax

In [None]:
from scipy.stats import normaltest
significancia = 0.10
stat_test, p_value = normaltest(dados.query('NU_NOTA_REDACAO > 0').NU_NOTA_REDACAO)
p_value

## Examinando o significado da moda (Nota 0)

In [None]:
dados_pv_validas = dados.query('TP_PRESENCA_CN == 1 | TP_PRESENCA_CH == 1 | TP_PRESENCA_LC == 1 | TP_PRESENCA_MT == 1')
dados_pv_completas = dados.query('TP_PRESENCA_CN == 1 & TP_PRESENCA_CH == 1 & TP_PRESENCA_LC == 1 & TP_PRESENCA_MT == 1')


In [None]:
sns.set_style('whitegrid')
ax = sns.histplot(data = dados_pv_validas.NU_NOTA_TOTAL, 
                  palette=sns.color_palette(palette="husl", n_colors=1,
                                              desat=None), kde=True)
ax.set_title('Distribuição da Frequencia da Nota Total das Provas (ao menos uma prova realizada)', fontsize=25)
ax.figure.set_size_inches(12,6)
ax

In [None]:
sns.set_style('whitegrid')
ax = sns.histplot(data = dados_pv_completas.NU_NOTA_TOTAL, 
                  palette=sns.color_palette(palette="husl", n_colors=1,
                                              desat=None), kde=True)
ax.set_title('Distribuição da Frequencia da Nota Total das Provas (todas as provas realizadas)', fontsize=25)
ax.figure.set_size_inches(12,6)
ax

## Analisando o comportamento considerando treineiros

In [None]:
ax= boxplot_Q006(dados_pv_completas, col_ref = 'NU_NOTA_TOTAL', 
                 title = 'Distribuição da Nota Total Considerando as Faixas de Renda (Provas Completas)', 
                 ymax = dados.NU_NOTA_TOTAL.max() * 1.05)

In [None]:
sns.set_style('whitegrid')
faixas_salariais = dados.Q006.unique()
faixas_salariais.sort()
ax = sns.boxplot(x = 'Q006', y = 'NU_NOTA_TOTAL', data=dados_pv_completas,
                 order = faixas_salariais, palette='summer',
                hue='IN_TREINEIRO')

ax.figure.set_size_inches(16, 10)
ax.set_title('Distribuição da Nota Total Considerando as Faixas de Renda (Provas Completas)', fontsize=25)

## <font color="#1D334A" size=8>Aula 03 - Distribuições e Correlações</font>

## Avaliando Assimetrias

In [None]:
sns.set_style('whitegrid')
ax = sns.histplot(dados_pv_completas.query('NU_NOTA_REDACAO > 0').NU_NOTA_REDACAO, kde=True, bins=47)
ax.set_title('Distribuição de Frequencia da Nota de Redação', fontsize=20)
ax.figure.set_size_inches(12,6)


In [None]:
print(dados_pv_completas.NU_NOTA_LC.mean())
print(dados_pv_completas.NU_NOTA_LC.median())
print(dados_pv_completas.NU_NOTA_LC.mode()[0])

In [None]:
sns.set_style('whitegrid')
ax = sns.histplot(dados_pv_completas.NU_NOTA_MT, kde=True, bins=47)
ax.set_title('Distribuição de Frequencia da Nota de Matemática', fontsize=20)
ax.figure.set_size_inches(12,6)

In [None]:
sns.set_style('whitegrid')
ax = sns.histplot(dados_pv_completas.NU_NOTA_LC, kde=True, bins=47)
ax.set_title('Distribuição de Frequencia da Nota de Linguagem e Códigos', fontsize=20)
ax.figure.set_size_inches(12,6)

In [None]:
from sklearn.preprocessing import PowerTransformer
dados_pv_completas_maior_zero = dados_pv_completas[dados.NU_NOTA_MT > 0]

dados_pv_completas_maior_zero['NU_NOTA_MT_TRANS'] = PowerTransformer(method='box-cox').fit_transform(dados_pv_completas_maior_zero[['NU_NOTA_MT']])


In [None]:
sns.set_style('whitegrid')
ax = sns.histplot(dados_pv_completas_maior_zero.NU_NOTA_MT_TRANS, kde=True, bins=47)
ax.set_title('Distribuição de Frequencia da Nota de Matemática', fontsize=20)
ax.figure.set_size_inches(12,6)

print(dados_pv_completas.NU_NOTA_MT_TRANS.mean())
print(dados_pv_completas.NU_NOTA_MT_TRANS.median())
print(dados_pv_completas.NU_NOTA_MT_TRANS.mode()[0])

## Realizando comparação de comportamento pela frequência de histogramas

In [None]:
sns.set_style('whitegrid')
ax = sns.histplot(dados_pv_completas.query("Q025 == 'A'").NU_NOTA_TOTAL, kde=True, bins=100, color='#FFD700', label='Sem Acesso')
sns.histplot(dados_pv_completas.query("Q025 == 'B'").NU_NOTA_TOTAL, kde=True, bins=100, color='#000000', label='Com Acesso', ax=ax)
ax.set_title('Distribuição de Frequencia da Nota Total x Q025', fontsize=20)
ax.figure.set_size_inches(12,6)
ax.legend()
ax



### Usando histograma para avaliar medidas separatrizes da nota de redaçao

In [None]:
sns.set_style('whitegrid')
ax = sns.histplot(dados_pv_completas.NU_NOTA_MT, kde=True, bins=100, color='#BF9500', cumulative=True, stat='density')
ax.set_title('Distribuição de Frequencia Cumulativa da Nota de Matemática', fontsize=20)
ax.figure.set_size_inches(12,6)


In [None]:
dados_pv_completas.NU_NOTA_MT.quantile(0.97)

## Correlações

### Correlação entre Notas de MT x Notas de CN

In [None]:
fig, ax0 = plt.subplots()
fig.set_size_inches(10, 10)
sns.scatterplot(x = 'NU_NOTA_MT', y = 'NU_NOTA_CN', data = dados_pv_completas, color='#BF9500', ax=ax0)
ax0.set_xlim(0, 1050)
ax0.set_ylim(0, 1050)
ax0.set_xlabel('Nota de Matemática', fontsize=22)
ax0.set_ylabel('Nota de Ciências Naturais', fontsize=22)

### Correlação entre Notas


In [None]:
sns.set_style('whitegrid')
sns.set_palette('summer')
ax = sns.pairplot(data=dados_pv_completas[provas])
ax.fig.suptitle('Correlação entre as Notas', y=1.05, fontsize=20)

## Correlação entre Notas de MT x Notas de LC e uma terceira dimensão (acesso a internet)

In [None]:
fig, ax0 = plt.subplots()
fig.set_size_inches(10, 10)
sns.scatterplot(x = 'NU_NOTA_MT', y = 'NU_NOTA_CN', data = dados_pv_completas, palette='summer_r', ax=ax0, hue='Q025', alpha=0.9)
ax0.set_xlim(0, 1050)
ax0.set_ylim(0, 1050)
ax0.set_xlabel('Nota de Matemática', fontsize=22)
ax0.set_ylabel('Nota de Ciências Naturais', fontsize=22)

## Correlação entre Notas - Pearson




Correlação é qualquer relação estatística (causal ou não causal) entre duas variáveis.

Embora seja comumente denotada como a medida de relação entre duas variáveis aleatórias, correlação não implica causalidade.

Correlações espúrias: https://www.tylervigen.com/spurious-correlations


<img src='img/pearson.png' width='65%'>

In [None]:
correlacao_notas = dados_pv_completas[provas].corr()

correlacao_notas

## Interpretação dos valores da Correlação

<img src='img/pearson02.png' width='65%'>

## Visualização da Correlação entre Notas

In [None]:
ax = sns.heatmap(correlacao_notas, cmap="summer_r", square=True, annot=True)
ax.set_title('Mapa de Correlação de Pearson das Notas', fontsize=22, y=1.05)

In [None]:
fig = plt.figure(constrained_layout=True)
fig.set_size_inches(15, 5)
gs = GridSpec(ncols=3, nrows=1, figure=fig)
ax0 = fig.add_subplot(gs[0, 0])
ax1 = fig.add_subplot(gs[0, 1])
ax2 = fig.add_subplot(gs[0, 2])

sns.scatterplot(x = 'NU_NOTA_LC', y = 'NU_NOTA_MT', data = dados_pv_completas, color='#BF9500', ax=ax0)
ax0.set_xlim(0, 1050)
ax0.set_ylim(0, 1050)
sns.scatterplot(x = 'NU_NOTA_LC', y = 'NU_NOTA_CH', data = dados_pv_completas, color='#BF9500', ax=ax1)
ax1.set_xlim(0, 1050)
ax1.set_ylim(0, 1050)
sns.scatterplot(x = 'NU_NOTA_LC', y = 'NU_NOTA_CN', data = dados_pv_completas, color='#BF9500', ax=ax2)
ax2.set_xlim(0, 1050)
ax2.set_ylim(0, 1050)



## <font color="#1D334A" size=8>Aula 04 - Regressão</font>

### Selecionando os dados de variáveis quantitativas para regressão 
### Convertendo dados de variáveis qualitativas ordinais



In [None]:
renda = {'A' : 0, 'B' : 1, 'C' : 2, 'D' : 3, 'E' : 4, 'F' : 5, 'G' : 6, 'H' : 7, 'I' : 8,
         'J' : 9, 'K' : 10, 'L' : 11, 'M' : 12, 'N' : 13, 'O': 14, 'P' : 15, 'Q' : 16}


var_quantitativas = ['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_MT', 'NU_NOTA_LC', 'NU_NOTA_REDACAO', 
                     'NU_IDADE', 'Q006', 'Q005']
var_dependente =  'NU_NOTA_MT'
var_explicativas = ['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_REDACAO', 
                     'NU_IDADE', 'Q006', 'Q005']
                     

dadosRL = dados_pv_completas.query('NU_NOTA_CN > 0 & NU_NOTA_CH > 0 & NU_NOTA_MT > 0 & NU_NOTA_LC > 0 & NU_NOTA_REDACAO > 0').copy()
dadosRL = dadosRL[var_quantitativas]
dadosRL.dropna(axis='index', inplace=True)

dadosRL.Q006 = dadosRL.Q006.map(renda)

dadosRL

### Avaliando qualitativamente a relação entre a variável dependente e as variáveis explicativas

In [None]:
dadosRL.corr()

 ### Avaliando visualmente a relação entre a variável dependente e a variável explicativa

In [None]:
fig = plt.figure(constrained_layout=True)
fig.set_size_inches(15, 15)
gs = GridSpec(ncols=3, nrows=3, figure=fig)
ax0 = fig.add_subplot(gs[0, 0])
ax1 = fig.add_subplot(gs[0, 1])
ax2 = fig.add_subplot(gs[0, 2])
ax3 = fig.add_subplot(gs[1, 0])
ax4 = fig.add_subplot(gs[1, 1])
ax5 = fig.add_subplot(gs[1, 2])
ax6 = fig.add_subplot(gs[2, :])


sns.scatterplot(x = 'NU_NOTA_LC', y = 'NU_NOTA_MT', data = dadosRL, color='#BF9500', ax=ax0)
ax0.set_xlim(0, 1050)
ax0.set_ylim(0, 1050)
sns.scatterplot(x = 'NU_NOTA_CH', y = 'NU_NOTA_MT', data = dadosRL, color='#BF9500', ax=ax1)
ax1.set_xlim(0, 1050)
ax1.set_ylim(0, 1050)
sns.scatterplot(x = 'NU_NOTA_CN', y = 'NU_NOTA_MT', data = dadosRL, color='#BF9500', ax=ax2)
ax2.set_xlim(0, 1050)
ax2.set_ylim(0, 1050)
sns.scatterplot(x = 'NU_NOTA_REDACAO', y = 'NU_NOTA_MT', data = dadosRL, color='#BF9500', ax=ax3)
ax3.set_xlim(0, 1050)
ax3.set_ylim(0, 1050)

sns.scatterplot(x = 'Q006', y = 'NU_NOTA_MT', data = dadosRL, color='#BF9500', ax=ax4)
ax4.set_xlim(0, 17)
ax4.set_ylim(0, 1050)
sns.scatterplot(x = 'Q005', y = 'NU_NOTA_MT', data = dadosRL, color='#BF9500', ax=ax5)
ax5.set_xlim(0, 21)
ax5.set_ylim(0, 1050)
sns.scatterplot(x = 'NU_IDADE', y = 'NU_NOTA_MT', data = dadosRL, color='#BF9500', ax=ax6)
ax6.set_xlim(0, 100)
ax6.set_ylim(0, 1050)

### Escrevendo função de predição da nota de matemática

In [None]:
def nota_matematica(model : object, valores : pd.Series) :
    return model.params.x1 * valores[0] + model.params.x2 * valores[1] + model.params.x3 * valores[2] + model.params.const

## Avaliação de Modelos Preditivos - Métricas

### Escrevendo função de avaliação dos modelos

### Preparando dados de teste, dados fixos de treino (variável dependente) e dataset de resumo de predições / métricas

In [None]:
dadosRL.drop(labels=['NU_NOTA_REDACAO', 'NU_IDADE', 'Q006', 'Q005'], axis='columns', inplace=True)

In [None]:
dadosRL.index = range(dadosRL.shape[0])

size = dadosRL.shape[0]
treino_size = int(size * 0.80)

teste = dadosRL.loc[treino_size:, ]
teste.index = range(teste.shape[0])


### Preparando dados de treino e gerando dados de avaliação da predição

In [None]:
treino = dadosRL.loc[:treino_size, ]
treino.index = range(treino.shape[0])
y = treino[var_dependente]

In [None]:
import statsmodels.api as sm

X = np.column_stack((treino.NU_NOTA_CN, treino.NU_NOTA_CH, treino.NU_NOTA_LC))
X_Const = sm.add_constant(X)
model = sm.OLS(y, X_Const).fit()
print(model.summary())

In [None]:
nota_mt =  (0.5582 * 389.7) + (0.3158 * 490.8) + (0.3107 * 557.7) - 66.9060
print(nota_mt)
notas = pd.Series([389.7, 490.8, 557.7])
nota_mt_2 = nota_matematica(model, notas)
print(nota_mt_2)


> R-squared é o percentual da variação da variável dependente que um modelo linear consegue explicar. Varia de 0% (quando, o modelo não explica qualquer variação da variável resposta em torno do seu valor médio) a 100% (quando, o modelo explica toda variação da variável resposta em torno do seu valor médio)

> Adjusted R-squared considera o número de termos no modelo. Quando um novo termo não melhora o R-squared, o modelo perde em liberdade e Adjusted R-squared diminui de valor.

> F-statistic e Prob (F-statistic): O Teste F serve para verificar se ao menos uma variável explicativa contribui significativamente para o modelo. O Teste F compara um modelo sem preditores com o modelo de regressão especificado. Um modelo de regressão que não contém preditores também é conhecido como um modelo somente com o intercepto. Na prática ele compara se o seu modelo é melhor do que um outro que simplesmente retorna a média da variável dependente. o Prob (F-statistic) testa o nível de significância de rejeição da hipótese nula (o ajuste do modelo somente com o intercepto e seu modelo são iguais). Costuma-se considerar um valor abaixo de 5% como estatisticamente relevante.

> P>|t| é o equivalente a Prob (F-statistic) considerando cada variável individualmente



### Normalizando dados de treino e gerando dados de avaliação da predição do modelo normalizado


### Função de Normalização

### Avaliando dados gerados após normalização

### Gerando comparação com um preditor baseline

### Exibindo comparativo das métricas de avaliação de cada modelo

### Avaliação Visual do Erro e Heterocedasticidade

Homocedasticidade acontece quando os dados regredidos encontram-se mais homogeneamente e menos dispersos (concentrados) em torno da reta de regressão do modelo

Heterocedasticidade é o fenômeno estatístico que ocorre quando o modelo de hipótese matemático apresenta variâncias para Y e X(X1, X2, X3,..., Xn) não iguais para todas as observações

<img src='img/heterocedasticidade.jpg' width='65%'>

### Exibindo comparativo das predições geradas por cada um dos modelos

## <font color="#1D334A" size=8>Aula 05 - Machine Learning</font>

## Criando um modelo de Regressão Linear com scikit-learn

### Preparando dados de treinamento e de teste

### Criando o modelo e gerando as métricas de avaliacao

### Criando um Dummy Regressor e Avaliando os Resultados

### Criando um regressor baseado em SVM

### Parametrizando as variáveis antes de aplica ao regressor baseado em SVM


### Árvores de Decisão

### Visualizando as regras de decisão de uma Árvore de Decisão

### Observando como uma árvore de decisão realiza predições 

### Usando uma Random Forest para Predição

## <font color="#1D334A" size=8>Aula 06 - Classificação</font>

### Observando variáveis que podem predizer se uma redação será zerada 


### Inspecionando visualmente a relação das variáveis explicativas, com a variável dependente

### Tratando as variáveis categóricas para One Hot Encoding

### Aprendizado Supervisionado - Gerando dados de Teste

### Avaliando a qualidade do classificador - Métricas de Avaliação 

#### Acurácia

### Matriz de Confusão


### Usando up sampling - SMOTE

### Matriz de Confusão do Baseline

### Precisão, Revocação e Especificidade

| Precisão é a probabilidade de que um aluno que tenha sua nota prevista como zero, realmente zere a nota

| Revocação é a probabilidade de que um aluno que zere a nota tenha a sua nota prevista como zero 

| Especificidade é a probabilidade de que um aluno que seja previsto como não zere, realmente tenha a sua nota como não zero -- uso em situações mais específicas

### Pontuação F-Score

### Avaliando algoritmos de Classificação

### Função de Treinamento e Avaliação

### Testando algoritmos

## <font color="#1D334A" size=8>Aula 07 - Avaliação de Modelos e Overfit</font>

## Limites do hold out: reduzindo a aleatoriedade do modelo

## Usando Cross Validation para estimar o erro médio de um modelo

## Fazendo função de geração do ic 0.95 dos estimadores


## Avaliando Overfit da Decision Tree

## Usando GridSearch para ajustar hiperparâmetros do modelo

## <font color="#1D334A" size=6>Desafios da Aula 01 (Conhecendo os Dados)</font>

### Desafio 01.A - Proporção de Inscritos por Idade

Gerar um dataframe que contenha, além do número absoluto de inscritos por idade, o valor percentual de cada idade entre os inscritos

### Desafio 01.B - Estados dos Inscritos com 13 anos

### Desafio 01.C - Utilizar o seaborn / matplotlib para melhorar a exibição do histograma da idade dos inscritos

### Desafio 01.D - Utilizar o seaborn / matplotlib para plotar os histogramas das idades dos treineiros


### Desafio 01.E - Comparar as distribuições das provas em Inglês e Espanhol


### Desafio 01.F - Importar o Pandas Profiling e fazer um relatório inicial sobre os dados de notas e do questionário sócio econômico


## <font color="#1D334A" size=6>Desafios da Aula 02 (Análise Exploratória: Visualizando os dados)</font>

### Desafio 02.A - Rodar avaliação de percentual por UF para população completa dos alunos de 13 e 14 anos e comparar com a amostra

### Desafio 02.B - Rodar avaliação de percentual por UF para população dos alunos de 13 e 14 anos e comparar com a amostra

### Desafio 02.C - Verificar se quem zerou a prova foi eliminado ou não estava presente

### Desafio 02.D -  Verificar se quem é eliminado tira zero ou não terá registro de notas (NaN)

### Desafio 02.E - Verificar a proporção dos treineiros por estrato

### Desafio 02.F1 - Escrever função para gerar gráfico de barras horizontais combinado

### Desafio 02.F2 - Usar função de gráfico de barras horizontais combinado, para avaliar percentual de treneiros por estrato social

### Desafio 02.G - Fazer o Boxplot para o Q25 

## <font color="#1D334A" size=6>Desafios da Aula 03 (Distribuições e Correlações)</font>

### Desafio 03.A - Plotar Médias, Modas e Medianas das notas de LC e NT para entender as assimetrias 

### Desafio 03.B -Melhorar a visualização da matriz de correlação e analisá-la mais detalhadamente

### Desafio 03.C - Filtrar as notas pelo estado e comparar as correlações com a do sample

### Desafio 03.D - Avaliar a correlação entre Matemática e Linguagens 

###### A correlação entre MT e LC é a mais baixa dentre as correlações entre notas. Dela somente podemos extrair que existe uma tendência de alunos mais preparados, serem mais preparados nas diversas áreas de conhecimento. Talvez, a correlação seja melhor explicada pela correlação entre as notas e os extratos sociais

## <font color="#1D334A" size=6>Desafios da Aula 04 (Regressão Linear e Inferência)</font>

### Desafio 04.A - Gerar Modelo de Regressão para a variavel dependente (Nota de Matemática), à partir das variáveis padronizadas (z-score)

<img src='img/padronizada.png' width='15%'>

### Padronizando dados de treino e gerando dados de avaliação da predição do modelo normalizado


### Função de Padronização

### Avaliando dados gerados após padronização


### Exibindo comparativo das métricas

### Exibindo comparativo das predições

## <font color="#1D334A" size=6>Desafios da Aula 05 (Machine Learning)</font>

### Desafio 05.A - Avaliar visualmente a heterocedasticidade do melhor modelo dentre os gerados em aula

### Desafio 05.B - Pesquisar outro modelo de ML e comparar com os demais preditores.

## Desafio XVII - Ler a documentação do Dummy e alterar o método de regressão


## Desafio XVIII - Buscar outras métricas para avaliar modelos de regressão


## <font color="#1D334A" size=6>Desafios da Aula 07 (Validação de Modelos)</font>

## Desafio XIX - Plotar gráfico de linhas com test_score e train_score (gráfico de aprendizagem)

