# 02-Fundamentos da Estatística

## Amostragens

In [None]:
import numpy as np
import pandas as pd

In [None]:
enem_sp = pd.read_csv('./enem_2019_tratado.csv', encoding = 'iso-8859-1', sep = ',')

In [None]:
enem_sp.head()

In [None]:
enem_sp.shape

In [None]:
enem_campinas = enem_sp.loc[enem_sp.NO_MUNICIPIO_RESIDENCIA == 'Campinas']

In [None]:
enem_campinas.head()

In [None]:
enem_campinas.shape

### Amostragem Aleatória Simples

In [None]:
np.random.seed(33)

In [None]:
amos_simples = enem_campinas.sample(frac = 0.2) # 20% dos dados

In [None]:
amos_simples

In [None]:
amos_simples = enem_campinas.sample(3000) # número fixo de dados

In [None]:
amos_simples

In [None]:
np.random.seed(1234)

In [None]:
amostra = np.random.choice(a = [0,1], size = 13198, replace = True, p = [0.8, 0.2])

In [None]:
amostra

In [None]:
len(amostra[amostra == 0])

In [None]:
len(amostra[amostra == 1])

In [None]:
amos_simples = enem_campinas.loc[amostra == 1]

In [None]:
amos_simples

### Amostragem Sistemática

In [None]:
enem_campinas.shape

In [None]:
np.random.seed(3124)
inicio = np.random.choice(10, 1)

In [None]:
amostra2 = np.arange(inicio, 13198, 100)
amostra2

In [None]:
amos_sistematica = enem_campinas.iloc[amostra2, :]

In [None]:
amos_sistematica

In [None]:
# outra maneira

In [None]:
np.random.seed(543)

In [None]:
inicio = np.random.choice(10, 1)
passo = np.random.randint(100, 150, 1)

In [None]:
amostra2 = np.arange(inicio, 13198, passo)

In [None]:
amostra2_camp = enem_campinas.iloc[amostra2, :]

In [None]:
amostra2_camp

### Amostragem Estratificada

In [None]:
enem_campinas['RACA'].value_counts()

In [None]:
# Para quantidade pequena de grupos

In [None]:
branca = enem_campinas.loc[enem_campinas.RACA == 'branca'].sample(frac = 0.1)
branca.shape

In [None]:
parda = enem_campinas.loc[enem_campinas.RACA == 'parda'].sample(frac = 0.1)
parda.shape

In [None]:
preta = enem_campinas.loc[enem_campinas.RACA == 'preta'].sample(frac = 0.1)
preta.shape

In [None]:
amarela = enem_campinas.loc[enem_campinas.RACA == 'amarela'].sample(frac = 0.1)
amarela.shape

In [None]:
nd = enem_campinas.loc[enem_campinas.RACA == 'nao_declarado'].sample(frac = 0.1)
nd.shape

In [None]:
indigena = enem_campinas.loc[enem_campinas.RACA == 'indigena'].sample(frac = 0.1)
indigena.shape

In [None]:
amos_estra = pd.concat([branca, parda, preta, amarela, nd, indigena])
amos_estra

In [None]:
# Para grandes quantidades de grupos

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
x_treino, x_teste, y_treino, amos_estra = train_test_split(enem_campinas.drop('RACA', axis=1),
                                                          enem_campinas['RACA'], stratify=enem_campinas['RACA'],
                                                          test_size=0.2)

In [None]:
amos_estra.shape

In [None]:
amos_estra.value_counts()

In [None]:
amos_estra = amos_estra.index

In [None]:
amos_estra

In [None]:
amos_estra_camp = enem_campinas.loc[amos_estra, :]

In [None]:
amos_estra_camp

### Amostragem Por Conglomerado (Agrupamento)

In [None]:
escolas_publicas = enem_campinas.loc[enem_campinas.ESCOLA == 'publica']

In [None]:
escolas_publicas.shape

In [None]:
amostras = escolas_publicas['CO_ESCOLA'].value_counts()
amostras

In [None]:
amostras.index

In [None]:
amostragem = np.random.choice(a=[0,1], size=186,replace=True, p=[0.85, 0.15]) # 186 é a quantidade de escolas publicas (length)

In [None]:
amostragem

In [None]:
amos_conglomerado = amostras.loc[amostragem == 1]

In [None]:
amos_conglomerado

In [None]:
amos_conglomerado.shape

In [None]:
amos_conglomerado.index

In [None]:
amos_conglomerado = escolas_publicas.loc[escolas_publicas['CO_ESCOLA'].isin([35045664.0, 35018351.0, 35018314.0, 35018570.0, 35112859.0, 35018259.0,
       35905471.0, 35924544.0, 35812900.0, 35018296.0, 35467765.0, 35045676.0,
       35018922.0, 35065626.0, 35901118.0, 35045697.0, 35213640.0, 35112720.0,
       35131982.0, 35018200.0, 35165062.0, 35915592.0, 35112707.0, 35112641.0,
       35172510.0, 35112537.0, 35307701.0, 35917552.0, 35017255.0])]

In [None]:
amos_conglomerado

## Distribuição de Frequências

In [None]:
import numpy as np
import pandas as pd
from collections import Counter

In [None]:
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

In [None]:
enem_sp.head()

In [None]:
enem_sorocaba = enem_sp.loc[enem_sp.NO_MUNICIPIO_RESIDENCIA == 'Sorocaba']

In [None]:
enem_sorocaba.shape

### Frequência absoluta

In [None]:
idades = enem_sorocaba['IDADE']

In [None]:
idades

In [None]:
freq_absoluta = Counter(idades)

In [None]:
freq_absoluta

In [None]:
freq_absoluta = pd.DataFrame.from_dict(freq_absoluta, orient='index')

In [None]:
freq_absoluta

In [None]:
freq_absoluta = freq_absoluta.sort_index(ascending=True)

In [None]:
freq_absoluta

### Frequência Relativa

In [None]:
freq_relativa = freq_absoluta / freq_absoluta.sum()
freq_relativa

In [None]:
freq_relativa_perc = freq_relativa * 100
freq_relativa_perc

## Gráfico de frequências: Histograma

### Matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
enem_sorocaba.IDADE.hist(bins = 8)
plt.title('Distribuição de Idades - ENEM SP 2019 - Sorocaba')
plt.show()

In [None]:
plt.hist(enem_sorocaba.IDADE, 8, rwidth = 1)
plt.title('Distribuição de Idades - ENEM SP 2019 - Sorocaba')
plt.show()

In [None]:
from matplotlib import colors
plt.hist(enem_sorocaba.IDADE, 20, rwidth=1, color='green', density=True)
plt.title('Distribuição de Idades - ENEM SP 2019 - Sorocaba')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

### Seaborn

In [None]:
import seaborn as sns

In [None]:
sns.displot(enem_sorocaba['IDADE'], bins=8, color='blue', kde=False); # kde = linha de densidade

In [None]:
# podemos usar displot e histplot
sns.histplot(enem_sorocaba, x='IDADE', bins=8, color='green', kde=True, stat='probability');

### Plotly

In [None]:
import plotly.express as px
grafico = px.histogram(enem_sorocaba, x='IDADE', nbins=10, histnorm='percent')
grafico.update_layout(width=500,height=500,title_text='Distribuição de idades - ENEM SP 2019 - Sorocaba')
grafico.show()

In [None]:
grafico = px.histogram(enem_sorocaba, x='IDADE', nbins=10, histnorm='probability', color='SEXO')
grafico.update_layout(width=500,height=500,title_text='Distribuição de idades - ENEM SP 2019 - Sorocaba')
grafico.show()

In [None]:
grafico = px.histogram(enem_sorocaba, x='NOTA_MT', nbins=14, color='SEXO')
grafico.update_layout(width=500,height=500,title_text='Distribuição de idades - ENEM SP 2019 - Sorocaba')
grafico.show()

In [None]:
grafico = px.histogram(enem_sorocaba, x='NOTA_CN', nbins=14, color='SEXO')
grafico.update_layout(width=500,height=500,title_text='Distribuição de idades - ENEM SP 2019 - Sorocaba')
grafico.show()

In [None]:
grafico = px.histogram(enem_sorocaba, x='NOTA_REDACAO', nbins=20, color='RACA', histnorm='percent')
grafico.update_layout(width=500,height=500,title_text='Distribuição de idades - ENEM SP 2019 - Sorocaba')
grafico.show()

## Medidas de tendência central

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

### Média

In [None]:
enem_sp['IDADE'].mean()

In [None]:
round(enem_sp['IDADE'].mean(),1)

In [None]:
enem_sp['NOTA_REDACAO'].mean()

In [None]:
enem_sp.describe()

### Mediana

In [None]:
enem_sp['IDADE'].median()

### Moda

In [None]:
enem_sp.IDADE.mode()

### Distribuição

In [None]:
enem_sp.COMP3.mode()

In [None]:
enem_sp.COMP3.mean()

In [None]:
enem_sp.COMP3.median()

In [None]:
import plotly.express as px

In [None]:
grafico = px.histogram(enem_sp, x='COMP3', nbins=15)
grafico.update_layout(width=400, height=400, title_text='Nota do componente 3 da redação - ENEM SP 2019')
grafico.show()

In [None]:
enem_sp.COMP2.mode()

In [None]:
enem_sp.COMP2.mean()

In [None]:
enem_sp.COMP2.median()

In [None]:
grafico = px.histogram(enem_sp, x='COMP2', nbins=15)
grafico.update_layout(width=400, height=400, title_text='Nota do componente 2 da redação - ENEM SP 2019')
grafico.show()

## Medidas de Dispersão e Posição

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

### Medidas de Dispersão

#### Variância

In [None]:
enem_sp.NOTA_MT.var()

#### Desvio-padrão

In [None]:
enem_sp.NOTA_MT.std()

In [None]:
enem_sp.describe()

### Medidas de Posição

#### Mínimo

In [None]:
enem_sp.NOTA_MT.min()

#### Máximo

In [None]:
enem_sp.NOTA_MT.max()

#### Primeiro Quartil

In [None]:
enem_sp.NOTA_MT.quantile(0.25)

#### Segundo Quartil (mediana)

In [None]:
enem_sp.NOTA_MT.quantile(0.50)

#### Terceiro Quartil

In [None]:
enem_sp.NOTA_MT.quantile(0.75)

## Gráfico BoxPlot e Outliers

### Matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.boxplot(enem_sp.NOTA_MT)
plt.show

### Seaborn

In [None]:
import seaborn as sns

In [None]:
sns.boxplot(y='NOTA_MT', data=enem_sp);

### Plotly

In [None]:
import plotly.express as px

In [None]:
grafico = px.box(enem_sp, y='NOTA_MT')
grafico.show()

In [None]:
sem_outliers = enem_sp.loc[enem_sp.NOTA_MT <= 902.9]

In [None]:
sem_outliers = sem_outliers.loc[sem_outliers.NOTA_MT >= 359.1]

In [None]:
grafico = px.box(sem_outliers, y='NOTA_MT')
grafico.show()

In [None]:
grafico = px.box(enem_sp, x='SEXO', y='NOTA_MT')
grafico.show()