# <font color='#004772'>Estatística <font/>

"É a ciência que coleta, organiza, analisa e interpreta dados para tomada de decisões" (LARSON; FABER, 2014)


Como disciplina a estatística se desenvolveu no século passado. Fundamentado na teoria da probabilidade desenvolvida no século *17* a *19* com base nos trabalhos de  **Thomas Bayes, Pierre-Simon Laplace e Carl Gauss**. A estatística moderna tem suas raízes no final do século 19 com **Francis Galton e Karl Pearson. R. A. Fisher**, no início do século 20, foi um dos pioneiros da estatística moderna, introduzindo idéias-chave de projeto experimental e estimativa de máxima verossimilhança (BRUCE et al. 2020)

## Estatística descritiva

É o ramo da estatística que envolve a organização, o
resumo e a representação dos dados.

<div id='sumario'><div/>

## Sumário
1. [**Medidas de tendência central**](#MTC)             
    1.1 [Média](#media)  
    1.2 [Mediana e quantil](#mediana)  
    1.3 [Moda](#moda)
2. [**Medidas de dispersão**](#MD)   
    2.1 [Amplitude](#a)  
    2.2 [Variância](#variancia)    
    2.3 [Desvio padrão](#sd)  
    2.4 [Erro padrão](#se)  
    2.5 [Coeficiente de variação](#cv)  
3. [**Visualização**](#visualização)  
    3.1 [Gráfico de barras](#barra)  
    3.2 [Gráfico de linhas](#linha)         
    3.3 [Histograma](#histograma)    
    3.4 [Boxplot](#boxplot)     
    3.5 [Diagrama de dispersão](#dispersão)
    

**Importes**

In [None]:
from math import sqrt

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats

<div id="MTC"></div>   

## 1 [Medidas de tendência central](#sumario)
    As medidas de tendência central definem valores significativos, representativos e adequados para um conjunto de dados, dependendo do que se deseja analisar. São elas a média, mediana, quantis e a moda.
<div id="media"></div>       
 
###    1.1 Média
    A média é uma medida de tendência central que indica o valor onde estão concentrados os dados de um conjunto de valores, representando um valor significativo para o mesmo.
 

In [None]:
from IPython.display import Image
Image(filename='Formulas/media.gif', width=100, height=100)

In [None]:
# Média em uma lista
lista=[2,3,4,3,5]
np.mean(lista)
# média com valores faltantes
np.nanmean([2,3,4,3,np.nan,5])

In [None]:
# Média em um objeto pandas
df=pd.DataFrame({'A':[2,3,4,3,5],'B':[2,3,4,3,np.nan]})
df

In [None]:
print('media de A:',df['A'].mean())
print('media de B:',df['B'].mean())

In [None]:
# média do dataframe
df.mean()
# df.apply(np.mean, axis=0)

In [None]:
#Substituir valor faltante

In [None]:
df['B']=df['B'].fillna(np.nanmedian(df.B))
df

<div id="mediana"></div> 

### 1.2 Mediana e Quantil
    A mediana é o valor que separa a metade superior da metade inferior de uma distribuição de dados, ou o valor no centro da distribuição. Na prática, se o número de observações na distribuição é ímpar, ele é o valor central, e se o número de observações é par, ele será a média das duas observações mais centrais. 

In [None]:
from IPython.display import Image
Image(filename='Formulas/mediana.png', width=200, height=100)

In [None]:
lista=[2,3,4,3,5]
np.median(lista)

In [None]:
df.median()

In [None]:
np.quantile(lista, q=[0.25,0.5,0.75])

### 1.3 Moda
Valor mais frequente

In [None]:
lista=[2,3,2,3,4,3,5,3,6,8,4,6,6]
x=stats.mode(lista)
x
# df.mode()

<div id="MD"></div>   

## 2 [Medidas de dispersão](#suamrio)

<div id="a">   

### 2.1 Amplitude

In [None]:
np.random.seed(111)

lista=np.random.randint(2,10,15)
lista
minimo=np.min(lista)
maximo=np.max(lista)

print('A amplitude:',maximo-minimo)

<div id='variancia'>

### 2.2 Variância

In [None]:
from IPython.display import Image
Image(filename='Formulas/variancia.jpg', width=150 , height=100)

In [None]:
np.random.seed(111)
A=np.random.randint(5,10,10)
print('lista A:',A)
print('Variância populacional',np.var(A))
print('Variância amostral',np.var(A,ddof=1))

In [None]:
def var(x):
    v=np.sum((x-np.mean(x))**2)/(np.size(x)-1)
    return v
var(A)

<div id="sd">   

### 2.3 Desvio padrão

In [None]:
from IPython.display import Image
Image(filename='Formulas/desvio_padrao.png', width=150 , height=100)

In [None]:
# Desvio padrão em uma lista 
lista=[2,3,4,3,5]
std=np.std(lista)
std_nan=np.nanstd([2,3,4,3,np.nan,5])

print('Desvio padrão = {}\nDesvio padrão NaN = {}'. format(round(std,2),round(std_nan,2)))

In [None]:
# Desvio padrão amostral
std_amostral=df['A'].std()
# Desvio padrão populacional
std_populacional=df['A'].std(ddof=0)

print('Desvio padrão amostral: {}\nDesvio padrão populacional: {}'.format(std_amostral,std_populacional))

In [None]:
# std do dataframe
df.std()
# df.apply(np.std, axis=0)

<div id="se"></div>   

### 2.3 Erro Padrão

In [None]:
from IPython.display import Image
Image(filename='Formulas/erro_padrao.png', width=100 , height=100)

In [None]:
def se(x):
    e=np.std(x,ddof=1)/sqrt(np.size(x))
    return e

In [None]:
se(lista)

In [None]:
df.apply(se, axis=0)

<div id="cv"></div>   

### 2.4 Coeficiente de variação

In [None]:
from IPython.display import Image
Image(filename='Formulas/cv.JPG', width=150 , height=100)

In [None]:
# Função anônima
cv=lambda x: np.std(x, ddof=1)/np.mean(x)*100
cv(lista)

In [None]:
df.apply(cv, axis=0)

In [None]:
np.random.seed(111)

l1=np.random.randint(1,10,10)
l2=np.random.randint(100,110,10)
std1, std2 = np.std(l1), np.std(l2)
print('Quem varia mais?')
print('Desvio padrão l1:{:.2f} \nDesvio padrão l2:{:.2f}'.format(std1,std2))

In [None]:
print('Desvio padrão l1:{:.2f} {:.2f}% \nDesvio padrão l2:{:.2f} {:.2f}%'.format(round(std1,2), cv(l1),round(std2,2), cv(l2)))

## Exercício 

As idades dos funcionários em um departamento estão listadas a seguir:  
`[34,27,50,45,41,37,24,57,40,38,62,44,39,40,36,32,25,22,42,31,55,46]`  
Calcule a média, desvio padrão amostral, erro padrão, mediana, e os quantis(0.25,0.5,0.75).  
Represente os devidos resultados da seguinte maneira "medida de tendência central $\pm$ medida de disperção"  







In [None]:
print("\u00B1")

In [None]:
#Importando Excel
file='dados/IDH.xlsx'
df_idh=pd.read_excel(file, sheet_name="Base")

print(df_idh.shape)
df_idh.head()

<div id="visualização"></div>   

# [<font color='#004772'>3 Visualização  de gráficos estatísticos com seaborns](#sumario) <font/>

Na estatística é comun visualizar os dados graficamente

In [None]:
# Carregando um dos datasets que vem com o Seaborn
df_tips = sns.load_dataset("tips")
df_tips.head()

In [None]:
from IPython.display import Image
Image(filename='Formulas/tipo_dados.jpg', width=800 , height=720)

In [None]:
print(df_tips.dtypes)
df_tips.head()

<div id='barra'><div/>

## 3.1 Grafico de barras

In [None]:
#Temas
print(plt.style.available)

Paleta de cores
https://matplotlib.org/3.1.1/gallery/color/colormap_reference.html

In [None]:
plt.style.use('seaborn')

plt.figure(figsize=(8,4))
# fig=sns.barplot(x='day',y='total_bill', data=df_tips, ci='sd')
fig=sns.barplot(x='day',y='total_bill', data=df_tips, ci='sd', errwidth=1.2, edgecolor="black", capsize=0.1)

In [None]:
plt.figure(figsize=(8,4))

fig=sns.barplot(x='day',y='total_bill', hue='time' ,data=df_tips, ci=95,errwidth=1.2)

In [None]:
sns.barplot(x='day',y='total_bill', data=df_tips, hue='sex', errwidth=1.2, edgecolor="black", capsize=0.1)

In [None]:
df_count=df_tips['sex'].value_counts()
df_count

In [None]:
sns.barplot(x=df_count.index,y=df_count)
# sns.countplot(x='sex', data=df_tips)

[catplot()](https://seaborn.pydata.org/tutorial/categorical.html)

In [None]:
sns.catplot(x="sex", kind="count", data=df_tips)

In [None]:
sns.catplot(x="sex", kind="count", hue='time' , palette='Set1' ,data=df_tips)

In [None]:
sns.catplot(x="sex", kind="count", hue='time', col='day', col_wrap=2, palette='Set1' ,data=df_tips)

In [None]:
sns.catplot(x="day", y='total_bill', kind="bar", hue='smoker',col='sex', col_wrap=2, palette='Set1', data=df_tips, errwidth=1.2, edgecolor="black", capsize=0.1) 

In [None]:
g=sns.catplot(x="day", y='total_bill', kind="bar", col='sex', row='smoker', data=df_tips, palette='winter', errwidth=1.2, edgecolor="black", capsize=0.1) 
g.set_axis_labels(x='dia', y='conta')

<div id='linha'><div>

## 3.2 Grafico de Linhas

[lineplot()](https://seaborn.pydata.org/generated/seaborn.lineplot.html)

In [None]:
df_flights = sns.load_dataset("flights")
df_flights.head()

In [None]:
df_flights_may = df_flights.query("month == 'May'")
g=sns.lineplot(data=df_flights_may, x="year", y="passengers")

In [None]:
sns.lineplot(data=df_flights, x="year", y="passengers")

In [None]:
sns.lineplot(data=df_flights, x="year", y="passengers", hue="month")

In [None]:
sns.lineplot(data=df_flights, x="year", y="passengers", hue="month", style="month")

[relplot()](https://seaborn.pydata.org/generated/seaborn.relplot.html#seaborn.relplot)

In [None]:
sns.relplot(x='year',y='passengers', kind='line' ,data=df_flights)

In [None]:
sns.relplot(x='year',y='passengers', kind='line', col='month', col_wrap=3 ,data=df_flights)

<div id='histograma'><div/>

## 3.3 Histograma


In [None]:
# Carregando um dos datasets que vem com o Seaborn
df_tips = sns.load_dataset("tips")
df_tips.head()

[histplot()](https://seaborn.pydata.org/generated/seaborn.histplot.html)

In [None]:
g=sns.histplot(x='total_bill',data=df_tips)
# g.figure.savefig('hist.png', dpi=300)

### 3.3.1 Distribuição de frequência

Mostra o número de observações que estão em um intervalo específico 

In [None]:
from IPython.display import Image
Image(filename='Formulas/distribuicao_freq.jpg', width=720 , height=720)

In [None]:
np.random.seed(3)
lista=np.random.randint(3,10,15)
lista

In [None]:
# pd series 
df_freq=pd.Series(lista).value_counts().reset_index().sort_values('index').reset_index(drop=True)
df_freq.columns=['classe','Freq.']
df_freq

In [None]:
# pd series, alterar número de classes
df_freq=pd.Series(lista).value_counts(bins=3).reset_index().sort_values('index').reset_index(drop=True)
df_freq.columns=['classe','Freq.']
df_freq

In [None]:
# pd.cut() Use cut when you need to segment and sort data values into bins
df_freq=pd.DataFrame(dict(valor=lista))
df_freq['classe']=pd.cut(lista, bins=4)
df_freq.groupby('classe').size().to_frame(name='valor').reset_index()

In [None]:
# pd.cut() Use cut when you need to segment and sort data values into bins
df_freq=pd.DataFrame(dict(valor=lista))
df_freq['classe']=pd.cut(lista, bins=3,labels=['baixo','regular','alto'])
df_freq=df_freq.groupby('classe').size().to_frame(name='Freq.').reset_index()
df_freq['freq_rela']=(df_freq['Freq.']/df_freq['Freq.'].sum())*100
df_freq.round(2)

In [None]:
# número de barras
g=sns.histplot(x='total_bill',bins=30, data=df_tips)

[Número de classes ideal](https://numpy.org/doc/stable/reference/generated/numpy.histogram_bin_edges.html#numpy.histogram_bin_edges)

In [None]:
# número de barras por estimador
g=sns.histplot(x='total_bill',bins='auto', data=df_tips)

In [None]:
# largura - binwidth
g=sns.histplot(x='total_bill',binwidth=3, data=df_tips)

In [None]:
# kernel density estimate 
g=sns.histplot(x='total_bill',kde=True , data=df_tips)

In [None]:
# relativo
g=sns.histplot(x='total_bill',stat="probability",  data=df_tips)

In [None]:
# desenha multiplos histogramas
g=sns.histplot(x='total_bill',hue='sex', data=df_tips)

[displot()](https://seaborn.pydata.org/generated/seaborn.displot.html#seaborn.displot)

In [None]:
g=sns.displot(x='total_bill', data=df_tips)

In [None]:
g=sns.displot(x='total_bill', hue='smoker', col='sex' ,data=df_tips)

In [None]:
g=sns.displot(x='total_bill', hue='smoker', col='sex' ,data=df_tips, fill=False)

In [None]:
g=sns.displot(x='total_bill', hue='day', col='sex', kind='kde' ,data=df_tips)

<div id='boxplot'><div/>

## 3.2 Boxplot

In [None]:
from IPython.display import Image
Image(filename='Formulas/boxplot.png', width=720 , height=720)

In [None]:
# Carregando um dos datasets que vem com o Seaborn
df_tips = sns.load_dataset("tips")

In [None]:
g=sns.boxplot(x='total_bill', data=df_tips)

In [None]:
g=sns.boxplot(x='sex',y='total_bill', data=df_tips)

In [None]:
def norm(x):
    z=(x-np.mean(x))/np.std(x,ddof=1)
    return z
df_tips['total_bill_z']=norm(df_tips['total_bill'])

In [None]:
fig, ax = plt.subplots(1,2, figsize=(12,5))
sns.boxplot(x='sex',y='total_bill', data=df_tips, ax=ax[0])
sns.boxplot(x='sex',y='total_bill_z', data=df_tips, ax=ax[1])
ax[0].set_title('Não padronizado')
ax[1].set_title('Padronizado Z-Score')

In [None]:
g=sns.boxplot(x='sex',y='total_bill_z', hue='smoker', data=df_tips)

In [None]:
ax=sns.boxplot(x="day", y="total_bill", data=df_tips, fliersize=0)
ax=sns.swarmplot(x="day", y="total_bill", data=df_tips, color=".25", alpha=0.6)

[catplo()](https://seaborn.pydata.org/generated/seaborn.catplot.html#seaborn.catplot)

In [None]:
sns.catplot(x='sex',y='total_bill', data=df_tips, kind='box')

In [None]:
sns.catplot(x='sex',y='total_bill', data=df_tips, kind='box', col='day', col_wrap=2, palette='Dark2',aspect=1, height=3)

In [None]:
sns.catplot(x='sex',y='total_bill', data=df_tips, kind='box', hue='smoker' , col='day',palette='Dark2', col_wrap=2, aspect=1, height=3)

<div id='dispersão'><id/>

## Diagrama de dispersão
    Mostra a relação entre duas variáveis 

In [None]:
df_tips=sns.load_dataset('tips')
df_tips.head(3)

[scatterplot()](https://seaborn.pydata.org/generated/seaborn.scatterplot.html)

In [None]:
sns.scatterplot(x='total_bill',y='tip', data=df_tips)

In [None]:
sns.scatterplot(x='total_bill',y='tip', hue='sex', alpha=0.8 ,data=df_tips)

In [None]:
sns.scatterplot(x='total_bill',y='tip', hue='sex', style='time' ,alpha=0.9,data=df_tips)

In [None]:
sns.scatterplot(x='total_bill',y='tip', hue='size' ,alpha=0.9,data=df_tips)

In [None]:
sns.scatterplot(x="total_bill", y="tip", hue="size", size="size", data=df_tips)

In [None]:
markers = {"Male": "s", "Female": "X"}
sns.scatterplot(x="total_bill", y="tip", hue="time", size="size", style='sex', palette='Set1', sizes=(10, 150),  markers=markers, data=df_tips)

[relplot()](https://seaborn.pydata.org/generated/seaborn.relplot.html#seaborn.relplot)

In [None]:
sns.relplot(x="total_bill", y="tip", hue="day", data=df_tips)

In [None]:
sns.relplot(x="total_bill", y="tip", hue="sex", col='day', col_wrap=2, height=4,data=df_tips)

[pairplot()](https://seaborn.pydata.org/generated/seaborn.pairplot.html#seaborn.pairplot)

In [None]:
df_iris = sns.load_dataset("iris")
df_iris.head(3)

In [None]:
sns.pairplot(df_iris)

In [None]:
sns.pairplot(data=df_iris, hue='species')

In [None]:
sns.pairplot(df_iris, hue='species',diag_kind="hist", corner=True)

In [None]:
#Importando Excel
file='dados/IDH.xlsx'
df_idh=pd.read_excel(file, sheet_name="Base")
replace={'Outros':'Out', 'C.Vicioso':'Cvic', 'T.Desenvolvimento':'TD', 'T.Crescimento':'TC','C.Virtuoso':'Cvir'}
df_idh.ND.replace(replace, inplace=True)

print(df_idh.shape)
df_idh.head()

In [None]:
df_idh_empilhado=df_idh.melt(['Espacialidades','ND']).copy()
df_idh_empilhado['value']=df_idh_empilhado['value'].round(2)
df_idh_empilhado

In [None]:
g=sns.FacetGrid(df_idh_empilhado, col = "variable",col_wrap=4, sharex=False,sharey=False)
g.map(sns.histplot, "value", color = "steelblue" );

In [None]:
sns.catplot(x='ND',y='value', data=df_idh_empilhado, col='variable',col_wrap=4, kind='box', sharey=False, height=2.5, aspect=1.5 ,color='steelblue',linewidth=1.2, fliersize=2)

## Referências

LARSON, R.; FARBER, B. ESTATÍSTICA APLICADA–4ª. 2010.

BRUCE, Peter; BRUCE, Andrew; GEDECK, Peter. Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python. O'Reilly Media, 2020.

https://pandas.pydata.org/pandas-docs/stable/index.html

https://seaborn.pydata.org/index.html
