<a href="https://colab.research.google.com/github/brenosyperrek/ufsc_dc_exercicios/blob/main/Sumariza%C3%A7%C3%A3o_Estat%C3%ADstica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sumarização Estatística

Alguns exemplos e demonstrações de operações envolvendo estatísticas sumarizadas.



## Lendo o Dataset
Execução do dataset usado para os exemplos, que contém o preço e diversas informações de diversos diamantes

In [None]:
import pandas as pd

diamantes = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/diamonds.csv')
diamantes.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


## Operações de Sumarização Estatística

Abaixo veremos as principais operações de sumarização estatística, aplicando-as em alguns dos atributos do dataset acima. 

Primeiramente, podemos obter diversos valores de operações gerais com o comando `describe()`, aplicado no atributo que representa o comprimento de cada diamante:

In [None]:
diamantes['x'].describe()

count    53940.000000
mean         5.731157
std          1.121761
min          0.000000
25%          4.710000
50%          5.700000
75%          6.540000
max         10.740000
Name: x, dtype: float64

### Média

Média de peso (representado por `carat` no dataset) dos diamantes:

In [None]:
diamantes['carat'].mean()

0.7979397478680014

### Mediana

Mediana do preço dos diamantes:

In [None]:
diamantes['price'].median()

2401.0

### Moda

Moda do preço dos diamantes:

In [None]:
diamantes['price'].mode()

0    605
dtype: int64

### Desvio Padrão

Desvio padrão do preço dos diamantes:

In [None]:
diamantes['price'].std()

3989.439738146379

### Variância

Variância da largura dos diamantes (`y`):

In [None]:
diamantes['y'].var()

1.3044716138353198

### Desvio Absoluto

Valores de desvio absoluto do dataset:

In [None]:
diamantes.mad()

carat       0.384648
depth       1.027859
table       1.771118
price    3031.603221
x           0.953583
y           0.948554
z           0.591712
dtype: float64

### Mínimo e Máximo

Valor mínimo de peso entre os diamantes:

In [None]:
diamantes['carat'].min()

0.2

Valor máximo de comprimento entre os diamantes:

In [None]:
diamantes['x'].max()

10.74

Também podemos achar o índice da primeira ocorrência dos valores máximos e mínimos com `idxmin()` e `idxmax()`:

In [None]:
diamantes['carat'].idxmin()

14

In [None]:
diamantes['x'].idxmax()

27415

### Quantis / Percentis

Percentil 85 da coluna de peso:

In [None]:
diamantes['carat'].quantile(0.85)

1.24

Também podemos obter esse resultado através do comando `percentile()` da biblioteca Numpy:

In [None]:
import numpy as np

np.percentile(diamantes['carat'], 85)

1.24

*Obs: Caso existam NaN's na coluna analisada, essa função pode retornar um valor incorreto ou até mesmo um próprio NaN. Para esses casos, a função `nanpercentile()` é interessante.*

### Distorção

In [None]:
diamantes.skew(axis=0)

  """Entry point for launching an IPython kernel.


carat    1.116646
depth   -0.082294
table    0.796896
price    1.618395
x        0.378676
y        2.434167
z        1.522423
dtype: float64

### Curtose

In [None]:
diamantes.kurt(axis=0)

  """Entry point for launching an IPython kernel.


carat     1.256635
depth     5.739415
table     2.801857
price     2.177696
x        -0.618161
y        91.214557
z        47.086619
dtype: float64

*Obs: Tanto para a distorção quanto a curtose, podemos aplicar essas operações no eixo das colunas mudando o valor de axis para 1.*

### Correlação

Correlação das colunas do dataset de diamantes:

In [None]:
diamantes.corr()

Unnamed: 0,carat,depth,table,price,x,y,z
carat,1.0,0.028224,0.181618,0.921591,0.975094,0.951722,0.953387
depth,0.028224,1.0,-0.295779,-0.010647,-0.025289,-0.029341,0.094924
table,0.181618,-0.295779,1.0,0.127134,0.195344,0.18376,0.150929
price,0.921591,-0.010647,0.127134,1.0,0.884435,0.865421,0.861249
x,0.975094,-0.025289,0.195344,0.884435,1.0,0.974701,0.970772
y,0.951722,-0.029341,0.18376,0.865421,0.974701,1.0,0.952006
z,0.953387,0.094924,0.150929,0.861249,0.970772,0.952006,1.0


Podemos também mudar o método que as correlações são calculadas. Quando não informamos o padrão (como no exemplo acima) o padrão de Pearson é utilizado. Os métodos disponíveis podem ser checados na [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html)

Exemplo de correlação com o método de Spearman:

In [None]:
diamantes.corr(method='spearman')

Unnamed: 0,carat,depth,table,price,x,y,z
carat,1.0,0.030104,0.19498,0.962883,0.996117,0.995572,0.993183
depth,0.030104,1.0,-0.245061,0.01002,-0.023442,-0.025425,0.103498
table,0.19498,-0.245061,1.0,0.171784,0.202231,0.195734,0.159878
price,0.962883,0.01002,0.171784,1.0,0.963196,0.962719,0.957232
x,0.996117,-0.023442,0.202231,0.963196,1.0,0.997895,0.987355
y,0.995572,-0.025425,0.195734,0.962719,0.997895,1.0,0.987068
z,0.993183,0.103498,0.159878,0.957232,0.987355,0.987068,1.0


## Exercícios

Resolva os exercícios abaixo utilizando o dataset de diamantes.

1. Crie uma coluna com o volume de cada diamante (`x*y*z`) e descubra a média e mediana dessa nova coluna

2. Descubra qual a coloração de diamante (identificadas pela coluna `color`) tem a maior média de preço

3. A partir da nova coluna de volumes criada acima, descubra o 85º percentil e também as 3 maiores medianas de volume dentre os tipos de claridade (coluna `clarity`)

4. Descubra as correlações do dataset de diamantes através do método de Pearson. A partir desses resultados, descubra o desvio padrão das correlações do atributo `carat`(peso) e a variância das correlações do atributo `price`

# Referências

Links interessantes para o entendimento de sumarização estatística e que ajudaram no desenvolvimento desse material:

https://towardsdatascience.com/mastering-summary-statistics-with-pandas-d515e17756be

https://towardsdatascience.com/how-to-explain-data-using-gaussian-distribution-and-summary-statistics-with-python-cb960f213ab3

https://medium.com/@atanudan/kurtosis-skew-function-in-pandas-aa63d72e20de

https://www.w3resource.com/python-exercises/pandas/practice-set1/pandas-practice-set1-exercise-36.php

https://www.machinelearningplus.com/python/101-pandas-exercises-python/

https://www.w3resource.com/python-exercises/pandas/practice-set1/index.php

https://github.com/franciscoicmc/ciencia-de-dados/blob/master/Aula2-Analise-Exploratoria-dados.ipynb