<a href="https://colab.research.google.com/github/pmaders/DataScienceQoda/blob/master/estatistica_descritiva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Organização dos Dados

In [0]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/diamonds.csv')
df.head()

In [0]:
# Histogramas
"""
Um histograma visualiza a distribuição dos dados por um intervalo contínuo ou por um determinado período de tempo.
Cada barra em um histograma representa a frequência tabulada em cada intervalo / compartimento.
Os histogramas ajudam a dar uma estimativa de onde os valores estão concentrados, quais são os extremos e se existem lacunas ou valores incomuns. 
Eles também são úteis para fornecer uma visão aproximada da distribuição de probabilidade.
"""

import matplotlib.pyplot as plt

x1 = df.loc[df.cut=='Ideal', 'depth']
x2 = df.loc[df.cut=='Fair', 'depth']
x3 = df.loc[df.cut=='Good', 'depth']

kwargs = dict(alpha=0.5, bins=100)

plt.hist(x1, **kwargs, color='g', label='Ideal')
plt.hist(x2, **kwargs, color='b', label='Fair')
plt.hist(x3, **kwargs, color='r', label='Good')
plt.gca().set(title='Frequency Histogram of Diamond Depths', ylabel='Frequency')
plt.xlim(50,75)
plt.legend();

In [0]:
# Gráfico de Barras/Colunas
"""
O gráfico de barras clássico usa barras horizontais ou verticais (gráfico de colunas) para mostrar comparações numéricas 
e discretas entre categorias. Um eixo do gráfico mostra as categorias específicas sendo comparadas e o outro eixo representa
uma escala de valores discretos. Os gráficos de barras são distintos dos histogramas , pois não exibem desenvolvimentos 
contínuos por um intervalo. Os dados discretos do Bar Chart são dados categóricos e, portanto, respondem à pergunta "quantos?" 
em cada categoria. Uma falha importante nos gráficos de barras é que a rotulagem se torna problemática quando há um grande número de barras.
"""
plt.bar(df['cut'],df['depth'])

In [0]:
# Gráfico de Linhas
"""
Os gráficos de linhas são usados ​​para exibir valores quantitativos durante um intervalo ou período contínuo. 
Um gráfico de linhas é usado com mais frequência para mostrar tendências e analisar como os dados foram alterados ao longo do tempo.
"""
x = ["jan","fev","mar"]
y = [40,50,60]
plt.plot(x,y)
plt.show()

#Medidas de Posição

In [0]:
# MÉDIA é o ponto de equilíbrio de dados no conjunto
import numpy as np
x = (19,22,23,23,26,26,27,27,27,30,31,32,32,33,34,34,38,38,40,41,42,44,45,45,46)
np.mean(x)

In [0]:
# MEDIANA divide conjunto ordenado em 2 partes iguais, mostrando o valor central
import numpy as np
x = (19,22,23,23,26,26,27,27,27,30,31,32,32,33,34,34,38,38,40,41,42,44,45,45,46)
np.median(x)

In [0]:
# MODA é o valor que mais se repete no conjunto
from scipy import stats
x = (19,22,23,23,26,26,27,27,27,30,31,32,32,33,34,34,38,38,40,41,42,44,45,45,46)
stats.mode(x)

#Separatrizes(ordenamento)

In [0]:
# QUARTIL
import numpy as np
x = (19,22,23,23,26,26,27,27,27,30,31,32,32,33,34,34,38,38,40,41,42,44,45,45,46)
np.quantile(x, 0.25)

In [0]:
# PERCENTIL
import numpy as np
x = (19,22,23,23,26,26,27,27,27,30,31,32,32,33,34,34,38,38,40,41,42,44,45,45,46)
np.percentile(x, 50) # P50 = Mediana, assim como 5º decil

#Medidas de Variação/Dispersão

In [0]:
# AMPLITUDE
import numpy as np
x = (19,22,23,23,26,26,27,27,27,30,31,32,32,33,34,34,38,38,40,41,42,44,45,45,46)
amp = np.amax(x) - np.min(x)
amp


In [0]:
# VARIÂNCIA
import statistics 
x = (19,22,23,23,26,26,27,27,27,30,31,32,32,33,34,34,38,38,40,41,42,44,45,45,46)
statistics.variance(x)

In [0]:
# DESVIO PADRÃO
import numpy as np
x = (19,22,23,23,26,26,27,27,27,30,31,32,32,33,34,34,38,38,40,41,42,44,45,45,46)
np.std(x)

In [0]:
# SCORE Z
from scipy import stats
x = (-225,19,22,23,23,26,26,27,27,27,30,31,32,32,33,34,34,38,38,40,41,42,44,45,45,46)
zscore = stats.zscore(x)
zscore

In [0]:
# OUTLIERS
"""Valores iguais ou menores que -3 são OUTLIERS."""
for i in zscore:
  if i <= -3:
    print(f"Outlier detectado: {i}")
  else:
    pass

In [0]:
# MEDIDAS: CENTRO, DISPERSÃO/VARIABILIDADE E FORMA/DISTRIBUIÇÃO
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/diamonds.csv')
df.describe()

#Correlação

---
Uma correlação é uma relação entre duas variáveis. Os dados podem ser
representados por pares ordenados (x, y), sendo x a variável independente
(ou explanatória) e y a variável dependente (ou resposta).


In [0]:
# CORRELAÇÃO
"""
0.9 a 1 correlação muito forte;
0.7 a 0.9 correlação forte;
0.5 a 0.7 correlação moderada;
0.3 a 0.5 correlação fraca;
0 a 0.3 correlação muito fraca;
"""
df.corr()

In [0]:
# P-VALUE (Correlação de Pearson)
from scipy import stats 
stats.pearsonr(df['x'], df['carat'])

In [0]:
# CO-VARIÂNCIA
"""
Covariância, ou variância conjunta, é uma medida do grau de interdependência numérica entre duas variáveis quantitativas/aleatórias.
Assim, variáveis independentes têm covariância zero.
"""
df.cov()