# Medidas de Posição e Tendência Central

Importando as bibliotecas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from cycler import cycler

In [None]:
from scipy.stats.mstats import gmean,hmean
from scipy import stats

**Média Aritmética (MA) - É a soma de todos os elementos do conjunto, divididos pelo número de elementos que compõe o conjunto.**

![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/c938ca170f8c4a5d2dddecabc5ae1d5eb5f35a2b)

In [None]:
dados = [1,2,5,3,4]

In [None]:
np.mean(dados)

**Média Geométrica (MG) - É a raíz n-ésima do produto de todos os elementos que compõe o conjunto.**

![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/82fb3d898a5de7ae016b07855c335ce570350410)

In [None]:
gmean(dados)

**Média Harmônica (MH) - É o número de elementos, divididos pela soma dos inversos dos elementos que compõem o conjunto.**

![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/5335415727099e38ba27a1775613020dc4b584de)

In [None]:
hmean(dados)

## Quando usar cada uma das médias?

### Funções para plotar gráficos

In [None]:
def plot_lines(dados, valor_central):
  if valor_central in dados:
    posicao_central = dados.index(valor_central)+1
  else:
    dados.append(valor_central)
    dados.sort()
    posicao_central = dados.index(valor_central)+1
  
  posicoes = np.arange(1,len(dados)+1,1)
  plt.figure(figsize=(8,6))
  plt.plot(posicoes,dados,'o-', color='red',ms=15)
  plt.plot(posicao_central, valor_central, 'o-',color='blue',ms=15)
  plt.show()

In [None]:
def plot_line_means(dados, mean, gmean,hmean):
  posicoes_centrais=[]
  y=[]
  x = dados
  
  for m in [mean,gmean,hmean]:
    x.append(m)
  
  x.sort()
  for m in [mean,gmean,hmean]:
    if m in x:
      posicoes_centrais.append(x.index(m)+1)
  
  print("Dados: {}".format(x))
  print("Media aritmética: {}, Média Geométrica: {}, Média Harmonica: {}".format(mean,gmean,hmean))
  
  y = np.arange(1,len(x)+1,1)
  
  plt.figure(figsize=(8,6))
  plt.rc('axes', prop_cycle=(cycler('color', ['r', 'g', 'b'])))
  plt.plot(y,x,'o-', color='black',ms=15)
  medias = ['MA','MG','MH'] 
  i=0
  for posicao_central,valor_central in zip(posicoes_centrais,[mean,gmean,hmean]):
    plt.plot(posicao_central, valor_central, 'o-',ms=15)
    plt.text(x=posicao_central+0.2, y=valor_central+0.2, s=medias[i], alpha=0.7, color='#334f8d')
    i+=1

  plt.show()

In [None]:
def plot_lines_horizontal(dados,valor_central):
  plt.figure(figsize=(10,6))
  y = 0
  plt.hlines(y, min(dados), max(dados))
  for n in dados:
    if n == valor_central:
      plt.plot(n,y, 'o', ms = 15, color='blue')
      continue  
    plt.plot(n,y, 'o', ms = 15, color = 'red')

### Considere os cenários

Exemplo de dados gerados a partir de uma **operação de adição**, a soma do valor 3 em cada elemento do vetor (relacionamento linear)

In [None]:
dados_linear = [1, 4, 7, 10, 13, 16, 19]

Calculando a média aritmética

In [None]:
media = int(np.mean(dados_linear))

In [None]:
print("Valor da média aritmética dos dados: {}".format(media))

Plotando os dados e seu valor central

In [None]:
plot_lines(dados_linear,media)

In [None]:
plot_lines_horizontal(dados_linear,media)

Exemplo de dados gerados a partir de uma **operação de multiplicação**, a multiplicação de cada elemento pelo valor de 3 (relacionamento exponencial)

In [None]:
dados_exponencial = [1, 3, 9, 27, 81, 243, 729]

Calculando a média aritmética.

(1 + 3 + 9 + 27 + 81 + 243 + 729) ÷ 7 = **156.1**

In [None]:
media = int(np.mean(dados_exponencial))

In [None]:
print("Valor da média aritmética dos dados: {}".format(media))

Plotando os dados e seu valor central.

In [None]:
plot_lines(dados_exponencial,media)

In [None]:
plot_lines_horizontal(dados_exponencial,media)

Considerando agora a aplicação da média geométrica.

Especificando os mesmos dados com um relacionando exponencial.

In [None]:
dados_exponencial = [1, 3, 9, 27, 81, 243, 729]

Calculando a média geométrica.

(1 * 3 * 9 * 27 * 81 * 243 * 729) = 10,460,353,203

Raiz sétima (7) de **10,460,353,203** = 27

In [None]:
media_geo = int(gmean(dados_exponencial))

In [None]:
print("Valor da média geométrica dos dados: {}".format(media_geo))

Plotando os dados e seu valor central.

In [None]:
plot_lines(dados_exponencial,media_geo)

In [None]:
plot_lines_horizontal(dados_exponencial,media_geo)

### Considerações importantes

*   A **média aritmética** produz um resultado interessante quando temos um **relacionamento aditivo** entre os números da amostra.
*   Este relacionamento é chamado linear pois, ao exibir graficamente os valores tendem a seguir uma linha ascendente ou descendente.
*   Já a **média geométrica** é mais apropriada quando temos uma amostra com um **relacionamento multiplicativo** ou exponencial.


*   A diferença entre as médias é que enquanto a média aritmética faz a **soma** de todos os elementos e depois a **divisão**, a média geométrica atua com a **multiplicação** entre os elementos e depois reescala através da **raiz** os valores para a mesma unidade da amostra.








# Comparando as médidas em um cenário real.
### Verificando os valores de avaliações de dois cafés.
### Hard Rock Café Gramado vs Hard Rock Café Curitiba.

![alt text](https://media-cdn.tripadvisor.com/media/photo-s/13/df/fc/f0/fachada-hard-rock-cafe.jpg)
![alt text](https://media-cdn.tripadvisor.com/media/photo-s/1a/2e/c8/db/hard-rock-cafe-curitiba.jpg)

**Hard Rock Café Gramado**
*   Avaliações no TripAdvisor: 3,5
*   Índice de Satisfação dos Clientes: 89%

**Hard Rock Café Curitiba**
*   Avaliaçõs no TripAdvisor: 4,5
*   Índice de Satisfação dos Clientes: 75%


Aplicação de verificar o estabelecimento com a melhor avaliação em diferentes escalas.

Calculando a média aritmética

In [None]:
aval_gramado,aval_curitiba = 3.5, 4.5
indice_gramado,indice_curitiba = 89, 75

In [None]:
print("Média para Gramado: {}".format(np.mean([aval_gramado,indice_gramado])))
print("Média para Curitiba: {}".format(np.mean([aval_curitiba,indice_curitiba])))

Considerando a média aritmética o Hard Rock Café de Gramado é o estabelecimento melhor avaliado.

Agora vamos considerar a possibilidade de fazer uma reescala dos dados de avaliação do trip advisor.

In [None]:
print("Valores reescalados: {},{}".format(aval_gramado*20,aval_curitiba*20))

Calculando a média aritmética

In [None]:
print("Média para Gramado: {}".format(np.mean([aval_gramado*20,indice_gramado])))
print("Média para Curitiba: {}".format(np.mean([aval_curitiba*20,indice_curitiba])))

Considerando o mesmo cenário agora utilizando a média geométrica.

In [None]:
print("Média Geométrica para Gramado: {}".format(gmean([aval_gramado,indice_gramado])))
print("Média Geométrica para Curitiba: {}".format(gmean([aval_curitiba,indice_curitiba])))

### Considerações
*   Os valores alterados para a mesma escala nos deram **resultados diferentes** mais próximos da realidade.
*   Utilizando a média geométrica já nos entrega o resultado "correto" pois considera o **relacionamento multiplicativo** entre os dados da amostra.
*   É importante notar que aplicando a média geométrica para os dados em **diferentes escalas** o retorno não está na mesma unidade da amostra.




## Média harmônica.

![alt text](https://images.unsplash.com/photo-1469854523086-cc02fe5d8800?ixlib=rb-1.2.1&ixid=eyJhcHBfaWQiOjEyMDd9&auto=format&fit=crop&w=500&q=60)


Percurso Total da Viagem 10km
*   CAMINHO DE IDA = 30km/h
*   CAMINHO DE VOLTA = 10km/h




**Qual a velocidade média da viagem?**

Usando a média aritmética

In [None]:
np.mean([30,10])

**VIAGEM DE IDA - 5km à 30km/h**
*   30 km por 60 minutos = 1 km a cada 2 minutos = 1/2 km por minuto.
*   5km a 1/2 km por minuto = 10 minutos.


**VIAGEM DE VOLTA - 5km à 10km/h**
*   10 km por 60 minutos = 1 km a cada 6 minutos = 1/6 km por minuto.
*   5 km a 1/6 km por minuto = 30 minutos.

Tempo total da viagem = 40 minutos

Proporção da viagem de ida em relação ao tempo total da viagem.

In [None]:
print("Proporção de tempo da viagem de ida em relação ao tempo total da viagem: {}%".format((10/40)*100))

In [None]:
print("Proporção de tempo da viagem de volta em relação ao tempo total da viagem: {}%".format((30/40)*100))

Calculando a Média Aritmética Ponderada.

In [None]:
np.average([30,10], weights=[.25,.75])

In [None]:
hmean([30,10])

### As médias seguem um relacionamento ordinal: **média harmônica < média geométrica < média aritmética**.

Considerando os dados com o relacionamento aditivo.

In [None]:
dados = [1, 4, 7, 10, 13, 16, 19]

In [None]:
media_aritmetica,media_geometrica,media_harmonica = round(np.mean(dados),2),round(gmean(dados),2),round(hmean(dados),2)

In [None]:
media_aritmetica,media_geometrica,media_harmonica

Visualizando graficamente.

In [None]:
plot_line_means(dados,media_aritmetica,media_geometrica,media_harmonica)

Considerando os dados com o relacionamento multiplicativo.

In [None]:
dados = [1, 3, 9, 27, 81, 243, 729]

In [None]:
media_aritmetica,media_geometrica,media_harmonica = round(np.mean(dados),2),round(gmean(dados),2),round(hmean(dados),2)

In [None]:
media_aritmetica,media_geometrica,media_harmonica

Visualizando graficamente.

In [None]:
plot_line_means(dados,media_aritmetica,media_geometrica,media_harmonica)

**Moda - Valores mais frequentes da distribuição**

In [None]:
dados=[4,5,4,6,5,8,4]

In [None]:
stats.mode(dados)

In [None]:
dados_bimodal=[4,5,4,6,5,8,4,4,5,5]

In [None]:
from collections import Counter

In [None]:
def calcula_moda(dados):
  number_counts = Counter(dados)
  print(number_counts)
  modes = [val for val,count in number_counts.items() if count == max(number_counts.values())]
  return modes

In [None]:
calcula_moda(dados_bimodal)

In [None]:
dados_amodal=[1,2,3,4,5]

In [None]:
calcula_moda(dados_amodal)

**Mediana - É o valor da variável que divide os dados ordenados em duas partes de igual frequência.**

In [None]:
dados_mediana7 = [7,1,5,2,3,1,6]

In [None]:
np.sort(dados_mediana7)

In [None]:
np.median(dados_mediana7)

In [None]:
dados_mediana8 = [1,2,1,1,4,5,3,6]

In [None]:
np.sort(dados_mediana8)

In [None]:
np.median(dados_mediana8)

# Medidas Separatrizes

In [None]:
notas = [13,25,69,72,33,41,28,17,65]

In [None]:
np.sort(notas)

**Q1 - Primeiro Quartil**

In [None]:
np.quantile(notas,.25)

**Q2 - Segundo Quartil**

In [None]:
np.quantile(notas,.50)

Comparando com o valor da Mediana

In [None]:
np.median(notas)

**Q3 - Terceiro Quartil**

In [None]:
np.quantile(notas,.75)

**P25 - Percentil 25 = Q1**

In [None]:
np.percentile(notas,25)

**P50 - Percentil 50 = Q2**


In [None]:
np.percentile(notas,50)

**P75 - Percentil 75 = Q3**

In [None]:
np.percentile(notas,75)

## Medidas de Variação e Dispersão

In [None]:
dados_dispersao = [10,20,30,40,50,60,70,80,90,100]

**Média**

In [None]:
np.mean(dados_dispersao)

**Variância**

![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/c2446a06b779245a22147449fc523f2b1b0013ef)

In [None]:
np.var(dados_dispersao)

**Desvio Padrão**

![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/cc45b72e1fd6a3de3ec4977f42367f104f57583f)

In [None]:
np.std(dados_dispersao)

**Coeficiente de Variação**

In [None]:
stats.variation(dados_dispersao)

Importante: Um coeficiente de variação **menor que 25%** é um bom indicativo de homogeneidade dos dados, ou seja, os dados não variam tanto a partir da média.

In [None]:
media=np.mean(dados_dispersao)
desvio_padrao = np.std(dados_dispersao)

In [None]:
desvio_padrao/media

# Exemplo usando o Pandas

Importando as bibliotecas.

In [None]:
import pandas as pd               
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

Carregando a base de dados.

In [None]:
#montando conexão com o Drive
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#copiar o diretório do arquivo CSV no seu Drive com o dataset a ser analisado
df = pd.read_csv("/content/drive/MyDrive/Ciencia-Dados/cars.csv")

Verificando os dados.

In [None]:
df.head(5)

Verificando as informações do conjunto de dados.

In [None]:
df.info()

Limpando os dados do atributo MSRP.

In [None]:
df['MSRP'] = [x.replace('$', '') for x in df['MSRP']] 
df['MSRP'] = [x.replace(',', '') for x in df['MSRP']]

Verificando os dados após limpeza.

In [None]:
df['MSRP'].head(5)

Verificando as informações do conjunto de dados.

In [None]:
df.info()

Transformando os dados para o formato numérico.

In [None]:
df['MSRP']=pd.to_numeric(df['MSRP'],errors='coerce')

In [None]:
df.info()

In [None]:
df.describe()

Calculando a média aritmética.

In [None]:
df["MSRP"].mean()

In [None]:
msrp = df["MSRP"]

In [None]:
msrp.mean()

Média geométrica

In [None]:
gmean(msrp)

Média Harmônica

In [None]:
hmean(msrp)

Mediana

In [None]:
msrp.median()

Moda

In [None]:
msrp.mode()

Variação

In [None]:
msrp.var()

Desvio padrão

In [None]:
msrp.std()

Valor máximo.

In [None]:
msrp.max()

Valor mínimo

In [None]:
msrp.min()

# Medidas de Assimetria
Nos possibilitam analisar uma distribuição em relação a sua moda, mediana e média.

In [None]:
import matplotlib.pyplot as plt
import math
import numpy as np
import seaborn as sns
import pandas as pd
from scipy.stats import kurtosis, skew
%matplotlib inline

Função para calcular estatísticas.

In [None]:
def calcula_estatisticas(data):
  mean = round(np.mean(data),2)
  mode = round(stats.mode(data,)[0][0],2)
  median = round(np.median(data),2)
  var = round(np.var(data),2)
  std = round(np.std(data),2)
  coef_pearson = round(stats.skew(data),2)
  coef_kurtosis = round(kurtosis(data),2)
  msg = print("Media: {}\nModa: {}\nMediana: {}\nVariância: {}\nDesvio Padrão: {}\nCoeficiente Person: {}\nCoeficiente de Kurtosi: {}".format(mean,median,mode,var,std,coef_pearson,coef_kurtosis))
  return msg

Considere a seguinte amostra.

In [None]:
s0 = [4,5,6,5,5,6,6,5,4,5,5,5]

In [None]:
calcula_estatisticas(s0)

Distribuição Simétrica - Média = Moda = Mediana.

In [None]:
fig = plt.figure(figsize=(12, 4))
ax = sns.distplot(s0,rug=True,kde=True,hist=False)

ax.annotate('Mode', xy=(5, 0.4), xytext=(4.7, 0.7),arrowprops={'arrowstyle': '-'})         
ax.annotate('Median', xy=(5, 0.4), xytext=(5.3, 0.7),arrowprops={'arrowstyle': '-'})
ax.annotate('Média', xy=(5, 0.4), xytext=(5.0, 1), arrowprops={'arrowstyle': '-'})
plt.show()

Coeficiente de Pearson - O valor é próximo de zero a distribuição é simétrica.

Coeficiente de Curtose - O valor é menor que 3 o grau de achatamento da distribuição normal é platicúrtica (mais achatada no platô)

Considere a segunda amostra.

In [None]:
s1 = [12,8.0, 4, 3, 2,1,1]

In [None]:
calcula_estatisticas(s1)

Asimétrica Positiva / à direita - Média > Moda > Mediana

In [None]:
fig = plt.figure(figsize=(12, 4))
ax = sns.distplot(s1,rug=True,kde=True,hist=False)

ax.annotate('Moda', xy=(1,0.01), xytext=(1, 0.02),arrowprops={'arrowstyle': '-'})         
ax.annotate('Mediana', xy=(3, 0.01), xytext=(3, 0.03),arrowprops={'arrowstyle': '-'})
ax.annotate('Média', xy=(4.4, 0.01), xytext=(4.5, 0.02),arrowprops={'arrowstyle': '-'})
plt.show()

Coeficiente de Pearson - O valor é próximo de 1 a distribuição é assimétrica positiva

Considere a terceira amostra

In [None]:
s2 = [-3,-1,4,2.5,4,3]

In [None]:
calcula_estatisticas(s2)

Asimétrica negativa / à esquerda - Média < Moda < Mediana

In [None]:
fig = plt.figure(figsize=(12, 4))
ax = sns.distplot(s2,rug=True,kde=True,hist=False)

ax.annotate('Moda', xy=(4,0.01), xytext=(5, 0.05),arrowprops={'arrowstyle': '-'})         
ax.annotate('Mediana', xy=(2.75, 0.01), xytext=(3, 0.03),arrowprops={'arrowstyle': '-'})
ax.annotate('Média', xy=(1.5, 0.01), xytext=(0.5, 0.05),arrowprops={'arrowstyle': '-'})
plt.show()

Coeficiente de Pearson - O valor é próximo de -1 a distribuição é assimétrica negativa.

### Gerando dados aleatórios

Amostra seguindo uma distribuição normal

In [None]:
sample_normal = np.random.normal(1,0.5,500)

In [None]:
sample_normal[:10]

In [None]:
calcula_estatisticas(sample_normal)

Visualizando a distribuição

In [None]:
fig = plt.figure(figsize=(12, 4))
sns.distplot(sample_normal)

Distribuição simétrica, com o coeficiente de pearson próximo a zero.

Considere o seguinte exemplo

In [None]:
exp = np.arange(2,len(sample_normal),2)

Verificando os expoentes

In [None]:
exp[:10]

Gerando uma distribuição assimétrica positiva

In [None]:
sample_assimetrica_positiva = []
for s,e in zip(sample_normal,exp):
    sample_assimetrica_positiva.append(s*e)

In [None]:
calcula_estatisticas(sample_assimetrica_positiva)

Visualizando a distribuição

In [None]:
sns.distplot(sample_assimetrica_positiva)

Gerando uma distribuição assimétrica negativa.

In [None]:
exp = (np.arange(2,len(sample_normal),2))*-1

Verificando os expoêntes

In [None]:
exp[:10]

In [None]:
sample_assimetrica_negativa = []
for s,e in zip(sample_normal,exp):
    sample_assimetrica_negativa.append(s*e)

In [None]:
calcula_estatisticas(sample_assimetrica_negativa)

Visualizando a distribuição

In [None]:
sns.distplot(sample_assimetrica_negativa)

Verificando graficamente as distribuições dos atributos do Dataframe

In [None]:
import matplotlib.pyplot as plt

fig, axes = plt.subplots(nrows=3, ncols=3,figsize=(16, 12))
for i, column in enumerate(df.select_dtypes(include=np.number).columns.tolist()):
    sns.distplot(df[column],ax=axes[i//3,i%3])

Verificando a distribuição de probabilidade e a diferença entre a média e a mediana.

In [None]:
for i, column in enumerate(df.select_dtypes(include=np.number).columns.tolist()):
    media = round(df[column].mean(),2)
    std = df[column].std()
    cvar = round(std/media*100,2)
    median = df[column].median()
    print("Atributo: {}, Coeficiente de Variação: {} %, Media: {}, Mediana: {}".format(column,cvar,media,median))

# <b>Exercício</b>

## Faça a avaliação de quatro datasets atualmente recuperados pela biblioteca sktlearn, como segue:

- Iris: https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-plants-dataset
- Diabetes: https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset
- Wine (Vinhos): https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset
- California Housing (imóveis na California): https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset

Observe como se comporta a distribuição dos dados em cada atributo e suas correspondentes estatíticas descritivas.

In [None]:
# sugestões de como recuperar os datasets através da biblioteca scikit-learn
# carregando dataset Iris
from sklearn.datasets import load_iris
dataIris = load_iris()

# carregando dataset Diabetes
from sklearn.datasets import load_diabetes
dataDiabetes = load_diabetes()

# carregando dataset Wine
from sklearn.datasets import load_wine
dataWine = load_wine()

# carregando dataset California Housing
from sklearn.datasets import fetch_california_housing
dataCalifornia = fetch_california_housing()