## **A tendência central é uma medida de valores numa amostra que identifica os diferentes pontos centrais nos dados**

![cropped-media-aritmetica-1-758x426.png](attachment:cropped-media-aritmetica-1-758x426.png)

### **As medidas mais comuns de tendência central são a média, a mediana e a moda.**

### **Vamos usar dados abertos do preço do Big Mac, desde 2000 a 2022, para diversos países. Os dados podem ser encontrados no Kaggle**

### **https://www.kaggle.com/datasets/vittoriogiatti/bigmacprice**


#### **Importando a biblioteca do pandas (https://pandas.pydata.org)**

In [1]:
import pandas as pd

### **Lendos os dados, que estão em csv**

In [2]:
df = pd.read_csv('BigmacPrice.csv')

In [3]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2000-04-01,ARS,Argentina,2.5,1,2.5
1,2000-04-01,AUD,Australia,2.59,1,2.59
2,2000-04-01,BRL,Brazil,2.95,1,2.95
3,2000-04-01,GBP,Britain,1.9,1,1.9
4,2000-04-01,CAD,Canada,2.85,1,2.85



#### **Descrição das colunas**

    • date - Data do registro

    • currency_code - Código ISO 4217 internacional do país

    • name - Nome do país

    • local_price - Preço do Big Mac na moeda local

    • dollar_ex - Taxa de Conversão do dólar amerciano para a moeda local

    • dollar_price - Preço do Big Mac em dólares americanos

#### Vamos olhar os tipos dos dados

In [4]:
df.dtypes

date              object
currency_code     object
name              object
local_price      float64
dollar_ex          int64
dollar_price     float64
dtype: object

#### **Vamos filtrar os dados somente do mês de julho de 2022**

In [5]:
df_filtered = df[df['date'] == '2022-07-01']

In [6]:
df_filtered.count()

date             70
currency_code    70
name             70
local_price      70
dollar_ex        70
dollar_price     70
dtype: int64

#### **Quantos países únicos nós temos ?**

In [7]:
df_filtered.groupby('name').count()['date']

name
Argentina               1
Australia               1
Austria                 1
Azerbaijan              1
Bahrain                 1
                       ..
United Arab Emirates    1
United States           1
Uruguay                 1
Venezuela               1
Vietnam                 1
Name: date, Length: 70, dtype: int64

### Temos 1 linha por país! Dessa forma, vamos calcular as medidas de tendência central. Salvaremos também os dados de julho/2022 pois os reutilizaremos mais para frente.

In [8]:
df_filtered.to_csv('BigmacPriceJuly2022.csv', index = False)

### Moda

#### Já bastende conhecida, a Moda é uam medida estatística de tendência central, que interessa sempre que estivermos em busca dos valores mais comuns de um dado.

##### É o valor dos dados que ocorre a maior frequência, ou seja, o valor que mais se repete dentro de uma série de observações

![moda.png](attachment:moda.png)

In [9]:
df = pd.read_csv('BigmacPriceJuly2022.csv')

### O pandas tem a função para a moda, tornando bem simples o seu cálculo!

#### Vamos calcular a moda do preço do Big Mac em dólares americanos

In [10]:
df['dollar_price'].mode()

0    4.00
1    4.58
dtype: float64

*Repare que o resultado é uma série do Pandas!*

#### Vamos ver quantas vezes esses valores ocorreram

In [11]:
df['dollar_price'].value_counts()

4.00    3
4.58    3
3.50    2
3.71    2
5.67    2
       ..
2.42    1
2.85    1
3.86    1
2.59    1
3.97    1
Name: dollar_price, Length: 61, dtype: int64

### Média

### A famosa média!!! Ela é bastabte relevante por ser muito fácil de ser calculada, além de ser muito popular

![media.jpg](attachment:media.jpg)

### Calculamos a média simplesmente somando todos os valores e dividindo pelo tamanho da amostra

![Average-Formula.jpg](attachment:Average-Formula.jpg)

*A média é uma importante medida que busca expressar a tendência central dos dados de interesse*

#### Vamos calcular a média do preço do Big Mac em dólares americanos

In [18]:
df['dollar_price'].mean()

4.003571428571429

*Esse é a média do preço do Big Mac no mundo em dóllares!*

### Apesar de ser muito popular e fácil de ser calulcada, precisamos tomar cuidados especiais com a média. Isso por que ela é facilmente influenciada por valores extremos na nossa amostra!

In [30]:
def media(lista):
    return sum(lista)/len(lista)

#### Vamos calcular a média de algumas listas de alturas de pessoas e ver como a média se comporta em cada caso.

In [31]:
lista_alturas_1 = [1.67, 1.72, 1.70, 1.69, 1.74, 1.71]

In [32]:
lista_alturas_1

[1.67, 1.72, 1.7, 1.69, 1.74, 1.71]

In [33]:
media(lista_alturas_1)

1.705

*A segunda lista tem alturas mais espaçadas uma das outras*

In [34]:
lista_alturas_2 = [1.60, 1.66, 1.72, 1.69, 1.78, 1.77]

In [39]:
media(lista_alturas_2)

1.7033333333333331

*A terceira lista tem altura bem menor do que as outras*

In [43]:
lista_alturas_3 = [1.20, 1.72, 1.70, 1.69, 1.74, 1.71]

In [44]:
media(lista_alturas_3)

1.626666666666667

*Finalmente, a quarta lista tem auma altura bem maior do que as outras*

In [45]:
lista_alturas_4 = [1.67, 1.72, 1.70, 1.69, 1.74, 2.24]

In [46]:
media(lista_alturas_4)

1.7933333333333332

### Mediana

### A mediana é uma medida de tendência central muito interessante. Ela faz uma divisão exatamente no meio dos nossos dados. É o valor do meio do nosso conjunto de dados.

![median.png](attachment:median.png)

### Para que a mediana seja calculada, primeiramente precisamos ordenar os dados para que então seja identificado o valor do meio. Por isso, a mediana é relativamente custosa de ser calculada, principalmente em cenários de big data

![mediana.jpg](attachment:mediana.jpg)

#### Cálculo da média com o Pandas

In [47]:
df['dollar_price'].median()

3.9050000000000002

*Essa é a mediana do preço do Big Mac no mundo, em dólares!*

#### Ao contrário da média, a mediana não é facilmente influenciada por valores extremos!

In [48]:
import numpy as np

*Lista equilibrada*

In [49]:
lista_alturas_1 = [1.67, 1.72, 1.70, 1.69, 1.74, 1.71]

In [52]:
media(lista_alturas_1)

1.705

In [53]:
np.median(lista_alturas_1)

1.705

*Lista mais espaçada*

In [55]:
media(lista_alturas_2)

1.7033333333333331

In [56]:
np.median(lista_alturas_2)

1.705

*Lista com altura menor*

In [57]:
media(lista_alturas_3)

1.626666666666667

In [58]:
np.median(lista_alturas_3)

1.705

*Lista com altura bem maior do que as outras* 

In [61]:
media(lista_alturas_4)

1.7933333333333332

In [62]:
np.median(lista_alturas_4)

1.71