Medidas de Tendência Central
    * A tendência Central é uma medida de valores numa amostra que identifica os diferentes pontos centrais nos dados
    * As medidas mais comuns de tendência central são a média, mediana e a moda.
    * Vamos usar dados abertos do preço do Big Mac, desde 2000 a 2022, para diversos países. Os dados podem ser encontrados no Kaggle.


In [1]:
import pandas

In [3]:
df = pandas.read_csv('BigmacPrice.csv')

In [4]:
df.head() #Comando para ler as primeiras linhas do seu DataFrame

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2000-04-01,ARS,Argentina,2.5,1,2.5
1,2000-04-01,AUD,Australia,2.59,1,2.59
2,2000-04-01,BRL,Brazil,2.95,1,2.95
3,2000-04-01,GBP,Britain,1.9,1,1.9
4,2000-04-01,CAD,Canada,2.85,1,2.85


    Descrição Das Colunas:
- Date: Data do registro;
- currency_code: Código ISO 4217 internacional da moeda do país;
- local_price: Preço do Big Mac na moeda local
- dolla_ex: Tava de conversão do dólar americano para a moeda local;
- dollar_price: Preço do Big Mac em dólares americados;

In [5]:
df.dtypes

date              object
currency_code     object
name              object
local_price      float64
dollar_ex          int64
dollar_price     float64
dtype: object

In [6]:
df_filtered = df[df['date'] == '2022-07-01']

In [7]:
df_filtered.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
1876,2022-07-01,ARS,Argentina,590.0,129,4.57
1877,2022-07-01,AUD,Australia,6.7,1,6.7
1878,2022-07-01,EUR,Austria,4.35,1,4.35
1879,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
1880,2022-07-01,BHD,Bahrain,1.6,1,1.6


In [9]:
df_filtered.count()

date             70
currency_code    70
name             70
local_price      70
dollar_ex        70
dollar_price     70
dtype: int64

Quantos países únicos nós temos?

In [8]:
df_filtered.groupby('name').count()['date']

name
Argentina               1
Australia               1
Austria                 1
Azerbaijan              1
Bahrain                 1
                       ..
United Arab Emirates    1
United States           1
Uruguay                 1
Venezuela               1
Vietnam                 1
Name: date, Length: 70, dtype: int64

Temos 1 linha por país! Dessa forma, vamos calcular as medidas de tendência central. Salvaremos também os dados de Julho/2022 pois os reutilizaremos mais para frente.

In [10]:
df_filtered.to_csv('BigmacPriceJuly2022.csv', index = False)

MODA:
    A moda é uma medida estátistica de tendência central, que interessa sempre que estivermos em busca dos valores mais comuns de um dados.
    É o valor dos dados que ocorre com maior frequência, ou seja, o valor que mais se repete dentro de uma série de observações.


In [12]:
df = pandas.read_csv('BigmacPriceJuly2022.csv')

Vamos calcular a moda do preço do BigMac em dólares americanos:

In [13]:
df['dollar_price'].mode()

0    4.00
1    4.58
Name: dollar_price, dtype: float64

Vamos ver quantas vezes esses valores ocorreram:

In [14]:
df['dollar_price'].value_counts()

dollar_price
4.58    3
4.00    3
4.70    2
3.00    2
3.71    2
       ..
6.00    1
5.15    1
6.22    1
2.00    1
2.95    1
Name: count, Length: 61, dtype: int64

_______________________________________________________________________________________________________________________


Média:
    Bastante relevante por ser muito fácil de ser calculada.


Vamos calcular a média do preço do BigMac em dólares americanos:

In [16]:
df['dollar_price'].mean()

4.003571428571429

Apesar de ser muito popular e fácil de ser calculada, devemos tomar cuidado especiais com a média, pois a mesma é facilmente influenciada por valores extremos na nossa amostra.

In [17]:
def media(lista):
    return sum(lista)/len(lista)

Vamos calcular a média de algumas listas de alturas de pessoas e ver como a média se comporta em cada caso.
A primeira lista tem alturas bem próximas umas das outras:


In [18]:
lista_alturas_1 = [1.67, 1.72, 1.70, 1.69, 1.74, 1.71]

In [19]:
media(lista_alturas_1)

1.705

A segunda lista tem alturas mais espaçadas umas das outras:

In [21]:
lista_alturas_2 = [1.60, 1.66, 1.72, 1.69, 1.78, 1.77]

In [22]:
media(lista_alturas_2)

1.7033333333333334

A terceira lista tem uma altura bem menor do que as outras:

In [24]:
lista_alturas_3 = [1.20, 1.72, 1.70, 1.69, 1.74, 1.71]

In [25]:
media(lista_alturas_3)

1.6266666666666667

Finalmente, a quarta lista tem uma altura bem maior do que as outras:

In [26]:
lista_alturas_4 = [1.67, 1.72, 1.70, 1.69, 1.74, 2.24]

In [27]:
media(lista_alturas_4)

1.7933333333333332

_______________________________________________________________________________________________________________________

Mediana:
    A mediana faz uma divisão exatamente no meio dos nossos dados. É o valor do meio do nosso conjunto de dados.
    Para que a mediana seja calculada, primeiramente precisamos ordenar os dados para que então seja identificado o valor do meio. Por isso a mediana é relativamente custosa de ser calculada, principalmente em cenários de Big Data.

Mediana do preço do BigMac em dólares no mundo:

In [31]:
df['dollar_price'].median()

3.9050000000000002

Ao contrário da média, a mediana não é facilmente influenciada por valores extremos.

In [32]:
import numpy as np


Lista equilibrada:

In [36]:
lista_alturas_1 = [1.67, 1.72, 1.70, 1.69, 1.74, 1.71]

In [37]:
media(lista_alturas_1)

1.705

In [38]:
np.median(lista_alturas_1)

1.705

Lista mais espaçada:

In [41]:
lista_alturas_2 = [1.60, 1.66, 1.72, 1.69, 1.78, 1.77]

In [42]:
media(lista_alturas_2)

1.7033333333333334

In [43]:
np.median(lista_alturas_2)

1.705

Lista com uma altura bem menor do que as outras:

In [44]:
lista_alturas_3 = [1.20, 1.72, 1.70, 1.69, 1.74, 1.71]

In [45]:
media(lista_alturas_3)

1.6266666666666667

In [46]:
np.median(lista_alturas_3)

1.705

Lista com uma altura bem maior do que as outras:

In [47]:
lista_alturas_4 = [1.67, 1.72, 1.70, 1.69, 1.74, 2.24]

In [48]:
media(lista_alturas_4)

1.7933333333333332

In [49]:
np.median(lista_alturas_4)

1.71