In [4]:
#Tendencia central = pontos centrais de uma amostra
#média, mediana e a moda
# Teste com dados abertos: https://www.kaggle.com/datasets/vittoriogiatti/bigmacprice
import pandas as pd

In [5]:
df = pd.read_csv('BigmacPrice.csv')


In [4]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2000-04-01,ARS,Argentina,2.5,1,2.5
1,2000-04-01,AUD,Australia,2.59,1,2.59
2,2000-04-01,BRL,Brazil,2.95,1,2.95
3,2000-04-01,GBP,Britain,1.9,1,1.9
4,2000-04-01,CAD,Canada,2.85,1,2.85


In [5]:
#Descrição das colunas
#date- Data do registro
#currency_code - Código ISO 4217 internacional da moeda do país
#name - Nome do país
#local_price - Preço do Big Mac na moeda local
#dollar_ex - Taxa de Conversão do dólar americano para a moeda local
#local_price - Preço do Big Mac em dólares americanos
df.dtypes

date              object
currency_code     object
name              object
local_price      float64
dollar_ex          int64
dollar_price     float64
dtype: object

In [14]:
#date não está no formata datetime, primiro resolvemos isso!
df['date'] = pd.to_datetime(df['date'], errors='coerce')

In [15]:
df.dtypes

date             datetime64[ns]
currency_code            object
name                     object
local_price             float64
dollar_ex                 int64
dollar_price            float64
dtype: object

In [20]:
# Queremos os dados somente de 01 julho/2022
df_filtered_dia = df[df["date"] == '2022-07-01']

In [23]:
df_filtered_dia.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
1876,2022-07-01,ARS,Argentina,590.0,129,4.57
1877,2022-07-01,AUD,Australia,6.7,1,6.7
1878,2022-07-01,EUR,Austria,4.35,1,4.35
1879,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
1880,2022-07-01,BHD,Bahrain,1.6,1,1.6


In [21]:
# dados do mes de Julho
df_filtered_mes = df[(df['date'].dt.year == 2022) & (df['date'].dt.month == 7)]

In [22]:
df_filtered_mes.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
1876,2022-07-01,ARS,Argentina,590.0,129,4.57
1877,2022-07-01,AUD,Australia,6.7,1,6.7
1878,2022-07-01,EUR,Austria,4.35,1,4.35
1879,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
1880,2022-07-01,BHD,Bahrain,1.6,1,1.6


In [25]:

df_filtered_mes.count()

date             70
currency_code    70
name             70
local_price      70
dollar_ex        70
dollar_price     70
dtype: int64

In [26]:
df_filtered_mes.groupby('name').count()['date']

name
Argentina               1
Australia               1
Austria                 1
Azerbaijan              1
Bahrain                 1
                       ..
United Arab Emirates    1
United States           1
Uruguay                 1
Venezuela               1
Vietnam                 1
Name: date, Length: 70, dtype: int64

In [27]:
#Temos uma liha por país, assim, vamos calcular a tendencia central
#Salvando os dados que separamos
df_filtered_mes.to_csv('BigmacPriceJuly2022.csv', index = False)

In [30]:
#Moda => é uma medida estatística de tendência central, que interessa sempre que estivermos em busca dos valores mais comuns de um dado.
#É o valor dos dados que ocorre com a maior frequência, ou seja, o valor que mais se repete dentro de uma série de observações.
df = pd.read_csv('BigmacPriceJuly2022.csv')


In [31]:
df['dollar_price'].mode()

0    4.00
1    4.58
Name: dollar_price, dtype: float64

In [32]:
#Quantas vezes esses valores ocorreram?
df['dollar_price'].value_counts()

dollar_price
4.58    3
4.00    3
3.50    2
5.67    2
3.71    2
       ..
2.85    1
2.30    1
1.30    1
6.70    1
2.95    1
Name: count, Length: 61, dtype: int64

In [33]:
#Média simples => Soma todos os valores e divide pelo tamanho da amostra
#amos calcular a média do preço do Big Mac em dólares americanos
df['dollar_price'].mean()

4.003571428571429

In [34]:
#precisamos tomar cuidados especiais com a média. Isso porque ela é facilmente influenciada por valores extremos na nossa amostra!
def media(lista):
    return sum(lista)/len(lista)

In [35]:
#Vamos calcular a média de algumas listas de alturas de pessoas e ver como a média se comporta em cada caso.
lista_alturas_1 = [1.67, 1.72, 1.70, 1.69, 1.74, 1.71]

In [36]:
media(lista_alturas_1)


1.705

In [37]:
#lista tem alturas mais espaçadas uma das outras
lista_alturas_2 = [1.60, 1.66, 1.72, 1.69, 1.78, 1.77]
media(lista_alturas_2)

1.7033333333333334

In [38]:
#lista tem uma altura bem menor do que as outras
lista_alturas_3 = [1.20, 1.72, 1.70, 1.69, 1.74, 1.71]
media(lista_alturas_3)


1.6266666666666667

In [39]:
#lista tem uma altura bem maior do que as outras
lista_alturas_4 = [1.67, 1.72, 1.70, 1.69, 1.74, 2.24]
media(lista_alturas_4)

1.7933333333333332

In [None]:
# Um dos problemas da média foi exposto acima, quando um valor distoa muito dos outros, ela puxa a média e isso pode gerar dados incorretos.


In [40]:
# Mediana => é uma medida de tendência central muito interessante. Ela faz uma divisão exatamente no meio dos nossos dados. É o valor do meio do nosso conjunto de dados.
#Para que a mediana seja calculada, primeiramente precisamos ordenar os dados para que então seja identificado o valor do meio. Por isso, a mediana é relativamente custosa de ser calculada, principalmente em cenários de big data.
df['dollar_price'].median()

3.9050000000000002

In [42]:
#Ao contrário da média, a mediana não é facilmente influenciada por valores extremos!
#Vamos fazer paara as alturas da lista anterior
import numpy as np
np.median(lista_alturas_1)

1.705

In [43]:
media(lista_alturas_2)

1.7033333333333334

In [44]:
np.median(lista_alturas_2)

1.705

In [45]:

media(lista_alturas_4)

1.7933333333333332

In [46]:
np.median(lista_alturas_4)


1.71

In [47]:
# Importe ver que a mediana quase não se altera!