# Estatística Descritiva

## Medidas de tendência central

Identifica os diferentes pontos centrais nos dados. As medidas de tendência central mais comuns são: média, mediana e moda. Apesar de trazerem informações distintas sobre os dados, o objetivo dessas medidas é o mesmo: encontrar e entender a centralidade dos dados.

## Dataset: Preço do BigMac entre 2000 e 2022

Usaremos este dataset para explorar as medidas de tendência central.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('BigmacPrice.csv')

In [3]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2000-04-01,ARS,Argentina,2.5,1,2.5
1,2000-04-01,AUD,Australia,2.59,1,2.59
2,2000-04-01,BRL,Brazil,2.95,1,2.95
3,2000-04-01,GBP,Britain,1.9,1,1.9
4,2000-04-01,CAD,Canada,2.85,1,2.85


Descrevendo os nomes das colunas:



*   date: data da compra
*   currency_code: código da moeda local
*   name: o país a qual pertence a moeda
*   local_price: o preço do bigmac naquele país
*   dollar_ex: taxa de conversão do dólar para a moeda local
*   dollar_price: preço em dóllar do bigmac naquele país







In [4]:
# descrevendo os tipos de dados existentes no dataset

df.dtypes

Unnamed: 0,0
date,object
currency_code,object
name,object
local_price,float64
dollar_ex,int64
dollar_price,float64


Para essa atividade iremos usar os dados pertencentes ao mês de julho do ano de 2022, para isso iremos filtrar esses dados pela coluna 'date'.

In [5]:
df_filtered = df[df['date']== '2022-07-01']

In [6]:
df_filtered.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
1876,2022-07-01,ARS,Argentina,590.0,129,4.57
1877,2022-07-01,AUD,Australia,6.7,1,6.7
1878,2022-07-01,EUR,Austria,4.35,1,4.35
1879,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
1880,2022-07-01,BHD,Bahrain,1.6,1,1.6


Verificando quantas observações nós temos agora que filtramos pelo mês de julho de 2022.

In [7]:
df_filtered.count()

Unnamed: 0,0
date,70
currency_code,70
name,70
local_price,70
dollar_ex,70
dollar_price,70


O resultado indica que temos 70 observações por coluna, ou seja, temos ao todo 70 linhas. Abaixo verificamos se há a existência de um preço a mais em algum dos países do dataset no dia 01 de julho de 2022:

In [8]:
df_filtered.groupby('name').count()['date']

Unnamed: 0_level_0,date
name,Unnamed: 1_level_1
Argentina,1
Australia,1
Austria,1
Azerbaijan,1
Bahrain,1
...,...
United Arab Emirates,1
United States,1
Uruguay,1
Venezuela,1


Como resposta temos que houve apenas um preço por país na data: 01 de julho de 2022. Essa análise ajuda a identificar se há alguma informação duplicada.

In [9]:
# salvando os dados filtrados para serem usados posteriormente
df_filtered.to_csv('BigmacPriceJuly2022.csv', index=False)

# Medidas de tendência central - na prática

## Moda

A moda é a medida que indica a frequência dos dados em um conjunto de dados, trazendo como resultado o dado que mais se repete, ou seja, que aparece com uma certa frequência em relação aos outros. É importante saber que a moda pode assumir mais de um valor.

In [10]:
df = pd.read_csv('BigmacPriceJuly2022.csv')

In [11]:
# usando função do pandas para cálculo da moda do preço do big mac em dólar americano
df['dollar_price'].mode()

Unnamed: 0,dollar_price
0,4.0
1,4.58


In [12]:
# visualizando a frequência do preço de 4.00 e 4.58 em relação aos demais
df['dollar_price'].value_counts()

Unnamed: 0_level_0,count
dollar_price,Unnamed: 1_level_1
4.58,3
4.00,3
3.50,2
5.67,2
3.71,2
...,...
2.85,1
2.30,1
1.30,1
6.70,1


## Média

Diferente da moda, a média assume somente um valor. Sobre a média é  importante saber que ela sofre influência de valores extremos, conhecidos como outliers existentes na amostra.

In [13]:
# calculando a média do preço do big mac no mês de julho de 2022
df['dollar_price'].mean()

4.003571428571429

## Mediana

É a medida que calcula o valor que divide o conjunto de dados no meio. Para calcular a mediana devemos ordenar os valores em ordem crescente e em caso de um conjunto de dados par é necessário somar os dois valores do meio e retirar a média que mostrará a posição em que os dados são divididos ao meio. Em caso de conjunto de dados ímpar a mediana será o valor que divide o conjunto igualmente sem que haja necessidade de calcular a média. Haverá os valores maiores que a mediana e os valores menores que a mediana. E ao contrário da média, a mediana não é facilmente influenciada por valores extremos. Ao fazer uma análise descritiva dos dados é importante comparar a média com a mediana pois é uma forma de indicar a existência de valores extremos.

In [14]:
# calculando a mediana do preço do big mac no mês de julho de 2022
df['dollar_price'].median()

3.9050000000000002

# Medidas de dispersão

As medidas de dispersão são importantes para entender o quão variados estão os dados. As medidas mais comuns são: variância, desvio padrão e coeficiente de variação.

## Variância

Ajuda a entender o quão longe da média os dados estão. No cálculo da variância elevamos o resultado da subtração entre o dado e a média do conjunto de dados ao quadrado para que todos os resultados sejam positivos e as distância não se anulem dando em uma variância zero. Existe a variância amostral e populacional. No Python temos a biblioteca Numpy que calcula a variância populacional e a biblioteca Pandas que calcula a variância amostral.A variância também sofre com valores extremos justamente por utilizar a média. Vejamos a diferença entre seus resultados.

In [15]:
import numpy as np

In [16]:
# calculando a variância populacional da coluna 'dollar_price' com o Numpy
df_dollarPrice = df['dollar_price']
np.var(df_dollarPrice)

1.8050258163265305

In [17]:
# calculando a variância amostral da coluna 'dollar_price' com o Pandas
df_dollarPrice.var()

1.8311856107660454

## Desvio Padrão

O desvio padrão é a raiz quadrada da variância e é calculado para que a variação esteja na mesma unidade dos dados de origem, uma vez que a elevação ao quadrado feita pela variância modifica a unidade natural dos dados. O desvio padrão também sofre a influencia de dados extremos devido a variância utilizar a média.Vamos calcular o desvio padrão com Numpy e com o Pandas para verificar se há diferença entre os resultados.

In [18]:
# calculando o desvio padrão com Numpy
np.std(df_dollarPrice)

1.3435124920619572

In [19]:
# calculando o desvio padrão com Pandas
df_dollarPrice.std()

1.3532130692415165

Como podemos ver tanto na variância quanto no desvio padrão o Numpy e o Pandas deram resultados razoavelmente diferentes, isso ocorre porque Numpy executa variância e desvio padrão populacional, enquanto que no Pandas usamos variância e desvio padrão amostral. É importante se atentar a finalidade da análise para saber qual biblioteca utilizar.

## Coeficiente de variação

Ajuda a entender se os dados estão muito variados ou não. Para calcular o CV dividimos o desvio padrão pela média. De acordo com o professor:

**coeficiente de variação que sejam:**

- CV <= 15% tem Fraca dispersão

- 15% < CV <= 30% tem Moderada dispersão

- CV > 30% tem Alta dispersão




In [20]:
# calculando o coeficiente de variação do preço do big mac entre os países
coeficiente_variacao_big_mac = 100* df['dollar_price'].std()/df_dollarPrice.mean()

In [21]:
coeficiente_variacao_big_mac

33.80014802744198

Como resultado entendemos que o preço do big mac sofre grande variação entre os países.

# Quantis e Quartis

Ajuda a entender o que ocorre em cada porcentagem do conjunto de dados. Os quartis são quantis específicos.



*   1º quartil = quantil 0.25
*   2º quartil = quantil 0.50

*   3º quartil = quantil 0.75





Abaixo é calculado o quantil 0.1 ou percentil 10% do preço em dólar americano do big mac nos países:

In [22]:
df_dollarPrice.quantile(0.1)

2.413

Esse resultado nos diz que 10% de todos os preços do big mac no mundo custam até 2.43 dólares. Abaixo estamos calculando o 1º quartil, ou seja, 25% de todos os preços do big mac no mundo:

In [23]:
# calculando o 1º quartil - 25% dos dados
df_dollarPrice.quantile(0.25)

3.0

In [24]:
# calculando o 2º quartil - 50% dos dados (mediana)
df_dollarPrice.quantile(0.50)

3.9050000000000002

In [25]:
# calculando a mediana para comparar com o resultado do 2º quartil
df_dollarPrice.median()

3.9050000000000002

## Analisando outros quantis e quartis do conjunto de dados

In [34]:
percentil_10 = df_dollarPrice.quantile(0.1)
percentil_25 = df_dollarPrice.quantile(0.25)
percentil_50 = df_dollarPrice.quantile(0.50)
percentil_75 = df_dollarPrice.quantile(0.75)
percentil_90 = df_dollarPrice.quantile(0.90)
percentil_95 = df_dollarPrice.quantile(0.95)
media = df_dollarPrice.mean()
moda  = df_dollarPrice.mode()[0]
mediana = df_dollarPrice.median()

In [37]:
print("Quantil 0.10: {}\n".format(percentil_10))
print("1º Quartil 0.25: {}\n".format(percentil_25))
print("2º Quartil 0.50: {}\n".format(percentil_50))
print("3º Quartil 0.75: {}\n".format(percentil_75))
print("Quantil 0.90: {}\n".format(percentil_90))
print("Quantil 0.95: {}\n".format(percentil_95))
print("Média: {}\n".format(media))
print("Moda: {}\n".format(moda))
print("Mediana: {}\n".format(mediana))

Quantil 0.10: 2.413

1º Quartil 0.25: 3.0

2º Quartil 0.50: 3.9050000000000002

3º Quartil 0.75: 4.6875

Quantil 0.90: 5.91

Quantil 0.95: 6.609999999999999

Média: 4.003571428571429

Moda: 4.0

Mediana: 3.9050000000000002



## Análise do preço do Big Mac no mundo:

Até 10% dos países está com preço de até 2.41 dólares;

Até 25% dos países está com preço de até 3.00 dólares;

Até 50% dos países está com preço de até 3.90 dólares;

Até 75% dos países está com preço de até 4.68 dólares;

Até 90% dos países está com preço de até 5.91 dólares;

Até 95% dos países está com preço de até 6.60 dólares.

## Conclusão da análise anterior:

Em média o preço do Big Mac está até 4.00 dólares, um pouco a mais em até 75% dos países e um pouco a menos em até 50% dos países, mas a faixa de preço é de 4.00 dólares. Pudemos identificar que 5% dos paises possuem um preço acima da média e da mediana: 6.60 dólares.