# 0. Packages

In [22]:
import pandas as pd
import numpy as np
import scipy.stats as sts
import wquantiles
import statsmodels.api as sm

# Example: Location Estimates of Population and Murder Rates

In [6]:
path = 'https://raw.githubusercontent.com/gedeck/practical-statistics-for-data-scientists/master/data/state.csv'
state = pd.read_csv(path)
state.head()

Unnamed: 0,State,Population,Murder.Rate,Abbreviation
0,Alabama,4779736,5.7,AL
1,Alaska,710231,5.6,AK
2,Arizona,6392017,4.7,AZ
3,Arkansas,2915918,5.6,AR
4,California,37253956,4.4,CA


In [7]:
state.shape

(50, 4)

In [8]:
state.dtypes

State            object
Population        int64
Murder.Rate     float64
Abbreviation     object
dtype: object

In [9]:
state['Population'].mean()

6162876.3

In [10]:
sts.trim_mean(state['Population'], 0.1)

4783697.125

In [11]:
state['Population'].median()

4436369.5

- A média é maior que a média truncada, que é maior do que a mediana. 
- `trim=0.1` remove 10% de dados de cada ponta, 10% na parte superior, 10% na parte inferior.
- Se quisermos usar a taxa média de assassinato para o país, devemos usar a média ponderada ou a mediana para levar em conta as diferentes populações nos estados. 

In [12]:
np.average(state['Murder.Rate'], weights=state['Population'])

4.445833981123393

In [13]:
wquantiles.median(state['Murder.Rate'], weights=state['Population'])

4.4

Neste caso, mediana e média ponderadas foram quase as mesmas.

# Exemplo: medidas de variabilidade 

Vamos usar o pandas para calcular tais medidas

In [17]:
std = state['Population'].std()
std

6848235.347401142

In [18]:
IQR = state['Population'].quantile(0.75) - state['Population'].quantile(0.25)
IQR

4847308.0

- Para calcular o MAD usamos a função `robust.scale.mad` do pacote `statsmodels`: 

In [23]:
sm.robust.scale.mad(state['Population'])

3849876.1459979336