# Estimativas de Localização

Variáveis com dados de medição ou contagem podem ter milhares de valores diferentes. 
Um passo fundamental na exploração dos dados é definir um "valor típico" para cada variável:
uma estimativa de onde a maioria dos dados está localizada (tendência central)

Média: Sensível a valores extremos (outliers). Alternativa - média aparada.  
Mediana: Estimativa robusta de localização, pois não é influenciada por outliers que podem enviezar os resultados.

### Calcular a média, média aparada e a mediana para a população

In [21]:
import pandas as pd
import numpy as np

from scipy import stats # para calcular a média aparada com a função 'trim_mean'
from statsmodels import robust # para calcular o desvio absoluto da mediana

In [4]:
state = pd.read_csv('state.csv')

In [5]:
state.shape

(50, 4)

In [14]:
state.head()

Unnamed: 0,State,Population,MurderRate,Abbreviation
28,New Hampshire,1316470,0.9,NH
22,Minnesota,5303925,1.6,MN
18,Maine,1328361,1.6,ME
44,Vermont,625741,1.6,VT
10,Hawaii,1360301,1.8,HI


In [7]:
state = state.rename(columns={'Murder.Rate': 'MurderRate'}) # Rename para retirar o ponto '.' da coluna

In [8]:
# média
state['Population'].mean()

6162876.3

In [9]:
# média aparada
stats.trim_mean(state['Population'], 0.1)   # A função trim_mean exclui % de cada ponta 
                                            # - os cinco maiores e menores estados

4783697.125

In [10]:
# mediana
state['Population'].median()

4436369.5

A média é maior que a média aparada, que é maior que a mediana. 

### Calcular a taxa média de homicídios para o país. Necessário calcular a média ou mediana ponderada

In [11]:
# média ponderada
np.average(state["MurderRate"], weights=state["Population"])

4.445833981123393

In [12]:
# mediana ponderada
state.sort_values('MurderRate', inplace=True)
cumsum = state.Population.cumsum()
cutoff = state.Population.sum() / 2.0
median_weight = state.MurderRate[cumsum >= cutoff].iloc[0]
median_weight

4.4

Ideias-chave:  
A métrica básica para localização é a média, mas esta pode ser sensível a outliers.  
Outras métricas (mediana, média aparada) são mais robustas.   

# Estimativas de Variabilidade

A localização é apenas uma dimensão na sumarização de uma característica.   
Uma segunda dimensão, variabilidade, também chamada de dispersão, mede se os valores de dados estão compactados ou espalhadas.  

Desvios: Diferença entre os valores observados e a estimativa de localização.  
Variância: Soma dos quadrados dos desvios da média, divididos por n-1.  
Desvio-padrão: raiz quadrada da variância.  
Percentil/Quantil: Valor tal P por cento dos valores assumam esse valor ou menos, e (100-P) por cento assumam esse valor ou mais.  
Amplitude interquatílica (IQR): Diferença entre o 75º percentil e o 25º percentil.  

A variância e o desvio padrão são especialmente sensíveis aos outliers, pois são baseados em desvios quadráticos.  
Uma estimativa de variabilidade ronbusta é o desvio absoluto mediano da mediana (MAD). Assim como a mediana, o MAD não é influenciado por valores extremos.

### Calcular as estimativas de variabilidade para os dados de população (desvio-padrão, IQR e MAD)

In [13]:
# desvio-padrão
state['Population'].std()

6848235.347401144

In [20]:
# amplitude interquatílica (IQR)
q1 = state['Population'].quantile(0.25)
q3 = state['Population'].quantile(0.75)
iqr = q3-q1
iqr

4847308.0

In [18]:
# desvio absoluto da mediana

robust.mad(state['Population'])

3849876.1459979336

Ideias-chave:    
A variância e o desvio-padrão são as estatísticas de variabiliade mais usadas. Ambas são sensíveis a outliers.  
Outras métricas (desvio absoluto médio e de mediano da mediana (MAD), e percentis) são mais robustas.  