# CAPÍTULO 01

## Estimativas de localização


### Exemplo 01: estimtivas de localização de população e taxas de homicídio


1. Criação do DataFrame

In [None]:
import pandas as pd

df = pd.read_csv('../capitulo01/state.csv')

df


1. Média aritmética

In [None]:
import numpy as np

media = np.mean(df['Population'])

media

2. Média aparada

In [None]:
from scipy.stats import trim_mean

media_aparada = trim_mean(df['Population'],0.1)

media_aparada

3. Mediana

In [None]:
mediana = np.median(df['Population'])

mediana

4. Media ponderada

In [None]:
media_ponderada = np.average(df['Murder.Rate'], weights=df['Population'])

print(media_ponderada)


5. Mediana ponderada

In [None]:
# Ordenar os valores
indices_ordenados = np.argsort(df['Murder.Rate'])
valores_ordenados = np.array(df['Murder.Rate'])[indices_ordenados]
pesos_ordenados = np.array(df['Population'])[indices_ordenados]

# Calcular a soma acumulada  dos pesos
soma_acumulada_pesos = np.cumsum(pesos_ordenados)

# Encontrar a posição onde a soma acumulada dos pesos excede a metade da soma total dos pesos
metade_soma_pesos = np.sum(df['Population']) / 2
mediana_ponderada = valores_ordenados[np.where(soma_acumulada_pesos >= metade_soma_pesos)[0][0]]

mediana_ponderada


## Estimativas de variabilidade

### Exemplo 02: estimativas de variabilidade de população estadual


1. Desvio-padrão

In [19]:
desvio_padrao = np.std(df['Population'])

display(f'O desvio-padrão é {desvio_padrao:.2f}')

'O desvio-padrão é 6779407.11'

2. IQR (Amplitude)

In [17]:
Q1 = np.percentile(df['Population'],25)
Q3 = np.percentile(df['Population'],75)

display(f'O primeiro quartil é {Q1:.0f}')
display(f'O terceiro quartil é {Q3:.0f}')

IQR = Q3 - Q1

display(f'A amplitude é {IQR:.0f}')

'O primeiro quartil é 1833004'

'O terceiro quartil é 6680312'

'A amplitude é 4847308'

3. Desvio absoluto mediano da mediana (MAD)

In [20]:
# Calcular os desvios absolutos em relação à mediana

desvios_absolutos = np.abs(df['Population'] -  mediana)

display(desvios_absolutos)

# Calcular a MAD
mad = np.median(desvios_absolutos)

mad

0       343366.5
1      3726138.5
2      1955647.5
3      1520451.5
4     32817586.5
5       592826.5
6       862272.5
7      3538435.5
8     14364940.5
9      5251283.5
10     3076068.5
11     2868787.5
12     8394262.5
13     2047432.5
14     1390014.5
15     1583251.5
16       97002.5
17       97002.5
18     3108008.5
19     1337182.5
20     2111259.5
21     5447270.5
22      867555.5
23     1469072.5
24     1552557.5
25     3446954.5
26     2610028.5
27     1735818.5
28     3119899.5
29     4355524.5
30     2377190.5
31    14941732.5
32     5099113.5
33     3763778.5
34     7100134.5
35      685018.5
36      605295.5
37     8266009.5
38     3383802.5
39      188994.5
40     3622189.5
41     1909735.5
42    20709191.5
43     1672484.5
44     3810628.5
45     3564654.5
46     2288170.5
47     2583375.5
48     1250616.5
49     3872743.5
Name: Population, dtype: float64

np.float64(2596702.0)

## Explorando a distribuição de dados

### Exibindo percentis

In [None]:
dados_percentis = {
    '5%': [np.percentile(df['Murder.Rate'], 5)],
    '25%': [np.percentile(df['Murder.Rate'], 25)],
    '50%': [np.percentile(df['Murder.Rate'], 50)],
    '75%': [np.percentile(df['Murder.Rate'], 75)],
    '95%': [np.percentile(df['Murder.Rate'], 95)]
}
percentis = pd.DataFrame(dados_percentis)

percentis

### Gráfico de caixa (Boxplot)


In [None]:
import matplotlib.pyplot as plt

# Criando o boxplot
plt.boxplot(df['Population']/1000000)

# Adcionando título e rótulo
plt.title('Boxplot de populações por estado')
plt.ylabel('População (em milhões)')

plt.show()