## 1 - Módulos e dados

In [1]:
# modulos
import numpy as np
import pandas as pd
import random as rd
from sklearn.model_selection import train_test_split

In [2]:
# dados
dados = pd.read_csv('dados_renda_municipios.csv', 
                    sep = ',',
                    decimal = '.', 
                    encoding = 'utf-8')

## 2 - Filtrar o Estado "Bahia" e realize um levantamento amostral. 

- Obter dados piloto da Renda
- Calcular o tamanho da amostra
- Retirar uma amostra aleatória simples
- Comparar os resultados da amostra com os resultados da amostra piloto (Média, Mediana, Desvio padrão)

### 2.1 Filtrar estado

In [5]:
dados_bahia = dados[dados['UF'] == 'Bahia'].reset_index(drop=True)

## 2.2 - Análise piloto

In [6]:
dados_piloto = dados_bahia.agg(media_RDPC = pd.NamedAgg('RDPC', 'mean'),
                               dp_RDPC = pd.NamedAgg('RDPC', 'std'),
                               N = pd.NamedAgg('RDPC', 'count'))
dados_piloto

Unnamed: 0,RDPC
media_RDPC,298.569928
dp_RDPC,101.927806
N,417.0


## 2.3 - Tamanho da amostra

In [7]:
# formula continua
def formula_amostra_continua(N, S, Z, ME):
  n = (Z**2 * S**2 * N) / ((ME**2 * (N-1)) + (Z**2 * S**2))
  return int(n)

In [9]:
# parametros
N = 417
Z = 1.96
S = 101.92
ME = 15

# tamanho amostra
n = formula_amostra_continua(N, S, Z, ME)
n

124

## 2.4 - Retirar amostra

In [11]:
dados_amostra_bahia = dados_bahia.sample(n=n)
dados_amostra_bahia.shape

(124, 3)

In [12]:
dados_amostra_bahia.head()

Unnamed: 0,UF,Municipio,RDPC
99,Bahia,COCOS,258.27
132,Bahia,FIRMINO ALVES,325.51
165,Bahia,IPECAETÁ,186.54
79,Bahia,CANDIBA,290.99
33,Bahia,BARRA,183.03


## 2.5 - Comparações

In [13]:
dados_piloto = dados_bahia.agg(media_RDPC = pd.NamedAgg('RDPC', 'mean'),
                               dp_RDPC = pd.NamedAgg('RDPC', 'std'),
                               N = pd.NamedAgg('RDPC', 'count'))
dados_piloto

Unnamed: 0,RDPC
media_RDPC,298.569928
dp_RDPC,101.927806
N,417.0


In [15]:
dados_amostra_bahia.agg(media_RDPC = pd.NamedAgg('RDPC', 'mean'),
                        dp_RDPC = pd.NamedAgg('RDPC', 'std'),
                        N = pd.NamedAgg('RDPC', 'count'))

Unnamed: 0,RDPC
media_RDPC,289.284355
dp_RDPC,79.81993
N,124.0


Os valores das médias ficaram relativamente próximos. Porém, os valores dos desvios padrão ficaram bem diferentes. Torna-se importante revisar os dados da amostra piloto para verificar se existe algum valor fora do padrão nos dados do Estado.