# Seleção por Amostrage probabilistica 

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

# Carregando o dataset tips
df = sns.load_dataset('tips')

# Exibindo as primeiras linhas da base de dados
print(df.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


#### Detalhaento das variáveis:

- total_bill: valor total da conta.
- tip: valor da gorjeta.
- sex: sexo da pessoa que deu a gorjeta.
- smoker: se a pessoa era fumante.
- day: dia da semana em que a gorjeta foi dada.


## 1. Amostragem Aleatória Simples
Na amostragem aleatória simples, cada observação da base de dados tem a mesma probabilidade de ser selecionada. 

Vamos dividir o dataset em treino e teste de forma aleatória.

In [2]:
# Geração da amostra com 70% para treino (0) e 30% para teste (1)
np.random.seed(42)  # Para garantir reprodutibilidade
amostra = np.random.choice([0, 1], size=len(df), p=[0.7, 0.3])
amostra

array([0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0,
       1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1,
       1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1,
       0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1,
       1, 0])

In [3]:
# Resumo da amostra gerada
print("Resumo da amostra:")
print(pd.Series(amostra).value_counts(normalize=True))

Resumo da amostra:
0    0.709016
1    0.290984
Name: proportion, dtype: float64


In [4]:
# Dividindo o dataset com base na amostra
amostra_30 = df[amostra == 1]  # 30% do dataset para teste
amostra_70 = df[amostra == 0]  # 70% do dataset para treino

In [5]:
# Exibindo o tamanho dos conjuntos
print("\nDimensão do conjunto de treino (70%):", amostra_70.shape)
print("Dimensão do conjunto de teste (30%):", amostra_30.shape)


Dimensão do conjunto de treino (70%): (173, 7)
Dimensão do conjunto de teste (30%): (71, 7)


In [6]:
# Exibindo algumas linhas de cada conjunto
print("\nAmostra do conjunto de treino (70%):")
print(amostra_70.head())


Amostra do conjunto de treino (70%):
   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
5       25.29  4.71    Male     No  Sun  Dinner     4
6        8.77  2.00    Male     No  Sun  Dinner     2


In [7]:
print("\nAmostra do conjunto de teste (30%):")
print(amostra_30.head())


Amostra do conjunto de teste (30%):
    total_bill   tip     sex smoker  day    time  size
1        10.34  1.66    Male     No  Sun  Dinner     3
2        21.01  3.50    Male     No  Sun  Dinner     3
7        26.88  3.12    Male     No  Sun  Dinner     4
9        14.78  3.23    Male     No  Sun  Dinner     2
11       35.26  5.00  Female     No  Sun  Dinner     4


Temos outra forma de realizar o mesmo procedimento:

In [8]:
# Definindo o tamanho do conjunto de teste (30% da base)
test_size = int(0.3 * len(df))

In [9]:
# Embaralhando os índices da base de dados para garantir a aleatoriedade
shuffled_indices = np.random.permutation(len(df))

In [10]:
# Separando os índices de treino e teste
test_indices = shuffled_indices[:test_size]
train_indices = shuffled_indices[test_size:]

In [11]:
# Criando os conjuntos de treino e teste
train_manual = df.iloc[train_indices]
test_manual = df.iloc[test_indices]


In [12]:
# Exibindo o tamanho dos conjuntos de treino e teste
print(f"Tamanho do conjunto de treino (Amostragem Aleatória Simples Manual): {len(train_manual)}")
print(f"Tamanho do conjunto de teste (Amostragem Aleatória Simples Manual): {len(test_manual)}")

Tamanho do conjunto de treino (Amostragem Aleatória Simples Manual): 171
Tamanho do conjunto de teste (Amostragem Aleatória Simples Manual): 73


In [13]:
# Exibindo as primeiras linhas do conjunto de treino
print(train_manual.head())

     total_bill   tip     sex smoker  day    time  size
178        9.60  4.00  Female    Yes  Sun  Dinner     2
1         10.34  1.66    Male     No  Sun  Dinner     3
217       11.59  1.50    Male    Yes  Sat  Dinner     2
237       32.83  1.17    Male    Yes  Sat  Dinner     2
3         23.68  3.31    Male     No  Sun  Dinner     2


## 2. Amostragem Estratificada
A amostragem estratificada garante que os subgrupos de uma variável categórica sejam representados de forma proporcional em ambos os conjuntos. Vamos implementar isso sem utilizar funções prontas.

Exemplo: Implementando Amostragem Estratificada Manualmente
Vamos garantir que a proporção de fumantes e não fumantes no conjunto de treino e teste seja a mesma que no dataset original.

In [14]:
# Dividindo a base de acordo com os estratos (fumante e não fumante)
smokers = df[df['smoker'] == 'Yes']
non_smokers = df[df['smoker'] == 'No']

In [15]:
# Calculando o tamanho da amostra para cada estrato
test_size_smokers = int(0.3 * len(smokers))
test_size_non_smokers = int(0.3 * len(non_smokers))

In [16]:
# Embaralhando os dados de cada estrato
shuffled_indices_smokers = np.random.permutation(len(smokers))
shuffled_indices_non_smokers = np.random.permutation(len(non_smokers))

In [17]:
# Separando os índices de treino e teste para cada estrato
test_indices_smokers = shuffled_indices_smokers[:test_size_smokers]
train_indices_smokers = shuffled_indices_smokers[test_size_smokers:]

test_indices_non_smokers = shuffled_indices_non_smokers[:test_size_non_smokers]
train_indices_non_smokers = shuffled_indices_non_smokers[test_size_non_smokers:]

In [18]:
test_indices_non_smokers

array([132,  69, 105, 128, 120,  63,  18,  74, 137,  92,  82,   6,   8,
        66, 136, 140,  41, 118,  12,  21,  93, 131,  79,  19,  94,  30,
        51,  35, 119,  75,  28,  60,  57, 130,  39,  23,  98,  42, 139,
       103, 102, 111,  99, 129,  90])

In [21]:
train_smokers = df.iloc[train_indices_smokers]
test_smokers = df.iloc[test_indices_smokers]

In [22]:
train_smokers

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
19,20.65,3.35,Male,No,Sat,Dinner,3
61,13.81,2.00,Male,Yes,Sat,Dinner,2
29,19.65,3.00,Female,No,Sat,Dinner,2
90,28.97,3.00,Male,Yes,Fri,Dinner,2
69,15.01,2.09,Male,Yes,Sat,Dinner,2
...,...,...,...,...,...,...,...
51,10.29,2.60,Female,No,Sun,Dinner,2
77,27.20,4.00,Male,No,Thur,Lunch,4
27,12.69,2.00,Male,No,Sat,Dinner,2
70,12.02,1.97,Male,No,Sat,Dinner,2


## 3. Amostragem Sistemática
Na amostragem sistemática, a seleção de amostras ocorre em intervalos regulares após escolher um ponto inicial aleatório. Essa técnica é útil quando os dados estão ordenados aleatoriamente.

Exemplo: Implementando Amostragem Sistemática
Neste exemplo, vamos selecionar uma amostra sistemática, onde escolhemos um ponto inicial aleatório e pegamos uma observação a cada k elementos.

In [23]:
# Função para realizar amostragem sistemática
def systematic_sampling(df, sample_size):
    step = len(df) // sample_size  # Calculando o intervalo (k)
    start = np.random.randint(0, step)  # Escolhendo um ponto inicial aleatório
    indices = np.arange(start, len(df), step)  # Selecionando a cada k elementos
    return df.iloc[indices]

In [24]:
# Selecionando 30% de amostra sistemática
sample_size = int(len(df) * 0.3)
systematic_sample = systematic_sampling(df, sample_size)

In [25]:
# Exibindo o tamanho da amostra sistemática e as primeiras linhas
print(f"Tamanho da amostra sistemática: {len(systematic_sample)}")
print(systematic_sample.head())

Tamanho da amostra sistemática: 82
    total_bill   tip     sex smoker  day    time  size
0        16.99  1.01  Female     No  Sun  Dinner     2
3        23.68  3.31    Male     No  Sun  Dinner     2
6         8.77  2.00    Male     No  Sun  Dinner     2
9        14.78  3.23    Male     No  Sun  Dinner     2
12       15.42  1.57    Male     No  Sun  Dinner     2
