In [None]:
import pandas as pd
import numpy as np

# Criando um dataset fictício
np.random.seed(42)
n = 1000  # Quantidade de clientes

df = pd.DataFrame({
    'ID': range(1, n+1),
    'Idade': np.random.randint(18, 65, n),
    'Renda': np.random.randint(2000, 20000, n),
    'Regiao': np.random.choice(['Norte', 'Sul', 'Leste', 'Oeste'], n)
})

#### Amostragem Aleatória Simples

In [None]:
amostra_simples = df.sample(n=100, random_state=42)

#### Amostragem Sistemática

In [None]:
intervalo = len(df) // 100
amostra_sistematica = df.iloc[::intervalo]

#### Amostragem Estratificada

In [None]:
#  train_test_split retorna dois conjuntos: o primeiro (com 10% dos dados) e o segundo (com 90%).
# amostra_estratificada recebe os 10% que você quer usar como amostra.
# _ (underscore) é uma convenção em Python para indicar que você não vai usar essa variável. Nesse caso, os 90% restantes são descartados, porque não são do seu interesse.

from sklearn.model_selection import train_test_split

amostra_estratificada, _ = train_test_split(df, test_size=0.9, stratify=df[['Regiao']])

#### Amostragem por Conglomerados

In [None]:
clusters = df.groupby('Regiao')
amostra_conglomerados = clusters.get_group('Sul')

#### Amostragem por Conveniencia

In [None]:
amostra_conveniencia = df.head(100)

#### Amostragem por Julgamento

In [None]:
amostra_julgamento = df[(df['Idade'] > 40) & (df['Renda'] > 10000)].sample(n=50)

#### Amostragem Bola de Neve

In [None]:
# Criando uma amostra inicial
amostra_bola_neve = df[df['Regiao'] == 'Norte'].sample(n=10)

#### Amostragem por Cotas

In [None]:
amostra_cotas = df.groupby('Regiao').apply(lambda x: x.sample(n=25)).reset_index(drop=True)

#### Separando uma base de dados para treinamento de modelo de machine learning

In [None]:
from sklearn.model_selection import train_test_split

X = df.drop('Renda', axis=1)
y = df['Renda']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#### Exercícios

In [None]:
import pandas as pd
import numpy as np

np.random.seed(42)
n = 5000  # Quantidade de registros

df = pd.DataFrame({
    'ID_Transacao': range(1, n+1),
    'Valor': np.random.uniform(10, 10000, n),
    'Tipo_Transacao': np.random.choice(['Compra', 'Transferencia', 'Pagamento'], n),
    'Localizacao': np.random.choice(['SP', 'RJ', 'MG', 'RS', 'BA', 'PR'], n),
    'Horario': np.random.choice(['Manha', 'Tarde', 'Noite', 'Madrugada'], n),
    'Fraude': np.random.choice([0, 1], n, p=[0.9, 0.1])
})

##### **Exercícios Práticos de Amostragem**

1. Realizar uma amostragem aleatória simples com 500 registros.

2. Criar uma amostragem sistemática escolhendo cada 10º registro.

3. Dividir a base em estratos por localização e selecionar amostras proporcionais.

4. Selecionar aleatoriamente transações fraudulentas e comparar com transações não fraudulentas.

5. Criar um subconjunto de dados com base em amostragem por julgamento para transações acima de R$5000.

6. Aplicar amostragem por conglomerados dividindo os dados por tipo de transação e sorteando um grupo.

7. Executar uma amostragem por conveniência pegando os 300 primeiros registros.

8. Fazer uma amostragem bola de neve a partir de transações fraudulentas.

9. Criar uma amostragem por cotas considerando o tipo de transação e localização.

10. Comparar os resultados das amostras aleatória e estratificada e explicar as diferenças.