In [None]:
import numpy as np 
import pandas as pd 
from sklearn.model_selection import train_test_split 

random_state = 42
np.random.seed(random_state) # para reproducibilidad

# ¿Qué es Sampling?

**Sampling**: Técnica estadística que consiste en seleccionar y analizar un subconjunto representativo de un conjunto de datos mayor para identificar patrones y tendencias. 

**Enfoques principales**: *sampling probabilístico* y *sampling no probabilístico*. Entre los métodos de sampling probabilístico estan: simple random sampling, stratified sampling y systemic sampling

In [None]:
# Creación de un DataFrame de ejemplo (datos sintéticos)
size = 200
data = pd.DataFrame({
  'age': np.random.randint(18, 70, size=size),
  'money': np.random.normal(50000, 15000, size).astype(int),
  'group': np.random.choice(['A', 'B', 'C'], size=size, p=[0.5, 0.3, 0.2]),
  'target': np.random.choice([0, 1], size=size)
})
display(data.head(10))
display(data.describe())

**Simple Random Sampling**: Se utiliza software para seleccionar aleatoriamente sujetos de toda la población

In [None]:
simple_sample = data.sample(frac=0.2, random_state=random_state)
display(simple_sample.head(10))
display(simple_sample.describe())

**Stratified Sampling**: Se crean subconjuntos de los conjuntos de datos o de una población basándose en un factor común, y las muestras se recopilan aleatoriamente de cada subgrupo

In [None]:
strat_train, strat_test = train_test_split(
  data, 
  test_size=0.2,
  stratify=data['group'], 
  random_state=random_state
)
print(f"Stratified Sampling (Conjunto de Prueba): {len(strat_test)} datos")

print()
print("Proporción en muestra estratificada:")
print(strat_test['group'].value_counts(normalize=True).sort_index())

print()
print("Proporción en población original:")
print(data['group'].value_counts(normalize=True).sort_index())


**Systemic Sampling**: Se crea una muestra estableciendo un intervalo para extraer datos de la población más grande

In [None]:
def systemic_sampling(df, step):
  "Selecciona cada n-ésimo elemento del DataFrame"
  idx = np.arange(0, len(df), step)
  return df.iloc[idx].copy()

sample = systemic_sampling(data, step=30)
display(sample)