# Melakukan random sampling pada Data Frame

# Import Modules

In [1]:
import pandas as pd

print("Pandas Version:", pd.__version__)

Pandas Version: 2.2.3


## Persiapan Data Frame

In [3]:
d = {'col_1': [1, 2, 3, 4, 5],
     'col_2': [10, 20, 30, 40, 50]}
df = pd.DataFrame(d)

df

Unnamed: 0,col_1,col_2
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


## Random sampling with/without replacement

In [4]:
df.sample(n=4, replace=False, random_state=0)

Unnamed: 0,col_1,col_2
2,3,30
0,1,10
1,2,20
3,4,40


In [5]:
df.sample(n=4, replace=True, random_state=0)

Unnamed: 0,col_1,col_2
4,5,50
0,1,10
3,4,40
3,4,40


## 📋 Penjelasan Random Sampling

### 🎯 **Apa itu Random Sampling?**
Random sampling adalah teknik untuk mengambil subset data secara acak dari DataFrame. Ini sangat berguna untuk:
- **Data exploration** - Melihat contoh data tanpa memuat semua
- **Testing** - Membuat dataset kecil untuk testing algoritma
- **Machine Learning** - Membuat training/validation sets
- **Performance** - Mengurangi beban komputasi pada dataset besar

### 🔧 **Parameter `df.sample()`:**

| Parameter | Deskripsi | Default | Contoh |
|-----------|-----------|---------|---------|
| `n` | Jumlah baris yang diambil | None | `n=5` |
| `frac` | Proporsi data (0.0-1.0) | None | `frac=0.1` (10%) |
| `replace` | Boleh duplikasi atau tidak | False | `replace=True` |
| `random_state` | Seed untuk reprodusibilitas | None | `random_state=42` |
| `axis` | Sampling baris (0) atau kolom (1) | 0 | `axis=1` |

### 🔄 **Perbedaan `replace=True` vs `replace=False`:**

**`replace=False` (Without Replacement)**
- Setiap baris hanya bisa dipilih **sekali**
- Tidak ada duplikasi dalam hasil
- Maksimal bisa sample sebanyak jumlah baris asli
- Default behavior

**`replace=True` (With Replacement)**
- Baris yang sama bisa dipilih **berulang kali**
- Bisa ada duplikasi dalam hasil
- Bisa sample lebih banyak dari jumlah baris asli
- Berguna untuk bootstrap sampling

### 🎲 **Parameter `random_state`:**
- Mengontrol **seed** untuk random number generator
- Dengan `random_state` yang sama → hasil **selalu sama**
- Tanpa `random_state` → hasil **berbeda setiap run**
- Penting untuk **reprodusibilitas** penelitian dan debugging

### 💡 **Tips Penggunaan:**
1. **Gunakan `frac=0.1`** untuk mengambil 10% data
2. **Gunakan `random_state=0`** untuk hasil yang konsisten
3. **Gunakan `replace=True`** untuk bootstrap sampling
4. **Gunakan `axis=1`** untuk sample kolom (jarang digunakan)

### 🚀 **Contoh Use Cases:**
```python
# Quick peek at large dataset
df.sample(n=100)

# Get 10% of data for testing
df.sample(frac=0.1, random_state=42)

# Bootstrap sampling for statistics
df.sample(n=len(df), replace=True, random_state=123)

# Consistent sampling for debugging
df.sample(n=50, random_state=0)
```