## MENENTUKAN OBJEK ATAU MEMILIH DATA

### Menentukan Sumber Data
Sumber data merupakan tempat atau lokasi sebuah data disimpan dan atau diakses untuk dapat dilakukan analisis serta penggunaan lainnya. Pemilihan sumber data harus mempertimbangkan sebuah kendala, akurasi, ketersediaan, serta relvansi data dengan tujuan analisis atau model dari machine learning yang akan digunakan atau di bangun.

### Menelaah Susunan Data
Melakukan pemeriksaan struktur data untuk memahami bagaimana data diorganisir.
Melihat dimensi data, jumlah atribut/kolom, dan jumlah sampel/baris.
Menilai apakah data terstruktur (misalnya, data tabel) atau tidak terstruktur (misalnya, data teks atau gambar).
### Menentukan Tipe dan Model Data yang dimiliki
Identifikasi tipe data untuk setiap atribut (numerik, kategorikal, teks, tanggal, dll.).
Penentuan model data yang sesuai untuk analisis atau model machine learning berdasarkan tipe data.
Pemahaman tentang apakah data bersifat kontinu, diskret, ordinal, atau nominal.
### Mengambil Data
Proses pengambilan data dari sumber data ke lingkungan analisis atau pengembangan model machine learning.
Menggunakan berbagai metode seperti mengimpor file data (misalnya CSV, Excel), mengakses database, atau menggunakan API untuk mengambil data dari sumber online.
### Menelaah Data dalam Machine Learning
Melakukan eksplorasi data (data exploration) untuk memahami karakteristik data secara lebih mendalam.
Visualisasi data dengan grafik atau plot untuk memahami pola, distribusi, dan korelasi antara atribut.
Identifikasi missing value, outlier, dan data yang tidak konsisten untuk diatasi sebelum analisis atau pemodelan.
### Sampling Data
Sampling adalah teknik utama yang digunakan untuk reduksi data. Sampling data adalah proses pengambilan sebagian kecil dari suatu populasi untuk mewakili seluruh populasi dengan tujuan mengambil kesimpulan atau membuat estimasi. Sampling sering digunakan untuk investigasi awal data dan analisis data akhir.
- **Tujuan Sampling Data**<br>
    - Mendapatkan data yang relevan dengan penelitian.
    - Dapat memberikan estimasi yang akurat jika dilakukan dengan benar.
    - Dijadikan acuan untuk mengambil kesimpulan, saran, dan keputusan setelah penelitian dilakukan.
- **Keuntungan Sampling Data**<br>
    - Dapat menghemat waktu, biaya, dan sumber daya dengan tidak mengumpulkan data dari seluruh populasi.
    - Hasil pemeriksaan sampel sangat obyektif dan dapat dipertahankan (objective and defensible).
    - Memungkinkan untuk memperkirakan besarnya kesalahan sampling (sampling error).
    - Sesuai digunakan saat mengambil kesimpulan tentang data dalam jumlah yang banyak.
    - Dapat menentukan banyaknya elemen sampel (sample size) sebelum pemeriksaan dilakukan.
5.6.3 Metode Sampling
1. Random Sampling
   - Setiap anggota populasi memiliki kesempatan yang sama untuk dipilih.
   - Keuntungan : menghasilkan sampel yang representatif jika dilakukan dengan benar, meminimalisir bias, dan bisa mengetahui standar error dari penelitian.
   - Kekurangan : sampel yang diambil kemungkinan tidak mewakili populasi yang ditentukan.



In [1]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

    # Load dataset Iris
iris = load_iris()
X = iris.data
y = iris.target

    # Buat DataFrame
df = pd.DataFrame(data=X, columns=[f'feature_{i}' for i in range(X.shape[1])])
df['target'] = y

    # Tampilan DataFrame asli
print("DataFrame Asli:")
print(df.head(10))

    # Random Sampling
sampled_df = df.sample(n=50, random_state=1)  # Ambil 50 sampel secara acak
print("\nDataFrame Setelah Random Sampling:")
print(sampled_df.head(10))

DataFrame Asli:
   feature_0  feature_1  feature_2  feature_3  target
0        5.1        3.5        1.4        0.2       0
1        4.9        3.0        1.4        0.2       0
2        4.7        3.2        1.3        0.2       0
3        4.6        3.1        1.5        0.2       0
4        5.0        3.6        1.4        0.2       0
5        5.4        3.9        1.7        0.4       0
6        4.6        3.4        1.4        0.3       0
7        5.0        3.4        1.5        0.2       0
8        4.4        2.9        1.4        0.2       0
9        4.9        3.1        1.5        0.1       0

DataFrame Setelah Random Sampling:
     feature_0  feature_1  feature_2  feature_3  target
14         5.8        4.0        1.2        0.2       0
98         5.1        2.5        3.0        1.1       1
75         6.6        3.0        4.4        1.4       1
16         5.4        3.9        1.3        0.4       0
131        7.9        3.8        6.4        2.0       2
56         6.3    

2. Stratified Sampling
   - Teknik pengambilan sampel jenis ini dilakukan dengan membagi populasi ke dalam tingkatan atau strata tertentu yakni tinggi, sedang, dan rendah. Kemudian diambil sampel tiap tingkatan tersebut.
   - Memastikan setiap kelompok diwakili dalam sampel.

In [3]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

    # Load dataset Iris
iris = load_iris()
X = iris.data
y = iris.target

    # Buat DataFrame
df = pd.DataFrame(data=X, columns=[f'feature_{i}' for i in range(X.shape[1])])
df['target'] = y

    # Tampilan DataFrame asli
print("DataFrame Asli:")
print(df.head(10))

    # Stratified Sampling berdasarkan variabel 'target' 
stratified_sample = df.groupby('target', group_keys=False).apply(lambda x: x.sample(2, random_state=1))
print("\nDataFrame Setelah Stratified Sampling:")
print(stratified_sample)

DataFrame Asli:
   feature_0  feature_1  feature_2  feature_3  target
0        5.1        3.5        1.4        0.2       0
1        4.9        3.0        1.4        0.2       0
2        4.7        3.2        1.3        0.2       0
3        4.6        3.1        1.5        0.2       0
4        5.0        3.6        1.4        0.2       0
5        5.4        3.9        1.7        0.4       0
6        4.6        3.4        1.4        0.3       0
7        5.0        3.4        1.5        0.2       0
8        4.4        2.9        1.4        0.2       0
9        4.9        3.1        1.5        0.1       0

DataFrame Setelah Stratified Sampling:
     feature_0  feature_1  feature_2  feature_3  target
27         5.2        3.5        1.5        0.2       0
35         5.0        3.2        1.2        0.2       0
77         6.7        3.0        5.0        1.7       1
85         6.0        3.4        4.5        1.6       1
127        6.1        3.0        4.9        1.8       2
135        7.7

  stratified_sample = df.groupby('target', group_keys=False).apply(lambda x: x.sample(2, random_state=1))


### 5.7 Seleksi Fitur
Seleksi fitur adalah proses memilih subset fitur dari sekumpulan fitur yang ada dalam data, dengan tujuan meningkatkan kinerja model dan mengurangi kompleksitas.

### 5.7.1 Tujuan Seleksi Fitur
- Meningkatkan Kinerja Model :
  - Memilih fitur yang paling informatif untuk meningkatkan akurasi dan generalisasi model.
- Mengurangi Overfitting :
  - Menghindari penggunaan fitur yang redundant atau tidak relevan untuk mengurangi risiko overfitting.
- Efisiensi Komputasi :
  - Mengurangi dimensi data untuk meningkatkan efisiensi komputasi, terutama pada dataset yang besar.

### 5.7.2 Metode Seleksi Fitur
- Filter Methods Metode ini menggunakan metrik statistik untuk menilai korelasi antara fitur dan target. Contoh: Pengujian ANOVA, Korelasi Pearson.
- Wrapper Methods Dengan mengevaluasi kinerja model dengan subset fitur tertentu. Contoh: Recursive Feature Elimination (RFE), Forward Selection.
- Embedded Methods Menyeleksi fitur terintegrasi dengan proses pembuatan model. Contoh: Regresi Lasso, Pemilihan Fitur berbasis Pohon (Tree-based Feature Selection).

### 5.7.3 Teknik Seleksi Fitur
- Analisis Korelasi, memahami hubungan antara fitur dan target untuk mengidentifikasi fitur yang paling relevan.
- Keterkaitan dengan Bisnis/Tujuan, menyesuaikan seleksi fitur dengan tujuan bisnis atau analisis spesifik.
- Validasi Silang (Cross-Validation), mengevaluasi kinerja seleksi fitur melalui teknik validasi silang untuk memastikan generalisasi yang baik.

In [4]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif

    # Load dataset contoh
iris = load_iris()
X = iris.data
y = iris.target

# Buat DataFrame
df = pd.DataFrame(data=X, columns=[f'feature_{i}' for i in range(X.shape[1])])
df['target'] = y

    # Tampilan DataFrame asli
print("DataFrame Asli:")
print(df.head(10))

    # Seleksi Fitur dengan ANOVA (f_classif)
k_best = SelectKBest(score_func=f_classif, k=2)  # Pilih 2 fitur terbaik
X_selected = k_best.fit_transform(X, y)

    # Tampilan DataFrame setelah seleksi fitur
selected_df = pd.DataFrame(data=X_selected, columns=['selected_feature_1', 'selected_feature_2'])
selected_df['target'] = y
print("\nDataFrame Setelah Seleksi Fitur:")
print(selected_df.head(10))

DataFrame Asli:
   feature_0  feature_1  feature_2  feature_3  target
0        5.1        3.5        1.4        0.2       0
1        4.9        3.0        1.4        0.2       0
2        4.7        3.2        1.3        0.2       0
3        4.6        3.1        1.5        0.2       0
4        5.0        3.6        1.4        0.2       0
5        5.4        3.9        1.7        0.4       0
6        4.6        3.4        1.4        0.3       0
7        5.0        3.4        1.5        0.2       0
8        4.4        2.9        1.4        0.2       0
9        4.9        3.1        1.5        0.1       0

DataFrame Setelah Seleksi Fitur:
   selected_feature_1  selected_feature_2  target
0                 1.4                 0.2       0
1                 1.4                 0.2       0
2                 1.3                 0.2       0
3                 1.5                 0.2       0
4                 1.4                 0.2       0
5                 1.7                 0.4       0
6     

### 5.8 Train Test Split
- Membagi data menjadi subset pelatihan dan pengujian.
- Umumnya digunakan untuk mengevaluasi kinerja model.

In [5]:
# Train-Test Split (80% train, 20% test)
train_df, test_df = train_test_split(df, test_size=0.2, random_state=1)
print("\nDataFrame Train Setelah Train-Test Split:")
print(train_df.head(10))
print("\nDataFrame Test Setelah Train-Test Split:")
print(test_df.head(10))


DataFrame Train Setelah Train-Test Split:
     feature_0  feature_1  feature_2  feature_3  target
91         6.1        3.0        4.6        1.4       1
135        7.7        3.0        6.1        2.3       2
69         5.6        2.5        3.9        1.1       1
128        6.4        2.8        5.6        2.1       2
114        5.8        2.8        5.1        2.4       2
48         5.3        3.7        1.5        0.2       0
53         5.5        2.3        4.0        1.3       1
28         5.2        3.4        1.4        0.2       0
54         6.5        2.8        4.6        1.5       1
108        6.7        2.5        5.8        1.8       2

DataFrame Test Setelah Train-Test Split:
     feature_0  feature_1  feature_2  feature_3  target
14         5.8        4.0        1.2        0.2       0
98         5.1        2.5        3.0        1.1       1
75         6.6        3.0        4.4        1.4       1
16         5.4        3.9        1.3        0.4       0
131        7.9     