# Mengatasi Missing Values

In [None]:
# Contoh Data Cleaning dengan Python
import pandas as pd
import numpy as np
# Membuat dataframe contoh
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Eve', np.nan],
'Age': [25, 30, 35, 25, np.nan, 50],
'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami', 'Los Angeles']
}
df = pd.DataFrame(data)
# Menampilkan data awal
print("Data Awal:")
print(df)
# Menghapus duplikat
df = df.drop_duplicates()
# Menangani missing values dengan mengisi nilai median untuk kolom numerik
df['Age'] = df['Age'].fillna(df['Age'].median())
# Menghapus baris yang mengandung missing values di kolom 'Name'
df = df.dropna(subset=['Name'])
# Menampilkan data setelah cleaning
print("\nData Setelah Cleaning:")
df

Data Awal:
      Name   Age         City
0    Alice  25.0     New York
1      Bob  30.0  Los Angeles
2  Charlie  35.0      Chicago
3    Alice  25.0     New York
4      Eve   NaN        Miami
5      NaN  50.0  Los Angeles

Data Setelah Cleaning:


Unnamed: 0,Name,Age,City
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
2,Charlie,35.0,Chicago
4,Eve,32.5,Miami


In [16]:
import pandas as pd

df = pd.read_csv('data.csv')
print(df.isnull().sum())


Name    1
Age     1
City    0
dtype: int64


In [18]:
# Mengisi Missing Values
df['Age'].fillna(df['Age'].mean())
# Mean
df['Age'].fillna(df['Age'].median(), inplace=True)
#Median
df['Age'].fillna(df['Age'].mode()[0], inplace=True)
# Mode

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mode()[0], inplace=True)


In [19]:
# Forward/Backward Fill
df['Age'].fillna(method='ffill', inplace=True)  # Forward fill
df['Age'].fillna(method='bfill', inplace=True)  # Backward fill

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(method='ffill', inplace=True)  # Forward fill
  df['Age'].fillna(method='ffill', inplace=True)  # Forward fill
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(method='bfill', inplace=True)  # Backward fill
  df['Age'].fillna(method='bfill', inpla

In [20]:
df['Age'].fillna(method='bfill', inplace=True)  # Backward fill

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(method='bfill', inplace=True)  # Backward fill
  df['Age'].fillna(method='bfill', inplace=True)  # Backward fill


In [23]:
# Dropping Missing Values
df.dropna(subset=['Age'], inplace=True)

# Menghapus Duplikat

In [24]:
# Identifikasi duplikat
print(df.duplicated().sum())
# Menghapus duplikat
df.drop_duplicates(inplace=True)

1


# Menangani Outliers

Outliers adalah data yang menyimpang secara signifikan dari sebagian besar data
dalam dataset. Mereka dapat berada jauh dari nilai rata-rata atau median dan mungkin
menunjukkan adanya variasi atau kesalahan dalam data. Outliers dapat disebabkan
oleh berbagai faktor, seperti kesalahan pengukuran, kesalahan pencatatan, atau
kejadian yang jarang terjadi tetapi sah. Mengapa Outliers Penting?
1. Pengaruh pada Statistik Deskriptif: Outliers dapat secara signifikan
mempengaruhi statistik seperti mean (rata-rata) dan standard deviation
(simpangan baku). Mereka dapat menyebabkan hasil statistik yang
menyesatkan.
2.   
Pengaruh pada Model Machine Learning: Dalam machine learning, outliers
dapat mempengaruhi kinerja model. Misalnya, model regresi linier dapat
condong atau menjadi tidak akurat jika terdapat outliers.

3. Indikasi Masalah atau Informasi Berharga: Outliers kadang-kadang dapat
menunjukkan kesalahan dalam data, tetapi mereka juga bisa memberikan
wawasan berharga tentang fenomena langka atau penting.

Penanganan Outliers

1.   Menghapus Outliers: Jika outliers disebabkan oleh kesalahan pengukuran atau
data yang tidak relevan, mereka dapat dihapus dari dataset.

2. Transformasi Data: Menggunakan teknik seperti log transformation untuk
mengurangi dampak outliers.

3.   Model yang Tahan Outliers: Menggunakan model machine learning yang lebih
tahan terhadap outliers, seperti tree-based methods.

In [27]:
# Langkah 1: Membuat DataFrame
import pandas as pd
import numpy as np

data = {
'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Eve', np.nan],
'Age': [25, 30, 35, 25, np.nan, 50],
'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami', 'Los Angeles']
}
df = pd.DataFrame(data)

# Langkah 2: Identifikasi Outliers
# Outliers dapat diidentifikasi menggunakan berbagai metode, salah satu yang umum adalah menggunakan Z-score atau IQR (Interquartile Range).
# Di sini, kita akan menggunakan IQR untuk mendeteksi outliers.
# Menghitung IQR
Q1 = df['Age'].quantile(0.25)
Q3 = df['Age'].quantile(0.75)
IQR = Q3 - Q1

# Menentukan batas bawah dan atas untuk outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Menandai outliers
outliers = df[(df['Age'] < lower_bound) | (df['Age'] > upper_bound)]
print("Outliers:\n", outliers)

# Langkah 3: Menangani Outliers
# # Menghapus outliers
df_no_outliers = df[(df['Age'] >= lower_bound) & (df['Age'] <= upper_bound)]

# Mengganti outliers dengan nilai median
median_age = df['Age'].median()
df['Age'] = np.where((df['Age'] < lower_bound) | (df['Age'] > upper_bound),
median_age, df['Age'])

# Mengisi missing values dengan median
df['Age'].fillna(df['Age'].median(), inplace=True)
df['Name'].fillna('Unknown', inplace=True)

Outliers:
 Empty DataFrame
Columns: [Name, Age, City]
Index: []


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Name'].fillna('Unknown', inplace=True)


# Mengubah Data Kategorikal ke Numerik

Mengubah data kategorikal ke numerik dalam analisis data dan pemodelan
machine learning sangat penting karena sebagian besar algoritma machine learning
membutuhkan input numerik untuk melakukan perhitungan. Ada beberapa alasan
utama mengapa transformasi ini diperlukan:

1.   Kompatibilitas dengan Algoritma: Banyak algoritma machine learning, seperti
regresi linier, regresi logistik, dan algoritma berbasis jarak seperti KNN, tidak
dapat beroperasi dengan data kategorikal. Mereka membutuhkan data
numerik untuk menghitung jarak, koefisien, dan parameter lainnya.

2. Kinerja  dan  Akurasi  Model:  Mengubah  data  kategorikal  menjadi  format
numerik memungkinkan model untuk lebih efektif mengenali pola dalam data.
Representasi numerik dapat membantu dalam memanfaatkan informasi yang
terkandung dalam variabel kategorikal, yang dapat meningkatkan kinerja dan
akurasi model.

3. Skalabilitas dan Efisiensi: Algoritma yang bekerja dengan data numerik sering
kali lebih efisien dan skalabel dibandingkan dengan yang harus bekerja dengan
data kategorikal. Data numerik memungkinkan operasi matematika dan
statistik yang lebih cepat dan lebih mudah diterapkan.

4. Persyaratan Prapemrosesan: Beberapa langkah prapemrosesan data, seperti
normalisasi atau standardisasi, memerlukan data dalam bentuk numerik. Ini
penting untuk memastikan bahwa semua fitur dalam dataset berada pada skala
yang sama, yang bisa mempengaruhi hasil dari algoritma ML.

In [29]:
# Contoh: misalnya, kita memiliki dataset dengan kolom "City" yang berisi data kategorikal:
import pandas as pd
data = {'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami']}
df = pd.DataFrame(data)
# One-Hot Encoding
df_one_hot = pd.get_dummies(df, columns=['City'])
print(df_one_hot)

   City_Chicago  City_Los Angeles  City_Miami  City_New York
0         False             False       False           True
1         False              True       False          False
2          True             False       False          False
3         False             False       False           True
4         False             False        True          False


# Menangani Data Tidak Valid

Menangani data tidak valid adalah proses penting untuk memastikan integritas
dan kualitas dataset. Data tidak valid dapat mengganggu analisis dan menghasilkan
model yang tidak akurat. Berikut adalah langkah-langkah yang bisa diambil untuk
menangani data tidak valid:
Identifikasi Data Tidak Valid
1.   Pemeriksaan  Kesalahan:  Identifikasi  kesalahan  ketik  atau  entri  yang  tidak
sesuai format yang diharapkan.
2.   Pemeriksaan Batas Nilai: Pastikan nilai numerik berada dalam rentang yang
wajar.
3.   Pemeriksaan Konsistensi: Pastikan konsistensi antar kolom, misalnya tanggal
mulai tidak boleh setelah tanggal berakhir.
4.   Deteksi Anomali: Gunakan metode statistik atau algoritma untuk mendeteksi
anomali dalam data.

In [33]:
# Penaganan Data Tidak Valid

import pandas as pd
import numpy as np

data = {
'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Eve', np.nan],
'Age': [25, 30, 35, 25, np.nan, 50],
'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami', 'Los Angeles']
}
df = pd.DataFrame(data)

# Menghapus Data Tidak Valid: Jika jumlah data tidak valid kecil dan tidak signifikan, menghapusnya bisa menjadi solusi yang cepat dan mudah.
df = df.dropna(subset=['Age', 'Name']) # Menghapus baris dengan nilai 'Age' atau 'Name' yang tidak valid
# Mengganti dengan Nilai Lain:

# Mengisi dengan Rata-rata/Median: Mengisi nilai yang hilang atau tidak valid dengan rata-rata atau median.
df['Age'] = df['Age'].fillna(df['Age'].median())

# Mengisi dengan Nilai Default: Mengisi dengan nilai default yang logis atau sesuai konteks.
df['Name'] = df['Name'].fillna('Unknown')

# Pembersihan dengan Logika Bisnis: Menggunakan aturan bisnis untuk memperbaiki data. Misalnya, jika usia tidak masuk akal (misalnya lebih dari 120 tahun), maka ubah atau hapus.
df = df[(df['Age'] >= 0) & (df['Age'] <= 120)]

In [34]:
#  Contoh Menangani Data Tidak Valid

import pandas as pd
import numpy as np

data = {
'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Eve', np.nan],
'Age': [25, 30, 35, 25, np.nan, 150],  # 150 dianggap sebagai nilai tidak valid
'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami', 'Los Angeles']
}
df = pd.DataFrame(data)

# Identifikasi nilai tidak valid
print("Data Awal:")
print(df)

# Mengubah nilai 'Age' yang tidak valid menjadi NaN
df['Age'] = pd.to_numeric(df['Age'], errors='coerce')

# Mengisi nilai 'Age' yang hilang atau tidak valid dengan median
df['Age'] = df['Age'].fillna(df['Age'].median())

# Mengisi nilai 'Name' yang hilang dengan 'Unknown'
df['Name'] = df['Name'].fillna('Unknown')

print("\nData Setelah Menangani Nilai Tidak Valid:")
print(df)


Data Awal:
      Name    Age         City
0    Alice   25.0     New York
1      Bob   30.0  Los Angeles
2  Charlie   35.0      Chicago
3    Alice   25.0     New York
4      Eve    NaN        Miami
5      NaN  150.0  Los Angeles

Data Setelah Menangani Nilai Tidak Valid:
      Name    Age         City
0    Alice   25.0     New York
1      Bob   30.0  Los Angeles
2  Charlie   35.0      Chicago
3    Alice   25.0     New York
4      Eve   30.0        Miami
5  Unknown  150.0  Los Angeles


Dalam contoh ini, nilai usia yang tidak valid (150) diubah menjadi nilai median,
dan nama yang hilang diisi dengan 'Unknown'. Langkah-langkah ini membantu
memastikan bahwa data yang digunakan untuk analisis dan pemodelan lebih bersih
dan dapat diandalkan.

# Data Normalization

Data normalization adalah proses mengubah skala fitur dalam dataset sehingga
mereka berada dalam rentang yang sama atau memiliki distribusi yang serupa.
Normalisasi data penting untuk meningkatkan kinerja algoritma machine learning,
terutama yang sensitif terhadap skala data seperti k-NN, regresi linier, dan neural
networks. Mengapa Data Normalization Penting?

1. Konsistensi Skala: Algoritma berbasis jarak seperti k-NN dan K-Means clustering
sangat bergantung pada jarak antar titik data. Normalisasi memastikan bahwa
semua fitur berkontribusi secara proporsional terhadap jarak tersebut.

2.   Stabilitas Numerik: Model seperti regresi linier dan neural networks dapat
mengalami masalah stabilitas numerik jika fitur memiliki skala yang sangat
berbeda. Normalisasi membantu menghindari masalah ini dengan menjaga
nilai fitur dalam rentang yang seragam.
3. Kecepatan  Konvergensi:  Normalisasi  dapat  meningkatkan  kecepatan
konvergensi algoritma pembelajaran seperti gradient descent dengan
menghindari jalan yang curam di sepanjang satu dimensi dan datar di dimensi
lainnya.

Metode Normalisasi Data

1.   Min-Max  Scaling:  Mengubah  data  sehingga  berada  dalam  rentang  tertentu,
biasanya [0, 1].
2.   Z-Score Normalization (Standardization): Mengubah data sehingga memiliki rata-
rata 0 dan standar deviasi 1.

di mana µµ adalah rata-rata dan σσ adalah standar deviasi.

3.   Robust  Scaler:  Menggunakan  median  dan  IQR  (Interquartile  Range)  untuk
mengurangi pengaruh outliers.

In [35]:
# Contoh Normalisasi dengan Python
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Contoh dataset
data = {
'Age': [25, 30, 35, 40, 45],
'Salary': [50000, 60000, 70000, 80000, 90000]
}
df = pd.DataFrame(data)

# Min-Max Scaling
min_max_scaler = MinMaxScaler()
df_min_max_scaled = pd.DataFrame(min_max_scaler.fit_transform(df),
columns=df.columns)

# Z-Score Normalization
standard_scaler = StandardScaler()
df_standard_scaled = pd.DataFrame(standard_scaler.fit_transform(df),
columns=df.columns)

print("Data Asli:")
print(df)


print("\nMin-Max Scaled Data:")
print(df_min_max_scaled)

print("\nStandardized Data:")
print(df_standard_scaled)

Data Asli:
   Age  Salary
0   25   50000
1   30   60000
2   35   70000
3   40   80000
4   45   90000

Min-Max Scaled Data:
    Age  Salary
0  0.00    0.00
1  0.25    0.25
2  0.50    0.50
3  0.75    0.75
4  1.00    1.00

Standardized Data:
        Age    Salary
0 -1.414214 -1.414214
1 -0.707107 -0.707107
2  0.000000  0.000000
3  0.707107  0.707107
4  1.414214  1.414214


Dalam contoh ini, kita melihat bagaimana fitur Age dan Salary diubah
menggunakan Min-Max Scaling dan Z-Score Normalization. Setelah normalisasi, data
berada dalam rentang yang lebih seragam, yang membantu meningkatkan kinerja
model machine learning.

# 5.3 Validasi Model

Validasi model adalah proses evaluasi model machine learning untuk memastikan
bahwa model tersebut bekerja dengan baik dan dapat diandalkan ketika diaplikasikan
pada data baru. Tujuan utama validasi model adalah untuk mengukur kinerja model,
mencegah overfitting, dan memastikan generalisasi model. Berikut adalah penjelasan
lebih lanjut tentang tujuan dan teknik validasi model. Tujuan Validasi Model:

1. Mengukur Kinerja Model: Validasi model membantu mengukur seberapa baik
model bekerja dalam hal akurasi, presisi, recall, F1-score, dan metrik lainnya.

2. Mencegah Overfitting: Overfitting terjadi ketika model terlalu menyesuaikan
diri dengan data pelatihan dan gagal menggeneralisasi pada data baru. Validasi
model membantu mengidentifikasi dan mengurangi overfitting.

3. Memastikan Generalisasi: Validasi memastikan bahwa model dapat bekerja
dengan baik pada data yang tidak terlihat sebelumnya, yang sangat penting
untuk aplikasi dunia nyata.

4. Pemilihan Model: Membantu dalam pemilihan model terbaik dari beberapa
model atau konfigurasi berdasarkan kinerja pada set validasi.

5. Hyperparameter Tuning: Membantu dalam menyetel hyperparameter model
untuk mendapatkan kinerja terbaik.

Teknik Validasi Model
1.   Holdout Validation: Dataset dibagi menjadi dua subset: satu untuk pelatihan
(training set) dan satu lagi untuk pengujian (test set). Contoh: 70% data untuk
pelatihan dan 30% data untuk pengujian. Kelemahan: Hasil bisa sangat
bergantung pada cara data dibagi.

2. K-Fold Cross-Validation: Dataset dibagi menjadi k subset (folds). Model dilatih
k kali, setiap kali menggunakan k-1 folds untuk pelatihan dan 1 fold untuk
pengujian. Contoh: 5-Fold Cross-Validation. Keuntungan: Lebih akurat dan
stabil karena menggunakan seluruh dataset untuk pelatihan dan pengujian.

3.  Stratified K-Fold Cross-Validation: Mirip dengan K-Fold, tetapi memastikan
bahwa setiap fold memiliki proporsi yang sama dari kelas target, menjaga
distribusi kelas yang konsisten di seluruh fold. Keuntungan: Berguna untuk
dataset yang tidak seimbang.

4. Leave-One-Out  Cross-Validation  (LOOCV):  Setiap  contoh  data  digunakan
sekali sebagai set pengujian sementara sisanya digunakan sebagai set pelatihan.
Keuntungan: Menggunakan semua data yang tersedia untuk pelatihan.
Kelemahan: Sangat memakan waktu dan komputasi untuk dataset besar.

5. Time  Series  Cross-Validation:  Digunakan  untuk  data  urutan  waktu.  Data
dibagi berdasarkan urutan waktu, memastikan bahwa model hanya dilatih
pada data dari masa lalu dan diuji pada data dari masa depan. Keuntungan:
Menghormati urutan temporal dan cocok untuk data deret waktu.

Contoh Implementasi K-Fold Cross-Validation di Python
Berikut   adalah   contoh   bagaimana   mengimplementasikan   K-Fold   Cross-
Validation menggunakan scikit-learn di Python:







In [36]:
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression
import numpy as np
# Contoh dataset
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([2, 3, 4, 5, 6])
# Model
model = LinearRegression()
# K-Fold Cross-Validation
kf = KFold(n_splits=5)
scores = cross_val_score(model, X, y, cv=kf)

print("K-Fold Cross-Validation Scores:", scores)
print("Mean Score:", np.mean(scores))

K-Fold Cross-Validation Scores: [nan nan nan nan nan]
Mean Score: nan


