# Pembersihan Data
Pengecekan Outlier

Outlier atau pencilan adalah data yang signifikan berbeda dari sebagian besar data lainnya dalam satu set. Deteksi outlier merupakan langkah kritis dalam analisis data dan statistika, karena outlier dapat memiliki dampak besar pada hasil analisis statistik. Berikut adalah beberapa pendekatan umum untuk deteksi outlier:

# Metode Z-Score

Metode ini mengukur seberapa jauh suatu nilai dari rerata dalam satuan deviasi standar.

Outlier diidentifikasi jika nilai Z-Score melebihi batas tertentu.

In [8]:
from scipy import stats
z_scores = stats.zscore(data)
outliers = (z_scores > 3) | (z_scores < -3)

# IQR (Interquartile Range)

Menggunakan jangkauan antarkuartil (Q3 - Q1) sebagai ukuran sebaran data. Nilai di luar rentang ini dianggap sebagai outlier.

In [None]:
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
outliers = (data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))

# DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Algoritma clustering yang mengidentifikasi kelompok padat data dan mengisolasi noise. Poin yang kurang terhubung dianggap sebagai outlier.

In [None]:
from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=1.0, min_samples=5)
outliers = (dbscan.fit_predict(data) == -1)

# Isolation Forest

Algoritma berbasis pohon yang mengukur seberapa mudah nilai dapat diisolasi dari data lainnya. Skor yang rendah menunjukkan kemungkinan outlier.

In [None]:
from sklearn.ensemble import IsolationForest
isolation_forest = IsolationForest(contamination=0.05)
outliers = isolation_forest.fit_predict(data) == -1

# Penanganan Outlier

Penghapusan Outlier:
Metode ini melibatkan penghapusan nilai-nilai outlier dari dataset. Harus dilakukan dengan hati-hati, karena dapat mengubah statistik deskriptif dan distribusi data.

# Metode Z-Score

In [None]:
z_scores = stats.zscore(data)
data_no_outliers = data[(z_scores < 3) & (z_scores > -3)]

Transformasi Data: Menggunakan transformasi matematika pada data untuk mengurangi dampak outlier. Misalnya, transformasi logaritma dapat membantu meredakan efek outlier pada distribusi data yang mendekati distribusi log-normal.

In [None]:
# Transformasi logaritma pada data
data_transformed = np.log1p(data)

Imputasi Nilai: Menggantikan nilai outlier dengan nilai yang lebih sesuai berdasarkan strategi tertentu (misalnya, median atau mean). Menggunakan nilai yang lebih stabil daripada nilai outlier.

In [None]:
# Imputasi outlier dengan median
median_value = data.median()
data_imputed = np.where(outliers, median_value, data)

Binning Data: Mengelompokkan data menjadi interval atau bin untuk mengurangi dampak outlier. Binning dapat membantu meredakan efek ekstrem dari nilai outlier.

In [None]:
# Binning data untuk mengurangi dampak outlier
data_binned = pd.cut(data, bins=[0, 30, 60, 100], labels=['Low', 'Medium', 'High'])

Penggunaan Model Statistik Robust:Menggunakan model statistik yang lebih tahan terhadap outlier, seperti regresi robust atau metode statistik lain yang tidak terlalu dipengaruhi oleh nilai outlier. from statsmodels.robust.robust_linear_model import RLM

In [None]:
model = RLM(y, X)
results = model.fit()

Menggunakan Metode Deteksi Outlier yang Lebih Toleran: Menggunakan metode deteksi outlier yang lebih toleran, seperti DBSCAN atau Isolation Forest, yang secara intrinsik mampu mengatasi outlier.

Pilihan strategi tergantung pada karakteristik data, tujuan analisis, dan konsekuensi dari tindakan yang diambil. Perlu diingat bahwa menangani outlier adalah keputusan yang penting dan harus dilakukan dengan pertimbangan yang matang.

In [None]:
# Menggunakan DBSCAN untuk deteksi outlier
dbscan = DBSCAN(eps=1.0, min_samples=5)
outliers = (dbscan.fit_predict(data) == -1)
data_no_outliers = data[~outliers]

# Transformasi Data

* Scaling Data: Data scaling (skala data) adalah suatu proses mengubah rentang nilai dari suatu fitur (kolom) dalam dataset sehingga nilai-nilai tersebut memiliki skala yang serupa. Hal ini dilakukan untuk menghindari masalah ketidakseimbangan skala antar fitur, yang dapat mempengaruhi kinerja beberapa algoritma machine learning. Mengapa Data Scaling Penting: 1. Konsistensi Skala: Algoritma machine learning, seperti regresi linear dan k-nearest neighbors, berdasarkan jarak atau perbedaan antara nilai-nilai fitur. Jika skala fitur berbeda-beda, fitur dengan skala besar akan memberikan kontribusi lebih besar pada perhitungan; 2. Algoritma yang menggunakan optimasi seperti gradient descent akan konvergen lebih cepat jika skala data seragam. Ini meminimalkan waktu pelatihan model.

* Normalisasi: Normalisasi data adalah suatu proses yang bertujuan untuk mengubah distribusi data menjadi distribusi normal dengan cara mengubah observasi. Tujuan utama normalisasi adalah untuk menghindari masalah yang mungkin muncul akibat perbedaan skala antar fitur dalam dataset. Mengapa Normalisasi Penting: 1. Perbandingan Seragam: Normalisasi memastikan bahwa setiap fitur memiliki dampak yang setara terhadap analisis, terlepas dari perbedaan skala awal; 2. Kinerja Model yang Lebih Baik: Beberapa algoritma machine learning, seperti k-nearest neighbors dan neural networks, sangat dipengaruhi oleh perbedaan skala. Normalisasi membantu algoritma konvergen lebih cepat dan meningkatkan kinerja model.

Normalisasi data adalah langkah penting dalam analisis data dan pemrosesan pra-model untuk memastikan bahwa nilai-nilai fitur memiliki skala seragam. Min-Max Scaling adalah salah satu metode normalisasi yang umum digunakan, tetapi terdapat metode normalisasi lainnya seperti Z-score normalization, Robust scaling, dll. yang juga dapat digunakan sesuai dengan kebutuhan dan karakteristik data Anda. Pemahaman yang baik tentang normalisasi akan membantu Anda menghindari masalah akibat perbedaan skala dalam analisis data dan model machine learning.

Jenis-Jenis Normalisasi:
* Min-Max Scaling: 1. Deskripsi: Mengubah nilai-nilai dalam rentang 0 hingga 1; 2. Formula: Xnormalized​=X−min(X)/max(X)−min(X)
* Z-Score Normalization (Standardization): 1. Deskripsi: Mengubah nilai-nilai sehingga memiliki rata-rata 0 dan deviasi standar; 2. Formula: Xnormalized​=X−mean(X)/std(X).
* Robust Scaling: 1. Deskripsi: Mengubah nilai-nilai ke dalam rentang yang lebih tahan terhadap outlier; 2. Formula: Xnormalized​=X−median(X)/IQR(X).
* Unit Vector Normalization: 1. Deskripsi: Mengubah vektor fitur ke dalam vektor dengan panjang 1 (unit vector); 2. Formula: Xnormalized​=X/∥X∥

In [10]:
import pandas as pd
# Buat dataset contoh
data = {'Fitur_A': [10, 20, 30, 40],
        'Fitur_B': [1, 2, 3, 4]}
df = pd.DataFrame(data)
# Min-Max Scaling
minmax_scaled_data = (df - df.min()) / (df.max() - df.min())
print("Min-Max Scaling:\n", minmax_scaled_data)
# Z-Score Normalization
zscore_normalized_data = (df - df.mean()) / df.std()
print("\nZ-Score Normalization:\n", zscore_normalized_data)
# Robust Scaling
robust_scaled_data = (df - df.median()) / (df.quantile(0.75) - df.quantile(0.25))
print("\nRobust Scaling:\n", robust_scaled_data)
# Unit Vector Normalization
unit_vector_normalized_data = df.apply(lambda x: x / (x**2).sum()**0.5, axis=1)
print("\nUnit Vector Normalization:\n", unit_vector_normalized_data)

Min-Max Scaling:
     Fitur_A   Fitur_B
0  0.000000  0.000000
1  0.333333  0.333333
2  0.666667  0.666667
3  1.000000  1.000000

Z-Score Normalization:
     Fitur_A   Fitur_B
0 -1.161895 -1.161895
1 -0.387298 -0.387298
2  0.387298  0.387298
3  1.161895  1.161895

Robust Scaling:
     Fitur_A   Fitur_B
0 -1.000000 -1.000000
1 -0.333333 -0.333333
2  0.333333  0.333333
3  1.000000  1.000000

Unit Vector Normalization:
     Fitur_A   Fitur_B
0  0.995037  0.099504
1  0.995037  0.099504
2  0.995037  0.099504
3  0.995037  0.099504


# Encoding data kategorikal.
Encoding pada data analisis merujuk pada proses mengubah variabel kategorikal menjadi format numerik agar dapat digunakan dalam analisis data dan pemodelan statistik atau machine learning. Algoritma machine learning umumnya membutuhkan input dalam bentuk numerik, beberapa algoritma dapat salah interpretasi urutan atau hubungan ordinal jika tidak diencode dengan benar.

# One Hot Encoding

One-Hot Encoding adalah teknik konversi variabel kategorikal menjadi bentuk yang dapat diproses oleh model machine learning tanpa menambahkan informasi ordinal yang tidak ada. Setiap kategori diubah menjadi vektor biner yang merepresentasikan keberadaan atau ketiadaan kategori. Keuntungan menggunakan teknik ini adalah memungkinkan model untuk memahami adanya kategori tanpa memberikan urutan atau tingkatan yang salah. Cara kerja one hot encoding adalah pertama mengubah setiap kategori unik diubah menjadi kolom baru, lalu jkika suatu baris memiliki kategori tersebut, nilai dalam kolom menjadi 1; jika tidak, nilainya menjadi 0.

In [11]:
import pandas as pd
# Contoh dataset
data = {'Warna': ['Merah', 'Hijau', 'Biru', 'Merah', 'Kuning']}
df = pd.DataFrame(data)
# One-Hot Encoding dengan Pandas
one_hot_encoded = pd.get_dummies(df['Warna'], prefix='Warna')
# Gabungkan hasil encoding dengan DataFrame asli
df_encoded = pd.concat([df, one_hot_encoded], axis=1)
print(df_encoded)

    Warna  Warna_Biru  Warna_Hijau  Warna_Kuning  Warna_Merah
0   Merah           0            0             0            1
1   Hijau           0            1             0            0
2    Biru           1            0             0            0
3   Merah           0            0             0            1
4  Kuning           0            0             1            0


# Label Encoding

Label Encoding adalah teknik konversi variabel kategorikal menjadi bentuk numerik dengan memberikan label numerik unik pada setiap kategori. Label diberikan berdasarkan urutan atau frekuensi kemunculan.  Keuntungan Label Encoding adalah sederhana dan mudah diimplementasikan serta cocok untuk variabel kategorikal ordinal. Cara kerja one hot encoding adalah pertama setiap kategori diurutkan atau diberikan label berdasarkan urutan atau frekuensi kemunculan, Setiap nilai kategori digantikan dengan label numerik yang sesuai. Label Encoding dapat dilakukan dengan menggunakan kelas LabelEncoder dari library scikit-learn.

In [12]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
# Contoh dataset
data = {'Warna': ['Merah', 'Hijau', 'Biru', 'Merah', 'Kuning']}
df = pd.DataFrame(data)
# Label Encoding dengan scikit-learn
label_encoder = LabelEncoder()
df['Warna_Encoded'] = label_encoder.fit_transform(df['Warna'])
print(df)

    Warna  Warna_Encoded
0   Merah              3
1   Hijau              1
2    Biru              0
3   Merah              3
4  Kuning              2


# Pertimbangan Pemilihan Teknik Encoding
* Tipe Data - Jika variabel kategorikal memiliki tipe ordinal dengan urutan yang bermakna, Label Encoding dapat menjadi pilihan yang baik. Namun, jika variabel bersifat nominal tanpa urutan, One-Hot Encoding sering lebih sesuai.
* Jumlah Kategori - One-Hot Encoding cenderung efektif ketika jumlah kategori tidak terlalu banyak. Jika jumlah kategori besar, hal ini dapat menyebabkan peningkatan signifikan dalam dimensi data (curse of dimensionality). Label Encoding dapat menjadi pilihan yang lebih efisien dalam kasus ini.
* Tujuan Analisis - Tujuan analisis juga memainkan peran penting dalam pemilihan encoding. Misalnya, jika tujuannya adalah klasifikasi dan variabel kategorikal memiliki tingkatan ordinal, Label Encoding mungkin lebih sesuai. Jika tujuannya adalah regresi atau analisis di mana urutan tidak penting, One-Hot Encoding mungkin lebih baik.