## Pendahuluan

### Pengertian Machine Learning

Machine Learning adalah bidang ilmu yang berfokus pada pengembangan algoritma yang dapat belajar dari dan membuat prediksi atau keputusan berdasarkan data. 

Secara umum, ada tiga kategori utama dalam Machine Learning, yaitu Supervised Learning, Unsupervised Learning, dan Reinforcement Learning.

Supervised Learning adalah proses melatih model dengan menggunakan data berlabel, di mana setiap data memiliki label atau target yang diinginkan. Contoh metode Supervised Learning adalah regresi dan klasifikasi.

### Pengertian Unsupervised Learning

Unsupervised Learning adalah metode Machine Learning yang tidak menggunakan data berlabel. Model akan belajar dari data tanpa ada informasi mengenai target yang diinginkan. Dalam Unsupervised Learning, algoritma akan mencoba mengidentifikasi pola atau struktur yang tersembunyi dalam data. Unsupervised Learning memiliki banyak potensi untuk digunakan dalam berbagai aplikasi karena dapat mengatasi masalah di mana data berlabel tidak tersedia atau sulit diperoleh.

### Aplikasi Unsupervised Learning dalam industri

Unsupervised Learning memiliki berbagai aplikasi dalam industri dan penelitian. Beberapa contoh aplikasi yang umum dan bermanfaat dari Unsupervised Learning adalah:

a. Segmentasi Pelanggan: Unsupervised Learning dapat digunakan untuk mengelompokkan pelanggan berdasarkan karakteristik demografis, perilaku belanja, atau preferensi produk. Dengan mengetahui segmentasi ini, perusahaan dapat menargetkan stratefi pemasaran yang lebih efektif dan meningkatkan penjualan serta kepuasan pelanggan.

b. Deteksi Anomali: Unsupervised Learning dapat digunakan untuk mengidentifikasi pola atau aktivitas yang tidak biasa dalam data. Contohnya, pada sistem keamanan jaringan, deteksi anomali dapat mengidentifikasi serangan atau kegiatan yang mencurigakan. Pada bidang keuangan, deteksi anomali dapat membantu mengidentifikasi transaksi mencurigakan atau penipuan kartu kredit.

c. Rekomendasi Produk: Sistem rekomendasi menggunakan Unsupervised Learning untuk mengidentifikasi pola dalam preferensi pengguna dan mengelompokkan item serupa. Dengan mengetahui hubungan antara produk, sistem dapat merekomendasikan produk yang paling relevan dengan preferensi pengguna, sehingga meningkatkan penjualan dan kepuasan pelanggan.

d. Analisis Teks: Unsupervised Learning sangat berguna dalam mengelola dan menggali informasi dari teks dalam jumlah besar. Dengan menggunakan metode seperti clustering dan topic modelling, algoritma dapat mengidentifikasi topik utama dalam teks dan mengelompokkan dokumen yang terkait. Hal ini sangat berguna untuk analisis sentimen, pengelompokkan berita, atau pengelompokkan dokumen.

e. Analisis Citra: Unsupervised Learning dapat digunakan untuk mengelompokkan atau mengurangi dimensi data citra. Hal ini sangat berguna dalam aplikasi seperti pengenalan wajah, kompresi citra, atau pemisahan objek dalam citra.

f. Bioinformatika: Unsupervised Learning memiliki banyak aplikasi dalam bioinformatika, seperti analisis ekspresi gen, pengelompokan protein, atau analisis struktur molekul. Dengan mengidentifikasi pola dalam data bilogis, ilmuwan dapat memahami proses yang mendasari kehidupan dan mengembangkan terapi yang lebih efektif untuk berbagai penyakit.

## Persiapan Data pada Unsupervised Learning

### Data Collection

Data Collection merupakan langkah awal dalam proses pembelajaran mesin yang sangat penting. Kualitas data yang kamu kumpulkan akan sangat mempengaruhi kualitas model yang dihasilkan. Dalam Unsupervised Learning, kamu akan bekerja dengan data yang tidak memiliki label target. Oleh karena itu, sangat penting untuk mengumpulkan data yang informatif dan mewakili pola atau struktur yang ingin kamu temukan.

#### Identifikasi Tujuan dan Aplikasi Model

Sebelum mulai mengumpulkan data, kamu harus menentukan tujuan dari model Unsupervised Learning yang ingin kamu bangun. Apakah kamu ingin mengelompokkan data berdasarkan kesamaan fitur? Atau mungkin kamu ingin mengurangi dimensi data untuk visualisasi atau analisis lebih lanjut? Dengan mengetahui tujuan dari model, kamu akan lebih mudah dalam menentukan jenis data yang perlu kamu kumpulkan. Selain itu, kamu harus mempertimbangkan aplikasi dari model. Model yang akan digunakan untuk analisis teks memerlukan jenis data yang berbeda dari model yang digunakan untuk analisis citra. Jadi, pastikan untuk mengumpulkan data yang sesuai dengan aplikasi yang ingin kamu gunakan.

#### Identifikasi Sumber Data

Setelah mengetahui tujuan dan aplikasi dari model, langkah selanjutnya adalah mencari sumber data yang relevan. Sumber data dapat berasal dari berbagai tempat, seperti database perusahaan, situs web, sensor, atau bahkan data yang dikumpulkan oleh pengguna. Ada beberapa hal yang perlu kamu pertimbangkan saat memilih sumber data:

- Relevansi: Pastikan data yang kamu kumpulkan relevan dengan tujuan dan aplikasi model. Jika data tidak relevan, model yang dihasilkan mungkin tidak akan berguna atau bahkan menyesatkan.
- Kualitas: Kualitas data sangat penting dalam proses pembelajaran mesin. Data yang buruk atau tidak akurat dapat menghasilkan model yang buruk. Pastikan sumber data yang kamu pilih memiliki reputasi yang baik dan konsisten dalam menghasilkan data berkualitastinggi.
- Aksesibilitas: Pastikan kamu memiliki akses yang mudah dan legal ke sumber data yang kamu pilih. Beberapa sumber data mungkin memiliki batasan dalam hal penggunaan atau memerlukan izin khusus.
- Kuantitas: Dalam pembelajaran mesin, biasanya lebih banyak data akan menghasilkan model yang lebih baik. Pastikan kamu memiliki cukup data untuk melatih model Unsupervised Learning.

#### Mengumpulkan Data

Setelah mengidentifikasi sumber data yang sesuai, langkah selanjutnya adalah mengumpulkan data itu sendiri. Berikut adalah beberapa metode yang dapat kamu gunakan untuk mengumpulkan data:

- Ekstraksi data dari database: Jika data yang kamu butuhkan tersimpan dalam database, kamu dapat menggunakan query SQL atau alat ekstraksi data lainnya untuk mengambil data yang diperlukan. Pastikan untuk memilih fitur yang relevan dengan tujuan dan aplikasi model.
- Web Scraping: Jika data yang kamu butuhkan berasal dari situs web, kamu dapat menggunakan teknik web scraping untuk mengambil data tersebut. Web scraping adalah proses ekstraksi data dari situs web dengan menggunakan program atau script. Ada banyak library Python yang bisa kamu gunakan untuk web scraping, seperti BeautifulSoup, Scrapy, dan Selenium.
- Pengumpulan data melalui API: Beberapa layanan atau platform menyediakan API (Application Programming Interface) yang memungkinkan kamu untuk mengakses data mereka secara langsung. Contohnya adalah Twitter API, Facebook API, dan Google Analytics API. Kamu bisa menggunakan library Python seperti Requests atau Tweepy untuk mengakses data melalui API.
- Pengumpulan data dari sensor atau perangkat IoT: Jika kamu bekerja dengan data yang dikumpulkan dari sensor atau perangkat Internet of Things (IoT), kamu mungkin perlu mengembangkan sistem untuk mengumpulkan dan mengirim data ke server atau platform analisis. Kamu bisa menggunakan protokol komunikasi seperti MQTT atau HTTP untuk mengirim data dari perangkat ke server.
- Survei atau pengumpulan data oleh pengguna: Dalam beberapa kasus, data yang kamu butuhkan mungkin tidak tersedia secara online atau melalui sumber eksternal. Dalam situasi seperti itu, kamu mungkin perlu mengumpulkan data secara manual melalui survei atau melibatkan pengguna untuk mengumpulkan data. Pastikan untuk merancang survei atau alat pengumpulan data dengan baik agar menghasilkan data yang akurat dan relevan.

#### Penyimpanan Data

Setelah data berhasil dikumpulkan, kamu perlu menyimpannya dalam format yang sesuai untuk analisis lebih lanjut. Kamu mungkin perlu menggabungkan data dari berbagai sumber atau format sebelum menyimpannya. Berikut adalah beberapa format penyimpanan data yang umum digunakan dalam Machine Learning:

- CSV (Comma Separated Values): CSV adalah format file teks sederhana yang digunakan untuk menyimpan data dalam bentuk tabel. CSV mudah dibaca oleh manusia dan kompatibel dengan berbagai aplikasi dan library.
- Excel: Microsoft Excel adalah aplikasi pengolah spreadsheet yang populer dan sering digunakan untuk menyimpan data dalam bentuk tabel. Kamu bisa menggunakan library Python seperti Pandas atau Openpyxl untuk membaca dan menulis data dalam format Excel.
- SQL: SQL (Structured Query Language) adalah bahasa pemrograman yang digunakan untuk mengelola data dalam sistem manajemen basis data relasional (RDBMS). Kamu bisa menggunakan library Python seperti SQLite, MySQL, atau PostgreSQL untuk menyimpan dan mengakses data dalam format SQL.
- JSON (JavaScript Object Notation): JSON adalah format data ringan yang mudah dibaca oleh manusia dan komputer. JSON cocok untuk menyimpan data dengan struktur yang lebih kompleks daripada tabel, seperti data hierarkis atau data yang memiliki banyak relasi. Kamu bisa menggunakan library Python seperti json atau simplejson untuk membaca dan menulis data dalam format JSON.
- NoSQL: NoSQL adalah keluarga sistem manajemen basis data yang tidak menggunakan SQL sebagai bahasa query utama. NoSQL cocok untuk menyimpan data dalam skala besar atau data dengan struktur yang tidak teratur. Beberapa contoh sistem NoSQL yang populer adalah MongoDB, Cassandra, dan Redis.

Dalam proses pengumpulan data, sangat penting untuk menjaga keamanan dan privasi data. Pastikan kamu mematuhi peraturan dan regulasi yang berlaku, seperti GDPR (General Data Protection Regulation) atau undang-undang perlindungan data setempat. Selalu lindungi data pengguna dan jangan mengumpulkan informasi yang tidak perlu atau sensitif.

### Data Cleaning

Data cleaning adalah proses mengidentifikasi dan mengoreksi kesalahan, inkonsistensi, atau ketidaklengkapan dalam data yang dikumpulkan. Tujuan dari data cleaning adalah untuk meningkatkan kualitas data dan memastikan bahwa model Unsupervised Learning yang dihasilkan memiliki kinerja yang optimal. Berikut adalah beberapa langkah yang perlu kamu pertimbangkan dalam proses data cleaning:

#### Deteksi dan penghapusan data duplikat

Data duplikat adalah entri data yang identik atau sangat mirip satu sama lain. Data duplikat bisa menyebabkan bias dalam model Unsupervised Learning dan mengurangi kinerjanya. Kamu bisa menggunakan library Python seperti Pandas untuk mengidentifikasi dan menghapus data duplikat. Pandas menyediakan fungsi drop_duplicates() yang bisa kamu gunakan untuk menghapus baris duplikat dalam dataset. Sebagai contoh:


In [1]:
import pandas as pd

# Data sintetis
data = pd.DataFrame({'A': [1, 2, 2, 3, 4, 4],
                     'B': [5, 6, 6, 7, 8, 8]})

# Menghapus baris duplikat
data = data.drop_duplicates()
data

Unnamed: 0,A,B
0,1,5
1,2,6
3,3,7
4,4,8


Dalam contoh ini, kita membuat DataFrame sintetis menggunakan Pandas dengan kolom 'A' dan 'B'. Kemudian, kita menggunakan fungsi drop_duplicates() untuk menghapus baris duplikat dan mencetak DataFrame yang sudah dibersihkan.

#### Mengatasi data yang hilang

Data yang hilang atau tidak lengkap bisa menyebabkan masalah dalam proses pembelajaran mesin. Ada beberapa metode yang bisa kamu gunakan untuk mengatasi data yang hilang, seperti:

- Penghapusan baris atau kolom yang memiliki data yang hilang: Metode ini efektif jika jumlah data yang hilang relatif kecil dan penghapusan data tidak akan menyebabkan kehilangan informasi yang penting. Kamu bisa menggunakan fungsi dropna() dari Pandas untuk menghapus baris atau kolom yang memiliki data yang hilang. Sebagai contoh:


In [2]:
import pandas as pd

# Data sintetis dengan nilai yang hilang (NaN)
data = pd.DataFrame({'A': [1, 2, None, 3, 4, None],
                     'B': [5, None, 6, 7, 8, None]})

# Menghapus baris yang memiliki data yang hilang
data = data.dropna()
data

Unnamed: 0,A,B
0,1.0,5.0
3,3.0,7.0
4,4.0,8.0


Dalam contoh ini, kita membuat DataFrame sintetis dengan beberapa nilai yang hilang (None). Kemudian, kita menggunakan fungsi dropna() untuk menghapus baris yang memiliki data yang hilang dan mencetak DataFrame yang sudah dibersihkan.

- Imputasi data dengan menggunakan rata-rata atau median: Imputasi adalah proses penggantian data yang hilang dengan nilai yang diestimasi. Kamu bisa menggunakan rata-rata atau median dari kolom yang relevan untuk mengisi data yang hilang. Fungsi fillna() dari Pandas dapat digunakan untuk mengisi data yang hilang dengan nilai yang diinginkan. Sebagai contoh:


In [3]:
import pandas as pd

# Data sintetis dengan nilai yang hilang (NaN)
data = pd.DataFrame({'A': [1, 2, None, 3, 4, None],
                     'B': [5, None, 6, 7, 8, None]})

# Mengisi data yang hilang dengan rata-rata kolom
data = data.fillna(data.mean())
data

Unnamed: 0,A,B
0,1.0,5.0
1,2.0,6.5
2,2.5,6.0
3,3.0,7.0
4,4.0,8.0
5,2.5,6.5


Dalam contoh ini, kita membuat DataFrame sintetis dengan beberapa nilai yang hilang (None). Kemudian, kita menggunakan fungsi `fillna()` untuk mengisi data yang hilang dengan rata-rata kolom dan mencetak DataFrame yang sudah dibersihkan.


- Penggunaan metode imputasi yang lebih canggih seperti K-Nearest Neighbors atau Multiple Imputation: Metode imputasi yang lebih canggih bisa memberikan hasil yang lebih akurat dalam mengisi data yang hilang. Kamu bisa menggunakan library seperti `scikit-learn` atau `fancyimpute` untuk mengimplementasikan metode imputasi ini. Sebagai contoh, kamu bisa menggunakan KNNImputer dari scikit-learn untuk mengisi data yang hilang dengan menggunakan metode K-Nearest Neighbors:

In [4]:
import pandas as pd
from sklearn.impute import KNNImputer

# Data sintetis dengan nilai yang hilang (NaN)
data = pd.DataFrame({'A': [1, 2, None, 3, 4, None],
                     'B': [5, None, 6, 7, 8, None]})

# Menggunakan KNNImputer untuk mengisi data yang hilang
imputer = KNNImputer(n_neighbors=2)
data_filled = imputer.fit_transform(data)

# Menyimpan dataset yang telah dibersihkan
clean_data = pd.DataFrame(data_filled, columns=data.columns)
clean_data

Unnamed: 0,A,B
0,1.0,5.0
1,2.0,6.0
2,2.0,6.0
3,3.0,7.0
4,4.0,8.0
5,2.5,6.5


Dalam contoh ini, kita membuat DataFrame sintetis dengan beberapa nilai yang hilang (None). Kemudian, kita menggunakan KNNImputer dari scikit-learn untuk mengisi data yang hilang berdasarkan 2 tetangga terdekat (n_neighbors=2). Terakhir, kita mencetak DataFrame yang sudah dibersihkan.

#### Koreksi kesalahan entri

Kesalahan entri adalah nilai data yang salah atau tidak akurat karena kesalahan manusia atau sistem. Kamu bisa menggunakan teknik seperti validasi data, aturan bisnis, atau algoritma deteksi anomali untuk mengidentifikasi dan mengoreksi kesalahan entri. Contoh berikut menunjukkan bagaimana kamu bisa memperbaiki kesalahan entri dengan menggantikan nilai yang tidak valid dengan rata-rata kolom:

In [5]:
import pandas as pd

# Data sintetis dengan kesalahan entri
data = pd.DataFrame({'A': [1, 2, -999, 3, 4, -999],
                     'B': [5, -999, 6, 7, 8, -999]})

# Menggantikan kesalahan entri (-999) dengan rata-rata kolom
data = data.replace(-999, data[data != -999].mean())
data

Unnamed: 0,A,B
0,1.0,5.0
1,2.0,6.5
2,2.5,6.0
3,3.0,7.0
4,4.0,8.0
5,2.5,6.5


Dalam contoh ini, kita membuat DataFrame sintetis dengan beberapa nilai yang salah (-999). Kemudian, kita menggunakan fungsi replace() untuk menggantikan nilai yang salah dengan rata-rata kolom (mengabaikan nilai yang salah saat menghitung rata-rata) dan mencetak DataFrame yang sudah dibersihkan.

#### Konversi tipe data

Dalam beberapa kasus, kamu mungkin perlu mengkonversi tipe data kolom untuk memastikan bahwa model Unsupervised Learning dapat memproses data dengan benar. Misalnya, kamu mungkin perlu mengkonversi kolom teks menjadi kolom numerik atau sebaliknya. Kamu bisa menggunakan fungsi astype() dari Pandas untuk mengkonversi tipe data kolom. Berikut adalah contoh konversi tipe data kolom dari float menjadi integer:


In [7]:
import pandas as pd

# Data sintetis dengan tipe data float
data = pd.DataFrame({'A': [1.0, 2.0, 3.0, 4.0, 5.0],
                     'B': [6.0, 7.0, 8.0, 9.0, 10.0]})

# Mengkonversi tipe data kolom menjadi integer
data = data.astype(int)
data

Unnamed: 0,A,B
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


Dalam contoh ini, kita membuat DataFrame sintetis dengan tipe data float. Kemudian, kita menggunakan fungsi astype() untuk mengkonversi tipe data kolom menjadi integer dan mencetak DataFrame yang sudah diubah.

Penanganan data kategorikal: Data kategorikal adalah data yang memiliki nilai terbatas yang mewakili kategori atau label. Untuk memproses data kategorikal dalam model Unsupervised Learning, kamu perlu mengubah data kategorikal menjadi bentuk numerik. Ada beberapa teknik yang bisa kamu gunakan, seperti:

- One-Hot Encoding: One-hot encoding adalah teknik yang digunakan untuk mengkonversi data kategorikal menjadi vektor biner dengan panjang yang sama dengan jumlah kategori yang unik. Kamu bisa menggunakan pd.get_dummies() dari Pandas untuk mengimplementasikan one-hot encoding. Berikut adalah contoh penggunaan one-hot encoding untuk mengkonversi data kategorikal:

In [8]:
import pandas as pd

# Data sintetis dengan kolom kategorikal
data = pd.DataFrame({'A': ['red', 'green', 'blue', 'red', 'green'],
                     'B': [1, 2, 3, 4, 5]})

# Menggunakan one-hot encoding untuk mengkonversi kolom kategorikal 'A'
encoded_data = pd.get_dummies(data, columns=['A'])
encoded_data

Unnamed: 0,B,A_blue,A_green,A_red
0,1,False,False,True
1,2,False,True,False
2,3,True,False,False
3,4,False,False,True
4,5,False,True,False


Dalam contoh ini, kita membuat DataFrame sintetis dengan kolom kategorikal 'A' yang berisi warna. Kemudian, kita menggunakan pd.get_dummies() untuk mengkonversi kolom kategorikal menjadi kolom biner yang mewakili setiap kategori unik dan mencetak DataFrame yang sudah diubah.

- Label Encoding: Label encoding adalah teknik yang menggantikan setiap kategori dengan nilai numerik unik. Kamu bisa menggunakan LabelEncoder dari scikit-learn untuk mengimplementasikan label encoding. Berikut adalah contoh penggunaan label encoding untuk mengkonversi data kategorikal:

In [9]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Data sintetis dengan kolom kategorikal
data = pd.DataFrame({'A': ['red', 'green', 'blue', 'red', 'green'],
                     'B': [1, 2, 3, 4, 5]})

# Menggunakan Label encoding untuk mengkonversi kolom kategorikal 'A'
encoder = LabelEncoder()
data['A'] = encoder.fit_transform(data['A'])
data

Unnamed: 0,A,B
0,2,1
1,1,2
2,0,3
3,2,4
4,1,5


Dalam contoh ini, kita membuat DataFrame sintetis dengan kolom kategorikal 'A' yang berisi warna. Kemudian, kita menggunakan `LabelEncoder` untuk mengkonversi kolom kategorikal menjadi nilai numerik yang mewakili setiap kategori unik dan mencetak DataFrame yang sudah diubah.

Dalam rangkuman, data cleaning adalah proses penting dalam persiapan data untuk Unsupervised Learning. Langkah-langkah yang dijelaskan di atas, seperti penghapusan data duplikat, penanganan data yang hilang, koreksi kesalahan entri, konversi tipe data, dan penanganan data kategorikal, membantu menghasilkan dataset yang berkualitas tinggi yang akan meningkatkan kinerja model Unsupervised Learning.

### Data Transformation

Data transformation adalah proses mengubah bentuk atau struktur data agar sesuai dengan kebutuhan model Unsupervised Learning. Transformasi data sering diperlukan karena model mungkin bekerja lebih baik dengan beberapa fitur yang berbeda atau dengan representasi yang lebih sederhana dari data asli. Dalam subbab ini, kita akan membahas beberapa teknik transformasi data yang umum digunakan dalam Unsupervised Learning, seperti agregasi fitur, reduksi dimensi, dan encoding fitur.

#### Agregasi Fitur

Agregasi fitur adalah proses menggabungkan beberapa fitur menjadi satu fitur baru yang mewakili informasi yang ada dalam fitur-fitur tersebut. Agregasi fitur dapat membantu mengurangi dimensi dataset dan mengurangi kompleksitas model. Selain itu, agregasi fitur dapat meningkatkan interpretasi model dan mengurangi risiko overfitting. Berikut adalah contoh mengagregasi fitur dengan menggunakan Python dan Pandas:


In [1]:
import pandas as pd

# Data sintetis
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [6, 7, 8, 9, 10],
                     'C': [11, 12, 13, 14, 15]})

# Mengagregasi fitur 'A' dan 'B' dengan mengambil rata-rata
data['D'] = (data['A'] + data['B']) / 2

# Menghapus fitur 'A' dan 'B' yang lama
data = data.drop(columns=['A', 'B'])
data

Unnamed: 0,C,D
0,11,3.5
1,12,4.5
2,13,5.5
3,14,6.5
4,15,7.5


Dalam contoh ini, kita membuat DataFrame sintetis dengan tiga fitur ('A', 'B', dan 'C'). Kemudian, kita mengagregasi fitur 'A' dan 'B' dengan mengambil rata-rata dari kedua fitur tersebut dan menyimpan hasilnya dalam fitur baru 'D'. Terakhir, kita menghapus fitur 'A' dan 'B' yang lama dan mencetak DataFrame yang sudah diubah.

#### Reduksi Dimensi

Reduksi dimensi adalah proses mengurangi jumlah fitur dalam dataset dengan mempertahankan informasi penting. Reduksi dimensi dapat membantu mengurangi kompleksitas model, meningkatkan interpretasi, dan mengurangi risiko overfitting. Ada beberapa teknik reduksi dimensi yang umum digunakan dalam Unsupervised Learning, seperti Principal Component Analysis (PCA), t-SNE, dan UMAP. Berikut adalah contoh mengurangi dimensi dataset dengan menggunakan PCA dari scikit-learn:

In [2]:
import pandas as pd
from sklearn.decomposition import PCA

# Data sintetis
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [6, 7, 8, 9, 10],
                     'C': [11, 12, 13, 14, 15]})

# Menggunakan PCA untuk mengurangi dimensi dataset menjadi 2 fitur
pca = PCA(n_components=2)
transformed_data = pca.fit_transform(data)

# menyimpan dataset yang telah direduksi
reduced_data = pd.DataFrame(transformed_data, columns=['PC1', 'PC2'])
reduced_data

Unnamed: 0,PC1,PC2
0,3.464102,0.0
1,1.732051,0.0
2,-0.0,0.0
3,-1.732051,0.0
4,-3.464102,0.0


Dalam contoh ini, kita membuat DataFrame sintetis dengan tiga fitur ('A', 'B', dan 'C'). Kemudian, kita menggunakan PCA untuk mengurangi dimensi dataset menjadi dua fitur, yang disimpan dalam kolom 'PC1' dan 'PC2'. Terakhir, kita mencetak DataFrame yang sudah direduksi.

#### Encoding Fitur

Encoding fitur adalah proses mengubah representasi fitur sehingga lebih sesuai untuk model Unsupervised Learning. Salah satu contoh encoding fitur adalah konversi data kategorikal menjadi data numerik, seperti yang telah dijelaskan di subbab 2.2. Encoding fitur lain yang umum digunakan dalam Unsupervised Learning adalah konversi teks menjadi vektor numerik dengan menggunakan teknik seperti Bag of Words, TF-IDF, atau Word2Vec. Berikut adalah contoh mengkonversi teks menjadi vektor numerik dengan menggunakan TF-IDF dari scikit-learn:

In [3]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Data sintetis sebagai teks
data = pd.DataFrame({'A': ['this is a sample sentence',
                           'another example sentence',
                           'a third text for illustration']})

# Using TF-IDF to convert text into numerical vectors
vectorizer = TfidfVectorizer()
encoded_data = vectorizer.fit_transform(data['A'])

# Storing the encoded dataset
encoded_df = pd.DataFrame(encoded_data.toarray(),
                          columns=vectorizer.get_feature_names_out())
encoded_df

Unnamed: 0,another,example,for,illustration,is,sample,sentence,text,third,this
0,0.0,0.0,0.0,0.0,0.528635,0.528635,0.40204,0.0,0.0,0.528635
1,0.622766,0.622766,0.0,0.0,0.0,0.0,0.47363,0.0,0.0,0.0
2,0.0,0.0,0.5,0.5,0.0,0.0,0.0,0.5,0.5,0.0


Dalam contoh ini, kita membuat DataFrame sintetis dengan satu kolom teks 'A'. Kemudian, kita menggunakan TfidfVectorizer untuk mengkonversi teks dalam kolom 'A' menjadi vektor numerik. Hasilnya disimpan dalam DataFrame baru, yang mencakup kolom untuk setiap kata yang unik dalam dataset dan nilai TF-IDF yang sesuai. Terakhir, kita mencetak DataFrame yang sudah di-encode.

 Dalam rangkuman, transformasi data adalah langkah penting dalam persiapan data untuk Unsupervised Learning. Teknik transformasi data yang dijelaskan di atas, seperti agregasi fitur, reduksi dimensi, dan encoding fitur, membantu menghasilkan dataset yang lebih sesuai dengan kebutuhan model Unsupervised Learning. Dengan menggunakan contoh kode Python yang diberikan, kamu dapat menerapkan teknik-teknik ini pada dataset kamu sendiri untuk memastikan bahwa data yang digunakan dalam proses pembelajaran mesin telah ditransformasi sesuai kebutuhan.

### Data Scaling and Normalization

Data scaling dan normalization adalah proses penyesuaian rentang nilai fitur data agar sesuai dengan skala yang ditentukan. Dalam banyak algoritma Machine Learning, terutama yang berbasis jarak seperti K-Means, Affinity Propagation, MeanShift, dan Spectral Clustering, penting untuk memiliki fitur pada skala yang sama sehingga satu fitur tidak mendominasi yang lain.

#### Data Scaling

Data scaling adalah teknik yang digunakan untuk mengubah rentang nilai fitur sehingga semua fitur memiliki skala yang sama. Salah satu metode scaling yang populer adalah StandardScaler dari library scikit-learn, yang mengubah data sedemikian rupa sehingga memiliki rata-rata nol dan standar deviasi satu. Berikut adalah contoh penggunaan StandardScaler pada data sintetis:

In [5]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Data sintetis
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [100, 200, 300, 400, 500]})

# Menggunakan StandardScaler untuk menskalakan data
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

# Menyimpan data yang telah diskalakan
scaled_df = pd.DataFrame(scaled_data, columns=['A_scaled', 'B_scaled'])
scaled_df

Unnamed: 0,A_scaled,B_scaled
0,-1.414214,-1.414214
1,-0.707107,-0.707107
2,0.0,0.0
3,0.707107,0.707107
4,1.414214,1.414214


Dalam contoh ini, kita membuat DataFrame sintetis dengan dua fitur ('A' dan 'B') yang memiliki skala yang sangat berbeda. Kemudian, kita menggunakan StandardScaler untuk menskalakan data sehingga semua fitur memiliki rata-rata nol dan standar deviasi satu.

#### Data Normalization

Data normalization adalah teknik yang digunakan untuk mengubah rentang nilai fitur sehingga semua fitur memiliki rentang antara 0 dan 1. Metode normalization yang umum digunakan adalah MinMaxScaler dari library scikit-learn. Berikut adalah contoh penggunaan MinMaxScaler pada data sintetis:


In [6]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Data sintetis
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [100, 200, 300, 400, 500]})

# Menggunakan MinMaxScaler untuk menormalisasi data
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

# Menyimpan data yang telah dinormalisasi
normalized_df = pd.DataFrame(normalized_data, columns=['A_normalized', 'B_normalized'])
normalized_df

Unnamed: 0,A_normalized,B_normalized
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


Dalam contoh ini, kita membuat DataFrame sintetis dengan dua fitur ('A' dan 'B') yang memiliki skala yang sangat berbeda. Kemudian, kita menggunakan MinMaxScaler untuk menormalisasi data sehingga semua fitur memiliki rentang antara 0 dan 1.

Selain StandardScaler dan MinMaxScaler, ada metode scaling dan normalization lainnya seperti RobustScaler (menggunakan median dan kuartil, kurang sensitif terhadap pencilan) dan QuantileTransformer (mengubah distribusi data ke distribusi normal atau uniform).

Secara keseluruhan, data scaling dan normalization merupakan langkah penting dalam persiapan data untuk Unsupervised Learning. Penting untuk mencatat bahwa scaler atau normalizer yang sama yang digunakan pada data pelatihan harus digunakan pada data tes atau data baru nantinya untuk memastikan konsistensi dalam skala data. Metode scaling atau normalization yang digunakan dapat bervariasi tergantung pada karakteristik data dan algoritma Machine Learning yang digunakan.

Untuk contoh, jika data memiliki banyak pencilan dan kita menggunakan algoritma berbasis jarak, mungkin lebih baik menggunakan RobustScaler. Jika data tidak mengikuti distribusi normal dan kita ingin mengubah distribusinya, QuantileTransformer bisa menjadi pilihan yang baik.

In [7]:
import pandas as pd
from sklearn.preprocessing import RobustScaler, QuantileTransformer

# Data sintetis
data = pd.DataFrame({'A': [1, 2, 3, 4, 5, 100],
                     'B': [100, 200, 300, 400, 500, 1000]})

# Menggunakan RobustScaler
scaler = RobustScaler()
robust_scaled_data = scaler.fit_transform(data)
robust_scaled_df = pd.DataFrame(robust_scaled_data, columns=['A_robust_scaled', 'B_robust_scaled'])

display(robust_scaled_df)

# Menggunakan QuantileTransformer

transformer = QuantileTransformer(output_distribution='normal')
quantile_transformed_data = transformer.fit_transform(data)
quantile_transformed_df = pd.DataFrame(quantile_transformed_data, columns=['A_quantile_transformed', 'B_quantile_transformed'])

display(quantile_transformed_df)

Unnamed: 0,A_robust_scaled,B_robust_scaled
0,-1.0,-1.0
1,-0.6,-0.6
2,-0.2,-0.2
3,0.2,0.2
4,0.6,0.6
5,38.6,2.6




Unnamed: 0,A_quantile_transformed,B_quantile_transformed
0,-5.199338,-5.199338
1,-0.841621,-0.841621
2,-0.253347,-0.253347
3,0.253347,0.253347
4,0.841621,0.841621
5,5.199338,5.199338


Dalam contoh pertama, kita menggunakan RobustScaler untuk menskalakan data, yang kurang sensitif terhadap pencilan. Dalam contoh kedua, kita menggunakan QuantileTransformer untuk mengubah distribusi data menjadi distribusi normal.

Memahami dan menerapkan data scaling dan normalization dengan tepat dapat memainkan peran penting dalam meningkatkan kinerja model Unsupervised Learning. Menggunakan contoh kode Python di atas, kamu dapat menerapkan teknik-teknik ini pada dataset kamu sendiri untuk memastikan bahwa data yang digunakan dalam proses pembelajaran mesin telah diskalakan dan dinormalisasi dengan benar.