<a href="https://colab.research.google.com/github/Andicleomj/Machine-Learning/blob/main/Week1/Social%20Network%20Ads.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#####Andi Cleopatra Maryam Jamila
#####1103213071
#####Social Network Ads Logistics Regression dan K-NN

In [None]:
# Import necessary libraries
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.preprocessing import LabelEncoder

* pandas (pd): Digunakan untuk membaca dan memanipulasi data, biasanya dalam bentuk tabel seperti CSV.
* train_test_split dari sklearn.model_selection: Digunakan untuk membagi dataset menjadi data latih (training set) dan data uji (testing set).
* StandardScaler dari sklearn.preprocessing: Digunakan untuk melakukan standarisasi data fitur, yaitu mengubah data agar memiliki distribusi normal dengan mean 0 dan standar deviasi 1. Ini penting untuk algoritma seperti K-NN yang sensitif terhadap skala fitur.
* LogisticRegression dari sklearn.linear_model: Menginisialisasi model Logistic Regression, salah satu algoritma klasifikasi yang sederhana dan sering digunakan.
* KNeighborsClassifier dari sklearn.neighbors: Menginisialisasi model K-Nearest Neighbors (K-NN), yang bekerja dengan mengklasifikasikan berdasarkan tetangga terdekat.
* classification_report dari sklearn.metrics: Digunakan untuk menghasilkan laporan evaluasi yang mencakup metrik seperti precision, recall, F1-score, dan support.
* LabelEncoder dari sklearn.preprocessing: Digunakan untuk mengubah variabel target berbentuk string menjadi format numerik.

In [None]:
# Read the CSV file into a pandas DataFrame
dataset = pd.read_csv('/content/sample_data/Social_Network_Ads.csv')

# Lihat 5 baris pertama dari dataset
print(dataset.head())


   Age  EstimatedSalary  Purchased
0   19            19000          0
1   35            20000          0
2   26            43000          0
3   27            57000          0
4   19            76000          0


* pd.read_csv(): Digunakan untuk membaca file CSV dan mengonversinya ke dalam DataFrame, struktur data tabel yang digunakan oleh pandas.
* print(dataset.head()): Menampilkan 5 baris pertama dari dataset. Ini berguna untuk melihat struktur dan isi awal dataset untuk memastikan bahwa data terbaca dengan benar.

In [None]:
# Assuming the last column is the target (Purchased) and the rest are features
X = dataset.iloc[:, :-1].values  # Features (all columns except the last)
y = dataset.iloc[:, -1].values   # Target (the last column)


* dataset.iloc[:, :-1]: Memilih semua kolom kecuali kolom terakhir sebagai fitur. Dianggap bahwa kolom terakhir adalah variabel target (label), sedangkan kolom lainnya adalah fitur.
1.   : : Memilih semua baris.
2. :, -1: Memilih semua kolom kecuali yang terakhir.
* dataset.iloc[:, -1]: Memilih kolom terakhir sebagai variabel target, yaitu apakah seseorang membeli produk (Purchased) atau tidak.
* .values: Mengonversi DataFrame menjadi array NumPy, format data yang sering digunakan oleh scikit-learn.

In [None]:
# Encode the target variable if it's in string format
le = LabelEncoder()
y = le.fit_transform(y)


* LabelEncoder(): Digunakan untuk mengonversi label atau target yang berbentuk string menjadi angka. Algoritma machine learning biasanya memerlukan input numerik.
* fit_transform():

1.   fit() mempelajari bagaimana string akan diubah menjadi angka.
2.   transform() mengubah target berdasarkan pengetahuan dari fit(). Dalam satu langkah, fit_transform() melakukan keduanya, yaitu mempelajari dan langsung mengubah data.
3. Contoh: Jika target berisi nilai string seperti "Yes" dan "No", ini akan diubah menjadi 1 dan 0.


In [None]:
# Split dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


* train_test_split(): Fungsi ini digunakan untuk membagi dataset menjadi dua bagian:

1.   Data latih (training set): digunakan untuk melatih model.
2.   Data uji (testing set): digunakan untuk menguji model setelah dilatih.

* X: Data fitur (variabel independen).
* y: Data target (variabel dependen atau label).
* test_size=0.3: Menentukan bahwa 30% dari data akan digunakan sebagai data uji, sementara 70% digunakan untuk melatih model.
* random_state=42: Digunakan untuk menjaga konsistensi dalam pembagian data setiap kali kode dijalankan. Dengan menetapkan random_state, pembagian data acak akan selalu memberikan hasil yang sama.

In [None]:
# Standardize features for K-NN (Logistic Regression doesn't need it, but we apply it for consistency)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


* StandardScaler: Digunakan untuk menstandarisasi data fitur sehingga semua fitur memiliki distribusi dengan mean 0 dan standar deviasi 1. Hal ini penting untuk algoritma seperti K-Nearest Neighbors (K-NN) karena K-NN menghitung jarak antar data, dan jika satu fitur memiliki skala yang jauh lebih besar daripada yang lain, fitur tersebut akan mendominasi perhitungan jarak.

* fit_transform(): Melakukan dua hal sekaligus:
1.   fit(): Menghitung statistik (mean dan standar deviasi) dari data latih.
2.   transform(): Menerapkan standarisasi pada data latih berdasarkan statistik yang telah dihitung.
* transform(): Menggunakan statistik yang dihitung dari data latih untuk menstandarisasi data uji. Penting bahwa statistik dihitung hanya dari data latih, bukan data uji, untuk mencegah data leakage.

In [None]:
# Logistic Regression model with increased max_iter
log_reg = LogisticRegression(max_iter=500)  # Increased to 500 iterations
log_reg.fit(X_train_scaled, y_train)  # Use scaled data
log_reg_pred = log_reg.predict(X_test_scaled)


* LogisticRegression(): Menginisialisasi model Logistic Regression. Logistic Regression adalah model klasifikasi yang memprediksi probabilitas kelas dengan menggunakan fungsi logistik.
* max_iter=500: Parameter ini mengatur jumlah iterasi maksimum yang diizinkan oleh solver untuk mencapai konvergensi. Dalam beberapa kasus, default iterasi (biasanya 100) tidak cukup untuk membuat model konvergen, sehingga kita meningkatkan menjadi 500.
* fit(): Melatih model Logistic Regression menggunakan data latih (X_train_scaled) dan targetnya (y_train).
* predict(): Setelah model dilatih, digunakan untuk memprediksi data uji (X_test_scaled) dan menyimpan hasil prediksi di log_reg_pred.

In [None]:
# K-Nearest Neighbors (K-NN) model
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)
knn_pred = knn.predict(X_test_scaled)


* KNeighborsClassifier(): Menginisialisasi model K-Nearest Neighbors (K-NN). Model ini bekerja dengan mencari 5 tetangga terdekat dari data yang akan diklasifikasikan (dalam hal ini ditentukan oleh parameter n_neighbors=5).
* fit(): Melatih model K-NN menggunakan data latih (X_train_scaled) dan targetnya (y_train).
* predict(): Setelah model dilatih, digunakan untuk memprediksi data uji (X_test_scaled) dan menyimpan hasil prediksi di knn_pred.
* n_neighbors=5: Menetapkan jumlah tetangga terdekat yang akan dipertimbangkan oleh model K-NN untuk klasifikasi. Artinya, model akan melihat 5 data terdekat dalam ruang fitur dan memilih kelas berdasarkan mayoritas dari tetangga tersebut.

In [None]:
# Menggunakan nama string sederhana jika target adalah numerik
print("Logistic Regression Classification Report:")
print(classification_report(y_test, log_reg_pred, target_names=["Class 0", "Class 1"]))

print("\nK-Nearest Neighbors (K-NN) Classification Report:")
print(classification_report(y_test, knn_pred, target_names=["Class 0", "Class 1"]))

Logistic Regression Classification Report:
              precision    recall  f1-score   support

     Class 0       0.82      0.97      0.89        73
     Class 1       0.94      0.66      0.78        47

    accuracy                           0.85       120
   macro avg       0.88      0.82      0.83       120
weighted avg       0.86      0.85      0.84       120


K-Nearest Neighbors (K-NN) Classification Report:
              precision    recall  f1-score   support

     Class 0       0.95      0.95      0.95        73
     Class 1       0.91      0.91      0.91        47

    accuracy                           0.93       120
   macro avg       0.93      0.93      0.93       120
weighted avg       0.93      0.93      0.93       120



* classification_report(): Fungsi ini memberikan metrik evaluasi seperti precision, recall, F1-score, dan support untuk setiap kelas dalam data.

1.   Precision: Berapa banyak prediksi positif yang benar dibandingkan dengan total prediksi positif.
2.  Recall: Berapa banyak data positif yang berhasil diklasifikasikan dengan benar dibandingkan dengan total data positif.
3. F1-score: Rata-rata harmonis antara precision dan recall.
Support: Jumlah data uji dalam setiap kelas.
* target_names: Memberikan label yang deskriptif untuk setiap kelas. Di sini, karena target sudah diencode menjadi angka, kita menggunakan nama yang sederhana seperti **"Class 0"