# Pertemuan 5 - Validasi Kualitas dan Hasil Analisis Dataset



## 1. Data Cleaning


### A. Mengatasi Missing Values


In [None]:
# data_cleaning.py
import pandas as pd
import numpy as np

# Membuat dataframe contoh
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Eve', np.nan],
    'Age': [25, 30, 35, 25, np.nan, 50],
    'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami', 'Los Angeles']
}
df = pd.DataFrame(data)

# Menampilkan data awal
print("Data Awal:")
print(df)

# Menghapus duplikat
df = df.drop_duplicates()

# Menangani missing values dengan mengisi nilai median untuk kolom numerik
df['Age'] = df['Age'].fillna(df['Age'].median())

# Menghapus baris yang mengandung missing values di kolom 'Name'
df = df.dropna(subset=['Name'])

# Menampilkan data setelah cleaning
print("\nData Setelah Cleaning:")
print(df)

# **Simpan file CSV dengan benar**
df.to_csv('data.csv', index=False)
print("\n✅ Data telah disimpan sebagai 'data.csv'")


Data Awal:
      Name   Age         City
0    Alice  25.0     New York
1      Bob  30.0  Los Angeles
2  Charlie  35.0      Chicago
3    Alice  25.0     New York
4      Eve   NaN        Miami
5      NaN  50.0  Los Angeles

Data Setelah Cleaning:
      Name   Age         City
0    Alice  25.0     New York
1      Bob  30.0  Los Angeles
2  Charlie  35.0      Chicago
4      Eve  32.5        Miami

✅ Data telah disimpan sebagai 'data.csv'


In [None]:
# check_missing_values.py
import pandas as pd

# Coba membaca file CSV yang telah dibuat
try:
    df = pd.read_csv('data.csv')
    print("\n📊 Jumlah Missing Values dalam 'data.csv':")
    print(df.isnull().sum())
except FileNotFoundError:
    print("\n❌ File 'data.csv' tidak ditemukan! Jalankan 'data_cleaning.py' terlebih dahulu.")



📊 Jumlah Missing Values dalam 'data.csv':
Name    0
Age     0
City    0
dtype: int64


In [None]:
# Mengisi Missing Values
df['Age'].fillna(df['Age'].mean())  # Mean
df['Age'].fillna(df['Age'].median(), inplace=True)  # Median
df['Age'].fillna(df['Age'].mode()[0], inplace=True)  # Mode

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].median(), inplace=True)  # Median
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mode()[0], inplace=True)  # Mode


In [None]:
# Forward/Backward Fill
df['Age'].fillna(method='ffill', inplace=True)  # Forward fill
df['Age'].fillna(method='bfill', inplace=True)  # Backward fill

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(method='ffill', inplace=True)  # Forward fill
  df['Age'].fillna(method='ffill', inplace=True)  # Forward fill
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(method='bfill', inplace=True)  # Backward fill
  df['Age'].fillna(method='bfill', inpla

In [None]:
import pandas as pd

# Contoh dataframe
data = {
    'Name': ['Alice', 'Bob', 'Charlie', None, 'Eve'],
    'Age': [25, 30, 35, None, 50],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Miami', None]
}
df = pd.DataFrame(data)

# Cek nama kolom yang ada
print("Daftar kolom dalam dataset:", df.columns)

# Pastikan kolom yang dituju ada dalam dataset
kolom_target = 'Name'  # Ubah sesuai nama kolom yang benar
if kolom_target in df.columns:
    df.dropna(subset=[kolom_target], inplace=True)
    print("\nData setelah menghapus baris dengan missing values di kolom '{}':".format(kolom_target))
    print(df)
else:
    print("\n❌ Kolom '{}' tidak ditemukan dalam dataset!".format(kolom_target))


Daftar kolom dalam dataset: Index(['Name', 'Age', 'City'], dtype='object')

Data setelah menghapus baris dengan missing values di kolom 'Name':
      Name   Age         City
0    Alice  25.0     New York
1      Bob  30.0  Los Angeles
2  Charlie  35.0      Chicago
4      Eve  50.0         None


### B. Menghapus Duplikat


In [None]:
# Identifikasi duplikat
print(df.duplicated().sum())

# Menghapus duplikat
df.drop_duplicates(inplace=True)

0


### C. Menangani Outliers


In [None]:
# Langkah 1: Membuat DataFrame
import pandas as pd
import numpy as np

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Eve', np.nan],
    'Age': [25, 30, 35, 25, np.nan, 50],
    'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami', 'Los Angeles']
}
df = pd.DataFrame(data)

# Langkah 2: Identifikasi Outliers
# Outliers dapat diidentifikasi menggunakan berbagai metode, salah satu yang umum adalah menggunakan Z-score atau IQR (Interquartile Range).
# Di sini, kita akan menggunakan IQR untuk mendeteksi outliers.
# Menghitung IQR
Q1 = df['Age'].quantile(0.25)
Q3 = df['Age'].quantile(0.75)
IQR = Q3 - Q1

# Menentukan batas bawah dan atas untuk outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Menandai outliers
outliers = df[(df['Age'] < lower_bound) | (df['Age'] > upper_bound)]
print("Outliers:\n", outliers)


# Langkah 3: Menangani Outliers
# # Menghapus outliers
df_no_outliers = df[(df['Age'] >= lower_bound) & (df['Age'] <= upper_bound)]

# Mengganti outliers dengan nilai median
median_age = df['Age'].median()
df['Age'] = np.where((df['Age'] < lower_bound) | (df['Age'] > upper_bound), median_age, df['Age'])

# Mengisi missing values dengan median
df['Age'].fillna(df['Age'].median(), inplace=True)
df['Name'].fillna('Unknown', inplace=True)



Outliers:
 Empty DataFrame
Columns: [Name, Age, City]
Index: []


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Name'].fillna('Unknown', inplace=True)


### D. Mengubah Data Kategorikal ke Numerik


In [None]:
# Contoh: misalnya, kita memiliki dataset dengan kolom "City" yang berisi data kategorikal:

import pandas as pd

data = {'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami']}
df = pd.DataFrame(data)

# One-Hot Encoding
df_one_hot = pd.get_dummies(df, columns=['City'])

print(df_one_hot)


   City_Chicago  City_Los Angeles  City_Miami  City_New York
0         False             False       False           True
1         False              True       False          False
2          True             False       False          False
3         False             False       False           True
4         False             False        True          False


### E. Menangani Data Tidak Valid
Menangani data tidak valid adalah proses penting untuk memastikan integritas dan kualitas dataset. Data tidak valid dapat mengganggu analisis dan menghasilkan model yang tidak akurat. Berikut adalah langkah-langkah yang bisa diambil untuk menangani data tidak valid:

##### Identifikasi Data Tidak Valid
1. Pemeriksaan Kesalahan: Identifikasi kesalahan ketik atau entri yang tidak sesuai format yang diharapkan.
2. Pemeriksaan Batas Nilai: Pastikan nilai numerik berada dalam rentang yang wajar.
3. Pemeriksaan Konsistensi: Pastikan konsistensi antar kolom, misalnya tanggal mulai tidak boleh setelah tanggal berakhir.
4. Deteksi Anomali: Gunakan metode statistik atau algoritma untuk mendeteksi anomali dalam data.

##### Penanganan Data Tidak Valid

In [None]:
import pandas as pd
import numpy as np

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Eve', np.nan],
    'Age': [25, 30, 35, 25, np.nan, 50],
    'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami', 'Los Angeles']
}
df = pd.DataFrame(data)

# Menghapus Data Tidak Valid: Jika jumlah data tidak valid kecil dan tidak signifikan, menghapusnya bisa menjadi solusi yang cepat dan mudah.
df = df.dropna(subset=['Age', 'Name'])  # Menghapus baris dengan nilai 'Age' atau 'Name' yang tidak valid


In [None]:
# Mengganti dengan Nilai Lain:

# Mengisi dengan Rata-rata/Median: Mengisi nilai yang hilang atau tidak valid dengan rata-rata atau median.
df['Age'] = df['Age'].fillna(df['Age'].median())

# Mengisi dengan Nilai Default: Mengisi dengan nilai default yang logis atau sesuai konteks.
df['Name'] = df['Name'].fillna('Unknown')

In [None]:
# Transformasi Data: Mengubah data tidak valid menjadi format yang sesuai.
df['Age'] = pd.to_numeric(df['Age'], errors='coerce')  # Mengubah nilai 'Age' yang tidak valid menjadi NaN


In [None]:
# Pembersihan dengan Logika Bisnis: Menggunakan aturan bisnis untuk memperbaiki data. Misalnya, jika usia tidak masuk akal (misalnya lebih dari 120 tahun), maka ubah atau hapus.
df = df[(df['Age'] >= 0) & (df['Age'] <= 120)]


##### Contoh Menangani Data Tidak Valid

In [None]:
import pandas as pd
import numpy as np

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Eve', np.nan],
    'Age': [25, 30, 35, 25, np.nan, 150],  # 150 dianggap sebagai nilai tidak valid
    'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Miami', 'Los Angeles']
}
df = pd.DataFrame(data)

# Identifikasi nilai tidak valid
print("Data Awal:")
print(df)

# Mengubah nilai 'Age' yang tidak valid menjadi NaN
df['Age'] = pd.to_numeric(df['Age'], errors='coerce')

# Mengisi nilai 'Age' yang hilang atau tidak valid dengan median
df['Age'] = df['Age'].fillna(df['Age'].median())

# Mengisi nilai 'Name' yang hilang dengan 'Unknown'
df['Name'] = df['Name'].fillna('Unknown')

print("\nData Setelah Menangani Nilai Tidak Valid:")
print(df)


Data Awal:
      Name    Age         City
0    Alice   25.0     New York
1      Bob   30.0  Los Angeles
2  Charlie   35.0      Chicago
3    Alice   25.0     New York
4      Eve    NaN        Miami
5      NaN  150.0  Los Angeles

Data Setelah Menangani Nilai Tidak Valid:
      Name    Age         City
0    Alice   25.0     New York
1      Bob   30.0  Los Angeles
2  Charlie   35.0      Chicago
3    Alice   25.0     New York
4      Eve   30.0        Miami
5  Unknown  150.0  Los Angeles


Dalam contoh ini, nilai usia yang tidak valid (150) diubah menjadi nilai median, dan nama yang hilang diisi dengan 'Unknown'. Langkah-langkah ini membantu memastikan bahwa data yang digunakan untuk analisis dan pemodelan lebih bersih dan dapat diandalkan.

## 2. Data Normalization


#### Metode Normalisasi Data

##### Contoh Normalisasi dengan Python

In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Contoh dataset
data = {
    'Age': [25, 30, 35, 40, 45],
    'Salary': [50000, 60000, 70000, 80000, 90000]
}
df = pd.DataFrame(data)

# Min-Max Scaling
min_max_scaler = MinMaxScaler()
df_min_max_scaled = pd.DataFrame(min_max_scaler.fit_transform(df), columns=df.columns)

# Z-Score Normalization
standard_scaler = StandardScaler()
df_standard_scaled = pd.DataFrame(standard_scaler.fit_transform(df), columns=df.columns)

print("Data Asli:")
print(df)

print("\nMin-Max Scaled Data:")
print(df_min_max_scaled)

print("\nStandardized Data:")
print(df_standard_scaled)


Data Asli:
   Age  Salary
0   25   50000
1   30   60000
2   35   70000
3   40   80000
4   45   90000

Min-Max Scaled Data:
    Age  Salary
0  0.00    0.00
1  0.25    0.25
2  0.50    0.50
3  0.75    0.75
4  1.00    1.00

Standardized Data:
        Age    Salary
0 -1.414214 -1.414214
1 -0.707107 -0.707107
2  0.000000  0.000000
3  0.707107  0.707107
4  1.414214  1.414214


Dalam contoh ini, kita melihat bagaimana fitur Age dan Salary diubah menggunakan Min-Max Scaling dan Z-Score Normalization. Setelah normalisasi, data berada dalam rentang yang lebih seragam, yang membantu meningkatkan kinerja model machine learning.

## 3. Validasi Model


#### Teknik Validasi Model


##### Contoh Implementasi K-Fold Cross-Validation di Python
Berikut adalah contoh bagaimana mengimplementasikan K-Fold Cross-Validation menggunakan scikit-learn di Python:

In [None]:
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression
import numpy as np

# Contoh dataset
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([2, 3, 4, 5, 6])

# Model
model = LinearRegression()

# K-Fold Cross-Validation
kf = KFold(n_splits=5)
scores = cross_val_score(model, X, y, cv=kf)

print("K-Fold Cross-Validation Scores:", scores)
print("Mean Score:", np.mean(scores))

K-Fold Cross-Validation Scores: [nan nan nan nan nan]
Mean Score: nan




Outputnya adalah skor kinerja model untuk setiap fold dan rata-rata skornya, yang memberikan gambaran umum tentang kinerja model Validasi model adalah langkah kritis dalam machine learning yang membantu memastikan bahwa model yang dikembangkan adalah akurat, andal, dan mampu menangani data yang tidak terlihat dengan baik. Dengan menggunakan teknik validasi yang tepat, kita dapat memilih model terbaik dan mengoptimalkan kinerjanya untuk aplikasi dunia nyata.

## 4. K-Fold Cross-Validation
K-Fold Cross-Validation adalah salah satu teknik validasi model yang umum digunakan dalam machine learning untuk mengevaluasi kinerja model secara lebih akurat. Teknik ini membagi dataset menjadi k subset (folds) yang sama besar, di mana setiap fold digunakan sebagai set pengujian satu kali sementara k-1 folds lainnya digunakan sebagai set pelatihan. Berikut ini adalah langkah-langkah dan manfaat utama dari K-Fold Cross-Validation:

##### Langkah-langkah K-Fold Cross-Validation


In [None]:
# Implementasi K-Fold Cross-Validation di Python
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris

# Load dataset
iris = load_iris()
X = iris.data
y = iris.target

# Model
model = LogisticRegression(max_iter=1000)

# K-Fold Cross-Validation
kf = KFold(n_splits=5, shuffle=True, random_state=42)  # Misalnya, menggunakan 5 folds dengan shuffle dan seed random 42
scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')

print("K-Fold Cross-Validation Scores:", scores)
print("Mean Score:", scores.mean())


K-Fold Cross-Validation Scores: [1.         1.         0.93333333 0.96666667 0.96666667]
Mean Score: 0.9733333333333334


Dalam contoh di atas, dataset Iris dibagi menjadi 5 folds dengan shuffle dan seed random yang ditentukan. Model Regresi Logistik dievaluasi menggunakan metrik akurasi, dan hasil dari setiap fold dievaluasi dan dihitung rata-ratanya. K-Fold Cross-Validation adalah alat yang penting dalam evaluasi model machine learning untuk memastikan bahwa model yang dikembangkan dapat diandalkan dan dapat digeneralisasikan dengan baik pada data yang tidak terlihat sebelumnya.

## 5. Confussion Matrix
Confusion Matrix (matriks kebingungan) adalah tabel yang digunakan untuk mengevaluasi kinerja suatu model klasifikasi pada sebuah dataset yang sudah diketahui labelnya. Matriks ini menggambarkan jumlah hasil prediksi yang benar dan yang salah dalam empat kategori berbeda.

#### Interpretasi Confusion Matrix
Matriks kebingungan memberikan gambaran yang lebih komprehensif tentang kinerja model klasifikasi daripada metrik evaluasi tunggal seperti akurasi. Dengan menggunakan komponen-komponen tersebut, beberapa metrik evaluasi lain dapat dihitung, seperti:
![image.png](attachment:image.png)

##### Contoh Confusion Matrix

Misalkan kita memiliki sebuah confusion matrix sebagai berikut:

```lua

            Predicted
         |  0   |  1  |
Actual   |------|-----|
   0     |  50  |  10 |
   1     |  5   |  35 |


Dari matriks ini:

    True Positive (TP) = 50
    True Negative (TN) = 35
    False Positive (FP) = 10
    False Negative (FN) = 5

Dengan informasi ini, kita bisa menghitung akurasi, presisi, recall, dan F1-score untuk mengevaluasi performa model klasifikasi tersebut. Confusion matrix adalah alat yang sangat berguna untuk memahami seberapa baik model klasifikasi kita bekerja pada dataset tertentu, terutama dalam konteks klasifikasi yang tidak seimbang atau ketika perlu menilai dampak dari kesalahan prediksi tertentu.

## 6. Bootstrap Sampling
Bootstrap sampling adalah teknik resampling yang digunakan dalam statistik untuk mengevaluasi keandalan estimasi dari sebuah sampel data. Teknik ini memungkinkan kita untuk membuat estimasi dari sebaran (distribution) suatu statistik, seperti mean, median, atau deviasi standar, bahkan jika distribusi dari populasi tidak diketahui.



##### Contoh Bootstrap Sampling
Misalkan kita memiliki dataset berikut yang berisi nilai-nilai tinggi dari suatu populasi:

Data: [10, 15, 8, 12, 14, 20, 18, 16, 11, 13]

Bootstrap sampling adalah teknik resampling yang digunakan dalam statistik untuk mengevaluasi keandalan estimasi dari sebuah sampel data. Teknik ini memungkinkan kita untuk membuat estimasi dari sebaran (distribution) suatu statistik, seperti mean, median, atau deviasi standar, bahkan jika distribusi dari populasi tidak diketahui.

##### Konsep Dasar Bootstrap Sampling
1. Resampling: Bootstrap sampling melibatkan pengambilan sampel dari dataset yang ada dengan mengembalikan (dengan penggantian) observasi yang sudah diambil. Ini berarti setiap observasi dalam dataset asli memiliki kesempatan untuk muncul di dalam sampel bootstrap lebih dari satu kali atau bahkan tidak muncul sama sekali.
2. Estimasi Sebaran: Dengan membuat banyak sampel bootstrap (biasanya ribuan sampai jutaan), kita dapat membangun distribusi dari statistik yang ingin diestimasi. Misalnya, kita dapat menghitung mean dari setiap sampel bootstrap, dan distribusi dari mean tersebut akan memberi kita perkiraan tentang sebaran mean dari populasi.
3. Keuntungan: Bootstrap sampling mengatasi masalah ketidakpastian tentang distribusi dari populasi, karena kita tidak harus bergantung pada asumsi tertentu tentang distribusi. Teknik ini juga memberikan interval kepercayaan (confidence intervals) yang lebih akurat.

##### Langkah-langkah Implementasi Bootstrap Sampling
1. Ambil Sampel: Ambil sampel dari dataset asli sebanyak n kali, dengan penggantian.
2. Hitung Statistik: Hitung statistik dari setiap sampel bootstrap, seperti mean, median, deviasi standar, atau persentil.
3. Bangun Distribusi: Dengan menggunakan hasil statistik dari banyak sampel bootstrap, bangun distribusi dari statistik tersebut.
4. Interval Kepercayaan: Dengan distribusi yang telah dibangun, hitung interval kepercayaan untuk estimasi statistik tertentu, misalnya 95% confidence interval.

##### Contoh Bootstrap Sampling

Misalkan kita memiliki dataset berikut yang berisi nilai-nilai tinggi dari suatu populasi:

Data: [10, 15, 8, 12, 14, 20, 18, 16, 11, 13]

Kita ingin mengevaluasi rata-rata (mean) dari populasi ini menggunakan bootstrap sampling:
1. Ambil Sampel: Ambil n sampel dengan penggantian dari dataset asli. Misalnya, kita ambil 1000 sampel bootstrap.
2. Hitung Mean: Hitung mean dari setiap sampel bootstrap.
3. Bangun Distribusi: Dengan menggunakan mean dari sampel bootstrap, kita dapat membangun distribusi mean dari populasi.
4. Interval Kepercayaan: Hitung 95% confidence interval dari distribusi mean yang dibangun.

Berikut adalah contoh implementasi sederhana menggunakan Python untuk menghitung mean dan confidence interval dengan bootstrap sampling:

In [None]:
import numpy as np

# Data
data = np.array([10, 15, 8, 12, 14, 20, 18, 16, 11, 13])

# Bootstrap sampling
n_samples = 1000
bootstrap_means = np.zeros(n_samples)

for i in range(n_samples):
    bootstrap_sample = np.random.choice(data, size=len(data), replace=True)
    bootstrap_means[i] = np.mean(bootstrap_sample)

# Confidence interval (95%)
ci_lower = np.percentile(bootstrap_means, 2.5)
ci_upper = np.percentile(bootstrap_means, 97.5)

print("Mean:", np.mean(data))
print("95% Confidence Interval:", ci_lower, "-", ci_upper)


Mean: 13.7
95% Confidence Interval: 11.5 - 15.9


Dalam contoh ini, kita mengambil 1000 sampel bootstrap dari data, menghitung mean dari setiap sampel, dan kemudian menghitung 95% confidence interval dari distribusi mean yang dibangun. Bootstrap sampling adalah alat yang powerful untuk memperoleh estimasi yang stabil dan distribusi statistik dari data yang ada.


## 7. Evaluasi Kinerja Model
Evaluasi kinerja model adalah proses penting dalam machine learning untuk menilai seberapa baik model dapat melakukan prediksi terhadap data yang belum pernah dilihat sebelumnya. Tujuannya adalah untuk memastikan bahwa model dapat digeneralisasikan dengan baik dan bekerja dengan akurat pada situasi dunia nyata. Berikut ini adalah langkah-langkah umum dalam evaluasi kinerja model:



##### Contoh Implementasi Evaluasi Kinerja Model di Python
Berikut adalah contoh sederhana menggunakan Python untuk evaluasi kinerja model klasifikasi menggunakan metrik akurasi dan confusion matrix:

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

# Load dataset
iris = load_iris()
X = iris.data
y = iris.target

# Bagi dataset menjadi data pelatihan dan data pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi dan latih model
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Prediksi dengan data pengujian
y_pred = model.predict(X_test)

# Evaluasi kinerja model
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

print("Accuracy:", accuracy)
print("Confusion Matrix:\n", conf_matrix)


Accuracy: 1.0
Confusion Matrix:
 [[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]


In [None]:
# Contoh Confussion Matrix di NLP
# Impor library yang diperlukan
import nltk
from nltk.corpus import movie_reviews
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix, classification_report

# Unduh dataset sentimen ulasan film dari NLTK
nltk.download('movie_reviews')

# Ambil ulasan dan label dari dataset
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

# Pisahkan teks ulasan dan label
texts = [' '.join(document) for document, category in documents]
labels = [category for document, category in documents]

# Ubah teks menjadi vektor fitur TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(texts)

# Bagi dataset menjadi data pelatihan dan data pengujian
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# Inisialisasi dan latih model klasifikasi (misalnya, Linear SVM)
classifier = LinearSVC()
classifier.fit(X_train, y_train)

# Prediksi kelas pada data pengujian
y_pred = classifier.predict(X_test)

# Evaluasi model menggunakan confusion matrix
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)

# Evaluasi model menggunakan classification report
report = classification_report(y_test, y_pred)
print("\nClassification Report:")
print(report)


[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\Minyau$\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


Confusion Matrix:
[[168  31]
 [ 36 165]]

Classification Report:
              precision    recall  f1-score   support

         neg       0.82      0.84      0.83       199
         pos       0.84      0.82      0.83       201

    accuracy                           0.83       400
   macro avg       0.83      0.83      0.83       400
weighted avg       0.83      0.83      0.83       400

