# Self Practice 3
___

## Material

### **Practice Material**

- [Data Understanding](#data-understanding)
- [Data Cleaning](#data-cleaning)
- [Constructing Data](#constructing-data)
- [Determining Data Labels](#determining-data-labels)
- [Data Visualization](#data-visualization)
- [Evaluation & Documentation](#evaluation--documentation)

### **Library Material**

- Pandas
- Scikit-Learn
- Matplotlib
- Seaborn

## Import Library

In [None]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import MinMaxScaler
from sklearn.feature_selection import SelectKBest, f_classif
import matplotlib.pyplot as plt
import seaborn as sns

## Data Understanding

In [None]:
# Muat dataset iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Identifikasi jumlah data
print("Jumlah data:", df.shape[0])

In [None]:
# Identifikasi tipe data
print("\nTipe data:")
print(df.dtypes)

In [None]:
# Identifikasi nilai yang hilang
print("\nJumlah nilai yang hilang:")
print(df.isnull().sum())

In [None]:
# Identifikasi outlier (menggunakan IQR)
for column in df.columns[:-1]:  # Loop melalui fitur numerik
  Q1 = df[column].quantile(0.25)
  Q3 = df[column].quantile(0.75)
  IQR = Q3 - Q1
  lower_bound = Q1 - 1.5 * IQR
  upper_bound = Q3 + 1.5 * IQR
  outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
  print(f"\nOutlier pada kolom {column}:")
  print(outliers)

In [None]:
# Deskripsi statistik data
print("\nDeskripsi statistik:")
print(df.describe())

## Data Cleaning

In [None]:
# Muat dataset iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Identifikasi jumlah data
print("Jumlah data:", df.shape[0])

In [None]:
# Identifikasi tipe data
print("\nTipe data:")
print(df.dtypes)

In [None]:
# Identifikasi nilai yang hilang
print("\nJumlah nilai yang hilang:")
print(df.isnull().sum())

In [None]:
# Identifikasi outlier (menggunakan IQR)
for column in df.columns[:-1]:  # Loop melalui fitur numerik
  Q1 = df[column].quantile(0.25)
  Q3 = df[column].quantile(0.75)
  IQR = Q3 - Q1
  lower_bound = Q1 - 1.5 * IQR
  upper_bound = Q3 + 1.5 * IQR
  outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
  print(f"\nOutlier pada kolom {column}:")
  print(outliers)

In [None]:
# Deskripsi statistik data
print("\nDeskripsi statistik:")
print(df.describe())

In [None]:
# Pembersihan data
# 1. Pengisian nilai yang hilang (jika ada)
# Dalam dataset iris, tidak ada nilai yang hilang, jadi bagian ini bisa dilewati.
# Namun, jika ada, Anda bisa menggunakan:
# df['sepal length (cm)'].fillna(df['sepal length (cm)'].mean(), inplace=True) 
# df['sepal width (cm)'].fillna(df['sepal width (cm)'].median(), inplace=True)
# df['petal length (cm)'].fillna(df['petal length (cm)'].mode()[0], inplace=True)

# 2. Menghapus baris dengan data yang salah (jika ada)
# Dalam dataset iris, tidak ada data yang salah secara jelas.
# Namun, jika ada, Anda bisa menggunakan:
# df.drop(df[df['sepal length (cm)'] < 0].index, inplace=True)

# 3. Mengoreksi nilai outlier
for column in df.columns[:-1]:
  Q1 = df[column].quantile(0.25)
  Q3 = df[column].quantile(0.75)
  IQR = Q3 - Q1
  lower_bound = Q1 - 1.5 * IQR
  upper_bound = Q3 + 1.5 * IQR
  df[column] = df[column].clip(lower_bound, upper_bound)

# Setelah pembersihan data
print("\nDeskripsi statistik setelah pembersihan:")
print(df.describe())

## Constructing Data

In [None]:
# Muat dataset iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 1. Normalisasi data
# Normalisasi dilakukan menggunakan MinMaxScaler untuk mengubah rentang nilai fitur menjadi 0-1.
scaler = MinMaxScaler()
numerical_features = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
df[numerical_features] = scaler.fit_transform(df[numerical_features])
print("\nData setelah normalisasi:")
print(df.head())

In [None]:
# 2. Pemilihan fitur
# Menggunakan SelectKBest untuk memilih 2 fitur terbaik berdasarkan skor ANOVA F-value.
X = df.drop('target', axis=1)
y = df['target']
selector = SelectKBest(score_func=f_classif, k=2)
X_new = selector.fit_transform(X, y)
selected_features = X.columns[selector.get_support()]
print("\nFitur terpilih:", selected_features)

In [None]:
# 3. Binning
# Binning dilakukan pada fitur 'petal length (cm)' untuk mengelompokkan data menjadi beberapa kategori.
df['petal_length_binned'] = pd.cut(df['petal length (cm)'], bins=3, labels=['rendah', 'sedang', 'tinggi'])
print("\nData setelah binning:")
print(df.head())

## Determining Data Labels

In [None]:
# Identifikasi data target dan lakukan pelabelan
# Dalam dataset iris, kolom 'target' sudah mewakili label kelas (0, 1, 2).
# Namun, jika diperlukan pelabelan yang lebih spesifik berdasarkan SOP,
# kita bisa melakukan mapping label sesuai dengan kebutuhan.

# Misalnya, jika SOP menentukan bahwa:
# - target 0: Setosa
# - target 1: Versicolor
# - target 2: Virginica
# Kita bisa membuat mapping label seperti ini:

label_mapping = {
    0: 'Setosa',
    1: 'Versicolor',
    2: 'Virginica'
}

# Buat kolom baru 'target_label' yang berisi label teks
df['target_label'] = df['target'].map(label_mapping)

# Tampilkan data dengan label baru
print("\nData dengan label berdasarkan SOP:")
print(df.head())

In [None]:
# Load Dataset Iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Identifikasi Data
print("Jumlah data:", df.shape[0])

In [None]:
print("\nTipe data:")
print(df.dtypes)

In [None]:
print("\nJumlah nilai yang hilang:")
print(df.isnull().sum())

In [None]:
# Identifikasi Outlier (IQR) 
for column in df.columns[:-1]:  # Fitur numerik
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    print(f"\nOutlier pada kolom {column}:")
    print(outliers)

In [None]:
# Deskripsi Statistik Sebelum Pembersihan
print("\nDeskripsi statistik:")
print(df.describe())

In [None]:
# Pembersihan Data

# 1. (Opsional) Pengisian nilai yang hilang — tidak dilakukan karena data lengkap

# 2. (Opsional) Hapus data tidak logis — tidak dilakukan karena tidak ditemukan

# 3. Koreksi nilai outlier dengan clipping
for column in df.columns[:-1]:
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    df[column] = df[column].clip(lower_bound, upper_bound)

# Deskripsi Statistik Setelah Pembersihan
print("\nDeskripsi statistik setelah pembersihan:")
print(df.describe())

In [None]:
# Normalisasi Data
scaler = MinMaxScaler()
numerical_features = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
df[numerical_features] = scaler.fit_transform(df[numerical_features])

print("\nData setelah normalisasi:")
print(df.head())

In [None]:
# Pemilihan Fitur (Feature Selection) 
X = df.drop('target', axis=1)
y = df['target']
selector = SelectKBest(score_func=f_classif, k=2)
X_new = selector.fit_transform(X, y)
selected_features = X.columns[selector.get_support()]

print("\nFitur terpilih:", selected_features)

In [None]:
# Binning pada 'petal length (cm)'
df['petal_length_binned'] = pd.cut(df['petal length (cm)'], bins=3, labels=['rendah', 'sedang', 'tinggi'])

print("\nData setelah binning:")
print(df.head())

In [None]:
# Mapping Label Target
label_mapping = {
    0: 'Setosa',
    1: 'Versicolor',
    2: 'Virginica'
}
df['target_label'] = df['target'].map(label_mapping)

print("\nData dengan label berdasarkan SOP:")
print(df.head())

## Data Visualization

In [None]:
# Histogram untuk melihat distribusi data setelah pembersihan
# Adjust the subplot grid to accommodate all columns
num_cols = len(df.columns[:-2])
num_rows = (num_cols + 1) // 2  # Calculate rows needed
plt.figure(figsize=(12, 6 * num_rows)) # Adjust figure height 

for i, column in enumerate(df.columns[:-2]):  # Loop melalui fitur numerik
  plt.subplot(num_rows, 2, i + 1)  # Use calculated rows and cols
  sns.histplot(df[column], kde=True)
  plt.title(f'Distribusi {column}')
plt.tight_layout()
plt.show()

In [None]:
# Scatter plot untuk melihat hubungan antara dua fitur terpilih
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df[selected_features[0]], y=df[selected_features[1]], hue=df['target_label'])
plt.title(f'Hubungan antara {selected_features[0]} dan {selected_features[1]}')
plt.show()

In [None]:
# Box plot untuk melihat distribusi data sebelum dan sesudah normalisasi
plt.figure(figsize=(12, 6))
for i, column in enumerate(numerical_features):
  plt.subplot(2, 2, i + 1)
  sns.boxplot(data=df, y=column)
  plt.title(f'Box plot {column}')
plt.tight_layout()
plt.show()

In [None]:
# Histogram untuk melihat distribusi data setelah binning
plt.figure(figsize=(8, 6))
sns.histplot(df['petal_length_binned'], kde=False)
plt.title('Distribusi Petal Length setelah Binning')
plt.show()

In [None]:
# Load Dataset Iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Identifikasi Data
print("Jumlah data:", df.shape[0])

In [None]:
print("\nTipe data:")
print(df.dtypes)

In [None]:
print("\nJumlah nilai yang hilang:")
print(df.isnull().sum())

In [None]:
# Identifikasi Outlier (IQR) 
for column in df.columns[:-1]:  # Fitur numerik
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    print(f"\nOutlier pada kolom {column}:")
    print(outliers)

In [None]:
# Deskripsi Statistik Sebelum Pembersihan
print("\nDeskripsi statistik:")
print(df.describe())

In [None]:
# Pembersihan Data

# 1. (Opsional) Pengisian nilai yang hilang — tidak dilakukan karena data lengkap

# 2. (Opsional) Hapus data tidak logis — tidak dilakukan karena tidak ditemukan

# 3. Koreksi nilai outlier dengan clipping
for column in df.columns[:-1]:
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    df[column] = df[column].clip(lower_bound, upper_bound)

# Deskripsi Statistik Setelah Pembersihan
print("\nDeskripsi statistik setelah pembersihan:")
print(df.describe())

In [None]:
# Normalisasi Data
scaler = MinMaxScaler()
numerical_features = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
df[numerical_features] = scaler.fit_transform(df[numerical_features])

print("\nData setelah normalisasi:")
print(df.head())

In [None]:
# Pemilihan Fitur (Feature Selection) 
X = df.drop('target', axis=1)
y = df['target']
selector = SelectKBest(score_func=f_classif, k=2)
X_new = selector.fit_transform(X, y)
selected_features = X.columns[selector.get_support()]

print("\nFitur terpilih:", selected_features)

In [None]:
# Binning pada 'petal length (cm)'
df['petal_length_binned'] = pd.cut(df['petal length (cm)'], bins=3, labels=['rendah', 'sedang', 'tinggi'])

print("\nData setelah binning:")
print(df.head())

In [None]:
# Mapping Label Target
label_mapping = {
    0: 'Setosa',
    1: 'Versicolor',
    2: 'Virginica'
}
df['target_label'] = df['target'].map(label_mapping)

print("\nData dengan label berdasarkan SOP:")
print(df.head())

In [None]:
# Histogram untuk melihat distribusi data setelah pembersihan
# Adjust the subplot grid to accommodate all columns
num_cols = len(df.columns[:-2])
num_rows = (num_cols + 1) // 2  # Calculate rows needed
plt.figure(figsize=(12, 6 * num_rows)) # Adjust figure height 

for i, column in enumerate(df.columns[:-2]):  # Loop melalui fitur numerik
  plt.subplot(num_rows, 2, i + 1)  # Use calculated rows and cols
  sns.histplot(df[column], kde=True)
  plt.title(f'Distribusi {column}')
plt.tight_layout()
plt.show()

In [None]:
# Scatter plot untuk melihat hubungan antara dua fitur terpilih
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df[selected_features[0]], y=df[selected_features[1]], hue=df['target_label'])
plt.title(f'Hubungan antara {selected_features[0]} dan {selected_features[1]}')
plt.show()

In [None]:
# Box plot untuk melihat distribusi data sebelum dan sesudah normalisasi
plt.figure(figsize=(12, 6))
for i, column in enumerate(numerical_features):
  plt.subplot(2, 2, i + 1)
  sns.boxplot(data=df, y=column)
  plt.title(f'Box plot {column}')
plt.tight_layout()
plt.show()

In [None]:
# Histogram untuk melihat distribusi data setelah binning
plt.figure(figsize=(8, 6))
sns.histplot(df['petal_length_binned'], kde=False)
plt.title('Distribusi Petal Length setelah Binning')
plt.show()

## Evaluation & Documentation

In [None]:
print("\nStatistik Deskriptif Data Setelah Pembersihan:")
print(df.describe())