# Pembersihan Data (Data Cleaning) / Data Cleansing
Menghapus data yang kotor, tidak konsisten, dan tidak relevan, sehingga data menjadi akurat.

**Tahapan 1: Data Understanding**

In [21]:
import pandas as pd
from sklearn.datasets import load_iris
from termcolor import cprint

# Membuat data Iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Identifikasi jumlah data
cprint(f"Jumlah data: {df.shape[0]} ", "green")

# Identifikasi tipe data
cprint("\nTipe data:", "green")
print(df.dtypes)

# Identifikasi nilai yang hilang
cprint("\nJumlah nilai yang hilang:", "green")
print(df.isnull().sum())

# Identifikasi outlier (menggunakan IQR)
for column in df.columns[:-1]: #Loop melalui fitur numerik
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers =df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    cprint(f"\nOutlier pada kolom {column}:", "blue")
    print(outliers)

# Deskripsi statistik data
cprint("\nDeskripsi statistik data:", "green")
print(df.describe())


[32mJumlah data: 150 [0m
[32m
Tipe data:[0m
sepal length (cm)    float64
sepal width (cm)     float64
petal length (cm)    float64
petal width (cm)     float64
target                 int64
dtype: object
[32m
Jumlah nilai yang hilang:[0m
sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
target               0
dtype: int64
[34m
Outlier pada kolom sepal length (cm):[0m
Empty DataFrame
Columns: [sepal length (cm), sepal width (cm), petal length (cm), petal width (cm), target]
Index: []
[34m
Outlier pada kolom sepal width (cm):[0m
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
15                5.7               4.4                1.5               0.4   
32                5.2               4.1                1.5               0.1   
33                5.5               4.2                1.4               0.2   
60                5.0               2.0                3.5               1.0   

    target  
15

**Tahapan 2: Membersihkan Data**

In [19]:
# Membuat data Iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Indentifikasi jumlah data
cprint(f"Jumlah data: {df.shape[0]}", "green")

# Identifikasi tipe data
cprint("\nTipe data:", "green")
print(df.dtypes)

# Identifikasi nilai yang hilang
cprint("\nJumlah nilai yang hilang:", "green")
print(df.isnull().sum())

# Identifikasi outlier (menggunakan IQR)
for column in df.columns[:-1]:  # Loop melalui fitur numerik
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    cprint(f"\nOutlier pada kolom {column}:", "blue")
    print(outliers)

# Deskripsi statistik data
cprint("\nDeskripsi statistik data:", "green")
print(df.describe())

# Pembersihan Data
# 1. Pengisian nilai yang hilang (Jika ada)
# Namun, jika ada bisa menggunakan filna():
# df['sepal length (cm)'].fillna(df['sepal length (cm)'].mean(), inplace=True)
# df['sepal width (cm)'].fillna(df['sepal width (cm)'].median(), inplace=True)
# df['petal length (cm)'].fillna(df['petal length (cm)'].mode()[0], inplace=True)

# 2. Menghapus baris dengan data yang salah (Jika ada)
# Namun, jika ada bisa menggunakan drop() atau dropna():
# df.drop(df[df['sepal length (cm)'] < 0].index, inplace=True)

# 3. Mengoreksi nilai outlier
for column in df.columns[:-1]:
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    df[column] = df[column].clip(lower=lower_bound, upper=upper_bound)

# Setelah pembersihan data
cprint(f"\nDeskripsi statistik data setelah pembersihan:", "green")
print(df.describe())




[32mJumlah data: 150[0m
[32m
Tipe data:[0m
sepal length (cm)    float64
sepal width (cm)     float64
petal length (cm)    float64
petal width (cm)     float64
target                 int64
dtype: object
[32m
Jumlah nilai yang hilang:[0m
sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
target               0
dtype: int64
[34m
Outlier pada kolom sepal length (cm):[0m
Empty DataFrame
Columns: [sepal length (cm), sepal width (cm), petal length (cm), petal width (cm), target]
Index: []
[34m
Outlier pada kolom sepal width (cm):[0m
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
15                5.7               4.4                1.5               0.4   
32                5.2               4.1                1.5               0.1   
33                5.5               4.2                1.4               0.2   
60                5.0               2.0                3.5               1.0   

    target  
15 