In [1]:
# import library yang digunakan
import pandas as pd
from sklearn.datasets import load_iris

In [2]:
# Muat dataset iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Identifikasi jumlah data
print("Jumlah data:", df.shape[0])

# Identifikasi tipe data
print("\nTipe data:")
print(df.dtypes)

# Identifikasi nilai yang hilang
print("\nJumlah nilai yang hilang:")
print(df.isnull().sum())

# Identifikasi outlier (menggunakan IQR)
for column in df.columns[:-1]:  # Loop melalui fitur numerik
  Q1 = df[column].quantile(0.25)
  Q3 = df[column].quantile(0.75)
  IQR = Q3 - Q1
  lower_bound = Q1 - 1.5 * IQR
  upper_bound = Q3 + 1.5 * IQR
  outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
  print(f"\nOutlier pada kolom {column}:")
  print(outliers)

# Deskripsi statistik data
print("\nDeskripsi statistik:")
print(df.describe())

Jumlah data: 150

Tipe data:
sepal length (cm)    float64
sepal width (cm)     float64
petal length (cm)    float64
petal width (cm)     float64
target                 int64
dtype: object

Jumlah nilai yang hilang:
sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
target               0
dtype: int64

Outlier pada kolom sepal length (cm):
Empty DataFrame
Columns: [sepal length (cm), sepal width (cm), petal length (cm), petal width (cm), target]
Index: []

Outlier pada kolom sepal width (cm):
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
15                5.7               4.4                1.5               0.4   
32                5.2               4.1                1.5               0.1   
33                5.5               4.2                1.4               0.2   
60                5.0               2.0                3.5               1.0   

    target  
15       0  
32       0  
33       0  
60       

In [3]:
# Identifikasi data target dan lakukan pelabelan

# Dalam dataset iris, kolom 'target' sudah mewakili label kelas (0, 1, 2).

# Namun, jika diperlukan pelabelan yang lebih spesifik berdasarkan SOP,

# kita bisa melakukan mapping label sesuai dengan kebutuhan.


# Misalnya, jika SOP menentukan bahwa:

# - target 0: Setosa

# - target 1: Versicolor

# - target 2: Virginica

# Kita bisa membuat mapping label seperti ini:


label_mapping = {

    0: 'Setosa',

    1: 'Versicolor',

    2: 'Virginica'

}


# Buat kolom baru 'target_label' yang berisi label teks

df['target_label'] = df['target'].map(label_mapping)


# Tampilkan data dengan label baru

print("\nData dengan label berdasarkan SOP:")

print(df.head())


Data dengan label berdasarkan SOP:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target target_label  
0       0       Setosa  
1       0       Setosa  
2       0       Setosa  
3       0       Setosa  
4       0       Setosa  
