In [None]:
# Impor library pandas dan matplot
import pandas as pd
from matplotlib import pyplot as plt

In [None]:
# Set variabel untuk dataset latih
# Separator titik koma dan decimal berupa koma karena data berasal dari excel
data_latih = pd.read_csv('./dataset-latih.csv', sep=';', decimal=',')

In [None]:
# Cek fitur parameter data latih
data_latih.head()

In [None]:
# Cek statistik data latih
data_latih.describe()

In [None]:
# Cek total data pada dataset latih
data_latih.count()

In [None]:
# Hapus kolom data kosong
data_latih = data_latih.dropna()

In [None]:
# Cek Tipe Data
print(data_latih['Age'].dtype) # int64
print(data_latih['Body Weight'].dtype) # object
print(data_latih['Body Length'].dtype) # Object

In [None]:
# Ubah format tipe data menjadi numeral
data_latih['Age'] = pd.to_numeric(data_latih['Age']) # int64
data_latih['Body Weight'] = pd.to_numeric(data_latih['Body Weight']) # float64
data_latih['Body Length'] = pd.to_numeric(data_latih['Body Length']) # float64

In [None]:
# Pencarian outlier pada Fitur Age
# Mencari Q1 dan Q3
Q1_age = data_latih['Age'].quantile(0.25)
Q3_age = data_latih['Age'].quantile(0.75)

# Mencari IQR serta batas bawah dan batas atas
IQR_age = Q3_age - Q1_age
age_bawah = Q1_age - 1.5 * IQR_age
age_atas = Q3_age + 1.5 * IQR_age

# Mencari data outlier dari dataset latih
outlier_age = data_latih.loc[(data_latih['Age'] < age_bawah) | (data_latih['Age'] > age_atas)]

In [None]:
# Mencari noise pada outlier age
# Data usia wajar menurut WHO yakni 1 sampai dengan 60 bulan
noise_age = outlier_age.loc[(outlier_age['Age'] < 1) | (outlier_age['Age'] > 60)]

# Hapus data tidak wajar pada data latih
data_latih = data_latih.drop(index = noise_age.index).reset_index(drop=True)

In [None]:
# Pencarian outlier pada Fitur Body Weight
# Mencari Q1 dan Q3
Q1_weight = data_latih['Body Weight'].quantile(0.25)
Q3_weight = data_latih['Body Weight'].quantile(0.75)

# Mencari IQR serta batas bawah dan batas atas
IQR_weight = Q3_weight - Q1_weight
weight_bawah = Q1_weight - 1.5 * IQR_weight
weight_atas = Q3_weight + 1.5 * IQR_weight

# Mencari data outlier dari dataset latih
outlier_weight = data_latih.loc[(data_latih['Body Weight'] < weight_bawah) | (data_latih['Body Weight'] > weight_atas)]

In [None]:
# Mencari noise pada outlier Body Weight
# Data berat wajar menurut WHO yakni 2 sampai dengan 28
noise_weight = outlier_weight.loc[(outlier_weight['Body Weight'] < 2) | (outlier_weight['Body Weight'] > 28)]

# Hapus noise pada data latih sesuai dengan index
data_latih = data_latih.drop(index = noise_weight.index).reset_index(drop=True)

In [None]:
# Pencarian outlier pada Fitur Body Length
# Mencari Q1 dan Q3
Q1_length = data_latih['Body Length'].quantile(0.25)
Q3_length = data_latih['Body Length'].quantile(0.75)

# Mencari IQR serta batas bawah dan batas atas
IQR_length = Q3_length - Q1_length
length_bawah = Q1_length - 1.5 * IQR_length
length_atas = Q3_length + 1.5 * IQR_length

# Mencari data outlier dari dataset latih
outlier_length = data_latih.loc[(data_latih['Body Length'] < length_bawah) | (data_latih['Body Weight'] > length_atas)]

In [None]:
# Mencari noise pada outlier Body Length
# Data panjang/tinggi wajar menurut WHO yakni 44 sampai dengan 124
noise_length = outlier_length.loc[(outlier_length['Body Length'] < 44) | (outlier_length['Body Length'] > 124)]

# Hapus noise pada data latih sesuai dengan index
data_latih = data_latih.drop(index = noise_length.index).reset_index(drop=True)

In [None]:
# Visualisasi data berbentuk boxplot untuk data Age
# Batasan WHO
who_age = list(range(1,61))
data = [data_latih['Age'], outlier_age['Age'], who_age]
labels = ['Age', 'Outliers', 'WHO']

plt.title('Data Latih - Fitur Age', loc='right')
plt.ylabel('Umur (Bulan)')
plt.boxplot(data, tick_labels=labels)
plt.show()

In [None]:
# Visualisasi data berbentuk boxplot untuk data Body Weight
# Batasan WHO
who_weight = list(range(1, 29))
data = [data_latih['Body Weight'], outlier_weight['Body Weight'], who_weight]
labels = ['Body Weight', 'Outliers', 'WHO']

plt.title('Data Latih - Fitur Body Weight', loc='right')
plt.ylabel('Berat (Kg)')
plt.boxplot(data, tick_labels=labels)
plt.show()

In [None]:
# Visualisasi data berbentuk boxplot untuk data Body Length
# Batasan WHO
who_length = list(range(44, 125))
data = [data_latih['Body Length'], outlier_length['Body Length'], who_length]
labels = ['Body Length', 'Outliers', 'WHO']

plt.title('Data Latih - Fitur Body Length', loc='right')
plt.ylabel('Berat (Kg)')
plt.boxplot(data, tick_labels=labels)
plt.show()

In [None]:
# Eksport dataset latih mentah menjadi data_latih_clean.csv
data_latih.to_csv('./data_latih_clean.csv', index=False)