# **1. Perkenalan Dataset**


Tahap pertama, Anda harus mencari dan menggunakan dataset dengan ketentuan sebagai berikut:

1. **Sumber Dataset**:  
   Dataset dapat diperoleh dari kaggle(https://www.kaggle.com/code/rojindarafarin/stunting-balita-detection)


# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [2]:
df = pd.read_csv('/content/data_balita.csv')
df.head()

Unnamed: 0,Umur (bulan),Jenis Kelamin,Tinggi Badan (cm),Status Gizi
0,0,laki-laki,44.591973,stunted
1,0,laki-laki,56.705203,tinggi
2,0,laki-laki,46.863358,normal
3,0,laki-laki,47.508026,normal
4,0,laki-laki,42.743494,severely stunted


# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120999 entries, 0 to 120998
Data columns (total 4 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   Umur (bulan)       120999 non-null  int64  
 1   Jenis Kelamin      120999 non-null  object 
 2   Tinggi Badan (cm)  120999 non-null  float64
 3   Status Gizi        120999 non-null  object 
dtypes: float64(1), int64(1), object(2)
memory usage: 3.7+ MB


In [4]:
df.describe()

Unnamed: 0,Umur (bulan),Tinggi Badan (cm)
count,120999.0,120999.0
mean,30.173803,88.655434
std,17.575119,17.300997
min,0.0,40.010437
25%,15.0,77.0
50%,30.0,89.8
75%,45.0,101.2
max,60.0,128.0


In [16]:
df["Status Gizi"].value_counts()

Unnamed: 0_level_0,count
Status Gizi,Unnamed: 1_level_1
normal,67755
severely stunted,19869
tinggi,19560
stunted,13815


In [15]:
df["Tinggi Badan (cm)"].value_counts()

Unnamed: 0_level_0,count
Tinggi Badan (cm),Unnamed: 1_level_1
89.700000,317
90.000000,315
88.000000,310
92.200000,309
92.300000,309
...,...
61.448325,1
56.486972,1
47.855376,1
59.420472,1


In [20]:
# Hubungan Jenis Kelamin dengan Status Gizi
cross_tab = pd.crosstab(df['Jenis Kelamin'], df['Status Gizi'])
display(cross_tab)

Status Gizi,normal,severely stunted,stunted,tinggi
Jenis Kelamin,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
laki-laki,33403,10374,6809,9411
perempuan,34352,9495,7006,10149


In [22]:
# Deskripsi statistik Tinggi Badan (cm) berdasarkan Status Gizi
display(df.groupby('Status Gizi')['Tinggi Badan (cm)'].describe())

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Status Gizi,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
normal,67755.0,92.702689,15.676267,45.433571,82.8,94.9,104.2,123.9
severely stunted,19869.0,73.176224,13.645497,40.010437,63.2,75.1,84.6,95.9
stunted,13815.0,82.208722,12.436462,43.623654,74.9,84.9,92.1,100.7
tinggi,19560.0,94.912898,18.259081,54.716373,79.975,96.0,110.0,128.0


# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.

In [23]:
df = df.drop_duplicates()

In [24]:
df = df.dropna()

In [26]:
from sklearn.preprocessing import LabelEncoder

# Encoding
le_gender = LabelEncoder()
df["Jenis Kelamin"] = le_gender.fit_transform(df["Jenis Kelamin"])

le_status = LabelEncoder()
df["Status Gizi"] = le_status.fit_transform(df["Status Gizi"])

In [28]:
from sklearn.preprocessing import StandardScaler

# Scaling
scaler = StandardScaler()
df[["Umur (bulan)", "Tinggi Badan (cm)"]] = scaler.fit_transform(
        df[["Umur (bulan)", "Tinggi Badan (cm)"]]
    )

In [37]:
import os

def preprocess(df, output_file):
  output_dir = os.path.dirname(output_file)
  if not os.path.exists(output_dir):
    os.makedirs(output_dir)

  # Save hasil
  df.to_csv(output_file, index=False)
  print(f"Data disimpan ke {output_file}")
  return df

output_file = "/content/data_preprocessed.csv"
df = preprocess(df, output_file)

Data disimpan ke /content/data_preprocessed.csv
