## 1. Perkenalan Dataset

Tahap pertama, Anda harus mencari dan menggunakan dataset dengan ketentuan sebagai berikut:

Sumber Dataset:
Dataset dapat diperoleh dari berbagai sumber, seperti public repositories (Kaggle, UCI ML Repository, Open Data) atau data primer yang Anda kumpulkan sendiri.

## 2. Import Library

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [10]:
import pandas as pd
import os

## 3. Memuat Dataset

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [11]:
# Memuat dataset langsung dari folder data_raw
df = pd.read_csv('data_raw/hour.csv')

print("Dataset berhasil dimuat!")

Dataset berhasil dimuat!


## 4. Exploratory Data Analysis (EDA)

Pada tahap ini, Anda akan melakukan Exploratory Data Analysis (EDA) untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [12]:
# Melihat 5 baris pertama data
display(df.head())

# Melihat informasi tipe data dan jumlah missing values
print("\n--- Informasi Dataset ---")
df.info()

# Melihat statistik deskriptif dasar (rata-rata, nilai min/max, dll)
print("\n--- Statistik Deskriptif ---")
display(df.describe())

# Mengecek total nilai yang kosong (missing values) di setiap kolom
print("\n--- Jumlah Missing Values ---")
print(df.isnull().sum())

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,<<<<<<< HEAD
instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0,3,13,16
2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0,8,32,40
3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0,5,27,32
4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0,3,10,13



--- Informasi Dataset ---
<class 'pandas.core.frame.DataFrame'>
MultiIndex: 52143 entries, ('instant', 'dteday', 'season', 'yr', 'mnth', 'hr', 'holiday', 'weekday', 'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed', 'casual', 'registered') to ('>>>>>>> 459092ab500e9e2fab2af708fcd399ac5495db9d', nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan)
Data columns (total 1 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   <<<<<<< HEAD  52140 non-null  object
dtypes: object(1)
memory usage: 2.1+ MB

--- Statistik Deskriptif ---


Unnamed: 0,<<<<<<< HEAD
count,52140
unique,870
top,5
freq,780



--- Jumlah Missing Values ---
<<<<<<< HEAD    3
dtype: int64


## 5. Data Preprocessing

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi tidak terbatas pada:

Menghapus atau Menangani Data Kosong (Missing Values)
Menghapus Data Duplikat
Normalisasi atau Standarisasi Fitur
Deteksi dan Penanganan Outlier
Encoding Data Kategorikal
Binning (Pengelompokan Data)
Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.

In [13]:
# --- 5. Data Preprocessing ---
print("\nMulai proses pembersihan data...")
df_clean = df.copy()

# Menghapus kolom yang tidak relevan dan mencegah data leakage
cols_to_drop = ['instant', 'dteday', 'casual', 'registered']
df_clean = df_clean.drop(columns=cols_to_drop, errors='ignore')

print("Preprocessing selesai! Kolom yang tersisa:")
print(df_clean.columns.tolist())

# Menampilkan hasil akhir
display(df_clean.head())


Mulai proses pembersihan data...
Preprocessing selesai! Kolom yang tersisa:
['<<<<<<< HEAD']


Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,<<<<<<< HEAD
instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0,3,13,16
2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0,8,32,40
3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0,5,27,32
4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0,3,10,13
