# **1. Perkenalan Dataset**


Tahap pertama, Anda harus mencari dan menggunakan dataset dengan ketentuan sebagai berikut:

1. **Sumber Dataset**:  
   Dataset dapat diperoleh dari berbagai sumber, seperti public repositories (*Kaggle*, *UCI ML Repository*, *Open Data*) atau data primer yang Anda kumpulkan sendiri.


# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [4]:
import kagglehub
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [5]:
# Download latest version
path = kagglehub.dataset_download("raminhuseyn/web-traffic-time-series-dataset")

print("Path to dataset files:", path)

# Load dataset
df = pd.read_csv('/kaggle/input/web-traffic-time-series-dataset/web_traffic.csv')

Path to dataset files: /kaggle/input/web-traffic-time-series-dataset


# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [6]:
# Melihat 5 baris pertama
df.head()

Unnamed: 0,Timestamp,TrafficCount
0,2020-01-20 00:00:00,487.0
1,2020-01-20 00:30:00,385.0
2,2020-01-20 01:30:00,269.0
3,2020-01-20 02:30:00,517.0
4,2020-01-20 03:30:00,129.0


In [7]:
# Melihat informasi dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Timestamp     2793 non-null   object 
 1   TrafficCount  2793 non-null   float64
dtypes: float64(1), object(1)
memory usage: 43.8+ KB


In [8]:
# Melihat deskripsi dataset
print(df.describe(include='all'))

                  Timestamp  TrafficCount
count                  2793   2793.000000
unique                 2793           NaN
top     2020-05-17 12:30:00           NaN
freq                      1           NaN
mean                    NaN   8591.321160
std                     NaN  11478.605594
min                     NaN     22.000000
25%                     NaN    713.000000
50%                     NaN   2418.000000
75%                     NaN  14356.000000
max                     NaN  71925.000000


In [9]:
# Cek missing values
df.isnull().sum()

Unnamed: 0,0
Timestamp,0
TrafficCount,0


# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.

In [10]:
# Hapus data nan
df = df.dropna()

In [11]:
# Konversi kolom waktu ke datetime dan set sebagai index
df['Timestamp'] = pd.to_datetime(df['Timestamp'])
df = df.set_index('Timestamp')

In [12]:
# Resample per 1 jam dan interpolasi nilai yang hilang
df = df.resample('1h').mean().interpolate()

In [13]:
# Ambil hanya nilai TrafficCount sebagai univariate time series
traffic = df['TrafficCount'].values

In [14]:
# Normalisasi
min_val = traffic.min()
max_val = traffic.max()
traffic = (traffic - min_val) / (max_val - min_val)

In [15]:
# Membagi data menjadi train dan test set
split_ratio = 0.8  # 80% train, 20% test
split_index = int(len(traffic) * split_ratio)

train_data = traffic[:split_index]
test_data = traffic[split_index:]

print("Jumlah data latih:", len(train_data))
print("Jumlah data uji:", len(test_data))

Jumlah data latih: 2276
Jumlah data uji: 569


In [19]:
df.to_csv('WEB_TRAFFIC_preprocessing.csv')