# Persiapan Data Penjualan

Notebook ini berisi langkah-langkah persiapan data sederhana untuk data penjualan berdasarkan demografis.

In [None]:
# Import library yang diperlukan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Setting untuk visualisasi
%matplotlib inline

## 1. Membaca Data

In [None]:
# Membaca file CSV
df = pd.read_csv('../sales.csv')

# Melihat beberapa baris pertama
df.head()

## 2. Pemeriksaan Data

In [None]:
# Memeriksa informasi data
df.info()

In [None]:
# Memeriksa data yang hilang
print("Jumlah data yang hilang:")
print(df.isnull().sum())

In [None]:
# Memeriksa statistik deskriptif
df.describe()

## 3. Transformasi Data

In [None]:
# Konversi gender menjadi variabel dummy (0 dan 1)
df['gender_code'] = df['gender'].map({'M': 1, 'F': 0})

# Membuat kelompok umur
df['age_group'] = pd.cut(df['age'], bins=[18, 25, 35, 45, 55], labels=['18-25', '26-35', '36-45', '46-55'])

# Melihat hasil transformasi
df.head()

In [None]:
# Membuat variabel dummy untuk kelompok umur
age_dummies = pd.get_dummies(df['age_group'], prefix='age_group')

# Menggabungkan dengan dataframe utama
df = pd.concat([df, age_dummies], axis=1)

# Melihat hasil transformasi
df.head()

## 4. Normalisasi Data

In [None]:
# Normalisasi variabel numerik (revenue)
from sklearn.preprocessing import MinMaxScaler

# Membuat scaler
scaler = MinMaxScaler()

# Menerapkan normalisasi pada revenue
df['revenue_normalized'] = scaler.fit_transform(df[['revenue']])

# Melihat hasil normalisasi
df.head()

## 5. Split Data

In [None]:
# Mempersiapkan feature dan target
X = df[['age', 'gender_code', 'age_group_18-25', 'age_group_26-35', 'age_group_36-45', 'age_group_46-55']]
y = df['revenue']

# Memisahkan data training dan testing
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Memeriksa ukuran data
print("Ukuran data training:", X_train.shape)
print("Ukuran data testing:", X_test.shape)

## 6. Menyimpan Data yang Telah Dipersiapkan

In [None]:
# Membuat direktori models jika belum ada
import os
if not os.path.exists('../data'):
    os.makedirs('../data')

# Menyimpan data yang telah dipersiapkan
df.to_csv('../data/sales_data_prepared.csv', index=False)

# Menyimpan data training dan testing
pd.DataFrame(X_train).to_csv('../data/X_train.csv', index=False)
pd.DataFrame(X_test).to_csv('../data/X_test.csv', index=False)
pd.DataFrame(y_train).to_csv('../data/y_train.csv', index=False)
pd.DataFrame(y_test).to_csv('../data/y_test.csv', index=False)

print("Data yang telah dipersiapkan berhasil disimpan.")