## Install Libraries

In [7]:
# !pip install pandas sqlalchemy mysql-connector-python pymysql

In [8]:
import pandas as pd
import os
import time
from sqlalchemy import create_engine, text

## Import Libraries

In [9]:
# 1. Konfigurasi Koneksi (XAMPP)
# Format: mysql+pymysql://username:password@host/nama_database
db_connection_str = 'mysql+pymysql://root:@localhost/elt_sales_db'
db_connection = create_engine(db_connection_str)

# 2. Memastikan database tujuan sudah ada
engine_server = create_engine('mysql+pymysql://root:@localhost')
with engine_server.connect() as conn:
    conn.execute(text("CREATE DATABASE IF NOT EXISTS elt_sales_db"))
    conn.commit() # Penting untuk menyimpan perubahan di database
    print("Database 'elt_sales_db' siap digunakan.")

Database 'elt_sales_db' siap digunakan.


## Extract Data from CSV

In [10]:
import pandas as pd
import time
import os

# Nama file CSV kamu
file_path = r'../raw/100000_Sales_Records_Raw.csv'

def extract_etl_source1(file_path):
    start_time = time.time()
    
    # 1. Ekstraksi data mentah (tanpa cleaning) sesuai syarat 6.1 & 7.1
    df = pd.read_csv(file_path)
    
    end_time = time.time()
    execution_time = end_time - start_time
    file_size = os.path.getsize(file_path) / 1024  # Dalam KB
    
    # 2. Membuat log proses extract sesuai syarat 6.1 poin 5
    print("=== [LOG EXTRACT SOURCE 1] ===")
    print(f"Nama Sumber Data : {os.path.basename(file_path)}") # Syarat 6.1.5.1
    print(f"Jumlah Baris     : {df.shape[0]}") # Syarat 6.1.5.2
    print(f"Jumlah Kolom     : {df.shape[1]}") # Syarat 6.1.5.2
    print(f"Ukuran File      : {file_size:.2f} KB") # Syarat 6.1.5.3
    print(f"Waktu Eksekusi   : {execution_time:.4f} detik") # Syarat 6.1.5.4
    print("==============================")
    
    return df # Pastikan ini 'df' sesuai variabel di atas

# --- CARA LIAT LOG: Panggil fungsinya di sini ---
df_hasil_ekstraksi = extract_etl_source1(file_path)

=== [LOG EXTRACT SOURCE 1] ===
Nama Sumber Data : 100000_Sales_Records_Raw.csv
Jumlah Baris     : 100000
Jumlah Kolom     : 14
Ukuran File      : 12081.60 KB
Waktu Eksekusi   : 0.3689 detik


In [11]:
# Membuat folder 'datalake' jika belum ada
if not os.path.exists('datalake'):
    os.makedirs('datalake')

# Menyimpan data mentah ke folder datalake (Syarat 6.1.2)
raw_file_path = 'datalake/raw_source1_sales.csv'
df_hasil_ekstraksi.to_csv(raw_file_path, index=False)

print(f"Data mentah berhasil disimpan di: {raw_file_path}")

Data mentah berhasil disimpan di: datalake/raw_source1_sales.csv


In [12]:
# Memuat data ke tabel raw di database (Syarat 7.1.2)
# Gunakan koneksi db_connection yang sudah dibuat di awal
table_name = 'raw_sales_csv'

print(f"Sedang memuat data ke tabel: {table_name}...")

try:
    start_load = time.time()
    
    # Load data mentah langsung ke database
    df_hasil_ekstraksi.to_sql(
        name=table_name, 
        con=db_connection, 
        if_exists='replace', 
        index=False, 
        chunksize=1000
    )
    
    end_load = time.time()
    
    # Dokumentasi metadata proses load (Syarat 7.1.3)
    print("=== [LOG LOAD SOURCE 1] ===")
    print(f"Status           : SUKSES")
    print(f"Tabel Tujuan     : {table_name}")
    print(f"Jumlah Baris     : {len(df_hasil_ekstraksi)}")
    print(f"Waktu Eksekusi   : {end_load - start_load:.4f} detik")
    print("===========================")
    
except Exception as e:
    print(f"‚ùå Gagal memuat data: {e}")

Sedang memuat data ke tabel: raw_sales_csv...
=== [LOG LOAD SOURCE 1] ===
Status           : SUKSES
Tabel Tujuan     : raw_sales_csv
Jumlah Baris     : 100000
Waktu Eksekusi   : 2.9638 detik
