In [1]:
import glob # Modul untuk mencari file berdasarkan pola nama file
import pandas as pd # Pustaka Pandas untuk pengolahan data
import xml.etree.ElementTree as ET # Modul untuk memproses data XML
from datetime import datetime # Modul untuk mengelola waktu dan tanggal
  
log_file = "log_file.txt" # Nama file untuk menyimpan log proses ETL
target_file = "transformed_data.csv" # Nama file hasil data yang sudah ditransformasi
  
# Fungsi untuk ekstraksi data dari file CSV
def extract_from_csv(file_to_process): 
    dataframe = pd.read_csv(file_to_process) # Membaca file CSV sebagai DataFrame
    return dataframe 
  
# Fungsi untuk ekstraksi data dari file JSON
def extract_from_json(file_to_process): 
    dataframe = pd.read_json(file_to_process, lines=True) # Membaca file JSON sebagai DataFrame
    return dataframe 
  
# Fungsi untuk ekstraksi data dari file XML
def extract_from_xml(file_to_process): 
    dataframe = pd.DataFrame(columns=["name", "height", "weight"]) # Membuat DataFrame kosong dengan kolom yang diinginkan
    tree = ET.parse(file_to_process) # Parsing file XML
    root = tree.getroot() # Mendapatkan elemen root XML
    for person in root: 
        name = person.find("name").text # Mengambil nilai "name"
        height = float(person.find("height").text) # Mengambil dan mengonversi nilai "height" ke float
        weight = float(person.find("weight").text) # Mengambil dan mengonversi nilai "weight" ke float
        # Menambahkan baris baru ke DataFrame
        dataframe = pd.concat([dataframe, pd.DataFrame([{"name": name, "height": height, "weight": weight}])], ignore_index=True) 
    return dataframe 
  
# Fungsi untuk menggabungkan data dari beberapa sumber file
def extract(): 
    extracted_data = pd.DataFrame(columns=['name','height','weight']) # Membuat DataFrame kosong untuk data gabungan
     
    # Proses semua file CSV yang ditemukan
    for csvfile in glob.glob("*.csv"): 
        extracted_data = pd.concat([extracted_data, pd.DataFrame(extract_from_csv(csvfile))], ignore_index=True) 
         
    # Proses semua file JSON yang ditemukan
    for jsonfile in glob.glob("*.json"): 
        extracted_data = pd.concat([extracted_data, pd.DataFrame(extract_from_json(jsonfile))], ignore_index=True) 
     
    # Proses semua file XML yang ditemukan
    for xmlfile in glob.glob("*.xml"): 
        extracted_data = pd.concat([extracted_data, pd.DataFrame(extract_from_xml(xmlfile))], ignore_index=True) 
         
    return extracted_data 
  
# Fungsi untuk mentransformasi data yang diekstraksi
def transform(data): 
    # Mengonversi tinggi dari inci ke meter, dibulatkan 2 desimal
    data['height'] = round(data.height * 0.0254, 2) 
     
    # Mengonversi berat dari pon ke kilogram, dibulatkan 2 desimal
    data['weight'] = round(data.weight * 0.45359237, 2) 
     
    return data 
  
# Fungsi untuk menyimpan data hasil transformasi ke file CSV
def load_data(target_file, transformed_data): 
    transformed_data.to_csv(target_file) # Menyimpan data sebagai CSV
  
# Fungsi untuk mencatat kemajuan proses ETL
def log_progress(message): 
    timestamp_format = '%Y-%h-%d-%H:%M:%S' # Format waktu log
    now = datetime.now() # Mendapatkan waktu saat ini
    timestamp = now.strftime(timestamp_format) # Format waktu sesuai format yang diinginkan
    with open(log_file, "a") as f: 
        f.write(timestamp + ',' + message + '\n') # Menyimpan pesan log ke file log
  
# Mencatat bahwa proses ETL dimulai
log_progress("ETL Job Started") 
  
# Mencatat bahwa fase Ekstraksi dimulai
log_progress("Extract phase Started") 
extracted_data = extract() # Memanggil fungsi ekstraksi data
  
# Mencatat bahwa fase Ekstraksi selesai
log_progress("Extract phase Ended") 
  
# Mencatat bahwa fase Transformasi dimulai
log_progress("Transform phase Started") 
transformed_data = transform(extracted_data) # Memanggil fungsi transformasi data
print("Transformed Data") 
print(transformed_data) # Menampilkan data hasil transformasi
  
# Mencatat bahwa fase Transformasi selesai
log_progress("Transform phase Ended") 
  
# Mencatat bahwa fase Loading dimulai
log_progress("Load phase Started") 
load_data(target_file, transformed_data) # Memanggil fungsi loading untuk menyimpan data hasil transformasi
  
# Mencatat bahwa fase Loading selesai
log_progress("Load phase Ended") 
  
# Mencatat bahwa proses ETL selesai
log_progress("ETL Job Ended")


Transformed Data
     name  height  weight
0    alex    1.67   51.25
1    ajay    1.82   61.91
2   alice    1.76   69.41
3    ravi    1.73   64.56
4     joe    1.72   65.45
5    alex    1.67   51.25
6    ajay    1.82   61.91
7   alice    1.76   69.41
8    ravi    1.73   64.56
9     joe    1.72   65.45
10   alex    1.67   51.25
11   ajay    1.82   61.91
12  alice    1.76   69.41
13   ravi    1.73   64.56
14    joe    1.72   65.45
15   jack    1.74   55.93
16    tom    1.77   64.18
17  tracy    1.78   61.90
18   john    1.72   50.97
19   jack    1.74   55.93
20    tom    1.77   64.18
21  tracy    1.78   61.90
22   john    1.72   50.97
23   jack    1.74   55.93
24    tom    1.77   64.18
25  tracy    1.78   61.90
26   john    1.72   50.97
27  simon    1.72   50.97
28  jacob    1.70   54.73
29  cindy    1.69   57.81
30   ivan    1.72   51.77
31  simon    1.72   50.97
32  jacob    1.70   54.73
33  cindy    1.69   57.81
34   ivan    1.72   51.77
35  simon    1.72   50.97
36  jacob    1.70   5