#  1. Full Load
Full Load mengambil semua data dari sumber setiap kali proses dilakukan. Berikut ini adalah contoh untuk memuat seluruh data dari file CSV ke dalam sistem tujuan (data warehouse).

In [2]:
import pandas as pd

# Full Load: Memuat seluruh data dari file CSV
data = pd.read_excel('MilitaryExpenditure2.xls')  # Misal, mengambil semua data dari file CSV

# Proses transformasi (misal: membersihkan nilai NaN)
data_cleaned = data.dropna()

# Memuat data ke tujuan, misalnya, menulis ke database atau file lain
data_cleaned.to_csv('data_warehouse_full_load.csv', index=False)
print("Full Load completed, all data loaded.")

Full Load completed, all data loaded.


# 2. Incremental Load
Incremental Load hanya mengambil data yang mengalami perubahan sejak pemuatan terakhir. Ini bisa dilakukan dengan melihat kolom timestamp atau ID terbaru.

Misalkan kita hanya memuat data yang memiliki last_updated lebih baru dari pemuatan terakhir.

In [12]:
import pandas as pd

# Simulasi data terbaru yang sudah dimuat sebelumnya
last_loaded_timestamp = '2023-01-01'  # Pemuatan terakhir

# Memuat data baru dari sumber, misal dari CSV
data2 = pd.read_excel('MilitaryExpenditure3.xls') 

# Filter data yang lebih baru dari timestamp terakhir
incremental_data = data[data['Lastupdate'] > last_loaded_timestamp]

# Proses transformasi (misal: membersihkan nilai NaN)
incremental_data_cleaned = incremental_data.fillna('')

# Memuat data ke tujuan, misal ke database atau file lain
incremental_data_cleaned.to_csv('data_warehouse_incremental_load.csv', mode='a', index=False, header=False)
print("Incremental Load completed, only new data loaded.")

Incremental Load completed, only new data loaded.


In [15]:
data2.head(10)

Unnamed: 0,Lastupdate,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,2024-11-04 15:47:19,Antartika Barat,ABW,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,,,...,,,,,,,,,,
1,2024-11-04 15:47:19,Antartika Selatan,AFE,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,1.537008,2.091894,1.882361,2.456137,...,1.759087,1.535199,1.274576,1.272376,1.118761,1.073977,1.102762,1.005835,1.00008,
2,2024-11-04 15:47:19,Antartika Timur,AFG,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,,,...,1.298013,0.994576,0.956772,0.945227,1.006746,1.170968,1.358857,1.827934,,
3,2024-11-04 15:47:19,Antartika Utara,AFW,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,1.315351,1.31401,1.442316,...,0.731363,0.677259,0.826473,0.822144,0.847022,0.80103,0.94969,1.164951,0.97335,
4,2024-11-04 15:47:19,Antartika Tenggara,AGO,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,,,...,4.698455,3.105426,2.733335,2.507983,1.955787,1.73907,1.700178,1.289923,1.328722,
5,2021-11-04 16:00:00,Albania,ALB,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,,,...,1.346516,1.162304,1.103581,1.109151,1.160545,1.280806,1.298479,1.220845,1.584881,
6,2021-11-04 16:00:00,Andorra,AND,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,,,...,,,,,,,,,,
7,2021-11-04 16:00:00,Arab World,ARB,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,3.8781,4.474398,...,6.364939,7.463619,6.171631,6.416379,5.896441,5.412459,5.780886,5.101784,4.940873,
8,2021-11-04 16:00:00,United Arab Emirates,ARE,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,,,...,5.643651,,,,,,,,,
9,2021-11-04 16:00:00,Argentina,ARG,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,1.55,2.14,2.66,1.68,1.15,...,0.878101,0.850129,0.81314,0.856138,0.7323,0.699696,0.734493,0.630929,0.411211,


In [14]:
incremental_data

Unnamed: 0,Lastupdate,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,2024-11-04 15:47:19,Antartika Barat,ABW,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,,,...,,,,,,,,,,
1,2024-11-04 15:47:19,Antartika Selatan,AFE,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,1.537008,2.091894,1.882361,2.456137,...,1.759087,1.535199,1.274576,1.272376,1.118761,1.073977,1.102762,1.005835,1.00008,
2,2024-11-04 15:47:19,Antartika Timur,AFG,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,,,...,1.298013,0.994576,0.956772,0.945227,1.006746,1.170968,1.358857,1.827934,,
3,2024-11-04 15:47:19,Antartika Utara,AFW,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,1.315351,1.31401,1.442316,...,0.731363,0.677259,0.826473,0.822144,0.847022,0.80103,0.94969,1.164951,0.97335,
4,2024-11-04 15:47:19,Antartika Tenggara,AGO,Military expenditure (% of GDP),MS.MIL.XPND.GD.ZS,,,,,,...,4.698455,3.105426,2.733335,2.507983,1.955787,1.73907,1.700178,1.289923,1.328722,


# 3. Real-Time Load
Real-Time Load biasanya menggunakan data streaming. Untuk mensimulasikan ini, kita dapat menggunakan fungsi yang secara berkala memeriksa sumber data dan memuat data baru. Biasanya, ini menggunakan API streaming, tetapi untuk contoh ini, kita akan menggunakan time.sleep() untuk mensimulasikan interval waktu pemuatan.

In [18]:
import pandas as pd
import time

# Fungsi untuk memuat data baru
def load_real_time():
    # Misalkan data terbaru hanya memiliki baris baru yang ditambahkan
    data = pd.read_excel('MilitaryExpenditure3.xls')
    
    # Proses transformasi
    data_cleaned = data.dropna()

    # Memuat data ke tujuan, misalnya, menulis ke database atau file lain
    data_cleaned.to_csv('data_warehouse_real_time.csv', mode='a', index=False, header=False)
    print("Real-Time Load: New data loaded.")

# Simulasi Real-Time Load dengan interval 10 detik
for i in range(3):  # Mengulang 3 kali untuk contoh
    load_real_time()
    time.sleep(10)  # Tunggu 10 detik sebelum load berikutnya

Real-Time Load: New data loaded.
Real-Time Load: New data loaded.
Real-Time Load: New data loaded.


## Penjelasan Kode
- Full Load: Memuat seluruh data dari sumber ke tujuan setiap kali dijalankan.
- Incremental Load: Memuat data yang lebih baru dari timestamp terakhir yang dimuat.
- Real-Time Load: Memuat data baru dalam interval waktu tertentu, mensimulasikan aliran data.

Dalam skenario nyata, Full Load dan Incremental Load sering digunakan untuk batch processing, sedangkan Real-Time Load lebih sering diterapkan pada data streaming.

## Other Example

In [20]:
def FullLoad(data):
    sql_insert = """
    INSERT INTO MilitaryExpenditure (lastupdate,country_name, country_code, expenditure) VALUES (%s,%s,%s,%s)
    """
    Databaseconnection.executemany(connWarehouse,sql_insert,data.values.tolist())

In [21]:
def IncrementalLoad(data):
    sql_insert = """
    INSERT IGNORE INTO MilitaryExpenditure (lastupdate,id,country_name, country_code, expenditure) VALUES (%s,%s,%s,%s)
    """
    Databaseconnection.executemany(connWarehouse,sql_insert,data.values.tolist())