In [41]:
import pandas as pd
import numpy as np

In [42]:
df_luas = pd.read_excel("luas_lahan.xlsx")
df_produksi = pd.read_excel("produksi_garam.xlsx")

print("Data Luas Lahan:")
print(f"Shape: {df_luas.shape}")
print(df_luas.head())

print("\nData Produksi:")
print(f"Shape: {df_produksi.shape}")
print(df_produksi.head())

Data Luas Lahan:
Shape: (85, 7)
           KABKOTA  2019   2020  2021  2022  2023  2024
0  ACEH BARAT DAYA   0.0    0.0   0.0   0.0   2.0   0.0
1       ACEH BESAR   3.0   54.0   6.0   0.0   7.0   0.0
2     ACEH SELATAN   0.0    1.0   0.0   0.0   1.0   0.0
3       ACEH TIMUR   1.0   13.0   0.0   0.0  10.0   0.0
4       ACEH UTARA  53.0  107.0  72.0  72.0  13.0   1.0

Data Produksi:
Shape: (84, 7)
           KABKOTA     2019     2020     2021     2022     2023     2024
0  ACEH BARAT DAYA    21.70    34.82   108.39    96.40   101.67    63.30
1       ACEH BESAR   800.16  8616.50  1016.32   503.48   490.36  1095.74
2     ACEH SELATAN     2.88    42.96    42.93    57.75   161.83    47.21
3       ACEH TIMUR   484.19   306.08   197.86   269.25   225.08   169.65
4       ACEH UTARA  1688.71  1523.45  1513.30  1822.34  1485.58  1023.56


In [43]:
print("\n=== LANGKAH 2: DATA CLEANING - HAPUS MISSING VALUES DAN NILAI 0 ===")

# Identifikasi kolom tahun
tahun_cols_luas = [col for col in df_luas.columns if col != 'KABKOTA']
tahun_cols_produksi = [col for col in df_produksi.columns if col != 'KABKOTA']

print(f"Kolom tahun luas lahan: {tahun_cols_luas}")
print(f"Kolom tahun produksi: {tahun_cols_produksi}")

# CLEANING DATA LUAS LAHAN
print("\n--- CLEANING DATA LUAS LAHAN ---")
print(f"Sebelum cleaning: {len(df_luas)} kabupaten")

# Hapus baris yang ada missing values atau nilai 0
mask_luas = (~df_luas[tahun_cols_luas].isna().any(axis=1)) & (~(df_luas[tahun_cols_luas] == 0).any(axis=1))
df_luas_clean = df_luas[mask_luas].copy()

print(f"Setelah cleaning: {len(df_luas_clean)} kabupaten")
print(f"Dihapus: {len(df_luas) - len(df_luas_clean)} kabupaten")

# CLEANING DATA PRODUKSI
print("\n--- CLEANING DATA PRODUKSI ---")
print(f"Sebelum cleaning: {len(df_produksi)} kabupaten")

# Hapus baris yang ada missing values atau nilai 0
mask_produksi = (~df_produksi[tahun_cols_produksi].isna().any(axis=1)) & (~(df_produksi[tahun_cols_produksi] == 0).any(axis=1))
df_produksi_clean = df_produksi[mask_produksi].copy()

print(f"Setelah cleaning: {len(df_produksi_clean)} kabupaten")
print(f"Dihapus: {len(df_produksi) - len(df_produksi_clean)} kabupaten")


=== LANGKAH 2: DATA CLEANING - HAPUS MISSING VALUES DAN NILAI 0 ===
Kolom tahun luas lahan: ['2019', '2020', '2021', '2022', '2023', '2024']
Kolom tahun produksi: ['2019', '2020', '2021', '2022', '2023', '2024']

--- CLEANING DATA LUAS LAHAN ---
Sebelum cleaning: 85 kabupaten
Setelah cleaning: 39 kabupaten
Dihapus: 46 kabupaten

--- CLEANING DATA PRODUKSI ---
Sebelum cleaning: 84 kabupaten
Setelah cleaning: 55 kabupaten
Dihapus: 29 kabupaten


In [44]:
print("\n=== LANGKAH 3: CEK KABUPATEN YANG SAMA ===")

# Cek kabupaten yang ada di kedua dataset
kabupaten_luas = set(df_luas_clean['KABKOTA'])
kabupaten_produksi = set(df_produksi_clean['KABKOTA'])

# Kabupaten yang ada di kedua dataset
kabupaten_sama = kabupaten_luas.intersection(kabupaten_produksi)

# Kabupaten yang hanya ada di satu dataset
kabupaten_hanya_luas = kabupaten_luas - kabupaten_produksi
kabupaten_hanya_produksi = kabupaten_produksi - kabupaten_luas

print(f"Kabupaten di data luas lahan: {len(kabupaten_luas)}")
print(f"Kabupaten di data produksi: {len(kabupaten_produksi)}")
print(f"Kabupaten yang sama (bisa digabung): {len(kabupaten_sama)}")
print(f"Hanya di luas lahan: {len(kabupaten_hanya_luas)}")
print(f"Hanya di produksi: {len(kabupaten_hanya_produksi)}")

if len(kabupaten_hanya_luas) > 0:
    print(f"\nKabupaten hanya di luas lahan:")
    for kab in list(kabupaten_hanya_luas)[:5]:  # Tampilkan 5 pertama
        print(f"  - {kab}")

if len(kabupaten_hanya_produksi) > 0:
    print(f"\nKabupaten hanya di produksi:")
    for kab in list(kabupaten_hanya_produksi)[:5]:  # Tampilkan 5 pertama
        print(f"  - {kab}")


=== LANGKAH 3: CEK KABUPATEN YANG SAMA ===
Kabupaten di data luas lahan: 39
Kabupaten di data produksi: 55
Kabupaten yang sama (bisa digabung): 35
Hanya di luas lahan: 4
Hanya di produksi: 20

Kabupaten hanya di luas lahan:
  - SIDOARJO
  - KOTA SURABAYA
  - TIMOR TENGAH UTARA
  - LUAS LAHAN (Ha)

Kabupaten hanya di produksi:
  - LEMBATA
  - KEPULAUAN SELAYAR
  - ROTE NDAO
  - ACEH BARAT DAYA
  - SUMBA TIMUR


In [45]:
print("\n=== LANGKAH 4: CEK TAHUN YANG SAMA ===")

# Cek tahun yang sama di kedua dataset
tahun_luas = set(tahun_cols_luas)
tahun_produksi = set(tahun_cols_produksi)
tahun_sama = tahun_luas.intersection(tahun_produksi)

print(f"Tahun di data luas lahan: {sorted(tahun_luas)}")
print(f"Tahun di data produksi: {sorted(tahun_produksi)}")
print(f"Tahun yang sama: {sorted(tahun_sama)}")

# Filter hanya tahun yang sama
tahun_untuk_gabung = sorted(list(tahun_sama))
print(f"Akan menggabungkan data untuk tahun: {tahun_untuk_gabung}")


=== LANGKAH 4: CEK TAHUN YANG SAMA ===
Tahun di data luas lahan: ['2019', '2020', '2021', '2022', '2023', '2024']
Tahun di data produksi: ['2019', '2020', '2021', '2022', '2023', '2024']
Tahun yang sama: ['2019', '2020', '2021', '2022', '2023', '2024']
Akan menggabungkan data untuk tahun: ['2019', '2020', '2021', '2022', '2023', '2024']


In [46]:
print("\n=== LANGKAH 5: GABUNGKAN DATA ===")

# Filter data hanya untuk kabupaten dan tahun yang sama
df_luas_filter = df_luas_clean[df_luas_clean['KABKOTA'].isin(kabupaten_sama)]
df_produksi_filter = df_produksi_clean[df_produksi_clean['KABKOTA'].isin(kabupaten_sama)]

# Siapkan kolom untuk penggabungan
kolom_gabung = ['KABKOTA'] + tahun_untuk_gabung

# Ambil hanya kolom yang diperlukan
df_luas_final = df_luas_filter[kolom_gabung].copy()
df_produksi_final = df_produksi_filter[kolom_gabung].copy()

# Rename kolom untuk membedakan luas dan produksi
kolom_luas_rename = {'KABKOTA': 'KABKOTA'}
kolom_produksi_rename = {'KABKOTA': 'KABKOTA'}

for tahun in tahun_untuk_gabung:
    kolom_luas_rename[tahun] = f'Luas_{tahun}'
    kolom_produksi_rename[tahun] = f'Produksi_{tahun}'

df_luas_final = df_luas_final.rename(columns=kolom_luas_rename)
df_produksi_final = df_produksi_final.rename(columns=kolom_produksi_rename)

# Gabungkan berdasarkan KABKOTA
df_gabungan = pd.merge(df_luas_final, df_produksi_final, on='KABKOTA', how='inner')

print(f"Hasil penggabungan:")
print(f"Jumlah kabupaten: {len(df_gabungan)}")
print(f"Jumlah kolom: {len(df_gabungan.columns)}")
print(f"Kolom: {list(df_gabungan.columns)}")

# Tampilkan sample hasil
print(f"\nSample data hasil gabungan:")
print(df_gabungan.head())


=== LANGKAH 5: GABUNGKAN DATA ===
Hasil penggabungan:
Jumlah kabupaten: 35
Jumlah kolom: 13
Kolom: ['KABKOTA', 'Luas_2019', 'Luas_2020', 'Luas_2021', 'Luas_2022', 'Luas_2023', 'Luas_2024', 'Produksi_2019', 'Produksi_2020', 'Produksi_2021', 'Produksi_2022', 'Produksi_2023', 'Produksi_2024']

Sample data hasil gabungan:
      KABKOTA  Luas_2019  Luas_2020  Luas_2021  Luas_2022  Luas_2023  \
0  ACEH UTARA       53.0      107.0       72.0       72.0       13.0   
1   BANGKALAN      194.0      194.0      188.0      188.0      187.0   
2        BIMA     1692.0     1709.0     1742.0      993.0     1778.0   
3      BREBES      560.0      575.0      366.0      234.0      409.0   
4    BULELENG       29.0      114.0       82.0       82.0       63.0   

   Luas_2024  Produksi_2019  Produksi_2020  Produksi_2021  Produksi_2022  \
0        1.0        1688.71        1523.45        1513.30        1822.34   
1      172.0       19014.24        6560.61        6760.99        1290.34   
2      664.0      

In [47]:
print("\n=== LANGKAH 7: SIMPAN HASIL ===")

# Urutkan berdasarkan kabupaten
df_gabungan = df_gabungan.sort_values('KABKOTA')

# Simpan ke Excel
df_gabungan.to_excel("data_gabungan_luas_produksi.xlsx", index=False)

print("Data berhasil disimpan ke 'data_gabungan_luas_produksi.xlsx'")

# Ringkasan hasil
print(f"\n=== RINGKASAN HASIL ===")
print(f"• Total kabupaten yang berhasil digabung: {len(df_gabungan)}")
print(f"• Tahun yang dianalisis: {tahun_untuk_gabung}")
print(f"• Kolom dalam file hasil:")
for col in df_gabungan.columns:
    print(f"  - {col}")

# Tampilkan sample akhir
print(f"\nContoh 3 baris pertama:")
print(df_gabungan[['KABKOTA'] + [col for col in df_gabungan.columns if 'Luas_' in col or 'Produksi_' in col][:4]].head(3))


=== LANGKAH 7: SIMPAN HASIL ===


PermissionError: [Errno 13] Permission denied: 'data_gabungan_luas_produksi.xlsx'

In [48]:
# Identifikasi kolom luas dan produksi
kolom_luas = [col for col in df_gabungan.columns if col.startswith('Luas_')]
kolom_produksi = [col for col in df_gabungan.columns if col.startswith('Produksi_')]

print(f"Kolom luas yang ditemukan: {kolom_luas}")
print(f"Kolom produksi yang ditemukan: {kolom_produksi}")

# Melt data luas lahan
df_luas_long = pd.melt(
    df_gabungan[['KABKOTA'] + kolom_luas],
    id_vars=['KABKOTA'],
    value_vars=kolom_luas,
    var_name='Tahun_Luas',
    value_name='Luas_Lahan'
)

# Extract tahun dari kolom Tahun_Luas (dari 'Luas_2019' jadi '2019')
df_luas_long['Tahun'] = df_luas_long['Tahun_Luas'].str.replace('Luas_', '')
df_luas_long = df_luas_long.drop('Tahun_Luas', axis=1)

# Melt data produksi
df_produksi_long = pd.melt(
    df_gabungan[['KABKOTA'] + kolom_produksi],
    id_vars=['KABKOTA'],
    value_vars=kolom_produksi,
    var_name='Tahun_Produksi',
    value_name='Produksi_Garam'
)

# Extract tahun dari kolom Tahun_Produksi
df_produksi_long['Tahun'] = df_produksi_long['Tahun_Produksi'].str.replace('Produksi_', '')
df_produksi_long = df_produksi_long.drop('Tahun_Produksi', axis=1)

# Gabungkan data long luas dan produksi
df_long = pd.merge(
    df_luas_long,
    df_produksi_long,
    on=['KABKOTA', 'Tahun'],
    how='inner'
)

# Hitung produktivitas
df_long['Produktivitas'] = df_long['Produksi_Garam'] / df_long['Luas_Lahan']

# Urutkan berdasarkan kabupaten dan tahun
df_long = df_long.sort_values(['KABKOTA', 'Tahun'])

print(f"\nHasil konversi ke format long:")
print(f"Jumlah baris: {len(df_long)} (seharusnya {len(df_gabungan)} × {len(tahun_untuk_gabung)} = {len(df_gabungan) * len(tahun_untuk_gabung)})")
print(f"Kolom: {list(df_long.columns)}")

# Tampilkan sample
print(f"\nSample data format long (5 baris pertama):")
print(df_long.head())

# Tampilkan data untuk satu kabupaten
sample_kabupaten = df_long['KABKOTA'].iloc[0]
print(f"\nContoh data untuk {sample_kabupaten} semua tahun:")
print(df_long[df_long['KABKOTA'] == sample_kabupaten])

Kolom luas yang ditemukan: ['Luas_2019', 'Luas_2020', 'Luas_2021', 'Luas_2022', 'Luas_2023', 'Luas_2024']
Kolom produksi yang ditemukan: ['Produksi_2019', 'Produksi_2020', 'Produksi_2021', 'Produksi_2022', 'Produksi_2023', 'Produksi_2024']

Hasil konversi ke format long:
Jumlah baris: 210 (seharusnya 35 × 6 = 210)
Kolom: ['KABKOTA', 'Luas_Lahan', 'Tahun', 'Produksi_Garam', 'Produktivitas']

Sample data format long (5 baris pertama):
        KABKOTA  Luas_Lahan Tahun  Produksi_Garam  Produktivitas
0    ACEH UTARA        53.0  2019         1688.71      31.862453
35   ACEH UTARA       107.0  2020         1523.45      14.237850
70   ACEH UTARA        72.0  2021         1513.30      21.018056
105  ACEH UTARA        72.0  2022         1822.34      25.310278
140  ACEH UTARA        13.0  2023         1485.58     114.275385

Contoh data untuk ACEH UTARA semua tahun:
        KABKOTA  Luas_Lahan Tahun  Produksi_Garam  Produktivitas
0    ACEH UTARA        53.0  2019         1688.71      31.862453


In [49]:
# Simpan format long
df_long.to_excel("data_gabungan_luas_produksi_long.xlsx", index=False)
print("✅ Format LONG disimpan ke: 'data_gabungan_luas_produksi_long.xlsx'")


✅ Format LONG disimpan ke: 'data_gabungan_luas_produksi_long.xlsx'
