# PREPROCESSING DATA DEFORESTASI INDONESIA

**Tujuan:** Mempersiapkan data deforestasi Indonesia (2013-2022) untuk divisualisasikan di Dashboard

**Dataset:**
1. Luas Hutan Alam (Remaining Forest)
2. Emisi CO2 (Gross Emissions from Deforestation)
3. Deforestasi (Territorial Deforestation)

**Target Visualisasi:**
1. Line Chart ‚Üí Trend luas hutan nasional (2013-2022)
2. Choropleth Map ‚Üí Sebaran deforestasi per provinsi
3. Scatter Plot ‚Üí Hubungan deforestasi vs emisi CO2 (34 provinsi)
4. Bubble Chart ‚Üí Emisi karbon per pulau

---
## TAHAP 1: IMPORT LIBRARIES

In [1]:
# Import libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Set display options untuk readability
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

# Set style untuk visualisasi
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úì Libraries imported successfully!")

‚úì Libraries imported successfully!


---
## TAHAP 2: LOAD DATASET DAN EXPLORASI

**Penjelasan:**
- Kita akan load 3 dataset terpisah
- Eksplorasi struktur data, tipe kolom, dan statistik deskriptif
- Memahami karakteristik masing-masing dataset sebelum di-merge

In [2]:
# Path ke dataset
path_luas_hutan = 'dataset_visdat/spatial-metrics-indonesia-remaining_forest_province.csv'
path_emisi_co2 = 'dataset_visdat/spatial-metrics-indonesia-co2_gross_emissions_territorial_deforestation_province.csv'
path_deforestasi = 'dataset_visdat/spatial-metrics-indonesia-territorial_deforestation_province.csv'

# Load datasets
print("Loading datasets...")
df_hutan = pd.read_csv(path_luas_hutan)
df_emisi = pd.read_csv(path_emisi_co2)
df_deforestasi = pd.read_csv(path_deforestasi)

print(f"‚úì Dataset Luas Hutan: {df_hutan.shape}")
print(f"‚úì Dataset Emisi CO2: {df_emisi.shape}")
print(f"‚úì Dataset Deforestasi: {df_deforestasi.shape}")

Loading datasets...
‚úì Dataset Luas Hutan: (748, 8)
‚úì Dataset Emisi CO2: (748, 8)
‚úì Dataset Deforestasi: (748, 8)


### 2.1 Eksplorasi Dataset Luas Hutan

In [3]:
print("="*80)
print("DATASET 1: LUAS HUTAN ALAM")
print("="*80)

print("\n1. Info Dataset:")
print(df_hutan.info())

print("\n2. Sample Data (5 baris pertama):")
display(df_hutan.head())

print("\n3. Statistik Deskriptif:")
display(df_hutan.describe())

print("\n4. Range Tahun:")
print(f"Tahun awal: {df_hutan['year'].min()}")
print(f"Tahun akhir: {df_hutan['year'].max()}")
print(f"Jumlah tahun: {df_hutan['year'].nunique()}")

print("\n5. Jumlah Provinsi:")
print(f"Total provinsi: {df_hutan['region'].nunique()}")

DATASET 1: LUAS HUTAN ALAM

1. Info Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 748 entries, 0 to 747
Data columns (total 8 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   year                          748 non-null    int64  
 1   country                       748 non-null    object 
 2   country_iso2                  748 non-null    object 
 3   region                        748 non-null    object 
 4   region_trase_id               748 non-null    object 
 5   parent_region                 748 non-null    object 
 6   parent_region_trase_id        748 non-null    object 
 7   natural_forest_area_hectares  748 non-null    float64
dtypes: float64(1), int64(1), object(6)
memory usage: 46.9+ KB
None

2. Sample Data (5 baris pertama):


Unnamed: 0,year,country,country_iso2,region,region_trase_id,parent_region,parent_region_trase_id,natural_forest_area_hectares
0,2001,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3624507.0
1,2001,INDONESIA,ID,BALI,ID-51,NUSA TENGGARA,ID-NU,63751.61
2,2001,INDONESIA,ID,BANTEN,ID-36,JAWA,ID-JW,65992.45
3,2001,INDONESIA,ID,BENGKULU,ID-17,SUMATERA,ID-SM,268292.0
4,2001,INDONESIA,ID,D I YOGYAKARTA,ID-34,JAWA,ID-JW,10.8



3. Statistik Deskriptif:


Unnamed: 0,year,natural_forest_area_hectares
count,748.0,748.0
mean,2011.5,2705803.0
std,6.348534,4683202.0
min,2001.0,9.72
25%,2006.0,254876.2
50%,2011.5,871305.3
75%,2017.0,3074278.0
max,2022.0,25309100.0



4. Range Tahun:
Tahun awal: 2001
Tahun akhir: 2022
Jumlah tahun: 22

5. Jumlah Provinsi:
Total provinsi: 34


### 2.2 Eksplorasi Dataset Emisi CO2

In [4]:
print("="*80)
print("DATASET 2: EMISI CO2")
print("="*80)

print("\n1. Info Dataset:")
print(df_emisi.info())

print("\n2. Sample Data (5 baris pertama):")
display(df_emisi.head())

print("\n3. Statistik Deskriptif:")
display(df_emisi.describe())

DATASET 2: EMISI CO2

1. Info Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 748 entries, 0 to 747
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   year                    748 non-null    int64  
 1   country                 748 non-null    object 
 2   country_iso2            748 non-null    object 
 3   region                  748 non-null    object 
 4   region_trase_id         748 non-null    object 
 5   parent_region           748 non-null    object 
 6   parent_region_trase_id  748 non-null    object 
 7   emisi_co2_ton           748 non-null    float64
dtypes: float64(1), int64(1), object(6)
memory usage: 46.9+ KB
None

2. Sample Data (5 baris pertama):


Unnamed: 0,year,country,country_iso2,region,region_trase_id,parent_region,parent_region_trase_id,emisi_co2_ton
0,2001,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,1782574.0
1,2001,INDONESIA,ID,BALI,ID-51,NUSA TENGGARA,ID-NU,1907.89
2,2001,INDONESIA,ID,BANTEN,ID-36,JAWA,ID-JW,465.0027
3,2001,INDONESIA,ID,BENGKULU,ID-17,SUMATERA,ID-SM,955814.8
4,2001,INDONESIA,ID,D I YOGYAKARTA,ID-34,JAWA,ID-JW,0.0



3. Statistik Deskriptif:


Unnamed: 0,year,emisi_co2_ton
count,748.0,748.0
mean,2011.5,5818186.0
std,6.348534,11174690.0
min,2001.0,0.0
25%,2006.0,173619.9
50%,2011.5,1366504.0
75%,2017.0,6446564.0
max,2022.0,104763700.0


### 2.3 Eksplorasi Dataset Deforestasi

In [5]:
print("="*80)
print("DATASET 3: DEFORESTASI")
print("="*80)

print("\n1. Info Dataset:")
print(df_deforestasi.info())

print("\n2. Sample Data (5 baris pertama):")
display(df_deforestasi.head())

print("\n3. Statistik Deskriptif:")
display(df_deforestasi.describe())

DATASET 3: DEFORESTASI

1. Info Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 748 entries, 0 to 747
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   year                    748 non-null    int64  
 1   country                 748 non-null    object 
 2   country_iso2            748 non-null    object 
 3   region                  748 non-null    object 
 4   region_trase_id         748 non-null    object 
 5   parent_region           748 non-null    object 
 6   parent_region_trase_id  748 non-null    object 
 7   deforestation_hectares  748 non-null    float64
dtypes: float64(1), int64(1), object(6)
memory usage: 46.9+ KB
None

2. Sample Data (5 baris pertama):


Unnamed: 0,year,country,country_iso2,region,region_trase_id,parent_region,parent_region_trase_id,deforestation_hectares
0,2001,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,4097.692235
1,2001,INDONESIA,ID,BALI,ID-51,NUSA TENGGARA,ID-NU,5.13
2,2001,INDONESIA,ID,BANTEN,ID-36,JAWA,ID-JW,1.26
3,2001,INDONESIA,ID,BENGKULU,ID-17,SUMATERA,ID-SM,1906.404
4,2001,INDONESIA,ID,D I YOGYAKARTA,ID-34,JAWA,ID-JW,0.0



3. Statistik Deskriptif:


Unnamed: 0,year,deforestation_hectares
count,748.0,748.0
mean,2011.5,13898.697182
std,6.348534,28894.803284
min,2001.0,0.0
25%,2006.0,417.120441
50%,2011.5,2950.012412
75%,2017.0,14626.304997
max,2022.0,300781.7036


---
## TAHAP 3: MERGING DATASET

**Penjelasan:**
- Menggabungkan 3 dataset menjadi 1 dataframe
- Menggunakan **outer join** agar tidak ada data yang hilang
- Merge key: `year`, `country`, `country_iso2`, `region`, `region_trase_id`, `parent_region`, `parent_region_trase_id`
- Setelah merge akan ada **24 kolom** (7 key + 3 value √ó 3 dataset = 10 kolom)

**Kenapa Merge?**
- Memudahkan analisis hubungan antar variabel
- Satu dataframe lebih mudah diproses
- Konsistensi data terjamin

In [6]:
print("Identifying merge keys...")

# Cek kolom yang sama di semua dataset
common_cols = set(df_hutan.columns) & set(df_emisi.columns) & set(df_deforestasi.columns)
print(f"\nKolom yang sama di semua dataset: {common_cols}")

# Definisikan merge keys
merge_keys = list(common_cols)
print(f"\nMerge keys yang digunakan: {merge_keys}")

print(f"\nJumlah kolom sebelum merge:")
print(f"  - Hutan: {len(df_hutan.columns)} kolom")
print(f"  - Emisi: {len(df_emisi.columns)} kolom")
print(f"  - Deforestasi: {len(df_deforestasi.columns)} kolom")
print(f"  - Total jika digabung: {len(df_hutan.columns) + len(df_emisi.columns) + len(df_deforestasi.columns) - 2*len(merge_keys)} kolom (ada duplikat key)")

Identifying merge keys...

Kolom yang sama di semua dataset: {'region', 'country', 'region_trase_id', 'parent_region', 'parent_region_trase_id', 'country_iso2', 'year'}

Merge keys yang digunakan: ['region', 'country', 'region_trase_id', 'parent_region', 'parent_region_trase_id', 'country_iso2', 'year']

Jumlah kolom sebelum merge:
  - Hutan: 8 kolom
  - Emisi: 8 kolom
  - Deforestasi: 8 kolom
  - Total jika digabung: 10 kolom (ada duplikat key)


In [7]:
# Merge step by step
print("\nMerging datasets...")

# Step 1: Merge hutan + emisi
df_merged = pd.merge(df_hutan, df_emisi, on=merge_keys, how='outer')
print(f"‚úì Setelah merge (hutan + emisi): {df_merged.shape}")

# Step 2: Merge + deforestasi
df_merged = pd.merge(df_merged, df_deforestasi, on=merge_keys, how='outer')
print(f"‚úì Setelah merge (+ deforestasi): {df_merged.shape}")

print(f"\nKolom setelah merge: {df_merged.columns.tolist()}")


Merging datasets...
‚úì Setelah merge (hutan + emisi): (748, 9)
‚úì Setelah merge (+ deforestasi): (748, 10)

Kolom setelah merge: ['year', 'country', 'country_iso2', 'region', 'region_trase_id', 'parent_region', 'parent_region_trase_id', 'natural_forest_area_hectares', 'emisi_co2_ton', 'deforestation_hectares']


### 3.1 Rename Kolom untuk Clarity

**Penjelasan:**
- Mengubah nama kolom menjadi Bahasa Indonesia yang lebih deskriptif
- Memudahkan pemahaman di Power BI nanti
- Konsisten dengan best practice data visualization

In [8]:
# Rename kolom ke nama yang lebih deskriptif
df_merged = df_merged.rename(columns={
    'year': 'tahun',
    'country': 'negara',
    'country_iso2': 'id_negara',
    'region': 'provinsi',
    'region_trase_id': 'id_provinsi',
    'parent_region': 'pulau',
    'parent_region_trase_id': 'id_pulau',
    'natural_forest_area_hectares': 'luas_hutan_ha',
    'gross_greenhouse_gas_emissions_from_deforestation_tonnes_co‚ÇÇ-': 'emisi_co2_ton',
    'deforestation_hectares': 'deforestasi_ha'
})

print("Kolom setelah rename:")
print(df_merged.columns.tolist())

print("\nSample data setelah merge dan rename:")
display(df_merged.head(10))

Kolom setelah rename:
['tahun', 'negara', 'id_negara', 'provinsi', 'id_provinsi', 'pulau', 'id_pulau', 'luas_hutan_ha', 'emisi_co2_ton', 'deforestasi_ha']

Sample data setelah merge dan rename:


Unnamed: 0,tahun,negara,id_negara,provinsi,id_provinsi,pulau,id_pulau,luas_hutan_ha,emisi_co2_ton,deforestasi_ha
0,2001,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3624507.148,1782574.0,4097.692235
1,2002,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3621571.22,1297439.0,2935.927765
2,2003,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3615809.327,2624791.0,5761.893176
3,2004,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3610221.291,2239850.0,5588.036118
4,2005,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3600450.391,3713745.0,9770.899765
5,2006,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3590367.604,4033822.0,10082.78682
6,2007,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3582445.918,3311704.0,7921.686706
7,2008,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3561400.313,8396575.0,21045.60494
8,2009,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3529766.678,12164800.0,31633.63412
9,2010,INDONESIA,ID,ACEH,ID-11,SUMATERA,ID-SM,3514854.572,5929618.0,14912.10635


---
## TAHAP 4: FILTER DATA TAHUN 2013-2022

**Penjelasan:**
- Fokus pada data 11 tahun terakhir (2013-2022)
- Periode ini lebih relevan untuk analisis current state
- Mengurangi noise dari data lama

In [10]:
print(f"Data sebelum filter: {df_merged.shape}")
print(f"Range tahun: {df_merged['tahun'].min()} - {df_merged['tahun'].max()}")

# Filter tahun 2013-2022
df_filtered = df_merged[(df_merged['tahun'] >= 2013) & (df_merged['tahun'] <= 2022)].copy()

print(f"\n‚úì Data setelah filter (2013-2022): {df_filtered.shape}")
print(f"Range tahun: {df_filtered['tahun'].min()} - {df_filtered['tahun'].max()}")
print(f"Jumlah tahun: {df_filtered['tahun'].nunique()} tahun")
print(f"Jumlah provinsi: {df_filtered['provinsi'].nunique()} provinsi")
print(f"\nData yang di-drop: {len(df_merged) - len(df_filtered)} rows ({(len(df_merged) - len(df_filtered))/len(df_merged)*100:.1f}%)")

Data sebelum filter: (748, 10)
Range tahun: 2001 - 2022

‚úì Data setelah filter (2013-2022): (340, 10)
Range tahun: 2013 - 2022
Jumlah tahun: 10 tahun
Jumlah provinsi: 34 provinsi

Data yang di-drop: 408 rows (54.5%)


---
## TAHAP 5: DATA CLEANING

### 5.1 Cek Missing Values

**Penjelasan:**
- Missing values dapat menyebabkan error dalam visualisasi
- Perlu diidentifikasi dan ditangani sebelum lanjut
- Strategi handling: drop, fill, atau interpolate tergantung kasus

In [11]:
print("="*80)
print("CEK MISSING VALUES")
print("="*80)

# Hitung missing values
missing_count = df_filtered.isnull().sum()
missing_pct = (df_filtered.isnull().sum() / len(df_filtered)) * 100

missing_df = pd.DataFrame({
    'Kolom': missing_count.index,
    'Missing Count': missing_count.values,
    'Missing %': missing_pct.values
})

missing_df = missing_df[missing_df['Missing Count'] > 0].sort_values('Missing Count', ascending=False)

if len(missing_df) > 0:
    print("\n‚ö†Ô∏è Ditemukan missing values:")
    display(missing_df)
    
    print("\nHandling missing values...")
    print("Strategi: Drop rows dengan missing values di kolom penting")
    
    important_cols = ['deforestasi_ha', 'emisi_co2_ton', 'luas_hutan_ha']
    df_clean = df_filtered.dropna(subset=important_cols)
    
    print(f"‚úì Data setelah drop NA: {df_clean.shape}")
    print(f"Rows dihapus: {len(df_filtered) - len(df_clean)}")
else:
    print("\n‚úì Tidak ada missing values! Data 100% complete.")
    df_clean = df_filtered.copy()

CEK MISSING VALUES

‚úì Tidak ada missing values! Data 100% complete.


### 5.2 Cek Data Duplicate

**Penjelasan:**
- Data duplikat dapat menyebabkan bias dalam agregasi
- Perlu diidentifikasi dan dihapus

In [12]:
print("="*80)
print("CEK DATA DUPLICATE")
print("="*80)

# Cek duplikasi penuh
duplicates_full = df_clean.duplicated().sum()
print(f"\nDuplikat (seluruh row): {duplicates_full}")

if duplicates_full > 0:
    print("\nMenghapus duplikat...")
    df_clean = df_clean.drop_duplicates()
    print(f"‚úì Data setelah drop duplicates: {df_clean.shape}")

# Cek duplikasi berdasarkan key (provinsi, tahun)
duplicates_key = df_clean.duplicated(subset=['provinsi', 'tahun']).sum()
print(f"\nDuplikat (provinsi-tahun): {duplicates_key}")

if duplicates_key > 0:
    print("‚ö†Ô∏è Ada duplikasi kombinasi provinsi-tahun!")
    print("\nContoh data duplikat:")
    display(df_clean[df_clean.duplicated(subset=['provinsi', 'tahun'], keep=False)].sort_values(['provinsi', 'tahun']).head(10))
    
    print("\nMengambil data pertama saja...")
    df_clean = df_clean.drop_duplicates(subset=['provinsi', 'tahun'], keep='first')
    print(f"‚úì Data setelah dedup key: {df_clean.shape}")
else:
    print("‚úì Tidak ada duplikasi kombinasi provinsi-tahun!")

CEK DATA DUPLICATE

Duplikat (seluruh row): 0

Duplikat (provinsi-tahun): 0
‚úì Tidak ada duplikasi kombinasi provinsi-tahun!


### 5.3 Cek Noise dan Outliers

**Penjelasan:**
- **Noise:** Data yang tidak konsisten atau error (misal: nilai negatif)
- **Outliers:** Nilai ekstrem yang jauh dari distribusi normal
- Metode deteksi: IQR (Interquartile Range) method
- IQR = Q3 - Q1
- Lower bound = Q1 - 1.5 * IQR
- Upper bound = Q3 + 1.5 * IQR

In [13]:
print("="*80)
print("CEK NOISE DAN OUTLIERS")
print("="*80)

# 1. Cek nilai negatif (noise)
print("\n1. Cek Noise (Nilai Negatif):")
numeric_cols = ['luas_hutan_ha', 'deforestasi_ha', 'emisi_co2_ton']

noise_found = False
for col in numeric_cols:
    negative_count = (df_clean[col] < 0).sum()
    if negative_count > 0:
        print(f"  ‚ö†Ô∏è {col}: {negative_count} nilai negatif")
        noise_found = True
    else:
        print(f"  ‚úì {col}: Tidak ada nilai negatif")

if noise_found:
    print("\n  Menangani nilai negatif: Set menjadi 0")
    for col in numeric_cols:
        df_clean[col] = df_clean[col].clip(lower=0)
    print("  ‚úì Noise handled")

# 2. Deteksi outliers dengan IQR method
print("\n2. Deteksi Outliers (IQR Method):")

def detect_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    
    return len(outliers), lower_bound, upper_bound

outlier_summary = []
for col in numeric_cols:
    outlier_count, lower, upper = detect_outliers_iqr(df_clean, col)
    outlier_pct = (outlier_count / len(df_clean)) * 100
    outlier_summary.append({
        'Kolom': col,
        'Outlier Count': outlier_count,
        'Outlier %': f"{outlier_pct:.2f}%",
        'Lower Bound': f"{lower:,.0f}",
        'Upper Bound': f"{upper:,.0f}"
    })

outlier_df = pd.DataFrame(outlier_summary)
display(outlier_df)

print("\nüí° Catatan:")
print("  - Outliers di dataset ini adalah NATURAL (provinsi besar vs kecil)")
print("  - Contoh: Kalimantan Tengah vs DKI Jakarta memiliki perbedaan alamiah")
print("  - Outliers TIDAK DIHAPUS karena merupakan data valid")
print("  - Untuk visualisasi, bisa gunakan log scale jika diperlukan")

CEK NOISE DAN OUTLIERS

1. Cek Noise (Nilai Negatif):
  ‚úì luas_hutan_ha: Tidak ada nilai negatif
  ‚úì deforestasi_ha: Tidak ada nilai negatif
  ‚úì emisi_co2_ton: Tidak ada nilai negatif

2. Deteksi Outliers (IQR Method):


Unnamed: 0,Kolom,Outlier Count,Outlier %,Lower Bound,Upper Bound
0,luas_hutan_ha,32,9.41%,-3943730,7184985
1,deforestasi_ha,32,9.41%,-20700,35728
2,emisi_co2_ton,32,9.41%,-9387355,16153273



üí° Catatan:
  - Outliers di dataset ini adalah NATURAL (provinsi besar vs kecil)
  - Contoh: Kalimantan Tengah vs DKI Jakarta memiliki perbedaan alamiah
  - Outliers TIDAK DIHAPUS karena merupakan data valid
  - Untuk visualisasi, bisa gunakan log scale jika diperlukan


---
## TAHAP 6: FEATURE CREATION DAN AGREGASI

**Penjelasan:**
Kita akan membuat dataset terpisah untuk masing-masing visualisasi:

1. **Line Chart:** Agregasi total luas hutan per tahun
2. **Choropleth Map:** Agregasi total deforestasi per provinsi (2013-2022)
3. **Scatter Plot:** Agregasi deforestasi vs emisi per provinsi
4. **Bubble Chart:** Agregasi emisi per pulau

### 6.1 Dataset untuk LINE CHART (Trend Luas Hutan)

**Tujuan:** Melihat trend penurunan luas hutan nasional dari 2013-2022

**Agregasi:**
- Groupby: `tahun`
- Metric: Sum of `luas_hutan_ha` (total nasional)
- Tambahan: Hitung perubahan year-over-year

**Output di Power BI:**
- X-axis: Tahun
- Y-axis: Total Luas Hutan (ha)

In [14]:
print("="*80)
print("DATASET 1: LINE CHART - TREND LUAS HUTAN NASIONAL")
print("="*80)

# Agregasi per tahun
df_line_chart = df_clean.groupby('tahun').agg({
    'luas_hutan_ha': 'sum'
}).reset_index()

# Rename kolom
df_line_chart.rename(columns={
    'luas_hutan_ha': 'total_luas_hutan_nasional_ha'
}, inplace=True)

# Hitung perubahan year-over-year
df_line_chart['perubahan_ha'] = df_line_chart['total_luas_hutan_nasional_ha'].diff()
df_line_chart['perubahan_persen'] = (df_line_chart['perubahan_ha'] / 
                                      df_line_chart['total_luas_hutan_nasional_ha'].shift(1) * 100)

print(f"\n‚úì Shape: {df_line_chart.shape}")
print("\nData:")
display(df_line_chart)

print("\nüìä Insight:")
print(f"  - Luas hutan 2013: {df_line_chart.iloc[0]['total_luas_hutan_nasional_ha']:,.0f} ha")
print(f"  - Luas hutan 2022: {df_line_chart.iloc[-1]['total_luas_hutan_nasional_ha']:,.0f} ha")
total_loss = df_line_chart.iloc[0]['total_luas_hutan_nasional_ha'] - df_line_chart.iloc[-1]['total_luas_hutan_nasional_ha']
loss_pct = (total_loss / df_line_chart.iloc[0]['total_luas_hutan_nasional_ha']) * 100
print(f"  - Kehilangan total: {total_loss:,.0f} ha ({loss_pct:.2f}%)")
print(f"  - Rata-rata hilang per tahun: {total_loss/11:,.0f} ha")

DATASET 1: LINE CHART - TREND LUAS HUTAN NASIONAL

‚úì Shape: (10, 4)

Data:


Unnamed: 0,tahun,total_luas_hutan_nasional_ha,perubahan_ha,perubahan_persen
0,2013,91021130.0,,
1,2014,90322470.0,-698654.65684,-0.767574
2,2015,89655980.0,-666493.5976,-0.737905
3,2016,88753780.0,-902197.58744,-1.006288
4,2017,88424860.0,-328919.29476,-0.370597
5,2018,88123580.0,-301282.09928,-0.340721
6,2019,87785900.0,-337680.28823,-0.383189
7,2020,87562830.0,-223071.82591,-0.254109
8,2021,87388160.0,-174669.79355,-0.199479
9,2022,87179930.0,-208231.32873,-0.238283



üìä Insight:
  - Luas hutan 2013: 91,021,127 ha
  - Luas hutan 2022: 87,179,927 ha
  - Kehilangan total: 3,841,200 ha (4.22%)
  - Rata-rata hilang per tahun: 349,200 ha


### 6.2 Dataset untuk CHOROPLETH MAP (Sebaran Deforestasi per Provinsi)

**Tujuan:** Melihat distribusi geografis deforestasi di Indonesia

**Agregasi:**
- Groupby: `provinsi`, `pulau`, `id_provinsi`, `id_pulau`
- Metric: Sum of `deforestasi_ha` (total 2013-2022)
- Tambahan: Hitung ranking provinsi

**Output di Power BI:**
- Map visual dengan color gradient berdasarkan total deforestasi
- Tooltip: Nama provinsi, total deforestasi, ranking

In [15]:
print("="*80)
print("DATASET 2: CHOROPLETH MAP - SEBARAN DEFORESTASI PER PROVINSI")
print("="*80)

# Agregasi per provinsi
df_choropleth = df_clean.groupby(['provinsi', 'pulau', 'id_provinsi', 'id_pulau']).agg({
    'deforestasi_ha': 'sum'
}).reset_index()

# Rename kolom
df_choropleth.rename(columns={
    'deforestasi_ha': 'total_deforestasi_2013_2022_ha'
}, inplace=True)

# Tambahkan ranking
df_choropleth['ranking'] = df_choropleth['total_deforestasi_2013_2022_ha'].rank(ascending=False, method='dense').astype(int)

# Sort by ranking
df_choropleth = df_choropleth.sort_values('ranking')

print(f"\n‚úì Shape: {df_choropleth.shape}")
print("\nTop 10 Provinsi dengan Deforestasi Tertinggi:")
display(df_choropleth.head(10))

print("\nüìä Insight:")
total_deforestasi = df_choropleth['total_deforestasi_2013_2022_ha'].sum()
print(f"  - Total deforestasi nasional: {total_deforestasi:,.0f} ha")
top_5_pct = (df_choropleth.head(5)['total_deforestasi_2013_2022_ha'].sum() / total_deforestasi) * 100
print(f"  - Top 5 provinsi kontribusi: {top_5_pct:.1f}%")

DATASET 2: CHOROPLETH MAP - SEBARAN DEFORESTASI PER PROVINSI

‚úì Shape: (34, 6)

Top 10 Provinsi dengan Deforestasi Tertinggi:


Unnamed: 0,provinsi,pulau,id_provinsi,id_pulau,total_deforestasi_2013_2022_ha,ranking
13,KALIMANTAN TENGAH,KALIMANTAN,ID-62,ID-KA,748513.71807,1
11,KALIMANTAN BARAT,KALIMANTAN,ID-61,ID-KA,624583.81794,2
25,RIAU,SUMATERA,ID-14,ID-SM,458241.32043,3
14,KALIMANTAN TIMUR,KALIMANTAN,ID-64,ID-KA,355027.08106,4
23,PAPUA,PAPUA,ID-94,ID-PP,326078.38374,5
7,JAMBI,SUMATERA,ID-15,ID-SM,291144.6487,6
28,SULAWESI TENGAH,SULAWESI,ID-72,ID-SL,230650.779534,7
15,KALIMANTAN UTARA,KALIMANTAN,ID-65,ID-KA,187854.40412,8
31,SUMATERA BARAT,SUMATERA,ID-13,ID-SM,155138.284229,9
24,PAPUA BARAT,PAPUA,ID-91,ID-PP,151954.452347,10



üìä Insight:
  - Total deforestasi nasional: 4,329,587 ha
  - Top 5 provinsi kontribusi: 58.0%


### 6.3 Dataset untuk SCATTER PLOT (Hubungan Deforestasi vs Emisi CO2)

**Tujuan:** Melihat korelasi antara deforestasi dan emisi CO2

**Agregasi:**
- Groupby: `provinsi`, `pulau`
- Metric: Sum of `deforestasi_ha` dan `emisi_co2_ton`
- Tambahan: Hitung korelasi

**Output di Power BI:**
- X-axis: Total Deforestasi (ha)
- Y-axis: Total Emisi CO2 (ton)
- Color: Pulau
- Size: (opsional) bisa berdasarkan luas hutan

In [16]:
print("="*80)
print("DATASET 3: SCATTER PLOT - HUBUNGAN DEFORESTASI VS EMISI CO2")
print("="*80)

# Agregasi per provinsi
df_scatter = df_clean.groupby(['provinsi', 'pulau', 'id_provinsi', 'id_pulau']).agg({
    'deforestasi_ha': 'sum',
    'emisi_co2_ton': 'sum',
    'luas_hutan_ha': 'mean'  # rata-rata luas hutan untuk context
}).reset_index()

# Rename kolom
df_scatter.rename(columns={
    'deforestasi_ha': 'total_deforestasi_2013_2022_ha',
    'emisi_co2_ton': 'total_emisi_co2_2013_2022_ton',
    'luas_hutan_ha': 'rata_rata_luas_hutan_ha'
}, inplace=True)

print(f"\n‚úì Shape: {df_scatter.shape} (34 provinsi)")
print("\nSample data:")
display(df_scatter.head(10))

# Hitung korelasi
correlation = df_scatter[['total_deforestasi_2013_2022_ha', 'total_emisi_co2_2013_2022_ton']].corr().iloc[0, 1]

print("\nüìä Insight:")
print(f"  - Jumlah provinsi: {len(df_scatter)}")
print(f"  - Korelasi deforestasi-emisi: {correlation:.4f}")
if correlation > 0.9:
    print(f"  - Interpretasi: SANGAT KUAT - Deforestasi hampir linear dengan emisi CO2")
elif correlation > 0.7:
    print(f"  - Interpretasi: KUAT - Deforestasi berhubungan erat dengan emisi CO2")
else:
    print(f"  - Interpretasi: SEDANG - Ada faktor lain yang mempengaruhi")

DATASET 3: SCATTER PLOT - HUBUNGAN DEFORESTASI VS EMISI CO2

‚úì Shape: (34, 7) (34 provinsi)

Sample data:


Unnamed: 0,provinsi,pulau,id_provinsi,id_pulau,total_deforestasi_2013_2022_ha,total_emisi_co2_2013_2022_ton,rata_rata_luas_hutan_ha
0,ACEH,SUMATERA,ID-11,ID-SM,119845.508475,50576190.0,3398672.0
1,BALI,NUSA TENGGARA,ID-51,ID-NU,360.269294,154527.7,63475.05
2,BANTEN,JAWA,ID-36,ID-JW,761.706,205723.7,65516.64
3,BENGKULU,SUMATERA,ID-17,ID-SM,17782.658824,9590930.0,230102.1
4,D I YOGYAKARTA,JAWA,ID-34,ID-JW,1.08,352.0217,10.593
5,DKI JAKARTA,JAWA,ID-31,ID-JW,0.0,0.0,48.39565
6,GORONTALO,SULAWESI,ID-75,ID-SL,25854.548118,12839910.0,315393.4
7,JAMBI,SUMATERA,ID-15,ID-SM,291144.6487,119081800.0,1548175.0
8,JAWA BARAT,JAWA,ID-32,ID-JW,1396.732235,647517.0,291725.2
9,JAWA TENGAH,JAWA,ID-33,ID-JW,574.169647,261268.1,87352.38



üìä Insight:
  - Jumlah provinsi: 34
  - Korelasi deforestasi-emisi: 0.9939
  - Interpretasi: SANGAT KUAT - Deforestasi hampir linear dengan emisi CO2


### 6.4 Dataset untuk BUBBLE CHART (Emisi Karbon per Pulau)

**Tujuan:** Melihat pulau mana yang paling berdampak terhadap emisi karbon

**Agregasi:**
- Groupby: `pulau`
- Metric: Sum of `emisi_co2_ton`, `deforestasi_ha`
- Tambahan: Hitung jumlah provinsi per pulau, proporsi kontribusi

**Output di Power BI:**
- Bubble size: Total Emisi CO2
- X-axis: Total Deforestasi
- Y-axis: Total Emisi CO2
- Label: Nama Pulau

In [17]:
print("="*80)
print("DATASET 4: BUBBLE CHART - EMISI KARBON PER PULAU")
print("="*80)

# Agregasi per pulau
df_bubble = df_clean.groupby(['pulau', 'id_pulau']).agg({
    'emisi_co2_ton': 'sum',
    'deforestasi_ha': 'sum',
    'provinsi': 'nunique'  # jumlah provinsi di pulau tersebut
}).reset_index()

# Rename kolom
df_bubble.rename(columns={
    'emisi_co2_ton': 'total_emisi_co2_2013_2022_ton',
    'deforestasi_ha': 'total_deforestasi_2013_2022_ha',
    'provinsi': 'jumlah_provinsi'
}, inplace=True)

# Hitung proporsi kontribusi
total_emisi_nasional = df_bubble['total_emisi_co2_2013_2022_ton'].sum()
df_bubble['kontribusi_emisi_persen'] = (df_bubble['total_emisi_co2_2013_2022_ton'] / total_emisi_nasional) * 100

# Sort by emisi
df_bubble = df_bubble.sort_values('total_emisi_co2_2013_2022_ton', ascending=False)

print(f"\n‚úì Shape: {df_bubble.shape}")
print("\nData per Pulau:")
display(df_bubble)

print("\nüìä Insight:")
print(f"  - Jumlah pulau: {len(df_bubble)}")
print(f"  - Pulau dengan emisi tertinggi: {df_bubble.iloc[0]['pulau']}")
print(f"  - Kontribusi pulau tertinggi: {df_bubble.iloc[0]['kontribusi_emisi_persen']:.1f}%")
top_2_pct = df_bubble.head(2)['kontribusi_emisi_persen'].sum()
print(f"  - Kalimantan + Sumatera kontribusi: {top_2_pct:.1f}%")

DATASET 4: BUBBLE CHART - EMISI KARBON PER PULAU

‚úì Shape: (7, 6)

Data per Pulau:


Unnamed: 0,pulau,id_pulau,total_emisi_co2_2013_2022_ton,total_deforestasi_2013_2022_ha,jumlah_provinsi,kontribusi_emisi_persen
1,KALIMANTAN,ID-KA,832875800.0,2001660.0,5,44.699866
6,SUMATERA,ID-SM,529972800.0,1286639.0,10,28.443275
4,PAPUA,ID-PP,228143600.0,478032.8,2,12.244311
5,SULAWESI,ID-SL,196598400.0,409194.9,6,10.551302
2,MALUKU,ID-ML,68911990.0,137337.6,2,3.698459
3,NUSA TENGGARA,ID-NU,4392736.0,11071.53,3,0.235755
0,JAWA,ID-JW,2366941.0,5650.169,6,0.127032



üìä Insight:
  - Jumlah pulau: 7
  - Pulau dengan emisi tertinggi: KALIMANTAN
  - Kontribusi pulau tertinggi: 44.7%
  - Kalimantan + Sumatera kontribusi: 73.1%


---
## TAHAP 7: EXPORT DATA UNTUK DASHBOARD

**Penjelasan:**
- Menyimpan masing-masing dataset ke file CSV terpisah
- File siap di-import ke Power BI
- Naming convention yang jelas untuk mudah diidentifikasi

In [18]:
output_dir = 'dataset_visdat'

print("Exporting datasets for Power BI...\n")

# 1. Data lengkap (cleaned) - untuk keperluan backup/eksplorasi lebih lanjut
file_clean = f'{output_dir}/powerbi_data_cleaned_full.csv'
df_clean.to_csv(file_clean, index=False)
print(f"‚úì [1] Data Lengkap (Cleaned):")
print(f"    File: powerbi_data_cleaned_full.csv")
print(f"    Shape: {df_clean.shape}")
print(f"    Use: Backup, eksplorasi lebih lanjut\n")

# 2. Line Chart - Trend Luas Hutan
file_line = f'{output_dir}/powerbi_line_chart_luas_hutan.csv'
df_line_chart.to_csv(file_line, index=False)
print(f"‚úì [2] Line Chart - Trend Luas Hutan:")
print(f"    File: powerbi_line_chart_luas_hutan.csv")
print(f"    Shape: {df_line_chart.shape}")
print(f"    Kolom: {df_line_chart.columns.tolist()}")
print(f"    Use: Line chart di Power BI (X=tahun, Y=total_luas_hutan_nasional_ha)\n")

# 3. Choropleth Map - Sebaran Deforestasi
file_choropleth = f'{output_dir}/powerbi_choropleth_deforestasi_provinsi.csv'
df_choropleth.to_csv(file_choropleth, index=False)
print(f"‚úì [3] Choropleth Map - Sebaran Deforestasi:")
print(f"    File: powerbi_choropleth_deforestasi_provinsi.csv")
print(f"    Shape: {df_choropleth.shape}")
print(f"    Kolom: {df_choropleth.columns.tolist()}")
print(f"    Use: Map visual di Power BI (Location=provinsi, Color=total_deforestasi)\n")

# 4. Scatter Plot - Hubungan Deforestasi vs Emisi
file_scatter = f'{output_dir}/powerbi_scatter_deforestasi_emisi.csv'
df_scatter.to_csv(file_scatter, index=False)
print(f"‚úì [4] Scatter Plot - Hubungan Deforestasi vs Emisi:")
print(f"    File: powerbi_scatter_deforestasi_emisi.csv")
print(f"    Shape: {df_scatter.shape}")
print(f"    Kolom: {df_scatter.columns.tolist()}")
print(f"    Use: Scatter plot di Power BI (X=total_deforestasi, Y=total_emisi, Color=pulau)\n")

# 5. Bubble Chart - Emisi per Pulau
file_bubble = f'{output_dir}/powerbi_bubble_emisi_pulau.csv'
df_bubble.to_csv(file_bubble, index=False)
print(f"‚úì [5] Bubble Chart - Emisi per Pulau:")
print(f"    File: powerbi_bubble_emisi_pulau.csv")
print(f"    Shape: {df_bubble.shape}")
print(f"    Kolom: {df_bubble.columns.tolist()}")
print(f"    Use: Bubble chart di Power BI (X=total_deforestasi, Y=total_emisi, Size=total_emisi)\n")

print("="*80)
print("‚úÖ SEMUA DATASET BERHASIL DI-EXPORT!")
print("="*80)

Exporting datasets for Power BI...

‚úì [1] Data Lengkap (Cleaned):
    File: powerbi_data_cleaned_full.csv
    Shape: (340, 10)
    Use: Backup, eksplorasi lebih lanjut

‚úì [2] Line Chart - Trend Luas Hutan:
    File: powerbi_line_chart_luas_hutan.csv
    Shape: (10, 4)
    Kolom: ['tahun', 'total_luas_hutan_nasional_ha', 'perubahan_ha', 'perubahan_persen']
    Use: Line chart di Power BI (X=tahun, Y=total_luas_hutan_nasional_ha)

‚úì [3] Choropleth Map - Sebaran Deforestasi:
    File: powerbi_choropleth_deforestasi_provinsi.csv
    Shape: (34, 6)
    Kolom: ['provinsi', 'pulau', 'id_provinsi', 'id_pulau', 'total_deforestasi_2013_2022_ha', 'ranking']
    Use: Map visual di Power BI (Location=provinsi, Color=total_deforestasi)

‚úì [4] Scatter Plot - Hubungan Deforestasi vs Emisi:
    File: powerbi_scatter_deforestasi_emisi.csv
    Shape: (34, 7)
    Kolom: ['provinsi', 'pulau', 'id_provinsi', 'id_pulau', 'total_deforestasi_2013_2022_ha', 'total_emisi_co2_2013_2022_ton', 'rata_rata_lu

---
## TAHAP 8: SUMMARY DAN REKOMENDASI

### 8.1 Summary Preprocessing

In [19]:
print("="*80)
print("SUMMARY PREPROCESSING")
print("="*80)

summary = f"""
1. DATA INPUT:
   - Dataset Luas Hutan: {df_hutan.shape}
   - Dataset Emisi CO2: {df_emisi.shape}
   - Dataset Deforestasi: {df_deforestasi.shape}

2. SETELAH MERGE:
   - Shape: {df_merged.shape}
   - Periode: 2001-2022 (22 tahun)

3. SETELAH FILTER (2013-2022):
   - Shape: {df_filtered.shape}
   - Periode: 2013-2022 (11 tahun)
   - Provinsi: {df_filtered['provinsi'].nunique()}

4. SETELAH CLEANING:
   - Missing values: 0 (Tidak ada)
   - Duplicate data: 0 (Tidak ada)
   - Noise: Handled (nilai negatif di-clip)
   - Outliers: Retained (natural variation)

5. FEATURE CREATION:
   ‚úì Line Chart Dataset: {df_line_chart.shape[0]} tahun
   ‚úì Choropleth Dataset: {df_choropleth.shape[0]} provinsi
   ‚úì Scatter Plot Dataset: {df_scatter.shape[0]} provinsi
   ‚úì Bubble Chart Dataset: {df_bubble.shape[0]} pulau

6. STATISTIK UTAMA (2013-2022):
   - Total Deforestasi Nasional: {df_scatter['total_deforestasi_2013_2022_ha'].sum():,.0f} ha
   - Total Emisi CO2 Nasional: {df_scatter['total_emisi_co2_2013_2022_ton'].sum():,.0f} ton
   - Kehilangan Hutan: {total_loss:,.0f} ha ({loss_pct:.2f}%)
   - Korelasi Deforestasi-Emisi: {correlation:.4f}

7. OUTPUT FILES:
   ‚úì powerbi_data_cleaned_full.csv
   ‚úì powerbi_line_chart_luas_hutan.csv
   ‚úì powerbi_choropleth_deforestasi_provinsi.csv
   ‚úì powerbi_scatter_deforestasi_emisi.csv
   ‚úì powerbi_bubble_emisi_pulau.csv
"""

print(summary)

SUMMARY PREPROCESSING

1. DATA INPUT:
   - Dataset Luas Hutan: (748, 8)
   - Dataset Emisi CO2: (748, 8)
   - Dataset Deforestasi: (748, 8)

2. SETELAH MERGE:
   - Shape: (748, 10)
   - Periode: 2001-2022 (22 tahun)

3. SETELAH FILTER (2013-2022):
   - Shape: (340, 10)
   - Periode: 2013-2022 (11 tahun)
   - Provinsi: 34

4. SETELAH CLEANING:
   - Missing values: 0 (Tidak ada)
   - Duplicate data: 0 (Tidak ada)
   - Noise: Handled (nilai negatif di-clip)
   - Outliers: Retained (natural variation)

5. FEATURE CREATION:
   ‚úì Line Chart Dataset: 10 tahun
   ‚úì Choropleth Dataset: 34 provinsi
   ‚úì Scatter Plot Dataset: 34 provinsi
   ‚úì Bubble Chart Dataset: 7 pulau

6. STATISTIK UTAMA (2013-2022):
   - Total Deforestasi Nasional: 4,329,587 ha
   - Total Emisi CO2 Nasional: 1,863,262,308 ton
   - Kehilangan Hutan: 3,841,200 ha (4.22%)
   - Korelasi Deforestasi-Emisi: 0.9939

7. OUTPUT FILES:
   ‚úì powerbi_data_cleaned_full.csv
   ‚úì powerbi_line_chart_luas_hutan.csv
   ‚úì powerbi