# 1. Import dan Muat Dataset

In [2]:
import pandas as pd

# Load the dataset
file_path = 'Luas Panen, Produksi, dan Produktivitas Padi Menurut Provinsi, 2018-2024.xlsx'
data = pd.ExcelFile(file_path)

# Periksa sheet yang tersedia
print(data.sheet_names)

# Muat data dari sheet pertama
df = data.parse('Sheet1')
print(df.head())  # Lihat beberapa baris pertama untuk memahami struktur data

['Sheet1']
      38 Provinsi                                         Unnamed: 1  \
0             NaN  Luas Panen, Produksi, dan Produktivitas Padi M...   
1             NaN                                    Luas Panen (ha)   
2             NaN                                               2018   
3            ACEH                                          329515.78   
4  SUMATERA UTARA                                          408176.45   

  Unnamed: 2 Unnamed: 3 Unnamed: 4 Unnamed: 5  Unnamed: 6  Unnamed: 7  \
0        NaN        NaN        NaN        NaN         NaN         NaN   
1        NaN        NaN        NaN        NaN         NaN         NaN   
2       2019       2020       2021       2022     2023.00     2024.00   
3  310012.46  317869.41  297058.38   271750.2   254287.38   301081.97   
4  413141.24  388591.22     385405   411462.1   406109.49   419089.12   

              Unnamed: 8 Unnamed: 9  ... Unnamed: 12 Unnamed: 13 Unnamed: 14  \
0                    NaN        NaN  

# 2. Membersihkan Dataset

In [3]:
# Set baris ke-2 sebagai header dan muat ulang data
df_cleaned = data.parse('Sheet1', header=2)

# Hapus baris pertama yang berisi informasi lama
df_cleaned = df_cleaned.iloc[1:]

# Beri nama kolom yang sesuai
df_cleaned.columns = [
    "Provinsi", "Luas Panen 2018", "Luas Panen 2019", "Luas Panen 2020",
    "Luas Panen 2021", "Luas Panen 2022", "Luas Panen 2023", "Luas Panen 2024",
    "Produktivitas 2018", "Produktivitas 2019", "Produktivitas 2020",
    "Produktivitas 2021", "Produktivitas 2022", "Produktivitas 2023",
    "Produktivitas 2024", "Produksi 2018", "Produksi 2019", "Produksi 2020",
    "Produksi 2021", "Produksi 2022", "Produksi 2023", "Produksi 2024"
]

# Reset index untuk merapikan
df_cleaned = df_cleaned.reset_index(drop=True)

# Tampilkan hasil
print(df_cleaned.head())

         Provinsi Luas Panen 2018 Luas Panen 2019 Luas Panen 2020  \
0            ACEH       329515.78       310012.46       317869.41   
1  SUMATERA UTARA       408176.45       413141.24       388591.22   
2  SUMATERA BARAT       313050.82       311671.23       295664.47   
3            RIAU        71448.08        63142.04        64733.13   
4           JAMBI        86202.68        69536.06        84772.93   

  Luas Panen 2021 Luas Panen 2022  Luas Panen 2023  Luas Panen 2024  \
0       297058.38        271750.2        254287.38        301081.97   
1          385405        411462.1        406109.49        419089.12   
2       272391.95        271883.1        300564.77        296215.93   
3        53062.35        51054.04         51914.14         57003.35   
4        64412.26        60539.59         61236.64         64119.24   

  Produktivitas 2018 Produktivitas 2019  ... Produktivitas 2022  \
0              56.49               55.3  ...              55.55   
1              51.65    

# 3. Konversi Tipe Data

In [4]:
# Konversi nilai ke tipe data numerik
numeric_columns = df_cleaned.columns[1:]  # Semua kolom kecuali "Provinsi"
df_cleaned[numeric_columns] = df_cleaned[numeric_columns].apply(pd.to_numeric, errors='coerce')

# Tampilkan hasil
print(df_cleaned.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39 entries, 0 to 38
Data columns (total 22 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Provinsi            39 non-null     object 
 1   Luas Panen 2018     35 non-null     float64
 2   Luas Panen 2019     35 non-null     float64
 3   Luas Panen 2020     35 non-null     float64
 4   Luas Panen 2021     35 non-null     float64
 5   Luas Panen 2022     35 non-null     float64
 6   Luas Panen 2023     39 non-null     float64
 7   Luas Panen 2024     39 non-null     float64
 8   Produktivitas 2018  35 non-null     float64
 9   Produktivitas 2019  35 non-null     float64
 10  Produktivitas 2020  35 non-null     float64
 11  Produktivitas 2021  35 non-null     float64
 12  Produktivitas 2022  35 non-null     float64
 13  Produktivitas 2023  39 non-null     float64
 14  Produktivitas 2024  39 non-null     float64
 15  Produksi 2018       35 non-null     float64
 16  Produksi 2

# 4. Tambahkan Fitur Baru

In [5]:
# Tambahkan fitur selisih antar tahun
for metric in ["Luas Panen", "Produktivitas", "Produksi"]:
    for year in range(2018, 2024):
        next_year = year + 1
        if next_year <= 2024:
            diff_col = f"Selisih {metric} {year}-{next_year}"
            df_cleaned[diff_col] = df_cleaned[f"{metric} {next_year}"] - df_cleaned[f"{metric} {year}"]

# Tampilkan hasil
print(df_cleaned.head())

         Provinsi  Luas Panen 2018  Luas Panen 2019  Luas Panen 2020  \
0            ACEH        329515.78        310012.46        317869.41   
1  SUMATERA UTARA        408176.45        413141.24        388591.22   
2  SUMATERA BARAT        313050.82        311671.23        295664.47   
3            RIAU         71448.08         63142.04         64733.13   
4           JAMBI         86202.68         69536.06         84772.93   

   Luas Panen 2021  Luas Panen 2022  Luas Panen 2023  Luas Panen 2024  \
0        297058.38        271750.20        254287.38        301081.97   
1        385405.00        411462.10        406109.49        419089.12   
2        272391.95        271883.10        300564.77        296215.93   
3         53062.35         51054.04         51914.14         57003.35   
4         64412.26         60539.59         61236.64         64119.24   

   Produktivitas 2018  Produktivitas 2019  ...  \
0               56.49               55.30  ...   
1               51.65       

# 5. Simpan Dataset yang Telah Diolah

In [6]:
# Simpan dataset ke file baru
output_file = 'Dataset_Padi_Olah.xlsx'
df_cleaned.to_excel(output_file, index=False)
print(f"Dataset berhasil disimpan ke {output_file}")

Dataset berhasil disimpan ke Dataset_Padi_Olah.xlsx
