# **Model Regresi Linear**


### Menghubungkan ke Gdrive

In [1]:
# menghubungkan colab dengan google drive
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


Kode yang ditampilkan pada cuplikan tersebut digunakan untuk menghubungkan Google Colab dengan Google Drive agar file yang tersimpan di Drive dapat diakses langsung melalui lingkungan kerja Colab. Baris `from google.colab import drive` berfungsi untuk memanggil modul *drive* yang telah disediakan oleh Google Colab. Selanjutnya, perintah `drive.mount('/content/gdrive')` digunakan untuk melakukan proses *mounting*, yaitu menghubungkan direktori Google Drive dengan direktori sistem pada Colab, dalam hal ini pada folder `/content/gdrive`. Setelah perintah tersebut dijalankan pertama kali, pengguna biasanya akan diminta memberikan izin akses melalui akun Google. Namun, pada output terlihat bahwa Drive sudah pernah terhubung sebelumnya sehingga muncul pesan *"Drive already mounted at /content/gdrive"*, yang berarti Google Drive sudah aktif dan siap digunakan tanpa perlu mengulangi proses otorisasi. Apabila ingin melakukan *remount* atau penyegaran ulang, Colab memberikan opsi untuk menambahkan parameter `force_remount=True` pada perintah yang sama.


### Memanggil dataset

In [2]:
# memanggil dataset lewat gdrive
path = "/content/gdrive/My Drive/semester7/MachineLearning/praktikum_ml/praktikum07"

Cuplikan kode tersebut mendefinisikan sebuah variabel bernama `path` yang berfungsi untuk menyimpan lokasi direktori dataset yang disimpan di Google Drive. Karena Google Drive sebelumnya sudah di-*mount* ke dalam lingkungan kerja Google Colab, maka file yang berada di Drive dapat diakses melalui jalur direktori yang dimulai dari `"/content/gdrive/"`. Pada kode ini, variabel `path` diisi dengan string `"/content/gdrive/My Drive/semester7/MachineLearning/praktikum_ml/praktikum07"`, yang menunjukkan struktur folder di dalam Drive milik pengguna. Dengan menyimpan jalur ini dalam variabel `path`, proses pemanggilan dataset pada langkah selanjutnya menjadi lebih mudah, karena pengguna hanya perlu menggunakan variabel `path` tersebut untuk membaca file atau dataset tanpa perlu menuliskan ulang lokasi folder secara manual. Secara keseluruhan, kode ini bertujuan untuk memastikan bahwa Colab mengetahui lokasi penyimpanan dataset sehingga dapat digunakan dalam proses analisis atau pemodelan machine learning.

### Import Library

In [3]:
# Import Library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

Kode tersebut berfungsi untuk melakukan proses *import* library yang dibutuhkan dalam analisis dan pemodelan machine learning. Baris `import pandas as pd` memanggil library **pandas** yang digunakan untuk memproses dan mengelola data dalam bentuk tabel (dataframe). Kemudian, `import numpy as np` memanggil library **NumPy** yang mendukung operasi komputasi numerik, terutama pada array dan perhitungan matematis. Baris `import matplotlib.pyplot as plt` digunakan untuk memanggil **matplotlib**, sebuah library visualisasi yang akan membantu membuat grafik atau plot dari hasil analisis data. Selanjutnya, `from sklearn.model_selection import train_test_split` digunakan untuk memanggil fungsi yang bertugas membagi dataset menjadi data latih dan data uji. Baris berikutnya, `from sklearn.linear_model import LinearRegression`, memanggil kelas **LinearRegression** yang digunakan untuk membuat model regresi linear. Terakhir, `from sklearn.metrics import r2_score, mean_squared_error` memanggil dua metrik evaluasi yang digunakan untuk mengukur performa model, yaitu **R² score** untuk melihat seberapa baik model menjelaskan variansi data, serta **Mean Squared Error (MSE)** untuk menghitung rata-rata kesalahan prediksi model terhadap nilai sebenarnya. Secara keseluruhan, pengimporan library ini merupakan langkah awal penting dalam mempersiapkan proses analisis dan pemodelan machine learning.


### Load Data

In [4]:
# Membaca dataset Iris dari folder drive
df = pd.read_csv(path + "/data/dataset_satelit.csv")

# Menampilkan 5 data pertama untuk memastikan dataset berhasil dibaca
df.head()

Unnamed: 0,No,Longitude,Lattitude,N,P,K,Ca,Mg,Fe,Mn,...,b1,Sigma_VV,Sigma_VH,plia,lia,iafe,gamma0_vv,gamma0_vh,beta0_vv,beta0_vh
0,1,103.036658,-0.604417,2.64,0.15,0.415,0.51,0.31,119.96,463.23,...,0.0433,0.18183,0.04461,35.74446,35.79744,35.41161,0.22331,0.05479,0.31325,0.07686
1,2,103.037201,-0.604689,2.75,0.17,0.568,0.76,0.58,102.63,493.81,...,0.0465,0.22079,0.0464,35.12096,35.14591,35.4151,0.27116,0.05699,0.38033,0.07993
2,3,103.036359,-0.603012,1.77,0.12,0.339,0.49,0.6,107.37,460.93,...,0.0417,0.18926,0.03992,35.07724,35.0773,35.41135,0.23242,0.04902,0.32604,0.06876
3,4,103.03695,-0.603219,2.3,0.15,0.46,0.74,0.67,96.02,338.17,...,0.0367,0.14769,0.03622,36.08078,36.08469,35.41583,0.18138,0.04448,0.2544,0.06238
4,5,103.036802,-0.601969,2.05,0.14,0.308,0.64,0.72,87.01,384.33,...,0.0361,0.18205,0.03797,32.68855,32.69293,35.41592,0.22359,0.04664,0.31359,0.06541



Pada tahap ini dilakukan proses pembacaan dataset yang tersimpan dalam Google Drive menggunakan fungsi `pd.read_csv()`. Dataset kemudian ditampilkan melalui perintah `df.head()` untuk memastikan data berhasil dimuat. Hasil yang terlihat menunjukkan lima baris pertama dari data yang berisi total 34 kolom. Dataset ini memuat informasi koordinat lokasi pengambilan sampel, kandungan unsur hara dalam tanah, serta nilai reflektansi dan parameter *backscatter* satelit yang diperoleh dari pengolahan citra penginderaan jauh. Kolom **Longitude** dan **Lattitude** menunjukkan posisi geografis pengamatan dalam satuan derajat, yang berfungsi menentukan lokasi titik sampel di permukaan bumi. Selanjutnya, kolom **N, P, K, Ca, Mg, Fe, Mn, Cu, Zn, dan B** menggambarkan konsentrasi unsur hara dalam tanah. Masing-masing unsur memiliki peran fisiologis penting pada tanaman, di antaranya nitrogen (N) untuk pertumbuhan daun, fosfor (P) untuk perkembangan akar, kalium (K) untuk regulasi air, kalsium (Ca) untuk pembentukan dinding sel, magnesium (Mg) sebagai penyusun klorofil, serta Fe, Mn, Cu, Zn, dan B yang berperan dalam reaksi enzimatik, pembentukan bunga, metabolisme sel, hingga fotosintesis. Nilai kandungan unsur hara inilah yang menjadi indikator kesuburan tanah dan sering dijadikan variabel target dalam pemodelan.

Dataset ini juga memuat kumpulan kanal citra satelit multispektral yang ditandai dengan kolom **b2 hingga b12**. Kanal **b2 (Blue)** dan **b3 (Green)** digunakan untuk pemetaan warna permukaan dan koreksi atmosfer. Kanal **b4 (Red)** berkaitan dengan penyerapan cahaya oleh klorofil sehingga sensitif terhadap kesehatan daun. Kanal **b5, b6, dan b7** termasuk dalam kelompok **Red Edge**, yang sangat berhubungan dengan variasi kadar klorofil dan tingkat stres fisiologis tanaman. Kanal **b8 dan b8a (Near Infrared / NIR)** mampu menunjukkan kerapatan dan vitalitas vegetasi, karena vegetasi sehat cenderung memantulkan NIR lebih tinggi. Kanal **b11 dan b12 (SWIR)** sensitif terhadap kandungan air tanah dan tingkat kekeringan lahan. Selain itu, dataset juga mencakup parameter *backscatter* radar seperti **Sigma_VV, Sigma_VH, gamma0_vv, gamma0_vh, beta0_vv, dan beta0_vh**, yang memberikan informasi mengenai tekstur, struktur permukaan, kelembaban tanah, serta kepadatan vegetasi melalui pantulan gelombang radar dengan polarisasi berbeda.

Dengan demikian, dataset ini memiliki struktur yang lengkap, memadukan data laboratorium tanah dengan data penginderaan jauh. Informasi unsur hara dapat digunakan sebagai **variabel target**, sedangkan kanal satelit dan parameter *backscatter* menjadi **variabel prediktor** dalam proses pemodelan machine learning. Kombinasi kedua jenis data ini sangat relevan untuk analisis pemetaan kesuburan tanah, prediksi nutrisi tanaman, atau pemantauan kesehatan vegetasi berbasis citra satelit.




### **Interpretasi Setiap Kolom dalam Dataset**

* **No**
  Nomor identitas atau indeks setiap titik pengamatan. Tidak memiliki makna analitis, hanya sebagai penanda urutan data.

* **Longitude**
  Nilai bujur (posisi horizontal) lokasi pengambilan sampel dalam satuan derajat pada permukaan bumi.

* **Lattitude**
  Nilai lintang (posisi vertikal) lokasi pengambilan sampel dalam satuan derajat pada permukaan bumi.

---

### **Unsur Hara Tanah**

* **N (Nitrogen)**
  Unsur yang mendukung pertumbuhan vegetatif, terutama pembentukan daun dan jaringan hijau tanaman.

* **P (Phosphorus)**
  Berfungsi dalam perkembangan sistem perakaran, pembelahan sel, dan pembentukan bunga/buah.

* **K (Kalium)**
  Mengatur keseimbangan air tanaman, memperkuat jaringan, dan meningkatkan ketahanan terhadap penyakit.

* **Ca (Kalsium)**
  Berperan dalam pembentukan dinding sel dan membantu penyerapan unsur hara lainnya.

* **Mg (Magnesium)**
  Komponen utama klorofil sehingga sangat penting dalam proses fotosintesis.

* **Fe (Besi)**
  Berfungsi dalam pembentukan klorofil dan aktivitas enzim tanaman.

* **Mn (Mangan)**
  Mendukung reaksi enzimatis dan proses fotosintesis, terutama dalam sistem transfer elektron.

* **Cu (Tembaga)**
  Unsur mikro yang diperlukan untuk respirasi tanaman dan aktivitas beberapa enzim.

* **Zn (Seng)**
  Penting untuk pembentukan hormon pertumbuhan dan proses pembelahan sel.

* **B (Boron)**
  Membantu pembentukan dinding sel, pertumbuhan pucuk, serta proses pembungaan dan pembentukan buah.

---

### **Kanal Multispektral (Citra Sentinel-2)**

* **b12 (SWIR 2)**
  Sensitif terhadap kekeringan lahan dan kelembaban vegetasi.

* **b11 (SWIR 1)**
  Menggambarkan kondisi biomassa dan air dalam jaringan vegetasi.

* **b9 (Water Vapor Band)**
  Digunakan untuk koreksi atmosfer terkait kandungan uap air.

* **b8a (Narrow NIR)**
  Menangkap struktur kanopi dan variasi klorofil detail pada vegetasi.

* **b8 (NIR)**
  Menggambarkan kesehatan dan kerapatan vegetasi. Vegetasi sehat memantulkan NIR tinggi.

* **b7 (Red Edge 3)**
  Mengidentifikasi perubahan konsentrasi klorofil dan tekanan stres tanaman.

* **b6 (Red Edge 2)**
  Membantu mendeteksi variasi kualitas dan umur daun.

* **b5 (Red Edge 1)**
  Digunakan untuk memantau pertumbuhan vegetasi pada fase awal.

* **b4 (Red)**
  Menyerap cahaya merah; nilai rendah menunjukkan vegetasi sehat dengan klorofil tinggi.

* **b3 (Green)**
  Mewakili tingkat kehijauan daun atau reflektansi vegetasi tampak.

* **b2 (Blue)**
  Digunakan untuk koreksi atmosfer serta identifikasi badan air dan area terbuka.

---

### **Parameter Backscatter Radar (Sentinel-1)**

* **Sigma_VV / Sigma_VH**
  Nilai *backscatter* radar pada polarisasi VV dan VH untuk mengamati tekstur permukaan, struktur vegetasi, dan kelembaban tanah.

* **plia, lia, iafe**
  Parameter turunan hasil koreksi dan pemodelan sudut datang radar, digunakan untuk peningkatan akurasi interpretasi permukaan.

* **gamma0_vv / gamma0_vh**
  Nilai *gamma naught* yaitu hasil koreksi *backscatter* terhadap sudut elevasi, lebih stabil dibanding Sigma.

* **beta0_vv / beta0_vh**
  Nilai dasar *backscatter* sebelum koreksi gamma, digunakan untuk analisis awal kondisi permukaan.


# Data Understanding

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 594 entries, 0 to 593
Data columns (total 34 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   No         594 non-null    int64  
 1   Longitude  594 non-null    float64
 2   Lattitude  594 non-null    float64
 3   N          594 non-null    float64
 4   P          594 non-null    float64
 5   K          593 non-null    float64
 6   Ca         594 non-null    float64
 7   Mg         594 non-null    object 
 8   Fe         594 non-null    float64
 9   Mn         594 non-null    float64
 10  Cu         594 non-null    float64
 11  Zn         594 non-null    float64
 12  B          594 non-null    float64
 13  b12        594 non-null    float64
 14  b11        594 non-null    float64
 15  b9         594 non-null    float64
 16  b8a        594 non-null    float64
 17  b8         594 non-null    float64
 18  b7         594 non-null    float64
 19  b6         594 non-null    float64
 20  b5        

Perintah `df.info()` digunakan untuk menampilkan informasi struktur dataset yang telah dimuat ke dalam DataFrame. Perintah ini memberikan gambaran mengenai jumlah baris data, jumlah kolom, tipe data setiap kolom, serta jumlah nilai non-null pada masing-masing kolom. Pada output yang ditampilkan terlihat bahwa dataset memiliki **594 baris data** dan **34 kolom**, yang berarti terdapat 594 titik pengamatan yang direkam. Setiap kolom diperlihatkan beserta jumlah nilai tidak kosong (*non-null count*) sehingga dapat diketahui apakah terdapat data yang hilang atau tidak. Sebagian besar kolom memiliki **594 nilai non-null**, menandakan bahwa tidak ada data yang hilang, kecuali pada kolom **K** yang memiliki 593 nilai sehingga terdapat satu data kosong pada variabel tersebut.

Selain itu, kolom-kolom dalam dataset memiliki tipe data yang dominan berupa **float64**, yang menunjukkan bahwa nilai-nilai di dalamnya merupakan angka desimal yang siap untuk dianalisis secara numerik. Kolom **No** bertipe **int64** karena berfungsi sebagai penomoran baris, sedangkan kolom **Mg** tampak tercatat sebagai **object**, kemungkinan karena format penulisannya tidak sesuai standar numerik (misalnya ada simbol atau penggunaan koma/titik yang tidak konsisten). Informasi ini penting untuk diketahui sebelum melakukan analisis lebih lanjut, terutama terkait penanganan *missing value* dan penyesuaian tipe data.

Secara keseluruhan, hasil `df.info()` menunjukkan bahwa dataset memiliki struktur yang cukup lengkap dan rapi dengan sebagian besar variabel dalam format numerik. Namun, perlu dilakukan pemeriksaan dan perbaikan pada kolom **K** yang memiliki satu data kosong serta kolom **Mg** yang perlu dikonversi dari tipe **object** ke **float64** agar dapat diproses dan dianalisis secara optimal pada tahap pengolahan data dan pemodelan machine learning selanjutnya.


In [6]:
# Menampilkan statistik deskriptif seperti mean, min, max, dan std deviasi untuk setiap kolom numerik
df.describe()

Unnamed: 0,No,Longitude,Lattitude,N,P,K,Ca,Fe,Mn,Cu,...,b1,Sigma_VV,Sigma_VH,plia,lia,iafe,gamma0_vv,gamma0_vh,beta0_vv,beta0_vh
count,594.0,594.0,594.0,594.0,594.0,593.0,594.0,594.0,594.0,594.0,...,594.0,594.0,594.0,594.0,594.0,594.0,594.0,594.0,594.0,594.0
mean,297.5,106.878644,-1.024933,2.259091,0.14138,0.582175,0.595094,74.613771,308.034697,2.391195,...,0.177291,0.234474,0.102789,28.640422,28.664891,28.609569,0.202587,0.051524,0.269642,0.06232
std,171.617307,4.94984,0.965349,0.395499,0.019782,0.222567,0.366118,55.579655,241.731643,1.580296,...,0.155615,0.070516,0.11231,15.325347,15.380384,15.32917,0.104357,0.012959,0.143728,0.024218
min,1.0,102.760857,-2.33375,1.14,0.09,0.122,0.05,21.08,3.16,0.09,...,0.0141,0.11517,0.02146,0.127,0.0986,0.026,0.0087,0.0169,0.0093,0.0163
25%,149.25,102.927811,-2.233338,1.9825,0.13,0.429,0.32,40.705,124.015,1.1725,...,0.046925,0.18321,0.039535,31.959745,31.968948,33.685353,0.183085,0.04025,0.244935,0.052772
50%,297.5,103.581969,-0.602276,2.28,0.14,0.549,0.54,65.65,239.445,2.225,...,0.0727,0.213385,0.04655,35.06793,35.110415,34.611565,0.23359,0.050415,0.31038,0.06838
75%,445.75,113.403797,-0.257349,2.57,0.15,0.71,0.79,87.3725,434.99,3.3575,...,0.3189,0.262242,0.05919,38.319135,38.441065,39.00276,0.27179,0.06041,0.364505,0.07902
max,594.0,113.4347,0.069251,3.23,0.22,1.489,2.82,559.1,2009.32,8.17,...,0.7514,0.51221,0.373,47.5929,48.01464,39.20933,0.65896,0.1223,0.81417,0.15062


Perintah `df.describe()` digunakan untuk menampilkan statistik deskriptif dari setiap kolom numerik dalam dataset. Statistik yang ditampilkan meliputi jumlah data (*count*), nilai rata-rata (*mean*), standar deviasi (*std*), nilai minimum (*min*), nilai kuartil (25%, 50%, dan 75%), serta nilai maksimum (*max*). Statistik ini berguna untuk memahami penyebaran data, rentang nilai, serta mendeteksi kemungkinan pencilan (*outlier*).

Berdasarkan output, seluruh kolom memiliki jumlah pengamatan sebanyak **594 data**, kecuali kolom **K** yang hanya memiliki 593 data, menunjukkan terdapat satu nilai kosong pada kolom tersebut. Secara umum, nilai standar deviasi pada banyak kolom unsur hara seperti **N, P, K, Ca, Fe, Mn, Cu, Zn, dan B** menunjukkan bahwa data memiliki variasi yang cukup besar, menandakan keragaman kondisi nutrisi tanah pada lokasi pengamatan yang berbeda.

Berikut **interpretasi per kolom inti** berdasarkan statistiknya:

---

### **Interpretasi Kolom Unsur Hara Tanah**

| Kolom         | Interpretasi Nilai Statistik                                                                                                                                                                               |
| ------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **N**         | Rata-rata nilai N sebesar ~2.25 menunjukkan tingkat nitrogen moderat di lokasi, dengan variasi sedang (std ~0.40). Rentangnya 1.14 hingga 3.23 menandakan ada daerah yang miskin dan sangat kaya nitrogen. |
| **P**         | Nilai P (fosfor) relatif rendah dengan mean ~0.14 dan rentang 0.09–0.22. Perubahan kecil pada P dapat berpengaruh signifikan pada perkembangan akar.                                                       |
| **K**         | Kalium memiliki rata-rata ~0.58 dengan sebaran yang cukup lebar (0.12–1.48). Hal ini menunjukkan ketimpangan ketersediaan K antar lokasi.                                                                  |
| **Ca**        | Kalsium berada di kisaran rata-rata ~0.59, menunjukkan variasi kesuburan yang berbeda di tiap titik lahan, terkait struktur tanah dan pH.                                                                  |
| **Fe**        | Rata-rata Fe (besi) sekitar 74.6 dengan rentang 21.08–559.10, variasi sangat tinggi menandakan adanya perbedaan mineralisasi tanah cukup ekstrem.                                                          |
| **Mn**        | Kandungan Mn rata-rata 308, dengan rentang 3.16–2009.32. Nilai ekstrem ini mengindikasikan lokasi dengan tanah sangat kaya mineral serta daerah yang sangat miskin.                                        |
| **Cu, Zn, B** | Ketiga unsur mikro ini memiliki nilai rata-rata rendah sesuai kebutuhan tanaman yang sangat kecil. Variasi antar lokasi menunjukkan perbedaan kualitas kesuburan mikro tanah.                              |

---

### **Interpretasi Kanal Multispektral Satelit (b2–b12)**

Nilai reflektansi kanal **b2 hingga b12** berada dalam rentang 0.01–0.75, yang merupakan nilai normal citra Satelit Sentinel-2. Rata-rata reflektansi **b8 (NIR)** cenderung lebih tinggi dibandingkan kanal **b4 (Red)**, yang menunjukkan vegetasi sehat (karena vegetasi menyerap merah dan memantulkan NIR).

**Kenaikan nilai b5, b6, b7 (Red Edge)** menunjukkan lokasi dengan konsentrasi klorofil tinggi, yang konsisten dengan area bervegetasi lebat.

---

### **Interpretasi Parameter Radar (Sigma, Gamma, Beta)**

Parameter radar seperti **Sigma_VV, Sigma_VH, gamma0_vv, gamma0_vh, beta0_vv, beta0_vh** memiliki nilai rata-rata rendah (0.01–0.30), yang merupakan intensitas pantulan gelombang radar:

* Nilai **VV** lebih tinggi dari **VH**, sesuai karakteristik vegetasi yang memantulkan lebih banyak gelombang dengan orientasi vertikal.
* Variasi nilai menunjukkan perbedaan tekstur permukaan tanah, kelembaban, dan kerapatan vegetasi antar lokasi.

---

### **Kesimpulan Umum**

Statistik deskriptif menunjukkan bahwa dataset memiliki **keragaman kondisi tanah dan vegetasi yang tinggi**. Unsur hara memiliki variasi sebaran besar, mengindikasikan perbedaan tingkat kesuburan antar lokasi. Sementara itu, nilai citra multispektral dan radar konsisten dengan karakter vegetasi dan kondisi lahan. Informasi ini penting sebagai dasar untuk **pemodelan prediksi nutrisi tanah menggunakan citra satelit**.





### **Interpretasi Setiap Baris Statistik pada `df.describe()`**

1. **count**
   Baris *count* menunjukkan jumlah data yang tersedia pada setiap kolom. Sebagian besar kolom memiliki nilai **594**, menandakan tidak ada data yang kosong. Namun kolom **K** memiliki nilai **593**, yang berarti terdapat **1 data hilang** pada kolom tersebut. Informasi ini penting untuk menentukan kebutuhan *data cleaning*.

2. **mean**
   Baris *mean* menunjukkan **nilai rata-rata** dari setiap kolom numerik. Nilai rata-rata membantu menggambarkan kondisi umum atau pusat distribusi data. Contohnya, nilai **mean unsur N ~2.25** menunjukkan bahwa secara umum kandungan nitrogen tanah berada pada tingkat sedang. Sementara nilai **mean band citra (misal b8, b4, dll)** memperlihatkan intensitas reflektansi rata-rata vegetasi pada setiap panjang gelombang satelit.

3. **std (standard deviation)**
   Baris *std* menunjukkan **seberapa besar variasi atau penyebaran data** dari nilai rata-ratanya. Semakin tinggi nilai **std**, semakin besar perbedaan antar lokasi sampel. Contohnya, **Mn** memiliki std yang besar → variasi kandungan mangan antar lokasi sangat tinggi, sedangkan kanal citra satelit cenderung memiliki **std rendah** → reflektansi relatif konsisten.

4. **min (minimum)**
   Baris *min* menunjukkan **nilai terkecil** dari setiap kolom. Nilai ini menggambarkan kondisi paling rendah yang teramati dalam sampel. Contoh: nilai **min N = 1.14** menunjukkan ada lokasi dengan tingkat nitrogen yang rendah → potensi tanah kurang subur.

5. **25% (Kuartil 1)**
   Baris ini menunjukkan **nilai di bawah 25% data**. Artinya, seperempat data berada di bawah nilai tersebut. Ini membantu memahami kelompok data terendah pada distribusi. Misalnya, jika **P (phosphorus)** pada kuartil 25% adalah 0.13, maka 25% lahan memiliki kandungan P sangat rendah → area ini cenderung membutuhkan penambahan pupuk fosfor.

6. **50% (Median / Kuartil 2)**
   Baris *median* menunjukkan **nilai tengah** dari data. Ini menggambarkan kondisi yang paling representatif dibandingkan mean, karena tidak dipengaruhi oleh pencilan. Jika median K mendekati mean, distribusi data relatif normal; jika jauh berbeda, maka distribusi cenderung tidak simetris.

7. **75% (Kuartil 3)**
   Baris ini menunjukkan nilai yang **lebih tinggi dari 75% data**. Artinya, hanya 25% data yang berada pada nilai lebih tinggi. Jika **Ca = 0.79 pada 75%**, maka hanya sebagian kecil lokasi yang memiliki kandungan kalsium tinggi — mengindikasikan kondisi kesuburan berbeda antar wilayah.

8. **max (maximum)**
   Baris *max* menunjukkan **nilai paling tinggi** dalam setiap kolom. Nilai ini membantu mengidentifikasi **kondisi ekstrem** atau **pencilan**. Misalnya, **Mn max = 2009.32** adalah nilai yang sangat jauh dari rata-rata → kemungkinan ini merupakan lokasi dengan mineralisasi tanah sangat tinggi atau titik yang perlu diperiksa lebih lanjut.



In [7]:
df.columns

Index(['No', 'Longitude', 'Lattitude', 'N', 'P', 'K', 'Ca', 'Mg', 'Fe', 'Mn',
       'Cu', 'Zn', 'B', 'b12', 'b11', 'b9', 'b8a', 'b8', 'b7', 'b6', 'b5',
       'b4', 'b3', 'b2', 'b1', 'Sigma_VV', 'Sigma_VH', 'plia', 'lia', 'iafe',
       'gamma0_vv', 'gamma0_vh', 'beta0_vv', 'beta0_vh'],
      dtype='object')

Perintah `df.columns` digunakan untuk menampilkan daftar nama seluruh kolom yang terdapat dalam dataset. Output tersebut menunjukkan bahwa dataset terdiri dari **34 variabel** yang masing-masing memiliki fungsi dan peran berbeda dalam proses analisis. Kolom-kolom awal seperti **No, Longitude, dan Lattitude** berfungsi sebagai identitas dan penanda lokasi pengambilan sampel di permukaan bumi. Selanjutnya terdapat sekumpulan kolom yang menunjukkan **kandungan unsur hara dalam tanah**, yaitu **N, P, K, Ca, Mg, Fe, Mn, Cu, Zn, dan B**, yang menggambarkan tingkat kesuburan dan kondisi nutrisi tanah pada setiap titik pengamatan.

Kemudian, kolom **b12 hingga b2** merupakan **nilai reflektansi dari kanal multispektral citra satelit Sentinel-2**, yang memberikan informasi mengenai kondisi vegetasi, kelembaban, dan karakteristik permukaan lahan berdasarkan panjang gelombang cahaya yang dipantulkan. Selain itu, variabel seperti **Sigma_VV, Sigma_VH, gamma0_vv, gamma0_vh, beta0_vv, dan beta0_vh** adalah parameter *backscatter* citra radar Sentinel-1 yang digunakan untuk mendeteksi struktur permukaan tanah, kepadatan vegetasi, dan tingkat kelembaban melalui pantulan gelombang radar. Kolom tambahan seperti **plia, lia, dan iafe** merupakan variabel turunan hasil koreksi atau transformasi dari citra radar yang membantu meningkatkan ketelitian interpretasi tekstur permukaan dan vegetasi.

Secara keseluruhan, daftar kolom pada dataset ini memperlihatkan bahwa dataset telah menggabungkan **data pengukuran laboratorium unsur hara tanah** dengan **data observasi penginderaan jauh multispektral dan radar**, sehingga sangat sesuai untuk analisis pemodelan dan prediksi kesuburan tanah berbasis citra satelit.

In [8]:
# ubah kolom Mg ke float
df['Mg'] = pd.to_numeric(df['Mg'], errors='coerce')
#hilangkan baris yang ada missing valus
df = df.dropna()

Kode ini dilakukan tahap *data cleaning* untuk memastikan semua nilai pada dataset berada dalam format numerik dan bebas dari nilai kosong (*missing value*) sebelum masuk ke tahap analisis dan pemodelan. Baris `df['Mg'] = pd.to_numeric(df['Mg'], errors='coerce')` digunakan untuk mengubah kolom **Mg** yang sebelumnya bertipe *object* menjadi tipe **float**. Perubahan tipe data ini diperlukan karena terdapat kemungkinan bahwa nilai pada kolom tersebut ditulis dalam format yang tidak sesuai dengan angka, misalnya menggunakan koma atau memiliki karakter tambahan. Penggunaan `errors='coerce'` memastikan bahwa apabila terdapat nilai yang tidak dapat dikonversi menjadi angka, nilai tersebut akan diubah menjadi *NaN* (null) sehingga dapat dikenali sebagai data kosong.

Langkah berikutnya adalah `df = df.dropna()`, yaitu perintah untuk menghapus seluruh baris yang mengandung nilai kosong. Hal ini dilakukan untuk mencegah terjadinya kesalahan atau bias saat model machine learning dibangun, karena data yang tidak lengkap dapat memengaruhi hasil pemodelan. Dengan menghapus baris yang memiliki nilai kosong, dataset menjadi lebih bersih, konsisten, dan siap digunakan pada tahap analisis lebih lanjut.

Secara keseluruhan, proses ini bertujuan untuk memastikan bahwa dataset memiliki tipe data numerik yang benar dan bebas dari nilai yang tidak valid atau hilang, sehingga analisis dan pemodelan selanjutnya dapat dilakukan dengan lebih akurat dan stabil.


### feature selection

In [9]:
X= df[['b2','b3','b4','b8','b11','Sigma_VV','Sigma_VH']]
y= df['N']



Pada tahap ini dilakukan proses **feature selection**, yaitu pemilihan variabel yang akan digunakan sebagai fitur prediktor dalam pemodelan. Variabel-variabel yang dipilih untuk dimasukkan ke dalam variabel **X** adalah `b2`, `b3`, `b4`, `b8`, `b11`, `Sigma_VV`, dan `Sigma_VH`. Kolom-kolom tersebut merupakan kombinasi antara kanal **citra multispektral Sentinel-2** dan **parameter backscatter radar Sentinel-1** yang dinilai memiliki keterkaitan dengan kondisi vegetasi dan kandungan unsur hara pada tanah. Kanal reflektansi seperti `b2` (blue), `b3` (green), `b4` (red), dan `b8` (near-infrared) dipilih karena digunakan untuk mengamati aktivitas fotosintesis, tingkat kehijauan tanaman, dan kerapatan vegetasi. Sementara `b11` (SWIR) berkaitan dengan kelembaban serta kondisi struktural vegetasi. Variabel **Sigma_VV** dan **Sigma_VH** merupakan intensitas pantulan gelombang radar yang memberikan informasi tentang tekstur permukaan dan kerapatan vegetasi.

Sedangkan variabel target atau variabel yang ingin diprediksi disimpan dalam **y**, yaitu kolom **N**. Kolom ini dipilih karena kandungan **Nitrogen (N)** merupakan indikator utama kesuburan tanaman yang sangat memengaruhi pertumbuhan vegetatif. Dengan demikian, proses feature selection ini bertujuan untuk menghubungkan informasi reflektansi dan radar dari citra satelit dengan kandungan Nitrogen di tanah sehingga model yang dibangun dapat memprediksi kadar Nitrogen berdasarkan data citra satelit. Pemilihan fitur yang tepat akan meningkatkan kinerja model dalam mempelajari pola hubungan antara kondisi vegetasi permukaan dan unsur hara tanah.

In [10]:
# X= df[['P', 'K', 'Ca', 'Mg', 'Fe', 'Mn',
#        'Cu', 'Zn', 'B', 'b12', 'b11', 'b9',
#        'b8a', 'b8', 'b7', 'b6', 'b5','b4',
#        'b3', 'b2', 'b1', 'Sigma_VV', 'Sigma_VH',
#        'plia', 'lia', 'iafe','gamma0_vv', 'gamma0_vh', 'beta0_vv', 'beta0_vh']]
# y= df['N']

### Spliting Data

In [11]:
# Split train dan test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

Pada tahap ini dilakukan proses pembagian data menjadi dua bagian, yaitu **data latih (training set)** dan **data uji (testing set)**. Proses ini dilakukan menggunakan fungsi `train_test_split`, yang membagi variabel fitur **X** dan variabel target **y** ke dalam empat bagian: `X_train`, `X_test`, `y_train`, dan `y_test`. Parameter `test_size=0.2` menunjukkan bahwa **20%** dari total data akan digunakan sebagai data uji, sedangkan **80%** sisanya digunakan sebagai data latih. Proporsi ini umum digunakan dalam pemodelan karena memberikan keseimbangan antara jumlah data yang cukup untuk melatih model dan data yang cukup untuk menguji kinerja model. Selain itu, parameter `random_state=42` digunakan agar proses pembagian data bersifat **reproducible**, artinya setiap kali kode dijalankan hasil pembagiannya akan tetap sama. Dengan demikian, pembagian data pada tahap ini dilakukan untuk memastikan bahwa model dapat dilatih menggunakan sebagian besar data yang tersedia, dan kemudian diuji performanya pada data yang belum pernah dilihat model sebelumnya, sehingga evaluasi akurasi model menjadi lebih objektif dan valid.


In [12]:
# Membuat & melatih model regresi linear
model = LinearRegression()
#training data
model.fit(X_train, y_train)

Pada tahap ini dilakukan proses pembuatan serta pelatihan model menggunakan algoritma **Linear Regression**. Model dibuat dengan memanggil kelas `LinearRegression()` dan disimpan dalam variabel `model`. Selanjutnya, perintah `model.fit(X_train, y_train)` digunakan untuk **melatih model** dengan menggunakan data latih, yaitu `X_train` sebagai variabel input (fitur citra satelit) dan `y_train` sebagai variabel target (kandungan nitrogen tanah). Proses pelatihan ini memungkinkan model untuk mempelajari **hubungan linear** antara nilai reflektansi dan parameter backscatter satelit dengan kandungan nitrogen pada tanah.

Selama proses pelatihan, model menghitung nilai koefisien dan intercept yang mewakili seberapa besar pengaruh masing-masing variabel fitur terhadap variabel target. Dengan demikian, hasil pelatihan model ini akan digunakan untuk melakukan prediksi kandungan nitrogen pada data baru yang hanya memiliki informasi citra satelit tanpa pengukuran langsung di lapangan. Tahap ini merupakan bagian penting dalam pemodelan karena menentukan kemampuan model dalam menangkap pola dan hubungan dalam data untuk menghasilkan prediksi yang akurat.

### Testing Model

In [13]:
y_pred = model.predict(X_test)

# Evaluasi Model
r2  = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

print("R2 Score :", r2)
print("RMSE :", rmse)

R2 Score : 0.20193023352881245
RMSE : 0.3499937938811036


Pada tahap ini dilakukan proses **pengujian model** menggunakan data uji (`X_test`) yang sebelumnya tidak digunakan saat pelatihan. Perintah `model.predict(X_test)` menghasilkan nilai prediksi kandungan Nitrogen (`y_pred`) berdasarkan fitur citra satelit pada data uji. Hasil prediksi ini kemudian dibandingkan dengan nilai sebenarnya (`y_test`) untuk mengukur kinerja model melalui metrik evaluasi.

Dua metrik evaluasi yang digunakan adalah **R² Score** dan **RMSE (Root Mean Squared Error)**. Nilai **R² sebesar 0.2019** menunjukkan bahwa model regresi linear hanya mampu menjelaskan sekitar **20.19% variasi** data Nitrogen berdasarkan fitur citra satelit yang digunakan. Nilai ini tergolong **rendah**, yang berarti hubungan linear antara fitur satelit dan kandungan Nitrogen belum kuat atau fitur yang digunakan belum mampu merepresentasikan variabilitas unsur Nitrogen dengan baik. Sementara itu, nilai **RMSE sebesar 0.3499** menunjukkan rata-rata kesalahan prediksi model sekitar **0.35 satuan** dari nilai sebenarnya. Semakin kecil nilai RMSE, semakin baik performa model, tetapi dalam hal ini model masih memiliki tingkat kesalahan yang relatif tinggi.

Secara keseluruhan, hasil evaluasi menunjukkan bahwa **model regresi linear belum memberikan performa prediksi yang optimal** untuk memprediksi kandungan Nitrogen berdasarkan data citra satelit. Hal ini mengindikasikan bahwa hubungan antara variabel mungkin tidak bersifat linear sederhana. Dengan demikian, diperlukan **peningkatan model**, seperti menambah fitur, melakukan normalisasi data, atau menggunakan algoritma machine learning lain yang lebih mampu menangkap pola kompleks, seperti **Random Forest, SVM, atau Gradient Boosting**.



In [14]:
coeff = pd.DataFrame({
    'Fitur': X.columns,
    'Koefisien': model.coef_
})

print(coeff)

      Fitur  Koefisien
0        b2  -1.128579
1        b3  -2.789536
2        b4   4.745031
3        b8   0.037338
4       b11  -1.192736
5  Sigma_VV  -0.020622
6  Sigma_VH  -3.695372


Tabel koefisien menunjukkan besar dan arah pengaruh masing-masing variabel fitur terhadap nilai **Nitrogen (N)** berdasarkan hasil pelatihan model regresi linear. Koefisien bernilai **positif** menunjukkan bahwa peningkatan nilai fitur tersebut akan meningkatkan kandungan Nitrogen, sedangkan koefisien bernilai **negatif** menunjukkan hubungan yang berlawanan, yaitu semakin tinggi nilai fitur maka kandungan Nitrogen cenderung menurun.

Hasil yang ditampilkan menunjukkan bahwa **b4 (Red)** memiliki koefisien **positif terbesar (≈ 4.74)**. Hal ini mengindikasikan bahwa semakin tinggi reflektansi spektral pada kanal merah, semakin tinggi pula kandungan Nitrogen. Peningkatan reflektansi pada b4 biasanya terjadi pada vegetasi yang kurang menyerap cahaya merah, sehingga kondisi ini dapat terkait dengan struktur daun dan kondisi pertumbuhan tanaman. Kanal **b8 (Near Infrared)** memiliki koefisien **positif kecil (≈ 0.04)**, yang berarti hubungan antara kesehatan vegetasi dan nitrogen ada tetapi bersifat sangat lemah.

Sementara itu, kanal **b2 (Blue)**, **b3 (Green)**, dan **b11 (SWIR)** memiliki koefisien **negatif**, masing-masing sekitar **-1.13**, **-2.79**, dan **-1.19**. Ini menunjukkan bahwa semakin tinggi reflektansi pada kanal-kanal tersebut, kandungan Nitrogen cenderung menurun. Secara fisiologis, vegetasi sehat dengan kandungan nitrogen tinggi biasanya **menyerap lebih banyak cahaya pada kanal biru dan hijau**, sehingga nilai reflektansinya rendah—sesuai dengan arah hubungan negatif ini.

Variabel radar **Sigma_VV** dan **Sigma_VH** juga memiliki koefisien **negatif**, terutama **Sigma_VH ≈ -3.69**, menunjukkan bahwa **semakin tinggi pantulan gelombang radar (backscatter)** maka **kandungan Nitrogen cenderung lebih rendah**. Hal ini dapat berkaitan dengan struktur biomassa dan kelembaban permukaan: vegetasi yang tidak sehat atau jarang dapat memantulkan sinyal radar lebih kuat, sehingga nilai backscatter tinggi dapat menjadi indikator rendahnya ketersediaan nitrogen.

Secara keseluruhan, pola koefisien menunjukkan bahwa hubungan antara citra satelit dan kandungan Nitrogen **tidak sepenuhnya linear**, dan beberapa variabel memiliki pengaruh yang sangat kecil atau bahkan berlawanan. Hal inilah yang menjelaskan mengapa nilai R² pada model sebelumnya rendah.

In [15]:
import statsmodels.api as sm

X_sm = sm.add_constant(X) # Tambahkan konstanta (intercept) ke fitur
model_ols = sm.OLS(y, X_sm).fit()
print(model_ols.summary())


                            OLS Regression Results                            
Dep. Variable:                      N   R-squared:                       0.322
Model:                            OLS   Adj. R-squared:                  0.314
Method:                 Least Squares   F-statistic:                     39.68
Date:                Fri, 07 Nov 2025   Prob (F-statistic):           1.22e-45
Time:                        16:44:11   Log-Likelihood:                -175.62
No. Observations:                 592   AIC:                             367.2
Df Residuals:                     584   BIC:                             402.3
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          2.3306      0.093     25.085      0.0

Hasil regresi OLS menunjukkan bahwa variabel dependen yang diprediksi adalah kandungan **Nitrogen (N)** dengan menggunakan beberapa fitur citra satelit sebagai variabel independen. Nilai **R-squared sebesar 0.322** mengindikasikan bahwa model mampu menjelaskan sekitar **32.2% variasi** nilai Nitrogen berdasarkan fitur yang digunakan, sedangkan **Adjusted R-squared sebesar 0.314** menunjukkan penyesuaian yang mempertimbangkan jumlah variabel dalam model. Nilai ini menunjukkan bahwa hubungan yang ditangkap oleh model bersifat cukup lemah dan masih terdapat variabel lain di luar fitur citra satelit yang memengaruhi variasi nitrogen pada tanah.

Koefisien regresi menunjukkan arah hubungan setiap variabel terhadap Nitrogen. Kanal **b4** memiliki koefisien positif signifikan (p < 0.05), artinya peningkatan reflektansi pada kanal merah berkaitan dengan peningkatan nilai Nitrogen di lokasi pengamatan. Sebaliknya, kanal **b11** dan **Sigma_VH** memiliki koefisien negatif dan signifikan (p < 0.05), sehingga semakin tinggi nilai SWIR dan pantulan radar polarisasi VH, semakin rendah kandungan Nitrogen. Hal ini sejalan dengan karakter fisiologis vegetasi, di mana vegetasi sehat dengan kadar nitrogen tinggi cenderung menyerap cahaya SWIR dan tidak menghasilkan backscatter radar yang tinggi. Sementara variabel **b2**, **b3**, **b8**, dan **Sigma_VV** tidak memiliki nilai p signifikan (p > 0.05), sehingga kontribusinya terhadap prediksi Nitrogen dalam model ini **tidak signifikan secara statistik**.

Selain itu, bagian **Notes** pada output menunjukkan bahwa nilai **Condition Number sebesar 3.17e+03**, yang mengindikasikan adanya **multikolinearitas**, yaitu hubungan antar fitur yang saling berkorelasi cukup kuat. Multikolinearitas ini dapat mempengaruhi stabilitas estimasi koefisien dan dapat menjadi salah satu penyebab rendahnya performa model regresi linear. Untuk mengatasi hal ini, pemilihan fitur dapat diperbaiki melalui metode seperti *Variance Inflation Factor (VIF)*, *feature reduction*, atau dengan menggunakan model yang lebih mampu menangani hubungan non-linear seperti **Random Forest atau Support Vector Regression**.

Secara keseluruhan, model regresi linear menunjukkan bahwa terdapat hubungan yang dapat ditangkap antara citra satelit dengan kandungan Nitrogen, namun kekuatan hubungannya masih terbatas. Oleh karena itu, diperlukan perbaikan model dan pemilihan fitur yang lebih optimal agar performa prediksi dapat ditingkatkan.