#Import Library

In [None]:
# Import library
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

Kode di atas berfungsi untuk **mengimpor berbagai pustaka yang dibutuhkan dalam proses pengolahan data, pembentukan model regresi linear, serta evaluasi hasil prediksi.**

Berikut penjelasan tiap bagiannya:

* `import pandas as pd` â€” digunakan untuk memanggil pustaka **pandas**, yang berperan dalam **mengelola dan menganalisis data berbentuk tabel (DataFrame)**. Biasanya dimanfaatkan untuk membaca file seperti CSV atau Excel serta memanipulasi baris dan kolom data.
* `import numpy as np` â€” memanggil pustaka **NumPy**, yang digunakan untuk **perhitungan numerik** dan pengolahan array secara efisien.
* `from sklearn.model_selection import train_test_split` â€” berfungsi untuk **membagi dataset menjadi data latih (training set)** dan **data uji (testing set)** agar model dapat diuji performanya.
* `from sklearn.linear_model import LinearRegression` â€” digunakan untuk **mengimpor algoritma regresi linear** dari pustaka scikit-learn, yang akan digunakan untuk membangun model prediksi.
* `from sklearn.metrics import mean_squared_error, r2_score` â€” berfungsi untuk **mengevaluasi hasil prediksi model regresi**.

> **mean_squared_error (MSE)** menghitung rata-rata kuadrat selisih antara nilai aktual dan prediksi; semakin kecil nilainya, semakin akurat modelnya.
>
> **r2_score (koefisien determinasi)** menunjukkan seberapa baik model menjelaskan variasi data; nilai yang mendekati 1 menandakan kinerja model yang baik.


#Load data

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


from google.colab import drive â€” digunakan untuk mengimpor modul drive dari Google Colab, yang memungkinkan pengguna mengakses file dan folder di Google Drive langsung dari lingkungan Colab.

drive.mount('/content/drive') â€” berfungsi untuk menghubungkan (mount) Google Drive ke Colab, sehingga file di Drive dapat digunakan layaknya berada di direktori lokal Colab.

In [None]:
path = '/content/drive/MyDrive/praktikum/praktikum7'

Kodingan di atas untuk menyimpan alamat folder tersebut ke dalam variabel bernama path

In [None]:
# membaca file csv menggunakan pandas
df = pd.read_csv(path + "/data/dataset_satelit.csv")

In [None]:
#Tampilkan 5 data teratas
df.head()

Unnamed: 0,No,Longitude,Lattitude,N,P,K,Ca,Mg,Fe,Mn,...,b1,Sigma_VV,Sigma_VH,plia,lia,iafe,gamma0_vv,gamma0_vh,beta0_vv,beta0_vh
0,1,103.036658,-0.604417,2.64,0.15,0.415,0.51,0.31,119.96,463.23,...,0.0433,0.18183,0.04461,35.74446,35.79744,35.41161,0.22331,0.05479,0.31325,0.07686
1,2,103.037201,-0.604689,2.75,0.17,0.568,0.76,0.58,102.63,493.81,...,0.0465,0.22079,0.0464,35.12096,35.14591,35.4151,0.27116,0.05699,0.38033,0.07993
2,3,103.036359,-0.603012,1.77,0.12,0.339,0.49,0.6,107.37,460.93,...,0.0417,0.18926,0.03992,35.07724,35.0773,35.41135,0.23242,0.04902,0.32604,0.06876
3,4,103.03695,-0.603219,2.3,0.15,0.46,0.74,0.67,96.02,338.17,...,0.0367,0.14769,0.03622,36.08078,36.08469,35.41583,0.18138,0.04448,0.2544,0.06238
4,5,103.036802,-0.601969,2.05,0.14,0.308,0.64,0.72,87.01,384.33,...,0.0361,0.18205,0.03797,32.68855,32.69293,35.41592,0.22359,0.04664,0.31359,0.06541


Kode di atas digunakan untuk membaca file berformat CSV menggunakan pustaka pandas, kemudian menyimpannya ke dalam variabel dataset_satelit. Setelah itu, fungsi head() dipanggil untuk menampilkan lima baris pertama dari dataset, sehingga pengguna dapat melihat struktur awal data, seperti nama kolom, tipe data, serta beberapa contoh nilai yang terdapat di dalamnya.

#definisikan long lat itu apa (N, P, K, Ca, Mg, Fe, Mn dll itu apa)

# Interpretasi setiap kolom
- No : nomor urut data.
- Longitude : posisi garis bujur (arah timur & barat).
- Lattitude : posisi garis lintang (arah utara & selatan).
- N, P, K : kadar unsur hara utama tanah: Nitrogen, Fosfor, Kalium.
- Ca, Mg, Fe, Mn, Cu, Zn, B, Mo, Na : unsur kimia tanah lainnya (kalsium, magnesium, besi, mangan, tembaga, seng, boron, molibdenum, natrium).
- pH_H2O : tingkat keasaman tanah diukur dengan air.
- pH_KCl : tingkat keasaman tanah diukur dengan larutan KCl.
- C_Org : kandungan karbon organik tanah.
- CEC : kapasitas tukar kation, kemampuan tanah menahan unsur hara.
- b1 â€“ b7 : nilai reflektansi dari band citra satelit (misal Landsat/Sentinel).
- Sigma_VV, Sigma_VH : nilai pantulan radar satelit dengan polarisasi VV dan VH.
- plia, lia, iafe : parameter sudut datang atau pantulan sinyal radar.
- gamma0_vv, gamma0_vh, beta0_vv, beta0_vh : hasil koreksi nilai pantulan radar (untuk analisis permukaan tanah).

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 594 entries, 0 to 593
Data columns (total 34 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   No         594 non-null    int64  
 1   Longitude  594 non-null    float64
 2   Lattitude  594 non-null    float64
 3   N          594 non-null    float64
 4   P          594 non-null    float64
 5   K          593 non-null    float64
 6   Ca         594 non-null    float64
 7   Mg         594 non-null    object 
 8   Fe         594 non-null    float64
 9   Mn         594 non-null    float64
 10  Cu         594 non-null    float64
 11  Zn         594 non-null    float64
 12  B          594 non-null    float64
 13  b12        594 non-null    float64
 14  b11        594 non-null    float64
 15  b9         594 non-null    float64
 16  b8a        594 non-null    float64
 17  b8         594 non-null    float64
 18  b7         594 non-null    float64
 19  b6         594 non-null    float64
 20  b5        

Kode df.info() digunakan untuk menampilkan informasi ringkas mengenai struktur DataFrame.
Perintah ini akan menampilkan jumlah baris dan kolom, nama setiap kolom, jumlah data non-null (tidak kosong), tipe data tiap kolom, serta penggunaan memori.

Keluaran dari perintah **`df.info()`** menampilkan beberapa informasi penting tentang struktur dataset, di antaranya:

* **Column** â€” menampilkan **nama-nama kolom** yang terdapat pada DataFrame `df`.
* **Non-null** â€” menunjukkan **jumlah data yang tidak kosong (tidak bernilai NaN)** pada setiap kolom. Misalnya, jika setiap kolom memiliki **594 non-null**, berarti **tidak terdapat missing value** pada dataset tersebut.
* **Dtype** â€” menunjukkan **tipe data** pada setiap kolom, seperti:

  * `int64` : bilangan bulat (contoh: 1, 2, 3)
  * `float64` : bilangan desimal (contoh: 3.14, 0.56)
  * `object` : data berbentuk teks atau campuran (contoh: nama, kategori)

Dengan informasi ini, pengguna dapat memahami **struktur dan kualitas data**, serta memastikan **tidak ada data yang hilang atau salah tipe** sebelum melanjutkan ke tahap analisis atau pemodelan.


#interpretasikan coloumn, non-null, dtype itu apa

In [None]:
df.describe()

Unnamed: 0,No,Longitude,Lattitude,N,P,K,Ca,Fe,Mn,Cu,...,b1,Sigma_VV,Sigma_VH,plia,lia,iafe,gamma0_vv,gamma0_vh,beta0_vv,beta0_vh
count,594.0,594.0,594.0,594.0,594.0,593.0,594.0,594.0,594.0,594.0,...,594.0,594.0,594.0,594.0,594.0,594.0,594.0,594.0,594.0,594.0
mean,297.5,106.878644,-1.024933,2.259091,0.14138,0.582175,0.595094,74.613771,308.034697,2.391195,...,0.177291,0.234474,0.102789,28.640422,28.664891,28.609569,0.202587,0.051524,0.269642,0.06232
std,171.617307,4.94984,0.965349,0.395499,0.019782,0.222567,0.366118,55.579655,241.731643,1.580296,...,0.155615,0.070516,0.11231,15.325347,15.380384,15.32917,0.104357,0.012959,0.143728,0.024218
min,1.0,102.760857,-2.33375,1.14,0.09,0.122,0.05,21.08,3.16,0.09,...,0.0141,0.11517,0.02146,0.127,0.0986,0.026,0.0087,0.0169,0.0093,0.0163
25%,149.25,102.927811,-2.233338,1.9825,0.13,0.429,0.32,40.705,124.015,1.1725,...,0.046925,0.18321,0.039535,31.959745,31.968948,33.685353,0.183085,0.04025,0.244935,0.052772
50%,297.5,103.581969,-0.602276,2.28,0.14,0.549,0.54,65.65,239.445,2.225,...,0.0727,0.213385,0.04655,35.06793,35.110415,34.611565,0.23359,0.050415,0.31038,0.06838
75%,445.75,113.403797,-0.257349,2.57,0.15,0.71,0.79,87.3725,434.99,3.3575,...,0.3189,0.262242,0.05919,38.319135,38.441065,39.00276,0.27179,0.06041,0.364505,0.07902
max,594.0,113.4347,0.069251,3.23,0.22,1.489,2.82,559.1,2009.32,8.17,...,0.7514,0.51221,0.373,47.5929,48.01464,39.20933,0.65896,0.1223,0.81417,0.15062


#interpretasikan kolom nya, jelaskan count, mean, std, min, dll itu apa

Kode di atas digunakan untuk **menampilkan statistik deskriptif dari kolom-kolom numerik dalam DataFrame**. Perintah ini membantu memberikan gambaran umum mengenai sebaran dan karakteristik data yang dimiliki.

Informasi yang ditampilkan meliputi:

* **count** : jumlah data atau baris yang terdapat pada setiap kolom.
* **mean** : nilai rata-rata dari data dalam kolom tersebut.
* **std** : standar deviasi, yaitu ukuran yang menunjukkan seberapa jauh penyebaran data terhadap nilai rata-ratanya.
* **min** : nilai terkecil dalam kolom.
* **25%** : nilai pada persentil ke-25, menunjukkan batas bawah dari seperempat data pertama.
* **50%** : nilai tengah atau **median** dari data.
* **75%** : nilai pada persentil ke-75, menandakan batas atas dari tiga perempat data pertama.
* **max** : nilai terbesar dalam kolom.


In [None]:
df.columns

Index(['No', 'Longitude', 'Lattitude', 'N', 'P', 'K', 'Ca', 'Mg', 'Fe', 'Mn',
       'Cu', 'Zn', 'B', 'b12', 'b11', 'b9', 'b8a', 'b8', 'b7', 'b6', 'b5',
       'b4', 'b3', 'b2', 'b1', 'Sigma_VV', 'Sigma_VH', 'plia', 'lia', 'iafe',
       'gamma0_vv', 'gamma0_vh', 'beta0_vv', 'beta0_vh'],
      dtype='object')

Kodingan di atas untuk menampilkan daftar semua nama kolom yang ada di dataframe

In [None]:
# ubah kolom mg ke float
df['Mg'] = pd.to_numeric(df['Mg'], errors='coerce')

# hilangkan baris yang ada missing value
df = df.dropna()

Kodingan di atas untuk mengubah kolom 'Mg' menjadi tipe data numerik (float)

df = df.dropna() digunakan untuk menghapus semua baris yang berisi nilai kosong (NaN) dari dataframe

feature selection

In [None]:
# FEATURE SELECTION (versi pendek contoh pada gambar)
# X = df[['b2', 'b3', 'b4', 'b8', 'b11', 'Sigma_VV', 'Sigma_VH']]
# y = df['N']

Kodingan di atas untuk memisahkan data fitur (X) dan target (y), hanya pakai citra satelit

- X berisi 7 kolom citra satelit (band dan data radar).
- y berisi nilai unsur hara Nitrogen (N) sebagai target yang mau diprediksi.

In [None]:
X = df[[ 'P', 'K', 'Ca', 'Mg', 'Fe', 'Mn', 'Cu', 'Zn', 'B',
        'b12', 'b11', 'b9', 'b8a', 'b8', 'b7', 'b6', 'b5',
       'b4', 'b3', 'b2', 'b1',
       'Sigma_VV', 'Sigma_VH', 'plia', 'lia', 'iafe',
       'gamma0_vv', 'gamma0_vh', 'beta0_vv', 'beta0_vh']]
y = df['N']

Kodingan di atas untuk memisahkan data fitur (X) dan target (y),menggabungkan citra satelit dan unsur tanah lain sebagai input

- X berisi banyak kolom (unsur hara lain + data satelit + parameter radar).
- y berisi nilai unsur hara Nitrogen (N) sebagai target yang mau diprediksi.

spliting data

In [None]:
# split train/test

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
    )

Kode di atas digunakan untuk **membagi dataset menjadi dua bagian**, yaitu **data latih (training data)** dan **data uji (testing data)** sebelum proses pembuatan model dilakukan. Pembagian ini bertujuan agar model dapat dilatih menggunakan sebagian data, kemudian diuji pada data yang belum pernah dilihat sebelumnya untuk mengevaluasi kinerjanya.

Penjelasan tiap parameter:

* **X** â†’ berisi **data fitur (variabel input)** yang digunakan sebagai masukan untuk model.
* **y** â†’ berisi **data target (variabel output)** atau nilai yang ingin diprediksi oleh model.
* **test_size=0.2** â†’ menunjukkan bahwa **20% dari total data digunakan sebagai data uji**, sedangkan **80% sisanya digunakan sebagai data latih**.
* **random_state=42** â†’ berfungsi untuk **mengatur pembagian data agar selalu sama setiap kali kode dijalankan**, sehingga hasil percobaan tetap konsisten dan dapat direproduksi.

Dengan pembagian ini, model dapat diuji kemampuannya dalam **memprediksi data baru secara objektif** tanpa terpengaruh oleh data yang sudah digunakan untuk pelatihan.


In [None]:
model = LinearRegression()

# training data
model.fit(X_train, y_train)

Kodingan di atas digunakan untuk membuat objek model regresi linear lalu dilatih supaya bisa memprediksi nilai y berdasarkan X

#**Machine**

In [None]:
# testing
y_pred = model.predict(X_test)

# evaluasi model
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

print("RÂ² squared:", r2)
print("RMSE:", rmse)

RÂ² squared: 0.7549955124484078
RMSE: 0.19392193397227142


Kodingan di atas untuk mengukur seberapa baik model regresi linear memprediksi data baru, dengan dua metrik utama:
1. RÂ² menunjukkan seberapa besar variasi data yang bisa dijelaskan oleh model,
2. RMSE menunjukkan seberapa jauh rata-rata prediksi model dari nilai sebenarnya.

Pada hasil di atas:
- RÂ² squared: 0.7549955124484078 Artinya, sekitar 75,5% variasi nilai N (Nitrogen) bisa dijelaskan oleh model berdasarkan variabel input (fitur). Ini tergolong cukup bagus untuk model regresi. Sisanya 24,5% masih dipengaruhi faktor lain yang tidak dimasukkan ke model.
- RMSE: 0.19392193397227142 Artinya, rata-rata kesalahan prediksi model sekitar 0.19 satuan dari nilai aslinya. Semakin kecil RMSE, semakin baik performa model. Tapi bagus atau tidaknya angka ini juga tergantung skala data target y.

R2 score : jika error semakin besar, model nya semakin baik rmse : jika error semakin besar, model nya semakin jelek

In [None]:
coeff = pd.DataFrame({
    'Fitur' : X.columns,
    'Koefisien' : model.coef_
})
print(coeff)

        Fitur  Koefisien
0           P   8.570837
1           K   0.056014
2          Ca  -0.058380
3          Mg  -0.161095
4          Fe   0.000284
5          Mn   0.000177
6          Cu   0.023202
7          Zn   0.002968
8           B  -0.002092
9         b12   0.327312
10        b11  -0.619437
11         b9  -0.047586
12        b8a   0.064453
13         b8  -0.072659
14         b7   0.981186
15         b6  -0.864947
16         b5  -0.329397
17         b4   1.420614
18         b3  -0.449043
19         b2  -0.357454
20         b1  -0.033418
21   Sigma_VV   0.156595
22   Sigma_VH  -1.466200
23       plia   0.021315
24        lia  -0.021906
25       iafe  -0.078122
26  gamma0_vv   0.457327
27  gamma0_vh   2.946416
28   beta0_vv  -0.569281
29   beta0_vh  -0.677599


-Kode di atas digunakan untuk **menampilkan kontribusi setiap fitur (kolom) terhadap hasil prediksi model regresi linear**. Dengan kode ini, pengguna dapat mengetahui seberapa besar pengaruh masing-masing variabel input terhadap variabel target yang diprediksi oleh model.

Penjelasan komponennya:

* **`X.columns`** â†’ berisi **nama-nama fitur (variabel input)** yang digunakan dalam proses pelatihan model.
* **`model.coef_`** â†’ menyimpan **nilai koefisien regresi** yang telah dipelajari oleh model untuk setiap fitur.
* **`pd.DataFrame({...})`** â†’ digunakan untuk **membuat tabel baru (DataFrame)** yang memadukan nama fitur dengan nilai koefisiennya, sehingga hasilnya lebih mudah dibaca dan dianalisis.

**Interpretasi nilai koefisien:**

* **Koefisien positif** menunjukkan bahwa ketika nilai fitur meningkat, **nilai prediksi (y)** juga cenderung meningkat.
* **Koefisien negatif** menunjukkan bahwa peningkatan pada fitur akan membuat **nilai prediksi (y)** cenderung menurun.
* **Semakin besar nilai absolut koefisien** (baik positif maupun negatif), berarti **pengaruh fitur tersebut terhadap hasil prediksi semakin kuat**.

Dengan demikian, hasil ini membantu dalam **menganalisis faktor-faktor utama yang memengaruhi prediksi model regresi linear.**


In [None]:
import statsmodels.api as sm
X_sm = sm.add_constant(X) #tambahkan intercept
model = sm.OLS(y, X_sm).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      N   R-squared:                       0.779
Model:                            OLS   Adj. R-squared:                  0.768
Method:                 Least Squares   F-statistic:                     66.10
Date:                Mon, 03 Nov 2025   Prob (F-statistic):          6.69e-163
Time:                        08:16:31   Log-Likelihood:                 156.68
No. Observations:                 592   AIC:                            -251.4
Df Residuals:                     561   BIC:                            -115.5
Df Model:                          30                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          3.8681      0.864      4.479      0.0

Kode di atas digunakan untuk melakukan **analisis regresi linear menggunakan metode Ordinary Least Squares (OLS)**.
Proses ini melibatkan **penambahan konstanta (intercept)** agar model dapat menghitung titik potong garis regresi, serta menampilkan **hasil analisis berupa koefisien, tingkat signifikansi, dan metrik evaluasi model** secara lengkap.

### ðŸ”¹ Interpretasi Hasil Analisis

* **R-squared (RÂ²)**
  Menggambarkan **seberapa besar proporsi variasi pada variabel target (y)** yang dapat dijelaskan oleh variabel-variabel independen (X).

  > Contoh: jika RÂ² = 0.755, berarti **75,5% variasi pada y** dapat dijelaskan oleh variabel X, sedangkan **24,5% sisanya** dipengaruhi oleh faktor lain di luar model.

* **Adjusted R-squared (RÂ² adj)**
  Merupakan versi RÂ² yang telah **disesuaikan dengan jumlah variabel independen**, sehingga memberikan gambaran yang lebih akurat saat model memiliki banyak fitur.

* **F-statistic dan Prob(F-statistic)**
  Digunakan untuk **mengukur signifikansi model secara keseluruhan**.

  > Jika nilai **Prob(F-statistic) < 0.05**, berarti model secara statistik **bermakna**, dan variabel-variabel X memiliki pengaruh signifikan terhadap y.

* **Coef (Koefisien)**
  Menunjukkan **arah dan besarnya pengaruh masing-masing variabel independen** terhadap variabel dependen.

  > Nilai **positif** berarti hubungan **berbanding lurus** (jika X naik, y ikut naik).
  > Nilai **negatif** berarti hubungan **berbanding terbalik** (jika X naik, y turun).

* **P>|t| (p-value)**
  Mengindikasikan **tingkat signifikansi statistik dari masing-masing koefisien**.

  > Jika **p < 0.05**, berarti variabel tersebut **berpengaruh signifikan** terhadap y.
  > Jika **p > 0.05**, maka pengaruhnya kemungkinan **tidak signifikan** atau hanya terjadi secara kebetulan.

Dengan demikian, hasil analisis OLS ini membantu dalam **menilai sejauh mana model regresi linear mampu menjelaskan hubungan antara variabel-variabel independen dan target**, sekaligus **menentukan variabel mana yang berpengaruh secara signifikan terhadap hasil prediksi.**


# Kesimpulan akhir:
Model regresi linear yang dibuat mampu memprediksi kadar Nitrogen dengan akurasi yang baik, di mana fitur citra dan radar terbukti berpengaruh signifikan terhadap hasil prediksi. Temuan ini menunjukkan bahwa data satelit dapat dimanfaatkan untuk analisis kesuburan dan kondisi tanah, sehingga mendukung pengembangan pemetaan lahan pertanian yang lebih efisien dan berbasis data.