# **  Apakah Ada Kemungkinan Kebakaran Hutan Ditujukan Untuk Pembesaran Lahan Sawit?  **

  Adityo Sanjaya  [Profile](https://drive.google.com/file/d/0ByWf0wRngyZObHN0Mzd2dDhOUUZJQ0dKWkxOaGw0dzB4N3NJ/view?usp=sharing)
  
                                               
Pada September s/d Oktober 2015, muncul kebakaran hutan di beberapa provinsi di Indonesia. Hal ini menyebabkan munculnya kabut asap di beberapa provinsi tersebut dan beberapa negara tetangga. Dengan menggunakan dua variables yang paling menggambarkan dugaan tersebut, luas kebakaran hutan dan luas perkebunan kelapa sawit, saya menemukan terdapat kemungkinan bahwa kebakaran hutan ditujukan untuk pembesaran kelapa sawit. Saya menemukan bahwa besarnya luas kebakaran hutan di tahun sebelumnya di setiap provinsi, secara rata-rata memprediksi besarnya lahan perkebunan pada masa sekarang. 


Berikut adalah visualisasi kebakaran hutan dan persebaaran asap di Indonesia [contoh visualisasi](http://earth.nullschool.net/#current/chem/surface/level/overlay=cosc/equirectangular=-251.53,0.92,3000)

Analisis ini dibagi menjadi empat bagian:

### I. Data

### II. Exploratory Data Analysis (EDA)

#### II.1  *Summary* Data

#### II.2 *Standardization* pada Data

#### II.3 *Plotting* atas Data

### III. Simple (Wrong) Regression

#### III.1 OLS

#### III.2 Robust Linear Model

### IV Panel Regression

#### IV.1 Panel Regression (Wrong)

#### IV.2 Panel Dynamics Regression

### V. Pengecekan Asumsi

#### V.1 Heterogenitas Individu

#### V.2 Stasioneritas 


## I. Data

Saya menggunakan data dari 2 sumber:
 1. [Data Luas Kebakaran per Provinsi Kementrian Lingkungan Hidup](http://sipongi.menlhk.go.id/hotspot/luas_kebakaran)
 2. [Data Luas Perkebunan Kelapa Sawit per Provinsi Kementrian Pertanian](http://www.pertanian.go.id/IP%20ASEM%202014%20Bun/Areal-KelapaSawit.pdf)
 
Kedua data tersebut merupakan data longitudinal. Saya memilih *subset* dari *sample* yang memiliki nilai individu x time terbanyak untuk mendapatkan maximal data, dan meminimalisir pengaruh *unbalanced data*. Saya mendapatkan data sebagai berikut:

In [136]:
DataSawitBersih <- read.csv(file="Data Sawit Bersih.csv",head=TRUE,sep=",")
DataSawitBersih

Unnamed: 0,Tahun.Provinsi,Prov,Luas.Kebakaran.Hutan.t,Luas.Lahan.Kelapa.Sawit.t1
1,2011,Jambi,8900,687892
2,2012,Jambi,1125,657929
3,2013,Jambi,19910,688810
4,2011,Kalimantan Barat,5000,885075
5,2012,Kalimantan Barat,57740,914835
6,2013,Kalimantan Barat,2270,959226
7,2012,Kalimantan Selatan,6050,475739
8,2013,Kalimantan Selatan,41750,499873
9,2011,Kalimantan Tengah,2200,1024973
10,2012,Kalimantan Tengah,5515,1099692


Tabel 1. Data luas kebakaran hutan dan luas perkebunan kelapa sawit dalam satu provinsi
 
1. tahun adalah periode dari kebakaran hutan, perlu digarisbawahi bahwa luas kelapa sawit adalah data periode mmendatang
2. luas kebakaran hutan adalah data luas wilayah kebakaran hutan di satu provinsi di *periode sekarang*
3. lahan luas kelapa sawit adalah data luas wilayah kebakaran hutan di satu provinsi di *periode mendatang*. Contoh pada baris 1, menunjukan luas kebakaran pada Provinsi Jambi pada tahun 2011, dan luas lahan kelapa sawit pada tahun 2012. 

Kemudian saya menggunakan angka sebagai penanda provinsi sesuai gambar 1, e.g, 1 adalah Jambi, 2 adalah Kalimantan Barat, dst, sebagai berikut:

In [137]:
DataSawitUnbalanced <- read.csv(file="DataSawitUnbalanced.csv",head=TRUE,sep=",")
DataSawitUnbalanced


Unnamed: 0,Year,Prov,Api,Sawit
1,2011,1,89.0,687892
2,2012,1,11.25,657929
3,2013,1,199.1,688810
4,2011,2,50.0,885075
5,2012,2,577.4,914835
6,2013,2,22.7,959226
7,2012,3,60.5,475739
8,2013,3,417.5,499873
9,2011,4,22.0,1024973
10,2012,4,55.15,1099692


Tabel 2. Data luas kebakaran hutan pada periode sekarang dan luas lahan sawit pada tahun berikutnya. 

## II. Exploratory Data Analysis (EDA)

Pada EDA, saya mencoba untuk menjelaskan karakteristik pada data menggunakan *data visualization*.
1. Memberikan *summary* atas data. 
2. Melakukan transformasi data dengan melakukan standardisasi atas standard deviation.
3. Melakukan plotting atas data, memperlihatkan pengaruh *input* terhadap *output*.

  ### II.1 *Summary* Data
    
   Berikut adalah *summary* atas data Luas Kebakaran Hutan, dan data Luas Lahan Kelapa Sawit pada period berikutnya:

In [138]:
summary(DataSawitUnbalanced$Api)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1.00   24.73   57.82  218.80  271.30 1181.00 

In [139]:
summary(DataSawitUnbalanced$Sawit)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  36260  378100  766500  820300 1108000 2297000 

In [140]:
Variance.Api <- var(DataSawitUnbalanced$Api)
Variance.Sawit <- var(DataSawitUnbalanced$Sawit)
Covariance <- cov(DataSawitUnbalanced$Api, DataSawitUnbalanced$Sawit)

plotvar <- cbind(Variance.Api, Variance.Sawit, Covariance)
plotvar

Variance.Api,Variance.Sawit,Covariance
113803.2,371478500000.0,124801500.0


### II.2 *Standardization* pada Data

Kemudian saya mengubah skala dari variabel luas lahan kebakaran dan luas lahan kelapa sawit mengikuti z-distribution, seperti yang disarankan oleh Gelman [Gelman (2008) pdf](http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf), namun menggunakan hanya satu *standard deviation*
 
 \begin{equation}
X_i standardized = \left(\frac{X_i-\mu}{\sigma}\right).
 \end{equation}
 
 Sehingga saya mendapatkan variabel yang memiliki rata-rata yang sama, yang distandarisasi dengan *standard deviation*. Sehingga mendapatkan data dengan nilai *mean* yang sama sebagai berikut:


In [141]:
Luas_Api <- scale(DataSawitUnbalanced$Api, center = T, scale = T)
Luas_Sawit_t1 <- scale(DataSawitUnbalanced$Sawit, center = T, scale = T)

In [72]:
summary(Luas_Api)

       V1         
 Min.   :-0.6458  
 1st Qu.:-0.5754  
 Median :-0.4773  
 Mean   : 0.0000  
 3rd Qu.: 0.1556  
 Max.   : 2.8521  

In [68]:
summary(Luas_Sawit_t1)

       V1          
 Min.   :-1.28643  
 1st Qu.:-0.72560  
 Median :-0.08838  
 Mean   : 0.00000  
 3rd Qu.: 0.47233  
 Max.   : 2.42255  

In [142]:
Variance.Api1 <- var(Luas_Api)
Variance.Sawit1 <- var(Luas_Sawit_t1)
Covariance1 <- cov(Luas_Api, Luas_Sawit_t1)
Correlation1 <- cor(Luas_Api, Luas_Sawit_t1)


plotvar1 <- cbind(Variance.Api1, Variance.Sawit1, Covariance1, Correlation1 )
plotvar1

0,1,2,3
1.0,1.0,0.6069818,0.6069818


### II.3 *Plotting* dari Data

Saya menggunakan data yang telah distandarkan untuk memudahkan analisa visual karena memiliki skala yang sama. 
Berikut adalah penggambaran atas pola yang sama yang dimiliki oleh luas kebakaran pada periode sekarang dan luas lahan kelapa sawit pada periode berikutnya:

In [166]:
Api_ts <- ts(Luas_Api)
Sawit_ts <- ts(Luas_Sawit_t1)
Pseudo_time_series <- cbind( Sawit_ts, Api_ts) 

# plotting data, dianggap time series

#plot(Pseudo_time_series, col = "red")



![Co](1.png "Correlastion vs Causation") 

Gambar 1. Pola variabel kebakaran hutan dan luas lahan kelapa sawit.

Penemuan:
1. Terdapat pola yang sama pada data luas kebakaran hutan (Api_ts) dan  luas lahan kelapa sawit (Sawit_ts). 
2. Kemungkinan adanya *outlier* yang meningkatkan nilai estimasi (beta) pada regresi kemudian. Hal ini dapat dilihat pada gambar 1, pada (pseudo) index time 14 s/d  17, kedua grafik memiliki pola yang sama.

Berikut adalah plotting dari scatterplot:

In [165]:
#qplot(Luas_Api, Luas_Sawit_t1)



![Co](2.png "Correlastion vs Causation") 

gambar 2. Scatterplot Luas Kebakaran Hutan dan Luas Lahan Kelapa Sawit

Kesimpulan:
1. Kemungkinan data *joint distribution* tidak terdistribusi dengan konstan
2. Adanya outlier di sisi kanan atas yang akan membuat nilai beta pada estimasi regresi *biased up*
3. Akibat dari poin kedua mengharuskan menggunakan metode estimasi yang *robust* terhadap *outlier* 


## III. Simple (Wrong) Regression

Pada bagian ini saya menggunakan metode estimasi yang sederhana namun salah. Hal ini dikarenakan metode yang saya gunakan dalam menganggap data adalah *cross section*. Namun hal ini memberikan gambaran bahwa terdapat pola yang sama, yaitu Luas kebakaran berpengaruh pada besarnya luas lahan kelapa sawit di periode mendatang. Lagi, saya mengigatkan bahwa ini adalah metode yang **salah**.


#### III.1OLS Cross Section

Pada bagian ini saya menggunakan metode OLS cross section untuk mengestimasi pengaruh luas kebakaran hutan pada luas lahan kelapa sawit.

metode OLS yang digunakan:


\begin{equation}
y=\beta_0 +\beta_1 x +\varepsilon,\quad i=1,\dots,n.\!
 \end{equation}

yang mana:

1. y = Luas Lahan kelapa sawit (periode berikutnya)

2. x = Luas Lahan hutan terbakar (periode sekarang)

In [167]:
OLS <- lm(Luas_Sawit_t1 ~  Luas_Api )
summary(OLS)


Call:
lm(formula = Luas_Sawit_t1 ~ Luas_Api)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.97733 -0.75472 -0.02221  0.66266  2.25713 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 6.696e-17  1.477e-01   0.000 1.000000    
Luas_Api    6.070e-01  1.502e-01   4.042 0.000376 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8088 on 28 degrees of freedom
Multiple R-squared:  0.3684,	Adjusted R-squared:  0.3459 
F-statistic: 16.33 on 1 and 28 DF,  p-value: 0.0003759


** Ups, Luas_Api signifikan mempengaruhi Luas_sawit **

![Co](3.png "Correlastion vs Causation") 

In [106]:
require(foreign)
require(MASS)

Loading required package: foreign


#### III.1 Robust Regression Cross Section

Pada bagian ini saya menggunakan metode Robust Regression dengan  iterated *re-weighted least squares* cross section untuk mengestimasi pengaruh luas kebakaran hutan pada luas lahan kelapa sawit. Metode ini digunakan karena adanya kemungkinan outlier mengakibatkan beta **Api** biased up.

metode Robust Regression yang digunakan:


\begin{equation}
y=\beta_0 +\beta_1 x +\varepsilon,\quad i=1,\dots,n.\!
 \end{equation}

yang mana:

1. y = Luas Lahan kelapa sawit (periode berikutnya)

2. x = Luas Lahan hutan terbakar (periode sekarang)

In [109]:
Robust_Regression <- rlm(Luas_Sawit_t1 ~  Luas_Api )
summary(Robust_Regression)


Call: rlm(formula = Luas_Sawit_t1 ~ Luas_Api)
Residuals:
      Min        1Q    Median        3Q       Max 
-0.954105 -0.718872  0.002098  0.697734  2.290292 

Coefficients:
            Value   Std. Error t value
(Intercept) -0.0279  0.1395    -0.1998
Luas_Api     0.6193  0.1419     4.3636

Residual standard error: 1.081 on 28 degrees of freedom

![Co](4.png "Correlastion vs Causation") 

### IV Panel Regression

Data yang saya miliki berbentuk longitudinal, sehingga metode terbaik adalah mengguanaka Panel Regression:
 \begin{equation}
 y_{it}=a+bx_{it}+\epsilon_{it}
  \end{equation}




yang mana:

1. y = Luas Lahan kelapa sawit (periode berikutnya)

2. x = Luas Lahan hutan terbakar (periode sekarang)

In [131]:
library(plm)
panel_plm <- plm(Sawit ~ Api , model = "between", data = DataSawitUnbalanced)

summary(panel_plm)


Oneway (individual) effect Between Model

Call:
plm(formula = Sawit ~ Api, data = DataSawitUnbalanced, model = "between")

Unbalanced Panel: n=3, T=10-10, N=30

Residuals :
   Min. 1st Qu.  Median 3rd Qu.    Max. 
 -29800  -21500  -13100   14900   42900 

Coefficients :
             Estimate Std. Error t-value Pr(>|t|)  
(Intercept) 796433.47   65409.19 12.1762  0.05217 .
Api            109.19     262.95  0.4152  0.74944  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Total Sum of Squares:    3400700000
Residual Sum of Squares: 2900600000
R-Squared      :  0.14707 
      Adj. R-Squared :  0.049024 
F-statistic: 0.172431 on 1 and 1 DF, p-value: 0.74944

In [134]:
panel_plmb <- plm(Sawit ~ Api , model = "between", data = DataSawitUnbalanced)
panel_plmw <- plm(Sawit ~ Api , model = "within", data = DataSawitUnbalanced)
summary(panel_plmb)
summary(panel_plmw)

Oneway (individual) effect Between Model

Call:
plm(formula = Sawit ~ Api, data = DataSawitUnbalanced, model = "between")

Unbalanced Panel: n=3, T=10-10, N=30

Residuals :
   Min. 1st Qu.  Median 3rd Qu.    Max. 
 -29800  -21500  -13100   14900   42900 

Coefficients :
             Estimate Std. Error t-value Pr(>|t|)  
(Intercept) 796433.47   65409.19 12.1762  0.05217 .
Api            109.19     262.95  0.4152  0.74944  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Total Sum of Squares:    3400700000
Residual Sum of Squares: 2900600000
R-Squared      :  0.14707 
      Adj. R-Squared :  0.049024 
F-statistic: 0.172431 on 1 and 1 DF, p-value: 0.74944

Oneway (individual) effect Within Model

Call:
plm(formula = Sawit ~ Api, data = DataSawitUnbalanced, model = "within")

Unbalanced Panel: n=3, T=10-10, N=30

Residuals :
   Min. 1st Qu.  Median 3rd Qu.    Max. 
-714000 -403000  -74300  379000 1230000 

Coefficients :
    Estimate Std. Error t-value  Pr(>|t|)    
Api  1240.44     290.16   4.275 0.0002275 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Total Sum of Squares:    1.0739e+13
Residual Sum of Squares: 6.3062e+12
R-Squared      :  0.41277 
      Adj. R-Squared :  0.35773 
F-statistic: 18.2754 on 1 and 26 DF, p-value: 0.00022754

![Correlation](http://imgs.xkcd.com/comics/correlation.png "Correlastion vs Causation") 