# Modul 3: Analisis Statistik Inferensial (Parametrik)

### Objectives Praktikum

1. Praktikan mampu memahami prinsip-prinsip dasar analisis statistik inferensial parametrik dengan metode estimasi parameter dan pengujian hipotesa
2. Praktikan mampu melakukan analisis inferensial parametrik dengan metode estimasi parameter dan pengujian hipotesa dengan pemrograman Stata pada Jupyter

### Review Teori

Analisis statistik inferensial adalah metode analisis yang membantu
dalam membuat kesimpulan umum tentang karakteristik populasi berdasarkan
apa yang di analisis dari data sampel yang diperoleh dari populasi
tersebut. Penerapan analisis statistik inferensial dapat dilakukan dalam
dua bentuk yaitu estimasi parameter dan pengujian hipotesis. Pada
praktikum ini, yang akan dibahas adalah estimasi parameter dan pengujian
hipotesis.

#### Estimasi Parameter

Estimasi parameter adalah suatu perkiraan parameter populasi yang dibuat
pada apa yang diketahui tentang sampel. Estimasi digolongkan menjadi dua
yaitu estimasi titik (*point estimation*) dan estimasi *confidence interval*.

1. Estimasi Titik

    Sebuah nilai tunggal yang digunakan untuk mengestimasi sebuah parameter disebut titik estimator, sedangkan proses untuk mengestimasi titik tersebut disebut estimasi titik (Harinaldi, 2005). Pada estimasi titik, nilainya hanya ada satu dan sangat mengandalkan asumsi parameter. Estimasi titik lebih mudah dalam hal penghitungan, tetapi penaksirannya sangat diragukan karena sangat jarang nilai karakteristik populasi sama persis dengan nilai karakteristik sampel. Hasil estimasi titik juga tidak memberikan tingkat kepercayaan tertentu.

2. Estimasi *Confidence Interval*

    Estimasi interval adalah penaksiran populasi dengan nilai-nilai dalam suatu interval tertentu. Dasar adanya estimasi interval adalah karena pada setiap penaksiran pasti mengandung peluang kesalahan.
    
    * Estimasi Interval Rata-rata Populasi Satu Sampel
    
        a. Sampel Besar
        
        $CI =  \bar{X} \pm Z\frac{S_{x}}{\sqrt{n-1}}$
        
        b. Sampel Kecil
        
        $CI =  \bar{X} \pm t\frac{S_{x}}{\sqrt{n-1}}$
        
    
    * Estimasi Interval Perbedaan Rata-Rata Berpasangan
        
        a. Sampel Besar
        
        $CI =  \bar{D} \pm Z\frac{S_{D}}{\sqrt{n-1}}$
        
        b. Sampel Kecil
        
        $CI =  \bar{D} \pm t\frac{S_{D}}{\sqrt{n-1}}$
        
    * Estimasi Interval Perbedaan Rata-Rata Independen
    
        a. Sampel Besar
        
        $CI = (\bar{X_{1}} - \bar{X_{2}})  \pm t \sqrt{\frac{S_{1}^{2}}{n_{1}} + \frac{S_{2}^{2}}{n_{2}}}$
        
        b. Sampel Kecil
        
        $CI = (\bar{X_{1}} - \bar{X_{2}})  \pm t \sqrt{\frac{S_{1}^{2}}{n_{1} - 1} + \frac{S_{2}^{2}}{n_{2} - 1}}$
        
    * Estimari Interval Proporsi
        
        $CI = P_{S} \pm \sqrt{\frac{P_{\mu}(1-P_{\mu})}{n}}$
        
        $CI = {(P}_{S1} +  P_{S2}) \pm Z\sigma_{P - P}$
        

3. Pengujian Hipotesis

    Pengujian hipotesis juga terbagi dua, yaitu pengujian hipotesis parametrik untuk data yang memiliki distribusi normal dan pengujian hipotesis non parametrik untuk data yang tidak memerlukan distribusi normal. Pengujian hipotesis parametrik sendiri terdiri dari uji satu sampel (uji proporsi dan uji rata-rata) dan uji dua sampel, yang meliputi dua sampel non independen (uji uji perbedaan rata-rata berpasangan), dan dua sampel independen (uji perbedaan rata-rata independen, dan uji perbedaan dua proporsi).
    
    Prosedur pengujian hipotesa terdiri dari:
    
    1. Penentuan asumsi yang terdiri dari asumsi mengenai proses pengambilan sampel, tipe skala pengukuran, dan bentuk distribusi sampling.
    
    2. Pernyataan hipotesa awal, dengan $o$ merupakan suatu pernyataan tidak ada perbedaan, dan $i$ : suatu pernyataan yang secara langsung bertentangan dengan $o$
    
    3. Pemilihan distribusi sampling dan penentuan wilayah kritis, dengan mengukur wilayah di bawah distribusi dengan menggunakan distribusi yang sesuai. Wilayah kritis terdiri dari wilayah di bawah distribusi sampling yang mencakup semua hasil sampel yang tidak mungkin dan disebut daerah penolakan $o$. Ukuran wilayah kritis diungkapkan dalam $α$ (proporsi dari seluruh wilayah yang tercakup dalam wilayah kritis).
    
    4. Penghitungan statistik uji untuk mengevaluasi probabilitas beberapa hasil sampel tertentu, nilai sampel harus diubah ke dalam nilai standar, sesuai dengan distribusi yang digunakan. Apabila menggunakan ditribusi $z$ maka nilai sampel diubah dalan skor $z$, dan apabila menggunakan distribusi $t$ maka nilai sampel diubah dalam skor $t$.
    
    $Z_{hitung} =\frac{Statistik Parameter}{Standard Error}$
    
            Nilai Z biasanya cocok untuk sampel besar, sedangkan nilai t dapat digunakan untuk baik sampel besar maupun kecil, sehingga pada software statistik seperti Stata, lebih sering digunakan nilai t saja.
            
    
    5. Membuat keputusan, keputusan dibuat dengan membandingkan statistik uji ($z$ hitung) dengan wilayah kritis ($z$ tabel). $o$ ditolak bila statistik uji di wilayah kritis dan $o$ diterima bila statistik uji berada di wilayah tidak kritis.

### Hands-on Praktikum

Dalam praktikum ini akan dilakukan analisis inferensial berupa estimasi rata-rata satu sampel, estimasi rata-rata dua sampel, estimasi proporsi satu sampel, uji rata-rata satu sampel kecil, uji perbedaan rata-rata independen 2 sampel kecil, uji perbedaan rata-rata berpasangan 2 sampel kecil, uji proporsi satu sampel, serta uji proporsi dua sampel independen.

Dataset yang digunakan untuk praktikum ini adalah dataset `Airbnb Prices in European Cities` yang diambil dari portal `Kaggle`. Berikut adalah penjelasan lebih lanjut terkait dataset yang tersedia pada portal `Kaggle`.

*This dataset provides a comprehensive look at Airbnb prices in some of the most popular European cities. Each listing is evaluated for various attributes such as room types, cleanliness and satisfaction ratings, bedrooms, distance from the city centre, and more to capture an in-depth understanding of Airbnb prices on both weekdays and weekends. Using spatial econometric methods, we analyse and identify the determinants of Airbnb prices across these cities. Our dataset includes information such as realSum (the total price of the listing), room_type (private/shared/entire home/apt), host_is_superhost (boolean value indicating if host is a superhost or not), multi (indicator whether listing is for multiple rooms or not), biz (business indicator) , guest_satisfaction_overall (overall rating from guests camparing all listings offered by host ), bedrooms, dist (distance from city center) , lng & lat coordinates for location identification etc. We hope that this data set offers insight into how global markets are affected by social dynamics and geographical factors which in turn determine pricing strategies for optimal profitability!*

Dalam kasus praktikum ini, dataset yang digunakan berfokus pada data harga Airbnb di London, UK pada saat weekend.

In [1]:
import delimited using "data/london_weekends.csv", clear


  ___  ____  ____  ____  ____ ©
 /__    /   ____/   /   ____/      17.0
___/   /   /___/   /   /___/       BE—Basic Edition

 Statistics and Data Science       Copyright 1985-2021 StataCorp LLC
                                   StataCorp
                                   4905 Lakeway Drive
                                   College Station, Texas 77845 USA
                                   800-STATA-PC        https://www.stata.com
                                   979-696-4600        stata@stata.com

Stata license: 25-student lab, expiring 14 Nov 2023
Serial number: 301709411476
  Licensed to: azwanaza
               Labscan PWK SAPPK ITB

Notes:
      1. Unicode is supported; see help unicode_advice.


(encoding automatically selected: ISO-8859-1)
(19 vars, 5,379 obs)


In [2]:
%head 5

Unnamed: 0,realsum,room_type,room_shared,room_private,person_capacity,host_is_superhost,multi,biz,cleanliness_rating,guest_satisfaction_overall,bedrooms,dist,metro_dist,attr_index,attr_index_norm,rest_index,rest_index_norm,lng,lat
1,121.1223,Private room,False,True,2,False,0,0,6,69,1,5.734117,0.437094,222.8822,15.49341,470.0885,8.413765,-0.04975,51.5257
2,195.9124,Private room,False,True,2,False,1,0,10,96,1,4.788905,1.464051,235.3858,16.36259,530.1335,9.488466,-0.08475,51.5421
3,193.3253,Private room,False,True,3,False,1,0,10,95,1,4.596677,0.4503062,268.9138,18.69325,548.9876,9.825922,-0.14585,51.54802
4,180.3899,Private room,False,True,2,False,1,0,9,87,1,2.054769,0.1326705,472.3813,32.83707,1021.271,18.27897,-0.10611,51.52108
5,405.701,Entire home/apt,False,False,3,False,0,1,7,65,0,4.491277,0.3541075,318.4915,22.13958,692.7754,12.39947,-0.18797,51.49399


| Column Name                 | Description                                                | Data Type  |
|-----------------------------|------------------------------------------------------------|------------|
| realSum                     | The total price of the Airbnb listing.                    | Numeric    |
| room_type                   | The type of room being offered (e.g. private, shared, etc.) | Categorical|
| room_shared                 | Whether the room is shared or not.                         | Boolean    |
| room_private                | Whether the room is private or not.                        | Boolean    |
| person_capacity             | The maximum number of people that can stay in the room.    | Numeric    |
| host_is_superhost           | Whether the host is a superhost or not.                    | Boolean    |
| multi                       | Whether the listing is for multiple rooms or not.         | Boolean    |
| biz                         | Whether the listing is for business purposes or not.      | Boolean    |
| cleanliness_rating          | The cleanliness rating of the listing.                    | Numeric    |
| guest_satisfaction_overall | The overall guest satisfaction rating of the listing.     | Numeric    |
| bedrooms                    | The number of bedrooms in the listing.                    | Numeric    |
| dist                        | The distance from the city center.                         | Numeric    |
| metro_dist                  | The distance from the nearest metro station.              | Numeric    |
| lng                         | The longitude of the listing.                             | Numeric    |
| lat                         | The latitude of the listing.                              | Numeric    |


### Analisis Inferensial: Estimasi Parameter

#### 1. Estimasi Rata-Rata 1 Sampel

Pada kasus estimasi rata-rata 1 sampel ini, kita akan mencoba melihat estimasi rata-rata dari harga Airbnb secara keseluruhan.

In [3]:
ci means realsum


    Variable |        Obs        Mean    Std. err.       [95% conf. interval]
-------------+---------------------------------------------------------------
     realsum |      5,379    364.3897    5.968538         352.689    376.0905


Dari hasil tersebut didapatkan bahwa rata-rata harga listing Airbnb di London pada weekend itu berada pada interval 352.689 hingga 376.0905 euro.

#### 2. Estimasi Rata-Rata 2 Sampel Berpasangan

Pasa kasus ini kita akan membandingkan perbedaan nilai antara jarak ke city center dan metro terdekat dari suatu lokasi listing Airbnb ini.

In [4]:
generate diff_dist = dist - metro_dist

In [5]:
ci means diff_dist


    Variable |        Obs        Mean    Std. err.       [95% conf. interval]
-------------+---------------------------------------------------------------
   diff_dist |      5,379    4.311087    .0278181        4.256552    4.365621


Perbedaan yang didapatkan pada interval 4.256 hingga 4.365 yang menunjukkan bahwa jarak listing Airbnb di London ini cenderung lebih jauh jaraknya ke city center dibandingkan dengan ke metro station terdekat.

#### 3. Estimasi Proporsi 1 Sampel

Pasa kasus ini kita akan memperkirakan proporsi room yang private atau tidak.

In [6]:
* Mengonversi "FALSE" menjadi 0 dan "TRUE" menjadi 1
gen room_shared_new = (room_shared == "TRUE")
gen room_private_new = (room_private == "TRUE")

In [36]:
ci prop room_private_new


                                                            Binomial exact   
    Variable |        Obs  Proportion    Std. err.       [95% conf. interval]
-------------+---------------------------------------------------------------
room_priva~w |      5,379    .5454545    .0067892        .5320334    .5588263


Dari hasil tersebut didapatkan bahwa room private memiliki proporsi pada interval 0.53 hingga 0.55

### Analisis Inferensial: Uji Hipotesa

#### 1. Uji rata-rata satu sampel
Pada uji ini, data yang digunakan harus memiliki distribusi normal. Maka dari itu, gunakan data `realSum_bootstrap.csv` untuk menguji hipotesis rata-rata dari realSum dari dataset.

In [9]:
import delimited using "data/realSum_bootstrap.csv", clear

(encoding automatically selected: ISO-8859-2)
(1 var, 1,000 obs)


In [10]:
%head 5

Unnamed: 0,bootstrap_means
1,368.0068
2,350.1387
3,363.8197
4,354.6002
5,370.6549


Buat Hipotesa Awal, yaitu menyatakan nilai μ sebagai rata-rata populasi
sehingga:

$H_{0}: rata-rata harga listing = 350$

$H_{1}: rata-rata harga listing ≠ 350$

In [11]:
ttest bootstrap_means ==  350


One-sample t test
------------------------------------------------------------------------------
Variable |     Obs        Mean    Std. err.   Std. dev.   [95% conf. interval]
---------+--------------------------------------------------------------------
bootst~s |   1,000    364.4376    .1834059    5.799803    364.0777    364.7975
------------------------------------------------------------------------------
    mean = mean(bootstrap_means)                                  t =  78.7196
H0: mean = 350                                   Degrees of freedom =      999

   Ha: mean < 350               Ha: mean != 350               Ha: mean > 350
 Pr(T < t) = 1.0000         Pr(|T| > |t|) = 0.0000          Pr(T > t) = 0.0000


* Perhatikan nilai $Pr(|T| > |t|)$, jika nilainya $> 0.05$ maka $H_{0}$ diterima, jika nilainya $<= 0.05$ maka $H_{1}$ yang diterima.
* Selanjutnya jika H1 yang diterima, perhatikan nilai $Pr(T < t)$, jika nilainya $≤ 0.05$ maka, rata-rata populasi $< 350$ (wilayah kritis sisi kiri) atau jika nilai $Pr(T > t) ≤ 0.05$, maka rata2 populasi $> 350$ (wilayah kritis sisi kanan).
* Pada analisis di atas, nilai $Pr(|T| > |t|) < 0.05$ maka $H_{1}$ diterima, yakni bahwa di dalam populasinya, nilai rata-rata harga listing bukan 350 (dengan tingkat keberartian 5%), namun lebih dari 350 karena $Pr(T > t) ≤ 0.05$.

#### 2. Uji proporsi 1 sampel
Pasa kasus ini kita akan menguji proporsi room yang private atau tidak dengan hipotesis awal.

$H_{0}: proporsi private = 0.54$

$H_{1}: proporsi private ≠ 0.54$

In [12]:
import delimited using "data/london_weekends.csv", clear
* Mengonversi "FALSE" menjadi 0 dan "TRUE" menjadi 1
gen room_shared_new = (room_shared == "TRUE")
gen room_private_new = (room_private == "TRUE")

(encoding automatically selected: ISO-8859-1)
(19 vars, 5,379 obs)


In [14]:
prtest room_private_new == 0.5


One-sample test of proportion                   Number of obs      =      5379

------------------------------------------------------------------------------
    Variable |       Mean   Std. err.                     [95% conf. interval]
-------------+----------------------------------------------------------------
room_priva~w |   .5454545   .0067892                       .532148    .5587611
------------------------------------------------------------------------------
    p = proportion(room_priva~w)                                  z =   6.6674
H0: p = 0.5

     Ha: p < 0.5                 Ha: p != 0.5                   Ha: p > 0.5
 Pr(Z < z) = 1.0000         Pr(|Z| > |z|) = 0.0000          Pr(Z > z) = 0.0000


* Jika nilai $Pr(|Z| > |z|) > 0.05$ maka $H_{0}$ diterima, atau jika $H_{1}$ diterima maka:
* Jika nilai $Pr(Z < z) ≤ 0.05$ maka $p < 0.5$ 
* Atau jika nilai $Pr(Z > z) ≤ 0.05$ maka $p > 0.5$
* Pada analisis di atas, nilai $Pr(|Z| > |z|) ≤ 0.05$ maka $H_{1}$ diterima sehingga disimpulkan bahwa proporsi room private pada populasi bukan 0.5, sehingga perhatikan nilai yang lain:
    Dari analisis didapatkan bahwa $Pr(Z > z) ≤ 0.05$ maka $p > 0.5$. Artinya bahwa proporsi room private dalam populasi bernilai lebih dari 0.5 pada tingkat keberartian 5%

#### 3. Uji perbedaan rata-rata independen (dua sampel)
Pasa kasus ini kita akan menguji apakah ada perbedaan jarak terhadap pusat kota antara listing Airbnb yang memiliki room private dan tidak.

$H_{0}: diff = 0$

$H_{1}: diff ≠ 0$

diff: mean jarak listing room private - mean jarak listing tidak private

In [16]:
ttest dist, by(room_private_new)


Two-sample t test with equal variances
------------------------------------------------------------------------------
   Group |     Obs        Mean    Std. err.   Std. dev.   [95% conf. interval]
---------+--------------------------------------------------------------------
       0 |   2,445     4.80649    .0501502    2.479775    4.708148    4.904831
       1 |   2,934    5.761896    .0518483    2.808435    5.660233    5.863558
---------+--------------------------------------------------------------------
Combined |   5,379     5.32762    .0368956    2.705986     5.25529     5.39995
---------+--------------------------------------------------------------------
    diff |           -.9554059    .0729506               -1.098419   -.8123932
------------------------------------------------------------------------------
    diff = mean(0) - mean(1)                                      t = -13.0966
H0: diff = 0                                     Degrees of freedom =     5377

    Ha: dif

* Jika nilai $Pr(|T| > |t|) > 0.05$, maka $H_{0}$ diterima. Atau, jika $H_{1}$ diterima maka:
* Jika nilai $Pr(T < t) ≤ 0.05$, maka $diff < 0$
* Atau, jika nilai $Pr(T > t) ≤ 0.05$ maka $diff > 0$

Pada analisis di atas, nilai $Pr(|T| > |t|) < 0.05$ maka $H_{1}$ diterima, artinya didapatkan bahwa pada tingkat keberartian 5%, ada perbedaan jarak terhadap pusat kota antara listing Airbnb yang memiliki room private dan tidak. Lalu, $Pr(T < t) ≤ 0.05$, maka $diff < 0$ atau jarak listing tidak private terhadap pusat kota lebih jauh daripada listing private.

#### 4. Uji Perbedaan Rata-rata Berpasangan sampel (dua Sampel)
Pasa kasus ini kita akan menguji apakah ada perbedaan nilai antara jarak terhadap pusat kota dan metro stasiun terdekat

$H_{0}: diff = 0$

$H_{1}: diff ≠ 0$

diff: mean jarak terhadap pusat - mean jarak terhadap metro stasiun terdekat.

In [17]:
ttest dist = metro_dist


Paired t test
------------------------------------------------------------------------------
Variable |     Obs        Mean    Std. err.   Std. dev.   [95% conf. interval]
---------+--------------------------------------------------------------------
    dist |   5,379     5.32762    .0368956    2.705986     5.25529     5.39995
metro_~t |   5,379    1.016534    .0172507    1.265193    .9827153    1.050352
---------+--------------------------------------------------------------------
    diff |   5,379    4.311087    .0278181    2.040227    4.256552    4.365621
------------------------------------------------------------------------------
     mean(diff) = mean(dist - metro_dist)                         t = 154.9741
 H0: mean(diff) = 0                              Degrees of freedom =     5378

 Ha: mean(diff) < 0           Ha: mean(diff) != 0           Ha: mean(diff) > 0
 Pr(T < t) = 1.0000         Pr(|T| > |t|) = 0.0000          Pr(T > t) = 0.0000


* Jika nilai $Pr(|T| > |t|) > 0.05$, maka $H_{0}$ diterima. Atau, jika $H_{1}$ diterima maka:
* Jika nilai $Pr(T < t) ≤ 0.05$, maka $diff < 0$
* Atau, jika nilai $Pr(T > t) ≤ 0.05$ maka $diff > 0$

Pada analisis di atas, nilai $Pr(|T| > |t|) < 0.05$ maka $H_{1}$ diterima, artinya ada perbedaan panjang jalan tahun 2004 ke tahun 2005 pada tingkat keberartian 5%. Lalu, $Pr(T > t) ≤ 0.05$, maka $diff > 0$ atau jarak listing terhadap pusat kota lebih jauh daripada listing terhadap metro stasiun terdekat.

#### 5. Uji 2 Proporsi Independen
Pasa kasus ini kita akan menguji apakah ada perbedaan proporsi antara room shared dan room private.

$H_{0}: diff = 0$

$H_{1}: diff ≠ 0$

diff: proporsi room shared - proporsi room private

In [18]:
prtest room_shared_new == room_private_new


Two-sample test of proportions          room_shared_: Number of obs =     5379
                                        room_private: Number of obs =     5379
------------------------------------------------------------------------------
       Group |       Mean   Std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
room_shared_ |   .0050195   .0009636                      .0031309    .0069081
room_private |   .5454545   .0067892                       .532148    .5587611
-------------+----------------------------------------------------------------
        diff |   -.540435   .0068572                     -.5538749   -.5269951
             |  under H0:   .0086122   -62.75   0.000
------------------------------------------------------------------------------
        diff = prop(room_shared_) - prop(room_private)            z = -62.7520
    H0: diff = 0

    Ha: diff < 0                 Ha: diff != 0            

* Jika nilai $Pr(|Z| > |z|) > 0.05$, maka $H_{0}$ diterima. Atau, jika $H_{1}$ diterima maka:
* Jika nilai $Pr(Z < z) ≤ 0.05$, maka $diff < 0$
* Atau, jika nilai $Pr(Z > z) ≤ 0.05$ maka $diff > 0$

Pada analisis di atas didapatkan bahwa, nilai $Pr(|Z| > |z|) < 0.05$ maka $H_{1}$ diterima, artinya ada perbedaan proporsi antara room shared dan room private pada tingkat keberartian 5%. Lalu, $Pr(Z < z) ≤ 0.05$, maka $diff < 0$ atau proporsi room private lebih banyak daripada room shared.