# Statistika Deskriptif

Statistika deskriptif merupakan salah satu cara menganalisis data yang bertujuan untuk mendeskripsikan atau meringkas informasi dari data. Bentuk deskriptif dari suatu data kemudian dibagi menjadi 2:
* Deskripsi (ukuran) pemusatan data atau tendensi sentral (*measure of central tendency*)
* Deskripsi (ukuran) sebaran data (*measure of spread*)

Pada bagian ini kita akan membahas metode statistika pada 2 kategori tersebut.

## Data

Mari kita mulai dengan data.

### Observasi, Variabel, dan Tabel Data

| `loan_amount` | `interest_rate` | `term` | `grade` | `state` | `total_income` | `homeownership` |
| ------------- | --------------- | ------ | ------- | ------- | -------------- | --------------- |
| 7500 | 7.34 | 36 | A | MD | 70000 | rent |
| 25000 | 9.43 | 60 | B | OH | 254000 | mortage |
| 14500 | 6.08 | 36 | A | MO | 80000 | mortage |
| 300 | 7.96 | 36 | A | CA | 34000 | rent|

Baris pertama merepresentasikan sebuah pinjaman sebesar \$7500 dengan bunga 7.34\% dengan peminjam berasal dari Maryland (MD) yang memiliki penghasilan sebesar  \$7000. Organisasi data seperti ini sangat umum digunakan karena bisa menampung semua observasi dan variabel-variabelnya beserta data baru nantinya.

Perhatikan tabel *table-sample-loan50*. Setiap baris pada data tersebut dikenal dengan istilah resminya sebagai sebuah **_case_** atau **_observational unit_**, atau observasi untuk lebih gampang. Untuk setiap kolom yang merepresentasikan karakter dari setiap observasi disebut dengan **variabel**. Setiap unit observasi dengan beberapa variabel tersebut kemudian diorganisir ke dalam suatu **tabel data**.

| variabel | deskripsi |
| -------- | --------- |
| `loan_amount`| Jumlah pinjaman (dalam dolar US) |
| `interest_rate` | Bunga pinjaman (dalam persentase tahunan)
| `term` | Jangka pinjaman (dalam satuan bulan)
| `grade`| Kelas pinjaman dari kelas A sampai G yang merepresentasikan kualitas pinjaman dan kemungkinan berhasil dilunasi
| `state` | Negara bagian US tempat asal peminjam
| `total_income` | Pendapatan total peminjam (dalam dolar US)
| `homeownership` | Indikator apakah peminjam memilki tangunggan atau sewa lainnya

### Jenis Variabel

Variabel-variabel `loan_amount`, `interest_rate`, dan `term`,  berbeda dengan variabel seperti  `state` dan `grade`. Meski begitu, ada sedikit perbedaan antar 3 variabel pertama, begitu juga antar 2 variabel terakhir.

<div align="middle">
<img src="../../assets/images/variables.png" width="60%">
</div>

3 variabel pertama dikategorikan sebagai variabel **numerik (numerical)** karena nilainya yang berupa nilai numerik.
* `interest_rate` → bernilai desimal atau kontinu (*continuous variable*)
* `term` → bernilai diskrit (*discrete variable*)

2 variabel terakhir dikategorikan sebagai variabel **kategoris (categorical)** karena nilainya yang berupa kumpulan kategori atau kelas.
* `state` → kategori/kelompok yang tidak memiliki urutan yang disebut dengan jenis kategori **nominal**.
* `grade` → kategori/kelompok yang memiliki urutan yang disebut dengan jenis kategori **ordinal**.

> **Kuis:**
>
> Misalkan dilakukan sebuah eksperimen untuk menguji efektivitas obat COVID-19 baru yang memiliki beberapa variabel. Variabel `group` merepresentasikan grup dari masing-masing pasien: `treatment` atau `control`. Variabel `ct` merepresentasikan *cycle threshold* pada pasien setelah mengonsumsi vaksin tersebut setelah 7 hari. Klasifikasikan masing-masing variabel sebagai *numerical* atau *categorical*!

## Ukuran Pemusatan Data

Analisis pertama yang bisa dilakukan pada data adalah mendeskripsikan dan meringkas data. Ringkasan data biasanya menjawab pertanyaan di mana tiap unit data berkumpul atau berpusat. Beberapa ringkasan data yang bisa didapat adalah seperti rata-rata (*mean*), nilai tengah (*median*), modus (*mode*), dan kuantil (*quantile*).

### Rata-Rata (*Mean*)

Rata-rata adalah jumlah dari seluruh data dibagi dengan jumlah observasi dalam data. Kita bisa definisikan fungsi Python untuk menghitung *mean* seperti di bawah ini:

```python
def mean(x):
    return sum(x) / len(x)
```

> **Kuis:**
>
> Menggunakan fungsi di atas, hitunglah rata-rata jumlah teman dari list `num_friends` di bawah ini.

In [None]:
num_friends = [100.0, 49, 41, 40, 25, 21, 21, 19, 19, 18, 18, 16, 15, 15, 15, 15,
               14, 14, 13, 13, 13, 13, 12, 12 , 11, 10, 10, 10, 10 ,10, 10, 10, 10,
               10, 10, 10, 10, 10, 10, 10, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9,
               9, 9, 9, 9, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 7, 7, 7, 7, 7, 7, 7,
               7, 7, 7, 7, 7, 7, 7, 7, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
               6, 6, 6, 6, 6, 6, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4,
               4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 3, 3, 3, 3, 3,
               3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 2, 2, 2, 2, 2, 2, 2, 2,
               2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
               1, 1, 1, 1, 1, 1]

In [None]:
# KETIK DI SINI

Selain itu, kita bisa menggunakan pustaka seperti NumPy, SciPy, ataupun Pandas yang menyediakan fungsi bawaan untuk menghitung rata-rata dengan lebih efisien.

In [None]:
import numpy as np

In [None]:
np.mean(num_friends)

Karena rata-rata melibatkan jumlahan tiap nilai dari data, maka rata-rata **sensitif** terhadap besar kecil nilai data. Sebagai contoh, jika kita ubah elemen pertama `num_friends` dengan nilai yang lebih besar atau kecil, maka nilai rata-ratanya akan berubah.

In [None]:
num_friends[0] = 200
np.mean(num_friends)

In [None]:
num_friends[0] = 90
np.mean(num_friends)

> *Mean* sangat sensitif terhadap pencilan atau *outlier*. Jika elemen pertama diubah menjadi `200`, maka rata-ratanya akan membesar menjadi `7.82`. Jika ternyata pencilan dalam data tersebut kemungkinan tidak merepresentasikan kebanyakan nilai lain di dalamnya (apapun konteksnya), maka rata-rata akan menjadi **ukuran yang menyesatkan**.

### Nilai Tengah (*Median*)

Median merupakan nilai paling tengah (jika data berjumlah **gasal**) atau rata-rata dari 2 nilai tengah (jika data berjumlah **genap**). Untuk menentukan *median*, syarat pertama adalah data harus dalam keadaan **terurut**.

> Berbeda dengan *mean*, *median* tidak bergantung pada nilai setiap observasi. Sebagai contoh, pada contoh data `x` dengan 5 observasi, jika nilai terbesar dan terkecil masing-masing diperbesar dan diperkecil secara berturut-turut, nilai *median* akan tetap sama.

NumPy juga menyediakan fungsi bawaan untuk menghitung *median* dari suatu data.

In [None]:
np.median(num_friends)

In [None]:
num_friends[0] = 100
np.median(num_friends)

In [None]:
num_friends[0] = 1.
np.median(num_friends)

> **Kuis:**
>
> Buatlah fungsi dengan Python murni (tanpa pustaka apapun) untuk menghitung *median*!

### Modus (*Mode*)

Modus atau *mode* adalah nilai dengan frekuensi kemunculan paling tinggi. Umumnya, *mode* digunakan pada data kategoris, baik ordinal atau nominal. Kita bisa menganggap *mode* adalah salah satu opsi atau nilai yang paling populer atau banyak dipilih.

Sayangnya, NumPy tidak memiliki fungsi bawaan untuk mencari modus dari sebuah data. Oleh karena itu, kita bisa membuat fungsi dalam Python murni untuk menentukan modus dari data.

In [None]:
def mode(x):
    """Return a list of most-frequent values in x, might be more than one."""
    counts = {
        value: x.count(value)
        for value in set(x)
    }
    max_count = max(counts.values())
    return [
        (v, c) for v, c in counts.items()
        if c == max_count
    ]

In [None]:
mode(num_friends)

## Ukuran Persebaran Data

Jenis ukuran kedua yang bisa digunakan untuk menggambarkan data adalah persebaran data. Mengukur persebaran data ini penting karena kita bisa melihat apakah ukuran pemusatan data sebelumnya cukup relevan dan mewakili keseluruhan data. Sebagai contoh, jika persebaran suatu data besar, maka rata-rata data tersebut tidak cukup menggambarkan kondisi data sebenarnya.

### Kuantil (*Quantile*)

Secara umum, *quantile* merepresentasikan sebuah **porsi** yang membagi keseluruhan jumlah observasi, di mana nilai-nilai di dalamnya kurang dari sebuah **nilai tertentu**, menjadi sama banyak. Sebagai contoh, *median* adalah kuantil $0.5$ kuantil karena membagi keseluruhan data menjadi 2 bagian yang sama banyaknya yang 50% data berada di bawah titik tersebut.

*Quantile* bisa membagi data menjadi berapapun porsi dalam data. Misalkan, $0.1$ *quantile* merepresentasikan sebuah titik observasi yang sebanyak 10% dari data kurang dari nilai titik tersebut. Oleh karena itu, data perlu diurutkan terlebih dahulu, sama seperti *median*.

Berdasarkan porsi nya, *quantile* ada beberapa jenis:
* **Kuartil (*quartiles*)** - membagi data menjadi 4 porsi (masing-masing 25%)
* **Kuintil (*quintiles*)** - membagi data menjadi 5 porsi (masing-masing 20%)
* **Desil (*deciles*)** - membagi data menjadi 10 porsi (masing-masing 10%)
* **Persentil (*percentiles*)** - membagi data menjadi 100 porsi (masing-masing 1%)

| *Quantile* | *Quartile* | *Percentile* |
| ----- | ----- | ----- |
| 0 | 0 | 0 |
| .25 | 1 | 25 |
| .5 | 2 | 50 |
| .75 | 3 | 75 |
| 1. | 4 | 100 |

NumPy menyediakan fungsi bawaan `numpy.quantile` untuk menentukan titik observasi di mana `q` kuantil dari data kurang dari titik tersebut. NumPy juga menyediakan fungsi tersendiri untuk menghitung beberapa jenis kuantil tersebut, seperti `numpy.percentile`.

> Jika nilai `q` pada `numpy.quantile` berada pada interval 0 sampai 1, maka `numpy.percentile` berada pada interval 0 sampai 100.

In [None]:
np.quantile(num_friends, .5) == np.median(num_friends)

In [None]:
print(np.quantile(num_friends, .25))
print(np.percentile(num_friends, 25))

In [None]:
print(np.quantile(num_friends, [.25, .5, .75]))

In [None]:
print(np.percentile(num_friends, [25, 50, 75]))

> **Kuis:**
>
> Buatlah sebuah fungsi yang menentukan kuantil dari sebuah data menggunakan Python murni tanpa bantuan pustaka apapuan!

In [None]:
# KETIK DI SINI

### Jangkauan (*Range*)

Ukuran pertama yang paling sederhana adalah **jangkauan** atau *range*, yang merupakan jangkauan dari nilai terbesar dan terkecil dalam data.

```python
def data_range(x):
    return max(x) - min(x)
```

Selain menggunakan fungsi di atas, kita bisa menggunakan "*peak to peak*" dari NumPy, yaitu `numpy.ptp`.

In [None]:
def data_range(x):
    return max(x) - min(x)

In [None]:
data_range(num_friends) == np.ptp(num_friends)

In [None]:
print(data_range(num_friends))
print(np.ptp(num_friends))

Jika jangkauan data sama dengan **0**, yang berarti nilai `max == min`, yang terjadi ketika semua elemen dalam data adalah sama. Ini berarti, tidak ada dispersi sama sekali dalam data. Sebaliknya, jika nilai jangkauan suatu data besar, maka nilai maksimum jauh lebih besar dibanding nilai minimum dan lebih tersebar.

Sama dengan *median*, nilai *range* tidak begitu terpengaruh dari besar kecilnya elemen-elemen dalam data. Misalkan, data dengan rentang 0 sampai 100 dengan jarak antar elemen yang sama ($0, 1, 2, ..., 99, 100$) memiliki jangkauan yang sama dengan data dalam rentang 0 sampai 100 tapi semua elemen lainnya bernilai 50 ($0, 50, 50, 50, ..., 50, 100$). Meski begitu, data pertama terlihat lebih menyebar dibandingkan data kedua.

### Varian (*Variance*)

*Variance* mengukur **rata-rata kuadrat jarak antara setiap observasi dalam data terhadap rata-rata data**. Semakin besar nilai *variance*, yang berarti tipikal jarak setiap observasi terhadap rata-ratanya juga besar, maka data semakin tersebar.

> Jarak antara suatu observasi terhadap rata-ratanya disebut sebagai **deviasi**.

Perhitungan varian sedikit berbeda pada data sampel dan populasi. Perbedaannya terletak pada pembaginya yang menggunakan `n-1` untuk sampel dan `n` populasi. Secara singkat, hal ini dipercaya (secara matematis) membuat hasil varian lebih dapat merepresentasikan kondisi pada populasi.

Secara matematis, kita bisa menghitung varian dengan menggunakan persamaan berikut.

$$
\text{variance} = s^2 = \frac{\sum^{n}_{i=1}{(x_i - \bar{x})^2}}{n-1}
$$

NumPy menyediakan fungsi `numpy.var` untuk menghitung varian dengan menyediakan `ddof=1`. `ddof` atau *delta degree of freedom* adalah jumlah observasi pada kalkulasi statistik yang dibebaskan (tidak digunakan) untuk meningkatkan variansi. Oleh karena varian sample menggunakan `n-1`, maka ada `1` observasi yang dibebaskan, sehingga `ddof=1`.

In [None]:
np.var(num_friends, ddof=1)

In [None]:
np.var(num_friends)

> **Kuis:**
>
> Buatlah fungsi `sum_of_squares`, `deviation_mean`, dan `variance` untuk menghitung *variance* menggunakan Python murni tanpa bantuan pustaka apapun! (Gunakan `sum_of_squares` dan `deviation_mean` dalam fungsi `variance`)

In [None]:
# KETIK DI SINI
...

### Standar Deviasi (*Standard Deviation*)

Nilai *variance* yang merupakan kuadrat dari nilai sebenarnya pada data mungkin lebih sulit untuk diinterpretasikan. Oleh karena itu, terkadang kita lebih memilih untuk melihat nilai standar deviasi atau *standard deviation* yang merupakan akar kuadrat dari *variance*.

Persamaan matematik untuk menghitung standar deviasi adalah sebagai berikut.

$$
\text{standard deviation} = s = \sqrt{\frac{\sum^{n}_{i=1}{(x_i - \bar{x})^2}}{n-1}}
$$

Dengan python,

```python
def standard_deviation(x):
    return variance(x)**(1/2)
```

Perhatikan bahwa `variance` pada fungsi `standard_deviation` di atas adalah fungsi yang kita buat sebelumnya.

NumPy juga menyediakan fungsi untuk menghitung standar deviasi dengan `numpy.std` dengan memasukkan `ddof` yang sama seperti `numpy.var`.

In [None]:
np.std(num_friends, ddof=1)

> Perhatikan bahwa karena standar deviasi dan varian menggunakan *mean* dan bergantung pada setiap nilai dalam data, maka standar deviasi dan varian memiliki sensitivitas yang sama dengan *mean* terhadap pencilan atau *outlier*.

### Jangkauan Interkuartil (*Interquartile Range*)

Alternatif lain yang tidak sensitif terhadap pencilan daripada standar deviasi adalah **jangkauan interkuartil** atau *interquartile range*. Jangkauan interkuartil menghitung selisih antara *percentile* ke-75 dengan *percentile* ke-25 atau selisih antara Q3 dengan Q1 dalam bentuk kuartil.

Kita bisa memanfaatkan `numpy.quantile` untuk menentukan Q1 dan Q3 yang kemudian dikurangkan untuk mendapatkan jangkauan interkuartil.

In [None]:
q1, q3 = np.quantile(num_friends, [.25, .75])
IQR = q3 - q1

print(q1)
print(q3)
print(IQR)

### Kovarian (*Covariance*) dan Korelasi (*Correlation*)

Kita terkadang ingin membandingkan bagaimana suatu statistik pada satu variabel berhubungan dengan statistik pada variabel yang lain. 

Untuk mengukur hal tersebut, kita bisa menggunakan kovarian atau *covariance* yang mengukur bagaimana dua variabel bervariasi satu dengan yang lainnya. *Covariance* berbeda dengan *variance*. *Variance* mengukur bagaimana deviasi satu variabel terhadap rata-ratanya, sedangkan *covariance* mengukur bagaimana deviasi satu variabel bervariasi terhadap deviasi variabel lainnya.

Untuk menghitung *covariance*, kita gunakan persamaan matematika berikut.

$$
\text{covariance} = Cov(X, Y) = \frac{\sum^{n}_{i=1}{(x_i - \bar{x}) \cdot (y_i - \bar{y})}}{n-1}
$$

Perhatikan bahwa jika $x$ dan $y$ lebih besar atau lebih kecil dibanding rata-ratanya, maka hasil perkalian deviasinya adalah positif. Nilai kovarian yang besar mengindikasikan bahwa $x$ cenderung bernilai besar (kecil) ketika $y$ juga bernilai besar (kecil).

> Perhatikan bahwa jika $X = Y$, maka nilai `covariance` sama dengan nilai `variance` dari $X$ atau $Y$.

Kita bisa menggunakan `numpy.cov` dari NumPy yang akan menghasillkan matriks kovarian dari 1 variabel atau lebih.

In [None]:
some_friends = num_friends[::-1]

In [None]:
np.cov(num_friends, some_friends)

> **Kuis:**
>
> Buatlah fungsi `covariance` untuk menghitung *covariance* menggunakan Pyhton murni tanpa bantuan pustaka lain.

Karena sifatnya yang mirip dengan varian, di mana satuan hasilnya merupakan hasil perkalian dari 2 unit, maka sedikit sulit untuk menginterpretasikannya. Oleh karena itu, kita bisa menggunakan korelasi atau *correlation* yang menggunakan produk perkalian standar deviasi kedua variabel sebagai pembagi dari *covariance*.

Persamaan matematik untuk menghitung korelasi adalah sebagai berikut.

$$
\text{correlation} = corr(X, Y) = \frac{Cov(X, Y)}{s_X \cdot s_Y}
$$

Hasil korelasi dengan persamaan di atas juga dikenal sebagai *pearson correlation*, di mana rentang nilainya berada di antara -1 sampai 1.

> Jika korelasi antara  2 variabel bernilai -1, maka kedua variabel tersebut disebut **berkorelasi negatif** yang artinya jika satu variabel semakin besar (kecil), maka variabel lainnya akan semakin kecil (besar). Sebaliknya, jika bernilai 1, maka kedua variabel teresebut disebut **berkorelasi positif** yang artinya jika satu variabel semakin besar (kecil), maka variabel lainnya akan semakin besar (kecil).

In [None]:
np.corrcoef(some_friends, num_friends)

> **Kuis:**
>
> Buatlah fungsi `correlation` untuk menghitung korelasi menggunakan Python murni tanpa bantuan pustaka apapun.

In [None]:
# KETIK DI SINI

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=e560aa28-8a2a-4b7a-b4c7-f886a9ab2cae' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>