# Measuring Dispersion
Nah, pada materi kali ini, kita akan fokus membahas sebuah konsep statistik untuk menilai sebaran dari suatu data yaitu measuring dispersion atau sering juga disebut measures of spread. Ia akan memberikan informasi terkait seberapa jauh suatu titik data dengan titik data lainnya. Hal ini mampu memberikan kita gambaran variasi nilai dari data tersebut. Untuk menggambarkan measuring dispersion, kita dapat menggunakan empat parameter, yaitu range, interquartile range, variance, dan standard deviation 

![image.png](attachment:image.png)

## 1. Range
Parameter pertama yang akan kita bahas adalah range. Ia merupakan parameter yang digunakan untuk melihat perbedaan antara nilai maksimum dan minimum dari suatu data. 

Untuk menghitung parameter ini, kita perlu mengidentifikasi nilai maksimum dan minimum dari suatu data terlebih dahulu. Selanjutnya, kita mengurangi nilai maksimum dan nilai minimum. Selisih inilah yang menjadi parameter range.

Sebagai contoh, jumlah maksimal kucing yang dipelihara oleh pegawai Dicoding adalah 3 ekor dan paling sedikit adalah 0 ekor. Dengan menghitung selisih keduanya, kita akan memperoleh nilai range dari data tersebut. 

<img src="https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:b012f4ca28a2fab0211c5527a77ecfbe20230309132432.png" width="300">

Kita juga bisa menghitung parameter range menggunakan library NumPy. Anda dapat menggunakan kode berikut untuk menghitung parameter range dari data jumlah kucing peliharaan yang dimiliki pegawai Dicoding.

In [2]:
import numpy as np
 
jumlah_kucing = np.array([3, 2, 1, 1, 2, 3, 2, 1, 0, 2])
range = jumlah_kucing.max() - jumlah_kucing.min()
print(range)

3


## 2. Interquartile Range
Interquartile Range atau sering disingkat IQR merupakan parameter statistik yang menggambarkan selisih antara kuartil ketiga (Q3) dan kuartil pertama (Q1). Parameter ini mewakili nilai range atau rentang di mana sebagian besar titik data berada.

Untuk menghitung IQR, kita perlu menentukan nilai Q1 dan Q3 terlebih dahulu. Selanjutnya, kita dapat menghitung selisih keduanya. Selisih inilah yang menjadi nilai dari parameter IQR. 

Sebagai contoh, data jumlah kucing peliharaan pegawai Dicoding memiliki nilai Q1=1 dan Q3=2. Dengan menghitung selisih keduanya, kita akan memperoleh nilai parameter IQR.

<img src="https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:a99520c5a1b9f51f6671f87157a8939d20230309132444.png" width="300">

Berikut merupakan contoh kode yang dapat digunakan untuk menghitung IQR menggunakan library NumPy.

In [1]:
import numpy as np
 
jumlah_kucing = np.array([3, 2, 1, 1, 2, 3, 2, 1, 0, 2])
iqr = np.percentile(jumlah_kucing, 75) - np.percentile(jumlah_kucing, 25)
print(iqr)

1.0


## 3. Variance
Selain range dan IQR, sebaran dari suatu data juga dapat direpresentasikan menggunakan parameter variance. Ia merupakan parameter yang digunakan untuk menggambarkan besar simpangan suatu titik data dari nilai mean-nya. 

Sebelum menghitung nilai variance, kita membutuhkan nilai mean terlebih dahulu. Berikutnya kita perlu menghitung total selisih kuadrat dari seluruh titik data dengan nilai mean-nya. Nilai total tersebut selanjutnya akan dibagi dengan banyak titik data yang dimiliki. Berikut merupakan rumus untuk menghitung variance.

<img src="https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:29f5abf475e73f95a39f9147ee4f6b5020230126162829.jpeg" width="300">

Sebagai contoh, mari kita menghitung variance dari data jumlah kucing peliharaan pegawai Dicoding. Pertama kita perlu menghitung nilai mean terlebih dahulu. Berikutnya, hitunglah selisih kuadrat nilai mean dengan tiap titik data. Selanjutnya, jumlahkan seluruh selisih kuadrat tersebut dan membaginya dengan banyaknya karyawan Dicoding. Hasil pembagian inilah yang menjadi nilai variance dari data kucing peliharaan pegawai Dicoding.


<img src="https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:bf3815a1e26ecf4ef874be710bcb263620230126162829.jpeg" width="300">

Mungkin sebagian dari Anda merasa perhitungan di atas cukup merepotkan, terlebih lagi jika jumlah data yang dimiliki cukup banyak. Tenang jangan khawatir karena library pandas telah menyediakan sebuah method untuk menghitung nilai variance secara lebih cepat dan efisien. Berikut merupakan contoh kode untuk menggunakan function tersebut.

In [3]:
import numpy as np
import pandas as pd
 
jumlah_kucing = np.array([3, 2, 1, 1, 2, 3, 2, 1, 0, 2])
jumlah_kucing_series = pd.Series(jumlah_kucing)
jumlah_kucing_series.var()

0.9000000000000001

## 4. Standard Deviation
Jika Anda perhatikan, pada perhitungan variance kita sebenarnya telah menghitung rata-rata selisih kuadrat antar titik data dan nilai mean-nya. Penggunaan selisih kuadrat ini membuat unit dari parameter variance berbeda dengan unit data sehingga cukup sulit untuk diinterpretasikan. Oleh karena itu, kita membutuhkan satu parameter lain yang akan menghitung akar kuadrat dari variance. Parameter tersebut bernama standard deviation.

<img src="https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:f12d1d8be697d17929af6aaf1b4f3af920230126162829.jpeg" width="300">

Melanjutkan contoh sebelumnya, kita bisa menghitung nilai standard deviation dari data jumlah kucing peliharaan pegawai Dicoding dengan mencari nilai akar kuadrat dari variance-nya. Cara menghitungnya cukup mudah, bukan? 

<img src="https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:fd036ac2fbbdaaa176d92ff63f6aef6520230126162829.jpeg" width="300">

Kita juga dapat menggunakan library pandas untuk menghitung standard deviation. Berikut merupakan contoh kode untuk melakukannya.

In [4]:
import numpy as np
import pandas as pd
 
jumlah_kucing = np.array([3, 2, 1, 1, 2, 3, 2, 1, 0, 2])
jumlah_kucing_series = pd.Series(jumlah_kucing)
jumlah_kucing_series.std()

0.9486832980505139

Standard deviation merupakan parameter yang paling sering digunakan para praktisi data untuk menilai sebaran atau simpangan dalam sebuah data. Semakin kecil nilai standard deviation, semakin kecil pula jarak antar titik data dengan nilai mean-nya sehingga bisa disimpulkan data tersebut memiliki sebaran yang sempit. Di sisi lain, semakin besar nilai standard deviation, semakin luas pula sebaran datanya. Selain itu, standard deviation juga sering digunakan untuk menilai seberapa baik parameter mean dalam merepresentasikan suatu data.