# Penyebaran Data

## Apa itu penyebaran data?
Pada bab sebelumnya telah dibahas bagaimana cara mengukur pusat sebuah data. Pada pengukuran pemusatan data, kita hanya mengamati distribusi frekuensi dari data. Pemusatan data tidak mengukur bagaimana penyebaran data dibandingan dengan titik pusatnya. Pada banyak kasus, kita perlu mengamati jarak data dengan titik pusatnya. Pada pertemuan sebelumnya telah disinggung tentang perhitungan rentang dan Interquartile Range (IQR). Pada bab ini, kita akan menggunakan pengukuran lain dalam mengetahui penyebaran data, yaitu varians (variance) dan simpangan baku (standard deviation)

## Pengukuran Penyebaran Data
### Varians (*Variance*)

Varians secara sederhana dapat didefinisikan sebagai seberapa jauh data menyebar dari pusat data. Varians dapat dihitung dengan mengkuadratkan nilai data dengan nilai mean dari kelompok data (dataset). Selanjutnya, pusat data yang digunakan dalam varians adalah nilai rata-rata atau means, sehingga sebelum dapat menghitung nilai varians dari sebuah dataset, maka harus dihitung terlebih dahulu nilai dari mean-nya. Persamaan 1 digunakan untuk mengukur nilai varians.

\begin{equation}
\sigma^{2}=\frac{\sum_{i=1}^{N}(x_i-\mu)^{2}}{N}
\end{equation}

Simbol $\sigma$ disebut sebagai sigma. Jika simbol sigma digunakan dalam menghitung nilai varians, maka nilai varians yang dimaksud adalah nilai varians dari sebuah populasi atau keseluruhan data. Oleh karena itu, simbol μ juga digunakan sebagai nilai mean dari populasi. Bagimana jika yang dihitung adalah nilai varians dari sampel data? Maka persamaan dirubah seperti pada Persamaan 2.

\begin{equation}
S^{2}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^{2}}{n-1}
\end{equation}

Nilai varians pada data sampel sedikit berbeda dengan pada populasi. Jumlah data pada nilai varians sampel akan dikurangi 1. Hal ini dikarenakan terdapat bias pada data sampel. Jika tidak dikurangi dengan 1 maka nilai varians yang dihasilkan tidak akurat.

### Simpangan Baku (*Standard Deviation*)
Simpangan baku (standard deviation) dapat didefinisikan sebagai seberapa banyak varasi data pada kelompok data (dataset) terhadap nilai mean. Semakin besar nilai simpangan baku maka semakin bervariasi data didalam dataset begitu juga sebaliknya. Untuk menghitung simpangan baku, kita cukup melakukan operasi pengakaran pada nilai mean, sehingga didapatkan nilai simpangan baku pada populasi dan sampel seperti pada persamaan 3 dan 4 secara berurutan.

\begin{equation}
\sigma=\sqrt{\frac{\sum_{i=1}^{N}(x_i-\mu)^{2}}{N}}
\end{equation}

\begin{equation}
S=\sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^{2}}{n-1}}
\end{equation}

#### Contoh Kasus Sederhana
Pada kelas VII SMP XYZ terdapat nilai matematika  UTS tahun 2020. Hasil UTS tersebut secara keseluruhan adalah sebagai berikut,

<br/><center>80 90 60 70 80 85 65 75 70 70</center>

Berapa nilai variance dan simpangan bakunya? Kita kerjakan dengan python!

In [9]:
import statistics
from math import sqrt

data = [80, 90, 60, 70, 80, 85, 65, 75, 70, 70]

# Cara manual untuk variance
# mean dihitung dengan library

rata_rata = statistics.mean(data)
jarak_data = 0

for i in range(len(data)):
    jarak_data = jarak_data + pow((data[i]-rata_rata),2)

var = jarak_data / len(data)
print("Nilai variance adalah {:0.2f}".format(var))

stdev = sqrt(var)
print("Nilai simpangan baku adalah {:0.2f}".format(stdev))

Nilai variance adalah 77.25
Nilai simpangan baku adalah 8.79


In [5]:
import statistics

data = [80, 90, 60, 70, 80, 85, 65, 75, 70, 70]

var = statistics.pvariance(data) # pvariance digunakan untuk menghitung variance populasi pada library statistics
print("Nilai variance adalah {:0.2f}".format(var))

stdev = statistics.stdev(data)


77.25
