# Menghitung statistika deskriptif menggunakan python

Pada saat ini kita hanya akan menggunakan library **_statistics, NumPy, dan SciPy_** untuk menghitung nilai-nilai yang dihasilkan dari `statistika deskriptif`.

In [19]:
# import library
import math
import statistics
import numpy as np
import scipy.stats

In [20]:
# buat data list dengan data numerik yang random
x = [8.0, 1, 2.5, 4, 28.0]
x_dgn_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

print(x)
print(x_dgn_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [21]:
# buat numpy ndarray objek dari dua variabel sebelumnya
y, y_dgn_nan = np.array(x), np.array(x_dgn_nan)

print(y)
print(y_dgn_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]


# Menghitung Ukuran Pemusatan Data

### Mean

In [22]:
# Mean (rataan) Kita dapat menghitung mean hanya dengan python tanpa meng-import library apapun menggunakan sum() dan len():
mean_ = sum(x)/len(x)
mean_

8.7

In [23]:
# Kita juga bisa menggunakan fungsi bawaan dari library statistics python:
mean_ = statistics.mean(x)
mean_

8.7

In [24]:
mean_ = statistics.fmean(x)
mean_

8.7

In [25]:
# Fungsi fmean() mulai dikenalkan pada python 3.8 sebagai alternatif untuk perhitungan yang lebih cepat
# dan selalu menghasilkan nilai float.
# Namun, fungsi mean() dan fmean() akan menghasilkan nilai nan jika di dalam variabel yang dihitungnya berisi nilai nan.

mean_ = statistics.mean(x_dgn_nan)
mean_

nan

In [26]:
mean_ = statistics.fmean(x_dgn_nan)
mean_

nan

In [27]:
# Jika kita ingin mengabaikan nilai nan yang ada pada variabel tersebut maka dapat menggunakan np.nanmean()
mean_ = np.nanmean(y_dgn_nan)
mean_

8.7

## Weighted Mean

In [28]:
x = [8.0, 1, 2.5, 4, 28.0]
w = [0.1, 0.2, 0.3, 0.25, 0.15]

# hitung wmean dengan menggunakan range dan loop(), dikombinasikan dengan sum() serta len()
wmean = sum(x[i] * w[i] for i in range(len(x))) / sum(w)
wmean

6.95

In [29]:
# hitung wmean dengan menggunakan zip, dikombinasikan dengan sum() serta len()
wmean = sum(x_ * w_ for x_, w_ in zip(x, w)) / sum(w)
wmean

6.95

In [30]:
# Tetapi jika kita memiliki dataset yang cukup besar, 
# maka NumPy memberikan soolusi yang lebih baik untuk penghitungan weighted mean ini menggunakan np.average()
y, w = np.array(x), np.array(w)
wmean = np.average(y, weights=w)
wmean

6.95

In [31]:
# Note: Hati-hati ketika melakukan perhitungan untuk data berisi nilai nan.
w = np.array([0.1, 0.2, 0.3, 0.0, 0.2, 0.1])
np.average(y_dgn_nan, weights=w)

nan

## Harmonic Mean

In [32]:
hmean = len(x) / sum(1 / item for item in x)
hmean

2.7613412228796843

In [33]:
# versi dengan menggunakan library statistics
hmean = statistics.harmonic_mean(x)
hmean

2.7613412228796843

In [34]:
# Jika terdapat nilai nan, maka statistics.harmonic_mean() akan menghasilkan nilai nan,
# dan jika terdapat nilai negatif, maka akan terjadi error dalam perhitungannya
statistics.harmonic_mean(x_dgn_nan)

nan

In [35]:
statistics.harmonic_mean([1, 0, 2])

0

In [36]:
statistics.harmonic_mean([1, 2, -2]) # StatisticsError

StatisticsError: harmonic mean does not support negative values

In [37]:
# cara ketiga dengan menggunakan library scipy.stats.hmean()
scipy.stats.hmean(y)

2.7613412228796843

## Geometric Mean

In [38]:
gmean = 1
for item in x:
    gmean *= item
gmean **= 1 / len(x)
gmean

4.677885674856041

In [39]:
# Pada python 3.8 kita dapat menggunakan statistics.geometric_mean(),
# yang akan mengubah semua nilai pada dataset menjadi float kemudian menghitung rataan geometrisnya
gmean = statistics.geometric_mean(x)
gmean

4.67788567485604

In [40]:
# Dengan menggunakan scipy.stats.gmean()
gmean = scipy.stats.gmean(y)
gmean

4.67788567485604

In [41]:
# Jika terdapat nilai nan pada dataset maka gmean() akan menghasilkan nan.
gmean = scipy.stats.gmean(x_dgn_nan)
print(gmean)
# Jika terdapat satu saja nilai 0, maka akan menghasilkan rataan geometris 0 disertai peringatan.
gmean = scipy.stats.gmean([4, 6, 0, 10])
print(gmean)

nan
0.0


  log_a = np.log(np.array(a, dtype=dtype))


## Median

suatu sampel merupakan nilai tengah dari dataset yang telah diurutkan. Dataset tersebut dapat diurutkan secara naik atau turun.

**Note:** `Perbedaan utama antara sifat mean dan median dari suatu dataset adalah hubungannya dengan outlier pada dataset tersebut. Nilai mean sangat dipengaruhi oleh outlier sedangkan nilai median hampir tidak dipengaruhi atau bahkan tidak dipengaruhi sama sekali.`

In [42]:
n = len(x)

if n % 2:
    # untuk data yang jumlahnya ganjil
    median_ = sorted(x)[round(0.5*(n-1))] # --> yang bagian dalam kurung itu sebagai penanda untuk akses indeks list-nya
else:
    # untuk data yang jumlahnya genap
    x_ord, index = sorted(x), round(0.5 * n)
    median_ = 0.5 * (x_ord[index-1] + x_ord[index])
median_

4

Langkah penting pada proses di atas adalah:

1. Mengurutkan elemen-elemen pada dataset
2. Mencari elemen tengah pada dataset yang telah diurutkan

In [43]:
# Kita juga bisa mendapatkan nilai median dengan statistics.median()
median = statistics.median(x)
median

4

In [44]:
# Cara yang lain untuk mendapatkan nilai median adalah menggunakan np.median()
median = np.median(y)
median

4.0

## Mode

Mode atau modus dari suatu sampel dataset adalah nilai yang paling banyak muncul dalam dataset tersebut.

In [70]:
u = [2, 3, 2, 8, 12]

In [57]:
max((u.count(item), item) for item in set(u)) # (banyak valuenya, valuenya)

(2, 2)

In [58]:
mode = max((u.count(item), item) for item in set(u))[1]
mode

2

In [59]:
# Kita dapat mencari modus dari suatu daset menggunakan statistics.mode(),
# dan juga menggunakan statistics.multimode() (mulai dikenalkan pada python 3.8) jika nilai modusnya tidak hanya satu
mode_ = statistics.mode(u)
mode_

2

In [60]:
mode_ = statistics.multimode(u)
mode_

[2]

In [61]:
v = [12, 15, 12, 15, 21, 15, 12]
statistics.mode(v)  # StatisticsError

12

In [62]:
statistics.multimode(v)

[12, 15]

In [63]:
statistics.mode([12, 5, 12, 12, math.nan, 5])

12

In [65]:
statistics.multimode([12, 5, 12, 12, math.nan, 5, 5, 6, 6, 6])

[12, 5, 6]

In [71]:
# Untuk menghasilkan nilai modus jika menggunakan scipy.stats.mode()
u, v = np.array(u), np.array(v)
mode_ = scipy.stats.mode(u)
mode_

ModeResult(mode=array([2]), count=array([2]))

In [72]:
# Jika terdapat lebih dari satu nilai modus, scipy.stats.mode() akan menjadikan nilai terkecil sebagai modus.
mode_ = scipy.stats.mode(v)
mode_

ModeResult(mode=array([12]), count=array([3]))

# Menghitung Ukuran Sebaran Data

## Variance atau Variansi

In [73]:
n = len(x)
mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
var_

123.19999999999999

In [74]:
# Cara yang lebih singkat dan elegan adalah menggunakan statistics.variance()
var_ = statistics.variance(x)
var_

123.2

In [75]:
statistics.variance([12, 5, 6, 2, 3, math.nan])

nan

In [80]:
# Cara yang lain yaitu menggunakan fungsi np.var() atau metode .var()
var_ = np.var(y, ddof=1) # default ddof=False, jika False berarti menghitung ukuran populasi, jika True untuk ukuran sample
var_

123.19999999999999

In [77]:
var_ = y.var(ddof=1)
var_

123.19999999999999

In [81]:
# Penting untuk mendefinisikan nilai ddof=1.
# Parameter ini digunakan agar perhitungan nilai s2 sesuai yaitu menggunakan n-1 sebagai pembagi bukan n saja.
# Untuk dataset yang memiliki nilai nan, kita dapat mengabaikan nilai nan tersebut dengan np.nanvar()

np.nanvar(y_dgn_nan, ddof=1)

123.19999999999999

## Standar Deviasi atau Simpangan Baku

In [82]:
std_ = var_ ** 0.5
std_

11.099549540409285

In [83]:
# Kita juga bisa menggunakan statistics.dev()
std_ = statistics.stdev(x)
std_

11.099549540409287

In [84]:
# Jika kita menggunakan Numpy, perhatikan untuk menggunakan fungsi yang sesuai jika terdapat nilai nan
np.std(y, ddof=1)

11.099549540409285

In [85]:
y.std(ddof=1)

11.099549540409285

In [86]:
np.std(y_dgn_nan, ddof=1)

nan

In [87]:
y_dgn_nan.std(ddof=1)

nan

In [88]:
np.nanstd(y_dgn_nan, ddof=1)

11.099549540409285

## Skewness

In [89]:
x = [8.0, 1, 2.5, 4, 28.0]
n = len(x)
mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
std_ = var_ ** 0.5
skew_ = (sum((item - mean_)**3 for item in x) * n / ((n - 1) * (n - 2) * std_**3))
skew_

1.9470432273905929

In [90]:
# Kita juga bisa menggunakan scipy.stats.skew()
y, y_dgn_nan = np.array(x), np.array(x_dgn_nan)
scipy.stats.skew(y, bias=False)

1.9470432273905927

In [91]:
scipy.stats.skew(y_dgn_nan, bias=False)

nan

**_Note:_**: `suatu dataset dapat dianggap simetris jika memiliki nilai skewness mendekati 0, yaitu antara -0.5 dan 0.5.`

## Percentiles

Percentiles ke-p dari sekumpulan data adalah nilai dimana p% dari data tersebut berada dibawahnya. Setiap data memiliki tiga nilai kuartil, yang membagi data menjadi 4 bagian sama besar.

1. Kuartil pertama (Q1) adalah persentil ke-25 dari data
2. Kuartil kedua (Q2) adalah persentil ke-50 dari data yang juga merupakan median dari data tersebut.
3. Kuartil ketiga (Q3) adalah persentil ke-75 dari data

Nilai persentil dapat dicari menggunakan np.percentile()

In [92]:
x = [-5.0, -1.1, 0.1, 2.0, 8.0, 12.8, 21.0, 25.8, 41.0]
y = np.array(x)
np.percentile(y, 5)

-3.44

In [93]:
np.percentile(y, 95)

34.919999999999995

In [94]:
# Jika kita ingin mengabaikan nilai nan pada data maka digunakan np.nanpercentile()
y_dgn_nan = np.insert(y, 2, np.nan)
y_dgn_nan

array([-5. , -1.1,  nan,  0.1,  2. ,  8. , 12.8, 21. , 25.8, 41. ])

In [95]:
np.nanpercentile(y_dgn_nan, [25, 50, 75])

array([ 0.1,  8. , 21. ])

## Range
Ranges dari data adalah selisih antara elemen maksimum dan elemen minimum pada suatu dataset.

In [96]:
# Kita dapat menghitungnya dengan fungsi np.ptp()
np.ptp(y)

46.0

In [97]:
np.ptp(y_dgn_nan)

nan

In [98]:
# Alternatifnya, kita bisa menggunakan fungsi bawaan python dan NumPy
np.amax(y) - np.amin(y)

46.0

In [99]:
np.nanmax(y_dgn_nan) - np.nanmin(y_dgn_nan)

46.0

In [100]:
y.max() - y.min()

46.0

# Menghitung Korelasi Antara Sepasang Data
Korelasi atau hubungan antara sepasang data dapat dilihat dengan menghitung:

## Covariance

In [101]:
n = len(x)
mean_x, mean_y = sum(x) / n, sum(y) / n
cov_xy = (sum((x[k] - mean_x) * (y[k] - mean_y) for k in range(n)) / (n - 1))
cov_xy

228.75194444444446

In [103]:
# Dengan menggunakan np.cov() dari NumPy kita akan mendapatkan matriks kovariansi
cov_matrix = np.cov(x, y)
cov_matrix

array([[228.75194444, 228.75194444],
       [228.75194444, 228.75194444]])

In [104]:
# Note:
# Dimana nilai 38.5 atau posisi atas kiri merupakan nilai variansi dari x,
# dan nilai 13.91 merupakan nilai variansi dari y,
# dan dua nilai lainnya merupakan nilai kovariansi antara x dan y, yaitu 19.95.

## Correlation Coefficient

In [105]:
var_x = sum((item - mean_x)**2 for item in x) / (n - 1)
var_y = sum((item - mean_y)**2 for item in y) / (n - 1)
std_x, std_y = var_x ** 0.5, var_y ** 0.5
r = cov_xy / (std_x * std_y)
r

1.0

In [107]:
# Library scipy.stats memiliki fungsi pearsonr() yang menghitung nilai dari koefisien korelasi dan juga nilai p-value nya
r, p = scipy.stats.pearsonr(x, y)
r

1.0

In [108]:
p

0.0

In [110]:
# Jika ingin menggunakan NumPy,
# dapat memakai fungsi np.corrcoef() dengan argumen x_ dan y_, maka didapatkan matriks koefisien korelasinya
corr_matrix = np.corrcoef(x, y)
corr_matrix

array([[1., 1.],
       [1., 1.]])

In [111]:
# Note
# Nilai 1 pada matriks tersebut menunjukkan koefisien korelasi antara satu argumen dengan dirinya sendiri,
# sedangkan dua nilai yang lain menunjukkan koefisien korelasi antara kedua argumen yakni x_ dan y_

In [112]:
r = corr_matrix[0, 1]
r

1.0

In [113]:
r = corr_matrix[1, 0]
r

1.0

In [117]:
# Kita juga bisa menggukanan fungsi scipy.stats.linregress() yang akan menghasilkan beberapa nilai,
# salah satunya adalah koefisien korelasinya
scipy.stats.linregress(x, y)

LinregressResult(slope=1.0, intercept=0.0, rvalue=1.0, pvalue=3.292585384803146e-70, stderr=0.0)

In [119]:
result = scipy.stats.linregress(x, y)
r = result.rvalue
r

1.0