## Menghitung statistika deskriptif menggunakan python


In [1]:
import math
import statistics
import numpy as np
import scipy.stats

In [3]:
x = [8.0, 1, 2.5, 4, 28.0]
x_dgn_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

x

[8.0, 1, 2.5, 4, 28.0]

In [4]:
x_dgn_nan

[8.0, 1, 2.5, nan, 4, 28.0]

In [5]:
y, y_dgn_nan = np.array(x), np.array(x_dgn_nan)

In [6]:
y

array([ 8. ,  1. ,  2.5,  4. , 28. ])

In [7]:
y_dgn_nan

array([ 8. ,  1. ,  2.5,  nan,  4. , 28. ])

In [8]:
# Hitung mean tanpa import library
mean_ = sum(x) / len(x)
mean_

8.7

In [9]:
mean_ = statistics.mean(x)
mean_

8.7

In [11]:
# Menghitung mean dengan mengabaikan nilai nan
np.nanmean(y_dgn_nan)

8.7

In [14]:
x = [8.0, 1, 2.5, 4, 28.0]
w = [0.1, 0.2, 0.3, 0.25, 0.15]

wmean = sum(w[i] * x[i] for i in range(len(x))) / sum(w)
wmean

6.95

In [15]:
wmean = sum(x_ * w_ for (x_, w_) in zip(x, w)) / sum(w)
wmean

6.95

In [16]:
y, w = np.array(x), np.array(w)
wmean = np.average(y, weights=w)
wmean

6.95

In [17]:
# Hati-hati ketika melakukan perhitungan untuk data berisi nilai nan.

w = np.array([0.1, 0.2, 0.3, 0.0, 0.2, 0.1])
np.average(y_dgn_nan, weights=w)

nan

In [18]:
hmean = len(x) / sum(1 / item for item in x)
hmean

2.7613412228796843

In [20]:
#Kita juga bisa menggunakan statistics.harmonic_mean():

hmean = statistics.harmonic_mean(x)
hmean

#Jika terdapat nilai nan, maka statistics.harmonic_mean() akan menghasilkan nilai nan, 
# dan jika terdapat nilai negatif, maka akan terjadi error dalam perhitungannya:

2.7613412228796843

In [21]:
# Geometric Mean

gmean = 1
for item in x:
     gmean *= item

gmean **= 1 / len(x)
gmean

4.677885674856041

In [22]:
#Pada python 3.8 kita dapat menggunakan statistics.geometric_mean(), yang akan mengubah semua 
# nilai pada dataset menjadi float kemudian menghitung rataan geometrisnya:

gmean = statistics.geometric_mean(x)
gmean

4.67788567485604

## Median, Mean, Modus

Median suatu sampel merupakan nilai tengah dari dataset yang telah diurutkan. Dataset tersebut dapat diurutkan secara naik atau turun. Jika jumlah elemen n dari dataset adalah ganjil maka median adalah elemen pada posisi 0.5(n+1). Jika n genap, maka mediannya adalah rataan aritmatika dari dua nilai tengah, yaitu yang berada pada posisi 0.5n dan 0.5n+1. Perbedaan utama antara sifat mean dan median dari suatu dataset adalah hubungannya dengan outlier pada dataset tersebut. Nilai mean sangat dipengaruhi oleh outlier sedangkan nilai median hampir tidak dipengaruhi atau bahkan tidak dipengaruhi sama sekali.

In [23]:
n = len(x)
if n % 2:
     median_ = sorted(x)[round(0.5*(n-1))]
else:
     x_ord, index = sorted(x), round(0.5 * n)

median_ = 0.5 * (x_ord[index-1] + x_ord[index])

median_

NameError: name 'x_ord' is not defined

In [24]:
median_ = statistics.median(x)
median_

4

In [25]:
# Cara yang lain untuk mendapatkan nilai median adalah menggunakan np.median():

median_ = np.median(y)
median_

4.0

In [26]:
u = [2, 3, 2, 8, 12]
mode_ = max((u.count(item), item) for item in set(u))[1]
mode_

2

In [28]:
mode_ = statistics.mode(u)
mode_

2

In [29]:
mode_ = statistics.multimode(u)
mode_

[2]

In [33]:
v = [12, 15, 12, math.nan, 15, 21, 15, 12]
statistics.mode(v)  # StatisticsError

12

In [34]:
statistics.multimode(v)

[12, 15]

## Varians

In [35]:
n = len(x)
mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
var_

123.19999999999999

In [37]:
#Cara yang lebih singkat dan elegan adalah menggunakan statistics.variance():

var_ = statistics.variance(x_dgn_nan)
var_

nan

In [38]:
var_ = statistics.variance(x)
var_

123.2

## Standar Deviasi
atau simpangan baku.

In [39]:
std_ = var_ ** 0.5
std_

11.099549540409287

In [40]:
std_ = statistics.stdev(x)
std_

11.099549540409287

## Skewness

In [41]:
x = [8.0, 1, 2.5, 4, 28.0]
n = len(x)
mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
std_ = var_ ** 0.5
skew_ = (sum((item - mean_)**3 for item in x)
         * n / ((n - 1) * (n - 2) * std_**3))
skew_

1.9470432273905929

In [42]:
y, y_dgn_nan = np.array(x), np.array(x_dgn_nan)
scipy.stats.skew(y, bias=False)

1.9470432273905927

In [43]:
scipy.stats.skew(y_dgn_nan, bias=False)

nan

## Percentiles 

Setiap data memiliki tiga nilai kuartil, yang membagi data menjadi 4 bagian sama besar.

- Kuartil pertama (Q1) adalah persentil ke-25 dari data
- Kuartil kedua (Q2) adalah persentil ke-50 dari data yang juga merupakan median dari data tersebut.
- Kuartil ketiga (Q3) adalah persentil ke-75 dari data

In [44]:
x = [-5.0, -1.1, 0.1, 2.0, 8.0, 12.8, 21.0, 25.8, 41.0]
y = np.array(x)
np.percentile(y, 5)

-3.44

In [45]:
np.percentile(y, 95)

34.919999999999995

In [46]:
# Jika kita ingin mengabaikan nilai nan pada data maka digunakan np.nanpercentile():

y_dgn_nan = np.insert(y, 2, np.nan)
y_dgn_nan

array([-5. , -1.1,  nan,  0.1,  2. ,  8. , 12.8, 21. , 25.8, 41. ])

In [47]:
np.nanpercentile(y_dgn_nan, [25, 50, 75])

array([ 0.1,  8. , 21. ])

## Ranges
adalah selisih antara elemen maksimum dan elemen minimum pada suatu dataset. Kita dapat menghitungnya dengan fungsi np.ptp():

In [48]:
np.ptp(y)

46.0

In [49]:
np.ptp(y_dgn_nan)

nan

In [50]:
np.amax(y) - np.amin(y)

46.0

In [51]:
np.nanmax(y_dgn_nan) - np.nanmin(y_dgn_nan)

46.0

In [52]:
y.max() - y.min()

46.0

## Menghitung Korelasi Antara Sepasang Data


In [53]:
n = len(x)
mean_x, mean_y = sum(x) / n, sum(y) / n
cov_xy = (sum((x[k] - mean_x) * (y[k] - mean_y) for k in range(n))
          / (n - 1))
cov_xy

228.75194444444446

In [54]:
# Dengan menggunakan np.cov() dari NumPy kita akan mendapatkan matriks kovariansi:

cov_matrix = np.cov(x_, y_)
cov_matrix

NameError: name 'x_' is not defined

## Correlation coefficient
untuk menghitung koefisien korelasi hanya menggunakan fungsi bawaan python adalah sebagai berikut:

In [56]:
var_x = sum((item - mean_x)**2 for item in x) / (n - 1)
var_y = sum((item - mean_y)**2 for item in y) / (n - 1)
std_x, std_y = var_x ** 0.5, var_y ** 0.5
r = cov_xy / (std_x * std_y)
r

1.0

In [57]:
## Library scipy.stats memiliki fungsi pearsonr() yang menghitung nilai dari koefisien korelasi dan juga nilai p-value nya:

r, p = scipy.stats.pearsonr(x_, y_)
r

NameError: name 'x_' is not defined

In [58]:
p

NameError: name 'p' is not defined