Menghitung Descriptive Statistics

In [2]:
import math 
import statistics 
import numpy as np 
import scipy.stats 
import pandas as pd 

In [3]:
#list python yang berisi beberapa data numerik
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
print(x)
print(x_with_nan) #berisi nilai nan

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [4]:
#membuat np.ndarray dan pd.Series sesuai dengan x dan x_with_nan
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


Mean

In [5]:
#menghitung mean dengan pure Python menggunakan sum() dan len()
mean_ = sum(x) / len(x)
mean_

8.7

In [7]:
#menghitung mean dengan menerapkan fungsi statistics built-in python
mean_ = statistics.mean(x)
print(mean_)

8.7


In [8]:
mean_ = statistics.mean(x_with_nan)
print(mean_)
#menghasilkan nilai nan karena hasil ini konsisten dengan behavior sum()
#karena sum(x_with_nan) juga mengembalikan nan

nan


In [10]:
#menghitung mean dengan numpy
mean_ = np.mean(y)
mean_

8.7

In [11]:
#menggunakan method .mean()
mean = y.mean()
mean_

8.7

In [12]:
#meskipun menggunakan numpy ketika ada nilai nan pada data kita
#maka hasilnya akan tetap sama seperti pada statistics
print(np.mean(y_with_nan))
print(y_with_nan.mean())

nan
nan


In [13]:
#tetapi jika kita tidak ingin menampilkan nan maka gunakan nanmean()
#nanmean() ini akan mengabaikan semua nilai nan
np.nanmean(y_with_nan)

8.7

In [14]:
#menghitung mean dengan pandas
#sedikit berbeda jika dengan pandas saat kita memiliki nilai nan pada data,
#maka pandas akan mengabaikan nilai nan secara default
z_with_nan.mean()

8.7

Weight Mean

In [15]:
#membuat weight mean dengan cara menggabungkan sum() dengan range() atau zip()
x = [8.0, 1, 2.5, 4, 28.0]
w = [0.1, 0.2, 0.3, 0.25, 0.15]

wmean = sum(w[i] * x[i] for i in range(len(x))) / sum(w)
print(wmean)

wmean = sum(x_ * w_ for (x_, w_) in zip (x, w)) / sum(w)
print(wmean)

6.95
6.95


In [16]:
#jika kita memiliki  kumpulan data yang besar, maka kita dapat menggunakan np.average()
#untuk mendapatkan weighted mean dari array numpy atau series pandas
y, z, w = np.array(x), pd.Series(x), np.array(w)

wmean = np.average(y, weights=w)
print(wmean)

wmean = np.average(z, weights=w)
print(wmean)

6.95
6.95


Harmonic Mean

In [17]:
hmean = len(x) / sum(1 / item for item in x)
hmean

2.7613412228796843

In [18]:
#menghitung harmonic mean dengan statistics.harmonic_mean()
hmean = statistics.harmonic_mean(x)
hmean

2.7613412228796843

Geometric Mean

In [19]:
#mendapatkan geometric mean hanya dengan python
gmean = 1

for item in x:
    gmean *= item

gmean **= 1 / len(x)
gmean

4.677885674856041

In [20]:
#membuat geometric mean dengan scipy.stats.gmean()
scipy.stats.gmean(y)

4.67788567485604

In [21]:
scipy.stats.gmean(z)

4.67788567485604

Median

In [22]:
#mendapatkan median dengan python saja
n = len(x)
if n % 2:
    median_ = sorted(x)[round(0.5*(n-1))]
else:
    x_ord, index = sorted(x), round(0.5 * n)
    median_ = 0.5 * (x_ord[index-1] + x_ord[index])

median_

4

In [23]:
#menggunakan statistic.median
statistics.median_low(x[:-1])

2.5

In [24]:
statistics.median_high(x[:-1])

4

In [25]:
#mendapatkan nilai median dengan np.median()
median_ = np.median(y)
print(median_)

4.0


In [26]:
median_ = np.median(y[:-1])
print(median_)

3.25


Mode

In [27]:
#mendapatkan mode dengan python saja
u = [ 2, 3, 2, 8, 12]

v = [12, 15, 12, 15, 21, 15, 12]

mode_ = max((u.count(item), item) for item in set(u))[1]
mode_

2

In [28]:
#mendapatkan mode dengan statistics.mode()
mode_ = statistics.mode(u)
mode_

2

In [29]:
#mendapatkan mode dengan scipy.stats.mode()
u, v = np.array(u), np.array(v)

mode_ = scipy.stats.mode(u)
mode_

  mode_ = scipy.stats.mode(u)


ModeResult(mode=array([2]), count=array([2]))

In [30]:
mode_ = scipy.stats.mode(v)
mode_

  mode_ = scipy.stats.mode(v)


ModeResult(mode=array([12]), count=array([3]))

In [31]:
#mendapatkan mode dan jumlah kemunculannya dengan dot notation
print(mode_.mode)
print(mode_.count)

[12]
[3]


In [32]:
#mendapatkan mode dengan pandas, yang dimana pandas akan mengabaikan nilai nan
u, v, w = pd.Series(u), pd.Series(v), pd.Series([2, 2, math.nan])

print(u.mode())

print(v.mode())

print(w.mode())


0    2
dtype: int32
0    12
1    15
dtype: int32
0    2.0
dtype: float64


Variance

In [33]:
#menghitung sample variance dengan python saja
n = len(x)

mean_ = sum(x) / n

var_ = sum((item - mean_)**2 for item in x) / (n - 1)
var_

123.19999999999999

In [34]:
#menggunakan fungsi statistics.variance()
var_ = statistics.variance(x)
var_

123.2

In [35]:
#menggunakan numpy, yaitu fungsi np.var 
var_ = np.var(y, ddof=1)
var_

123.19999999999999

In [36]:
var_ = y.var(ddof=1)
var_

123.19999999999999

In [37]:
#menggunakan pandas dengan .var()
z.var(ddof=1)

123.19999999999999

Standar Deviation

In [38]:
#menghitung dengan python saja
std_ = var_ ** 0.5
std_

11.099549540409285

In [39]:
#menggunakan statistics.stdev()
std_ = statistics.stdev(x)
std_

11.099549540409287

In [40]:
#menggunakan numpy
np.std(y, ddof=1)

11.099549540409285

In [41]:
y.std(ddof=1)

11.099549540409285

In [42]:
#menggunakan pandas
z.std(ddof=1)

11.099549540409285

Skewness

In [48]:
#menggunakan python saja untuk mendapatkan skewness
x = [8.0, 1, 2.5, 4, 28.0]

n = len(x)

mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
std_ = var_ ** 0.5

skew_ = (sum((item - mean_)**3 for item in x) * n / ((n - 1) * (n - 2) * std_**3))

skew_

1.9470432273905929

In [50]:
#menggunakan scipy.stats.skew()
y, y_with_nan = np.array(x), np.array(x_with_nan)

scipy.stats.skew(y, bias=False)

1.9470432273905927

In [51]:
scipy.stats.skew(y_with_nan, bias=False)

nan

In [52]:
#menggunakan pandas dengan ,skew()
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)

z.skew()


1.9470432273905924

In [53]:
z_with_nan.skew()

1.9470432273905924

Percentiles

In [54]:
#menggunakan statistics.quantiles(), saat kita ingin membagi data menjadi beberapa interval
x = [-5.0, -1.1, 0.1, 2.0, 8.0, 12.8, 21.0, 25.8, 41.0]
statistics.quantiles(x, n=2)

[8.0]

In [55]:
statistics.quantiles(x, n=4, method='inclusive')
#8.0 merupakan median dari x, sedangkan 0.1 dan 21.0 merupakan sampel persentil ke-25 dan ke-75

[0.1, 8.0, 21.0]

In [58]:
#menggunakan numpy, np.percentile()
#contoh kita akan mencari persentil ke-5 dan ke-95
y = np.array(x)
np.percentile(y, 5)

-3.44

In [59]:
np.percentile(y, 95)

34.919999999999995

In [60]:
#mencari persentil ke-25, ke-50, dan ke-75
np.percentile(y, [25, 50, 75])

array([ 0.1,  8. , 21. ])

In [61]:
np.median(y)

8.0

In [62]:
#menggunakan pandas dengan methode quantile()
z, z_with_nan = pd.Series(y), pd.Series(y_with_nan)
z.quantile(0.05)

-3.44

In [72]:
z.quantile(0.95)

34.919999999999995

In [71]:
z.quantile([0.25, 0.5, 0.75])

0.25     0.1
0.50     8.0
0.75    21.0
dtype: float64

In [70]:
z_with_nan.quantile([0.25, 0.5, 0.75])

0.25    2.5
0.50    4.0
0.75    8.0
dtype: float64

Ranges

In [65]:
#menggunakan fungsi np.ptp
np.ptp(y)

46.0

In [66]:
np.ptp(z)

46.0

In [67]:
np.ptp(y_with_nan)

nan

In [69]:
np.ptp(z_with_nan)

nan

In [73]:
#kita dapat menghitung maksimum dan minumum
np.amax(y) - np.amin(y)

46.0

In [75]:
#interquartile range (perbedaan antar kuartil pertama dan ketiga)
#setelah kita menghitung kuartilnya maka kita dapat mengambil selisihnya
quartiles = np.quantile(y, [0.25, 0.75])
quartiles[1] - quartiles[0]

20.9

Untuk mendapatkan descriptive statistics dengan cepat

In [76]:
#untuk mendapatkannya kita dapat menggunakan scipy.stats.describe()
result = scipy.stats.describe(y, ddof=1, bias=False)
result

DescribeResult(nobs=9, minmax=(-5.0, 41.0), mean=11.622222222222222, variance=228.75194444444446, skewness=0.9249043136685094, kurtosis=0.14770623629658886)

In [77]:
#kita dapat mengakses nilai tertentu dengan dot notation menggunakan scipy
result.nobs

9

In [78]:
result.minmax[0] #mendapatkan nilai min

-5.0

In [79]:
result.minmax[1] #mendapatkan nilai max

41.0

In [80]:
result.mean
#dst..

11.622222222222222

In [81]:
#sedangkan jika menggunakan pandas
#menggunakan .describe() untuk mengetahui semua jenis
result = z.describe()
result

count     9.000000
mean     11.622222
std      15.124548
min      -5.000000
25%       0.100000
50%       8.000000
75%      21.000000
max      41.000000
dtype: float64

In [82]:
#untuk mengakses nilai tertentunya
result['mean']

11.622222222222222

In [83]:
result['max']

41.0

In [84]:
result['25%']

0.1

Measures of correlation antara pasangan data

In [86]:
#membuat dua list python
x = list(range(-10, 11))
y = [0, 2, 2, 2, 2, 3, 3, 6, 7, 4, 7, 6, 6, 9, 4, 5, 5, 10, 11, 12, 14]
x_, y_ = np.array(x), np.array(y)
x__, y__ = pd.Series(x_), pd.Series(y_)

Convariance ,a/ ukuran yang mengukur kekuatan dan arah hubungan antara sepasang variabel

In [88]:
#cara menghitung covariance dengan python saja
n = len(x)
mean_x, mean_y = sum(x) / n, sum(y) / n #mencari nilai mean terlebih dari x dan y terlebih dahulu
cov_xy = (sum((x[k] - mean_x) * (y[k] - mean_y) for k in range(n)) / (n - 1)) #menerapkan
#rumus matematika untuk covariance
cov_xy

19.95

In [89]:
#menghitung menggunakan numpy, fungsi cov()
cov_matrix = np.cov(x_, y_)
cov_matrix

array([[38.5       , 19.95      ],
       [19.95      , 13.91428571]])

In [90]:
#menggunakan pandas
cov_xy = x__.cov(y__)
cov_xy

19.95

In [91]:
cov_xy = y__.cov(x__)
cov_xy

19.95

Correlation Coefficient a/ ukuran lain dari kolerasi antar data

In [92]:
#menghitung correlation coefficient menggunakan python saja
var_x = sum((item - mean_x)**2 for item in x) / (n - 1)
var_y = sum((item - mean_y)**2 for item in y) / (n - 1)
std_x, std_y = var_x ** 0.5, var_y ** 0.5
r = cov_xy / (std_x * std_y)
r

0.861950005631606

In [95]:
#menggunakan scipy.stats, dengan pearsonr()
r, p = scipy.stats.pearsonr(x_, y_) #pearsonr mengembalikan tuple dua angka
r

0.8619500056316061

In [96]:
p

5.122760847201135e-07

In [97]:
#dengan numpy, np.corrcoef() dengan x_ dan y_ sebagai argumen dan mendapatkan
#correlation coefficient matrix
corr_matrix = np.corrcoef(x_, y_)
corr_matrix

array([[1.        , 0.86195001],
       [0.86195001, 1.        ]])

In [102]:
#dan sudah memenuhi 0011, maka
r = corr_matrix[0,1]
r

0.8619500056316061

In [103]:
r = corr_matrix[1,0]
r

0.861950005631606

In [104]:
#menggunakan pandas, dengan method .corr()
r = x__.corr(y__)
r


0.8619500056316061

In [105]:
r = y__.corr(x__)
r

0.861950005631606

Bekerja dengan data 2D

In [106]:
#memulai dengan membuat 2D numpy array
a = np.array([[1, 1, 1],
              [2, 3, 1],
              [4, 9, 2],
              [8, 27, 4],
              [16, 1, 1]])
a

array([[ 1,  1,  1],
       [ 2,  3,  1],
       [ 4,  9,  2],
       [ 8, 27,  4],
       [16,  1,  1]])

In [107]:
#menerapkan fungsi dan metode statistik python
np.mean(a)

5.4

In [109]:
a.mean()

5.4

In [110]:
np.median(a)

2.0

In [111]:
a.var(ddof=1)

53.40000000000001

In [112]:
#axis=0 dengan np.mean()
np.mean(a, axis=0)

array([6.2, 8.2, 1.8])

In [113]:
a.mean(axis=0)

array([6.2, 8.2, 1.8])

In [114]:
#memberikan axis=1 dengan mean
np.mean(a, axis=1)

array([ 1.,  2.,  5., 13.,  6.])

In [115]:
a.mean(axis=1)

array([ 1.,  2.,  5., 13.,  6.])