In [1]:
import math
import statistics
import numpy as np
import scipy.stats

In [2]:
x=[8.0,1,2.5,4,28.0]
x_dgn_nan=[8.0,1,2.5,math.nan,4,28.0]
x


[8.0, 1, 2.5, 4, 28.0]

In [3]:
x_dgn_nan

[8.0, 1, 2.5, nan, 4, 28.0]

In [4]:
y,y_dgn_nan=np.array(x),np.array(x_dgn_nan)
y

array([ 8. ,  1. ,  2.5,  4. , 28. ])

In [5]:
y_dgn_nan

array([ 8. ,  1. ,  2.5,  nan,  4. , 28. ])

In [6]:
#Menghitung ukuran pemusatan data
#mean
mean_=sum(x)/len(x)
mean_

8.7

In [7]:
mean_=statistics.mean(x)
mean_

8.7

In [8]:
#Fungsi fmean() mulai dikenalkan pada python 3.8 sebagai alternatif untuk perhitungan yang lebih cepat dan selalu menghasilkan nilai float. 
mean_=statistics.fmean(x)
mean_

8.7

In [9]:
#namun fungsi mean() dan fmean akan bernilai nan jika terdapat variabel bernilai nan
mean_=statistics.mean(x_dgn_nan)
mean_

nan

In [10]:
mean_=statistics.fmean(x_dgn_nan)
mean_

nan

In [11]:
#Jika kita ingin mengabaikan nilai nan yang ada pada variabel tersebut maka dapat menggunakan np.nanmean():
np.nanmean(y_dgn_nan)

8.7

In [12]:
#rataan berbobot
#Weighted Mean atau rataan berbobot merupakan generalisasi
#dari rataan aritmatika sehingga kita dapat menentukan kontribusi
#relatif (bobot) dari setiap data point untuk penghitungan
#hasilnya. Kita dapat menghitung weighted mean menggunakan python
#dengan menggabungkan antara sum() dengan range() atau zip()
#seperti pada contoh berikut:

In [13]:
x=[8.0,1,2.5,4,28.0]
w=[0.1,0.2,0.3,0.25,0.15]
wmean=sum(w[i]*x[i] for i in range(len(x)))/sum(w)
wmean

6.95

In [14]:
#atau
wmean=sum(x_*w_ for (x_,w_) in zip(x,w))/sum(w)
wmean

6.95

In [15]:
#Tetapi jika kita memiliki dataset yang cukup besar maka NumPy memberikan soolusi yang lebih baik untuk penghitungan weighted mean ini menggunakan np.average():
y,w=np.array(x),np.array(w)
wmean=np.average(y,weights=w)
wmean

6.95

In [16]:
#Hati-hati ketika melakukan perhitungan untuk data berisi nilai nan.
w=np.array([0.1,0.2,0.3,0.0,0.2,0.1])
np.average(y_dgn_nan,weights=w)

nan

In [17]:
#harmonic mean= rataan harmonis
hmean=len(x)/sum(1/item for item in x)
hmean

2.7613412228796843

In [18]:
#atau
hmean=statistics.harmonic_mean(x)
hmean

2.7613412228796843

In [19]:
#jika terdapat nilai nan
statistics.harmonic_mean(x_dgn_nan)

nan

In [20]:
statistics.harmonic_mean([1,0,2])

0

In [21]:
#jika terdapat nilai negatif, maka terjadi error
statistics.harmonic_mean([1,2,-2])

StatisticsError: harmonic mean does not support negative values

In [22]:
#cara ketiga hmean
scipy.stats.hmean(y)

2.7613412228796843

In [23]:
#Geometric Mean atau rataan geometris merupakan akar pangkat-n
#dari seluruh hasil perkalian elemen 𝑥ᵢ sejumlah n pada dataset x
gmean=1
for item in x:
    gmean *= item
    
gmean**=1/len(x)
gmean

4.677885674856041

In [24]:
#Pada python 3.8 kita dapat menggunakan statistics.geometric_mean(),
#yang akan mengubah semua nilai pada dataset menjadi float
gmean=statistics.geometric_mean(x)
gmean

4.67788567485604

In [25]:
#cara ketiga
scipy.stats.gmean(y)

4.67788567485604

In [26]:
#median
n=len(x)
if n%2:
    median_=sorted(x)[round(0.5*(n-1))]
else:    
    x_ord,index=sorted(x),round(0.5*n)
    median_=0.5*(x_ord[index-1]+x_ord[index])
    
median_

4

In [27]:
median_=statistics.median(x)
median_

4

In [28]:
median_=np.median(y)
median_

4.0

In [29]:
#mode atau modus
u=[2,3,2,8,12]
mode_=max((u.count(item),item)for item in set(u))[1]
mode_

2

In [30]:
mode_=statistics.mode(u)
mode_

2

In [31]:
mode_=statistics.multimode(u)
mode_

[2]

In [32]:
#Dapat dilihat bahwa mode() menghasilkan nilai tunggal, sedangkan multimode() menghasilkan list yang berisi nilai modus. Bahkan mode() akan menghasilkan error jika dalam dataset tersebut terdapat dua modus


In [33]:
v=[12,15,12,15,21,15,12]
statistics.mode(v)

12

In [34]:
statistics.multimode(v)

[12, 15]

In [35]:
#dgn menggunakan scipy.stats.mode()
u,v=np.array(u),np.array(v)
mode_=scipy.stats.mode(u)
mode_

ModeResult(mode=array([2]), count=array([2]))

In [36]:
mode_=scipy.stats.mode(v)
mode_

ModeResult(mode=array([12]), count=array([3]))

In [37]:
#menghitung sebaran data
#variansi
n=len(x)
mean_=sum(x)/n
var_=sum((item-mean_)**2 for item in x)/(n-1)
var_

123.19999999999999

In [38]:
var_=statistics.variance(x)
var_

123.2

In [39]:
#Penting untuk mendefinisikan nilai ddof=1.
#Parameter ini digunakan agar perhitungan nilai s2 sesuai
#yaitu menggunakan n-1 sebagai pembagi bukan n saja.
var_=np.var(y,ddof=1)
var_

123.19999999999999

In [40]:
var_=y.var(ddof=1)
var_

123.19999999999999

In [41]:
# Untuk dataset yang memiliki nilai nan, diabaikan nilai nan
#tersebut dengan np.nanvar():
np.nanvar(y_dgn_nan,ddof=1)

123.19999999999999

In [42]:
#standar deviasi(simpangan baku)
std_=var_**0.5
std_

11.099549540409285

In [43]:
#jika menggunakan numpy
np.std(y,ddof=1)

11.099549540409285

In [44]:
y.std(ddof=1)

11.099549540409285

In [45]:
#jika terdapat nan
np.nanstd(y_dgn_nan,ddof=1)

11.099549540409285

In [46]:
#skewness
#suatu dataset dapat dianggap simetris jika memiliki
#nilai skewness mendekati 0, yaitu antara -0.5 dan 0.5.
x=[8.0,1,2.5,4,28.0]
n=len(x)
mean_=sum(x)/n
var_=sum((item-mean_)**2 for item in x)/(n-1)
std_=var_**0.5
skew_=(sum((item-mean_)**3 for item in x)*n/((n-1)*(n-2)*std_**3))
skew_

1.9470432273905929

In [47]:
#menggunakan scipy.stats.skew()
y,y_dgn_nan=np.array(x),np.array(x_dgn_nan)
scipy.stats.skew(y,bias=False)

1.9470432273905927

In [48]:
scipy.stats.skew(y_dgn_nan,bias=False)

nan

In [49]:
#Persentils
x=[-5.0,-1.11,0.1,2.0,8.0,12.8,21.0,25.8,41.0]
y=np.array(x)
np.percentile(y,5)

-3.444

In [50]:
np.percentile(y,95)

34.919999999999995

In [51]:
#Jika kita ingin mengabaikan nilai nan pada data
#maka digunakan np.nanpercentile():
y_dgn_nan=np.insert(y,2,np.nan)
y_dgn_nan

array([-5.  , -1.11,   nan,  0.1 ,  2.  ,  8.  , 12.8 , 21.  , 25.8 ,
       41.  ])

In [52]:
np.nanpercentile(y_dgn_nan,[25,50,75])

array([ 0.1,  8. , 21. ])

In [53]:
#ranges=selisih antara elemen maksimum dengan minimum
np.ptp(y)

46.0

In [54]:
np.ptp(y_dgn_nan)

nan

In [55]:
#Alternatifnya, kita bisa menggunakan fungsi bawaan python dan NumPy:
np.amax(y)-np.amin(y)

46.0

In [56]:
np.nanmax(y_dgn_nan)-np.nanmin(y_dgn_nan)

46.0

In [57]:
y.max()-y.min()

46.0

In [58]:
#menghitung korelasi antar sepasang data
#dapat dilihat dengan menghitung:

In [59]:
#covarian
n=len(x)
mean_x,mean_y=sum(x)/n,sum(y)/n
cov_xy=(sum((x[k]-mean_x)*(y[k]-mean_y) for k in range(n)))/(n-1)
cov_xy

228.78376111111112

In [62]:
cov_matrix=np.cov(x,y)
cov_matrix

array([[228.78376111, 228.78376111],
       [228.78376111, 228.78376111]])

In [63]:
#correlation coefficient
var_x=sum((item-mean_x)**2 for item in x)/(n-1)
var_y=sum((item-mean_y)**2 for item in y)/(n-1)
std_x,std_y=var_x**0.5,var_y**0.5
r=cov_xy/(std_x*std_y)
r

1.0

In [65]:
r,p=scipy.stats.pearsonr(x,y)
r

0.9999999999999998

In [66]:
p

5.371280530680625e-55

In [67]:
corr_matrix=np.corrcoef(x,y)
corr_matrix

array([[1., 1.],
       [1., 1.]])

In [69]:
r=corr_matrix[0,1]
r

1.0

In [70]:
scipy.stats.linregress(x,y)

LinregressResult(slope=1.0, intercept=0.0, rvalue=1.0, pvalue=3.292585384803146e-70, stderr=0.0)

In [72]:
result=scipy.stats.linregress(x,y)
r=result.rvalue
r

1.0