# Descriptive Statistics

Meringkas/summarizing dan mengatur data sehingga dapat dengan mudah dipahami, statistik ini berbeda dengan statistik inferential tidak dikembangkan berdasarkan teori probabilitas.

Desciptive statistic akan membantu kita lebih memahami apa yang coba diceritakan oleh data kita, yang akan menghasilkan model dan pemahaman machine learning yang lebih baik secara keseluruhan.

In [1]:
import math
import statistics 
import numpy as np
import scipy.stats
import pandas as pd

In [2]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [3]:
# Membuat numpy array
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


In [4]:
mean_ = sum(x)/len(x)
mean_

8.7

In [5]:
mean_ = statistics.mean(x_with_nan)
print(mean_)

nan


In [6]:
mean_ = np.mean(y)
mean_

8.7

Dalam contoh di atas, mean() adalah fungsi, tetapi kita juga dapat menggunakan method .mean()

In [8]:
print(np.mean(y_with_nan))
print(y_with_nan.mean())

nan
nan


#### Rata-rata pake numpy

In [12]:
# Rata-rata dengan mengabaikan nilai mean
np.nanmean(y_with_nan)

8.7

#### Rata-rata pake Pandas series

In [14]:
# Rata-rata do numpy secara default mengabaikan nilai nan
mean_ = z.mean()
mean_

8.7

## Weight Mean
Adalah generalisasi dari rata-rata aritmetika yang memungkinkan kita untuk menentukan kontribusi relatif dari setiap titik data ke hasil.

Kita menentukan satu bobot wi untuk setiap titik data xi dari dataset xi, dimana i = 1, i = 2, n adalalah jumlah item di x. Kemudian kita mengalikan setiap titik data dengan bobot yang sesuai, menjumlahkan semua produk, dan membagi jumlah yang diperoleh dengan jumlah bobot. 

Weight mean sangat berguna saat kita membutuhkan rata-rata kumpulan data yang berisi item yang muncul dengan frekuensi relatif tertentu. Misalnya, kita memiliki himpunan di mana 20 % dari semua item sama dengan 2, 50% item sama dengan 4, dan 30% sisanya sama dengan delapan

Kita dapat menentukan rata-ratanya dengan:

0.2 * 2 + 0.5 * 4 + 0.3 * 8

Di sini, kita menghitungkan frekuensi dengan bobot. Dengan metode ini, kita tidak perlu mengetahui jumlah item.

In [17]:
x = [8.0, 1, 2.5, 4, 28]
w = [0.1, 0.2, 0.3, 0.25, 0.15]

wmean = sum(w[i] * x[i] for i in range(len(x)))/sum(w)
print(wmean)

wmean = sum(x_ * w_ for (x_, w_) in zip (x, w))/sum(w)
print(wmean)

6.95
6.95


In [22]:
y, z, w = np.array(x), pd.Series(x), np.array(w)

wmean = np.average(y, weights=w)
print(wmean)

wmean = np.average(z, weights=w)
print(wmean)

6.95
6.95


In [23]:
z

0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64

In [24]:
y

array([ 8. ,  1. ,  2.5,  4. , 28. ])

In [25]:
w

array([0.1 , 0.2 , 0.3 , 0.25, 0.15])

In [26]:
# Cara lain 
(w*y).sum()/w.sum()

6.95

## Harmonic Mean
is the reciprocal of the average of the reciprocals.

Reciprocal artinya adalah 1/value

misal data : 1, 2, 5, 100

reciprocalnya : 1/1, 1/2, 1/5, 1/100

harmonic mean bagus untuk handling outlier yang besar.

In [27]:
hmean = len(x)/sum(1/item for item in x)
hmean

2.7613412228796843

In [29]:
# Cara lain
hmean = statistics.harmonic_mean(x)
hmean

2.7613412228796843

In [30]:
# Pake library scipy
scipy.stats.hmean(y)

2.7613412228796843

In [32]:
scipy.stats.hmean(w)

0.1724137931034483

## Geometric Mean
Example: *what is the geometric mean of 2 and 18?

* Pertama kita kalikan: 2 * 18 = 36
* lalu ambil square root: akar(36) = 6

Geometric mean berguna ketika kita ingin membandingkan berbagai hal dengan properti yang sangat berbeda.
Example: *wan to buy a new camera.
* The one has a zoom of 200 and gets an 8 in reviews.
* The other has a zoom of 250 and gets a 6 in reviews.

Menggunakan aritmethic mean kita akan mendapatkan (200+8)/2 = 104 dan (250+6)/2 = 128. Zoom adalah angka yang sangat besar, sehingga rating pengguna hilang.

Tetapi menggunakan geometric mean:
* akar(200*8) = 40
* akar(250*6) = 38,7

In [34]:
# Geometric mean dengan python
gmean = 1

for item in x:
    gmean *= item
    
gmean **=1 / len(x)
gmean

4.677885674856041

In [35]:
# Geometric mean dengan scipy
scipy.stats.gmean(y)

4.67788567485604

# Median
median hanya bergantung pada outlier sedikit atau tidak sama sekali.

Kita dapat membandingkan mean dan median sebagai salah satu cara untuk mendeteksi outlier dan asimetri dalam data kita.

In [36]:
n = len(x)
if n % 2:
    median_ = sorted(x)[round(0.5*(n-1))]
else: 
    x_ord, index = sorted(x), round(0.5 * n)
    median_ = 0.5 * (x_ord[index-1] + x_ord[index])
    
median_

4

Jika jumlah elemennya genap, maka ada dua nilai tengah, yaitu median_low() dan median_high()()

In [38]:
x

[8.0, 1, 2.5, 4, 28]

In [39]:
statistics.median(x)

4

In [40]:
statistics.median_low(x[:-1])

2.5

In [41]:
statistics.median_high(x[:-1])

4

median di statistic python tidak mengembalikan nilai nan ketika ada nilai nan di kumpulan data.

In [42]:
# Median dengan numpy
np.median(y)

4.0

In [43]:
np.median(y[:-1])

3.25

# Mode

In [44]:
# Mendapatkan nilai mode (modus) dengn python pure:
u = [2, 3, 4, 1, 2]
v = [12, 14, 13, 13, 21, 19]

In [45]:
mode_ = max((u.count(item), item) for item in set(u))[1]
mode_

2

In [46]:
# With statistics mode
mode_ = statistics.mode(u)
mode_

2

In [48]:
# dengan scipy
u, v = np.array(u), np.array(v)

mode_ = scipy.stats.mode(u)
mode_

  mode_ = scipy.stats.mode(u)


ModeResult(mode=array([2]), count=array([2]))

In [50]:
# Dot notation - mendapatkan array dan jumlah kemunculan
print(mode_.mode)
print(mode_.count)

[2]
[2]


In [58]:
# Mode with pandas series
print(v)
v = pd.Series(v)

# v.mode().dropna=False # => SUPAYA NILAI NAN TIDAK DIABAIKAN
v.mode()

0    12
1    14
2    13
3    13
4    21
5    19
dtype: int32


0    13
dtype: int32

# Measure of Variability
ukuran penyebaran titik data.

## Variance 
menunjukan secara numerik seberapa jauh titik data dari mean.

In [59]:
# Variance with python pure
n = len(x)

mean_ = sum(x)/n

var_ = sum((item - mean_)** 2 for item in x) / (n-1)
var_

123.19999999999999

In [62]:
# Variance with statistics
var_ = statistics.variance(x)
var_

123.2

In [63]:
# Variance with numpy
var_ = np.var(y, ddof=1)
var_

123.19999999999999

### About ddof = 1
yaitu degre of freedom atau derajat kebebasan

# Standar deviation
merupakan positive square root dari sample variance

In [66]:
# Standar deviation with python pure
std_ = var_ ** 0.5
std_

11.099549540409285

In [65]:
var_

123.19999999999999

In [68]:
statistics.stdev(x)

11.099549540409287

In [69]:
x

[8.0, 1, 2.5, 4, 28]

In [70]:
# Standar deviation with numpy
np.std(y, ddof=1)

11.099549540409285

In [72]:
y.std(ddof=1)

11.099549540409285

In [73]:
# Standar deviation with pandas series
z

0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64

In [74]:
z.std(ddof=1)

11.099549540409285

# Skewness
sample skewness mengukur asimetri sample data.
* Negative skewness menunjukkan bahwa ada ekor dominan sisi kiri
* Positive skewness menunjukkan bahwa ada ekor dominan sisi kanan.
* Jika skewness mendekati nol (misalnya antara -0.5 dan 0.5) maka dataset dianggap cukup simetris

In [77]:
# Skewness with python pure
x = [8.0, 1, 2.5, 4, 28.0]

n = len(x)

mean_ = sum(x)/n
var_ = sum((item - mean_)**2 for item in x) / (n-1)
std_ = var_ ** 0.5

skew_ = (sum((item - mean_)**3 for item in x) * n/((n-1) * (n-2) * std_**3))

In [78]:
skew_

1.9470432273905929

In [79]:
# Skew with scipy
y, y_with_nan = np.array(x), np.array(x_with_nan)
scipy.stats.skew(y, bias=False)

1.9470432273905927

In [80]:
scipy.stats.skew(y_with_nan, bias=False)

nan

In [81]:
# Skew with pandas series
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
z.skew()

1.9470432273905924

In [82]:
z_with_nan.skew()

1.9470432273905924

### Percentiles dll
kita pelajari selanjutnya

# Measure of Correlation 
Memeriksa hubungan/korelasi antara elemen yang sesuai dari dua data/variabel

* Positive correlation => large values of x correspond to larger values of y and vice versa
* Negative Correlation
* Weak or no correlation exists

In [83]:
x = list(range(-10, 11))
y = [0, 2, 2, 2, 3, 3, 4, 3, 5, 7, 4, 14, 10, 11, 16]
x_, y_ = np.array(x), np.array(y)
x__, y__ = pd.Series(x_), pd.Series(y_)