# Descriptive Statistics
Statistik deskriptif melibatkan meringkas/summarizing dan mengatur data sehingga dapat dengan mudah dipahami. Pada statistik ini biasanya mendeskripsikan data dalam sampel. Jadi statistik deskriptif, tidak seperti statistik inferensial, tidak dikembangkan berdasarkan teori probabilitas. Digunakan dalam Machine Learning untuk membuat prediksi.

## Calculating Descriptive Statistics

In [1]:
import math
import statistics
import numpy as np
import scipy.stats
import pandas as pd

In [2]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan , 4, 28.0]
print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [3]:
# y = np.array[x]
# y_with_nan = np.array[x_with_nan]
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x) ,pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


## Measures of Central Tendency
Merupakan nilai tengah atau pisat dari kumpulan data. Adapun cara mengidentifikasi dan menhitungnya berupa:
- Mean
- Weigthed mean
- Geometric mean
- Harmonic mean
- Median
- Mode

### Mean
Merupakan rata-rata aritmatika dari semua item dalam kumpulan data.

In [4]:
mean_ = sum(x) / len(x)
mean_

8.7

In [5]:
mean_ = statistics.mean(x)
print(mean_)

8.7


In [6]:
mean_ = statistics.mean(x_with_nan)
print(mean_)

nan


In [7]:
# Using Numpy
mean_ = np.mean(y)
mean_

8.7

In [8]:
# Use Method
mean_ = y.mean()
mean_

8.7

In [9]:
# Jika ada nilai nan diantara data
print(np.mean(y_with_nan))
print(y_with_nan.mean())

nan
nan


In [10]:
# Mengabaikan nilai nan
np.nanmean(y_with_nan)

8.7

In [11]:
# Using Pandas
# pd.Series jg punya method .mean()
mean_ = z.mean()
mean_

8.7

In [12]:
z_with_nan.mean()

8.7

### Weighted Mean
Merupakan generalisasi dari rata-rata aritmatika yang memungkinkan untuk menentukan kotribusi relatif dari setiap titik data ke hasil.

Question:
Kita memiliki himpunan di mana 20% dari semua item sama dengan 2, 50% item sama dengan 4, dan 30% sisanya sama dengan 8

In [13]:
# Menghitung rata-rata
0.2 * 2 + 0.5 * 4 + 0.3 * 8

4.8

In [14]:
# Implementasi Weighted mean dengan menggabungkan sum() dan range() atau zip()
# Using Python Pure
x = [8.0, 1, 2.5, 4, 28.0]
w = [0.1, 0.2, 0.3, 0.25, 0.15]

wmean = sum(w[i] * x[i] for i in range(len(x))) / sum(w)
print(wmean)

wmean = sum(x_ * w_ for (x_,w_) in zip(x, w)) / sum(w)
print(wmean)

6.95
6.95


In [15]:
# Using NumPy
y, z, w = np.array(x), pd.Series(x), np.array(w)

wmean = np.average(y, weights=w)
print(wmean)

wmean = np.average(z, weights=w)
print(wmean)

6.95
6.95


In [16]:
# Solusi lain
(w * y).sum() / w.sum()

6.95

### Harmonic Mean
Adalah the reciprocal of the average of the reciprocals. Reciprocal artinya 1/value. Harmonic mean adalah reciprocal dari mean dari semua item dalam dataset.

Contoh: we travel 10 km at 60km/h, than another 10 km at 20 km/h, what is our average speed?.

Harmonic mean = 1/(1/60 + 1/20) = 30 km/h.

Harmonic juga bagus untuk handling outliers yang besar.
Contoh: 2, 4, 6, dan 100.
Arithmetic mean adalah 2+4+6+100/4 = 28
Harmonic mean adalah 4/(1/2 + 1/4 + 1/6 + 1/100) = 4.32.

In [17]:
# Hmean pada implementasi Python pure
# Pada aritmatik hasilnya adalah 8.7
hmean = len(x) / sum(1 / item for item in x)
hmean

2.7613412228796843

In [18]:
# Using statistics.harmonic_mean()
hmean = statistics.harmonic_mean(x)
hmean

2.7613412228796843

In [19]:
scipy.stats.hmean(y)

2.7613412228796843

In [20]:
scipy.stats.hmean(z)

2.7613412228796843

### Geometric Mean
Adalah akar ke-n dari hasil kali semua n elemen xi dalam dataset x, dimana i = 1, 2, ...., n.

Contoh:
- One camera has a zoom of 200 and gets an 8 reviews.
- The another has a zoom of 250 and gets a 6 in reviews.

Aritmatik:
- (200+8)/2 = 104
- (250+6)/2 = 128

Geometric:
- akar(200 x 8) = 40
- akar(250 x 6) = 38.7

Jadi meskipun zoomnya 50 lebih besar, rating pengguna yang lebih rendah(6) tetap menjadi property penting.

In [21]:
# Implementation Geometric mean and Python pure
gmean = 1

for item in x:
    gmean *= item

gmean **= 1/len(x)
gmean

4.677885674856041

In [22]:
# Using scipy
scipy.stats.gmean(y)

4.67788567485604

In [23]:
scipy.stats.gmean(z)

4.67788567485604

### Median
Adalah elemen tengah dari kumpulan data yang diurutkan. Dataset dapat diurutkan dalam urutan naik atau turun.

In [24]:
# Implementasi Python pure dari median
n = len(x)
if n % 2:
    median_ = sorted(x)[round(0.5*(n-1))]
else:
    x_ord, index = sorted(x), round(0.5 * n)
    median_ = 0.5 * (x_ord[indexex-1] + x_ord[index])
    
median_

4

In [25]:
x

[8.0, 1, 2.5, 4, 28.0]

In [26]:
# Using function median
# x[:-1] adalah [8.0, 2.5, 4, 28.0]
# dua elemen tengah adalah 2.5 (low) dan 4 (high)
statistics.median_low(x[:-1])

2.5

In [27]:
statistics.median_high(x[:-1])

4

In [28]:
# Function median tidak mengembalikan nan
print(x)
print(statistics.median(x_with_nan))
print(statistics.median_low(x_with_nan))
print(statistics.median_high(x_with_nan))

[8.0, 1, 2.5, 4, 28.0]
6.0
4
8.0


In [29]:
# get median with numpy
median_ = np.median(y)
print(median_)

4.0


In [30]:
median_ = np.median(y[:-1])
print(median_)

3.25


### Mode
Adalah kumpulan data yang paling sering muncul. Jika tidak ada satu pun nila tersebut, maka set tersebut multimodal karena memiliki beberapa nilai modal.

In [31]:
u = [2, 3, 2, 8, 12]
v = [12, 15, 12, 15, 21, 15, 12]
mode_ = max((u.count(item), item) for item in set(u))[1]
mode_

2

In [32]:
# Using statistics
mode_ = statistics.mode(u)
mode_

2

In [33]:
# Using scipy
u, v = np.array(u), np.array(v)

mode_ = scipy.stats.mode(u)
mode_

ModeResult(mode=array([2]), count=array([2]))

In [34]:
mode_ = scipy.stats.mode(v)
mode_

ModeResult(mode=array([12]), count=array([3]))

In [35]:
# Using array NumPy with dot notation
print(mode_.mode)
print(mode_.count)

[12]
[3]


In [36]:
# Using Pandas
# .mode() mengembalikan pd.Series baru yang menampung semua nilai modal.
# Jika ingin .mode() memperhitungkan nilai nan, bisa teruskan argumen opsioanl dropna = False
u, v, w = pd.Series(u), pd.Series(v), pd.Series([2, 2, math.nan])
print(u.mode())
print(v.mode())
print(w.mode())

0    2
dtype: int32
0    12
1    15
dtype: int32
0    2.0
dtype: float64


## Measures of Variability
Dibutuhkan dalam ukuran variabilitas yang mengukur penyebaran titik data.
- Variance
- Standard Deviation
- Skewness
- Precentiles
- Ranges

### Variance
Mengukur penyebaran data. Sample variance menunjukkan secara numerik seberapa jauh titik dari mean.

In [37]:
# Cara menghitung variance dengan Python pure
n = len(x)

mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n-1)
var_

123.19999999999999

In [38]:
# Using statistics
var_ = statistics.variance(x)
var_

123.2

In [39]:
# Using NumPy
var_ = np.var(y, ddof=1)
var_

123.19999999999999

In [40]:
# ddof adalah degrees of freedom
# ddof = 1 yaitu kia hanya kehilangan satu derajat kebebasan, sehingga deegre of freedom yang kita miliki adalah n-1
# yaitu 10 - 1 = 9
var_ = y.var(ddof=1)
var_

123.19999999999999

In [41]:
# Objek ps.Series memiliki metode .var() yang mengabaikan nilai nan secara default
# Jika ingin anggap nan bisa gunakan skipna
z.var(ddof=1)

123.19999999999999

### Standard Deviation
Mengukur penyebaran data. Berhubungan dengan varians sampel, karena standard deviation s, adalah positive square root dari sample variance, dan lebih cocok daripada variance karena memiliki satuan yang sama dengan data points.

In [42]:
# Setelah mendapat variance, hitung deviasi dengan Python pure
std_ = var_** 0.5
std_

11.099549540409285

In [43]:
# Using statistics
std_ = statistics.stdev(x)
std_

11.099549540409287

In [44]:
# Using NumPy
np.std(y, ddof=1)

11.099549540409285

In [45]:
y.std(ddof=1)

11.099549540409285

In [46]:
z.std(ddof=1)

11.099549540409285

### Skewness
untuk mengukur asimetris sampel data

In [47]:
# Setelah hitung ukuran kumpulan data n, sample mean, dan std
# Bisa mendapatkan sample skewness dengan python pure
x = [8.0, 1, 2.5, 4, 28.0]

n = len(x)

mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n-1)
std_ = var_ ** 0.5

skew_ = (sum((item - mean_)**3 for item in x) * n / ((n-1) * (n-2) * std_**3))
skew_ # Hasil skew positif, artinya x mempunyai right-side tail

1.9470432273905929

In [48]:
skew_

1.9470432273905929

In [49]:
# Using scipy
y, y_with_nan = np.array(x), np.array(x_with_nan)
scipy.stats.skew(y, bias=False)

1.9470432273905927

In [50]:
scipy.stats.skew(y_with_nan, bias=False)

nan

In [51]:
# using pandas
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
z.skew()

1.9470432273905924

In [52]:
z_with_nan.skew()

1.9470432273905924

### Precentiles
Adalah elemen dalam kumpulan data sehingga p% elemen dalam kumpulan data kurang dari atau sama dengan nilai tersebut. Juga, (100-p)% elemen lebih besar dari atau sama dengan nilai tersebut. Jika ada dua elemen seperti itu dalam kumpulan data, maka persentil p smpel adalah arithmetic mean mereka. Tiap dataset memiliki tiga quartiles yang merupakan persentil yang membagi dataset menjadi 4 bagian.

In [53]:
# Jika ingin membagi data menjadi beberapa interval, using .quantiles()
x = [-5.0, -1.1, 0.1, 2.0, 8.0, 12.8, 21.0, 25.8, 41.0]
statistics.quantiles(x, n=2)

[8.0]

In [54]:
# 8.0 adalah median dari x, 0.1 dan 21.0 adalah sampel persentil ke-25 dan ke-75
# Parameter n menentukan jumlah persentil probabilitas sama yang dihasilkan, dan method menentukan cara manghitungnya.
statistics.quantiles(x, n=4, method='inclusive')

[0.1, 8.0, 21.0]

In [55]:
# using NumPy
# percentile() membutuhkan beberapa argumen
# argumen pertama adalah dataset dan nilai persentil sebagai yang kedua.
# dataset berupa array NumPy, list, tuple, atau struktur data serupa.
y = np.array(x)
np.percentile(y, 5)

-3.44

In [56]:
np.percentile(y, 95)

34.919999999999995

In [57]:
# persentil bisa berupa angka antara 0 dan 100 seperti sebelumnya, tetapi bisa juga urutan angka
# jika nilai persentil adalah urutan angka maka akan mengembalikan array NumPy dengan hasilnya
np.percentile(y, [25, 50, 75])

array([ 0.1,  8. , 21. ])

In [58]:
np.median(y)

8.0

In [59]:
# Jika ingin mengembalikan nilai nan
y_with_nan = np.insert(y, 2, np.nan)
y_with_nan

array([-5. , -1.1,  nan,  0.1,  2. ,  8. , 12.8, 21. , 25.8, 41. ])

In [60]:
np.nanpercentile(y_with_nan, [25, 50, 75])

array([ 0.1,  8. , 21. ])

In [61]:
# Using fungsionalitas quantile dan nanquantile
np.quantile(y, 0.05)

-3.44

In [62]:
np.quantile(y, 0.95)

34.919999999999995

In [63]:
np.quantile(y, [0.25, 0.5, 0.75])

array([ 0.1,  8. , 21. ])

In [64]:
np.nanquantile(y_with_nan, [0.25, 0.5, 0.75])

array([ 0.1,  8. , 21. ])

In [65]:
# Using pandas
z, z_with_nan = pd.Series(y), pd.Series(y_with_nan)
z.quantile(0.05)

-3.44

In [66]:
z.quantile(0.95)

34.919999999999995

In [67]:
z.quantile([0.25, 0.5, 0.75])

0.25     0.1
0.50     8.0
0.75    21.0
dtype: float64

In [68]:
z_with_nan.quantile([0.25, 0.5, 0.75])

0.25     0.1
0.50     8.0
0.75    21.0
dtype: float64

### Ranges
Adalah perbedaan antara elemen maksimum dan minimum dalam kumpulan data

In [69]:
# Using NumPy
np.ptp(y)

46.0

In [70]:
np.ptp(z)

46.0

In [71]:
np.ptp(y_with_nan)

nan

In [72]:
np.ptp(z_with_nan)

nan

In [73]:
# Contoh fungsi lain
np.amax(y) - np.amin(y)

46.0

In [74]:
np.nanmax(y_with_nan) - np.nanmin(y_with_nan)

46.0

In [75]:
y.max() - y.min()

46.0

In [76]:
z.max() - z.min()

46.0

In [77]:
z_with_nan.max() - z_with_nan.min()

46.0

In [78]:
# **Interquartile range**
# merupakan perbedaan antara kuartil pertama dan ketiga
# setelah menghitung kuartil maka bisa mengambil selisihnya
quartiles = np.quantile(y, [0.25, 0.75])
quartiles[1] - quartiles[0]

20.9

## Summary of Descriptive |Statistics