# Catatan Sesi 9

# Descriptive Statistic 

What is Descriptive Statistics?

Descriptive statistics/Statistik deskriptif melibatkan meringkas/summarizing dan mengatur data sehingga dapat dengan mudah dipahami. Statistik deskriptif, tidak seperti statistik inferensial, berupaya mendeskripsikan data, tetapi tidak mencoba membuat kesimpulan dari sampel ke seluruh populasi. Di sini, kita biasanya mendeskripsikan data dalam sampel. Secara umum berarti bahwa statistik deskriptif, tidak seperti statistik inferensial, tidak dikembangkan berdasarkan teori probabilitas.

Descriptive Statistical Analysis membantu kita memahami data dan merupakan bagian yang sangat penting dari Machine Learning. Ini karena Machine Learning adalah tentang membuat prediksi. Di sisi lain, statistik adalah tentang menarik kesimpulan dari data, yang merupakan langkah awal yang diperlukan. Dalam sesi ini, kita akan belajar tentang konsep statistik deskriptif yang paling penting. Descriptive statistics akan membantu kita lebih memahami apa yang coba diceritakan oleh data kita, yang akan menghasilkan model dan pemahaman machine learning yang lebih baik secara keseluruhan

## Types of Descriptive Statistics

Statistik deskriptif dipecah menjadi dua kategori. Measures of central tendency dan measures of variability (spread)

Population and Samples

Dalam statistik, populasi adalah sekumpulan dari semua elemen atau item yang kita minati. Populasi seringkali sangat banyak, sehingga tidak sesuai untuk collecting dan analyzing data. Itulah mengapa statisticians biasanya mencoba membuat beberapa kesimpulan tentang suatu populasi dengan memilih dan memeriksa sub-kumpulan perwakilan dari populasi tersebut.

Subset populasi ini disebut sampel. Idealnya, sampel harus mempertahankan fitur statistik esensial dari populasi hingga tingkat yang memuaskan. Dengan begitu, kita akan dapat menggunakan sampel untuk menarik kesimpulan tentang populasi.

Outliers

Outlier/Pencilan adalah titik data yang berbeda secara signifikan dari sebagian besar data yang diambil dari sampel atau populasi. Ada banyak kemungkinan penyebab pencilan, tetapi berikut ini beberapa yang bisa membantu kita:

- Natural variation in data
- Change in the behavior of the observed system
- Errors in data collection
 

Kesalahan pengumpulan data adalah penyebab utama pencilan. Misalnya, keterbatasan instrumen atau prosedur pengukuran dapat berarti bahwa data yang benar tidak dapat diperoleh. Kesalahan lainnya dapat disebabkan oleh kesalahan perhitungan, kontaminasi data, kesalahan manusia, dan lainnya.

Tidak ada definisi matematis yang tepat tentang pencilan. Kita harus mengandalkan pengalaman, pengetahuan tentang subjek yang diminati, dan common sense untuk menentukan apakah titik data adalah pencilan dan cara menanganinya.

### Measure of Central Tendency

Central tendency mengacu pada gagasan bahwa ada satu bilangan yang paling baik untuk meringkas seluruh rangkaian pengukuran, sebuah bilangan yang dalam beberapa hal merupakan “central” dari himpunan tersebut.

Atau bisa dikatakan pengukuran suatu nilai dimana dapat digunakan presentasikan nilai sentral dari data set

- Mean
- Median
- Mode

Mean / Average

Mean atau Average adalah central tendency dari data, angka diantara seluruh data tersebar. Di satu sisi, Mean atau Averageadalah angka tunggal yang dapat memperkirakan nilai seluruh kumpulan data. Mean hanyalah rata-rata dan dianggap sebagai ukuran tendensi sentral yang paling andal untuk membuat asumsi tentang suatu populasi dari satu sampel. Tendensi sentral menentukan kecenderungan nilai data kita untuk mengelompok di sekitar mean, mode, atau mediannya. Rata-rata dihitung dengan jumlah semua nilai, dibagi dengan jumlah nilai.

Median

Median adalah nilai yang membagi data dalam 2 bagian yang sama yaitu jumlah suku di sisi kanannya sama dengan jumlah suku di sisi kirinya saat data disusun dalam urutan naik atau turun. Median adalah nilai "tengah" atau titik tengah dalam data kita dan juga disebut "persentil ke-50". Perhatikan bahwa median jauh lebih sedikit dipengaruhi oleh outliers dan skewed data daripada rata-rata.

Sebuah contoh: Bayangkan Kalian memiliki kumpulan data hadiah perumahan yang sebagian besar berkisar antara 100.000 hingga 300.000 tetapi berisi beberapa rumah yang bernilai lebih dari 3 juta Dolar. Rumah-rumah mahal ini akan sangat berpengaruh karena itu adalah jumlah dari semua nilai, dibagi dengan jumlah nilai. Median tidak akan terlalu terpengaruh oleh pencilan ini karena hanya nilai "tengah" dari semua titik data. Oleh karena itu, median adalah statistik yang jauh lebih cocok untuk melaporkan data kita.

Median adalah nilai tengah, jika jumlah nilai ganjil

Median adalah rata-rata dari 2 nilai tengah, jika jumlah nilai genap.

### 12+24+41+51+67+67+85+99 = 59

Mediannya adalah 59 yang akan membagi kumpulan angka menjadi dua bagian yang sama. Karena ada bilangan genap dalam himpunan, jawbaannya adalah rata-rata dari bilangan tengah 51 dan 67.

### 2, 4, 6, 8, 10

Mean dari 5 angka ini adalah 6 dan mediannya juga 6

## Practice on Python
## Choosing Python Statistics Libraries

Ada banyak pustaka statistik Python di luar sana untuk kita pakai. Tetapi dalam sesi ini, kita akan belajar tentang beberapa yang paling populer dan banyak digunakan:

- Python's statistics is a built-in Python library for descriptive statistics. You can use it if your datasets are not too large or if you can't rely on importing other libraries.
- NumPy is a third-party library for numerical computing, optimized for working with single- and multi-dimensional arrays. Its primary type is the array type called ndarray. This library contains many routines for statistical analysis.
- SciPy is a third-party library for scientific computing based on NumPy. It offers additional functionality compared to NumPy. Including scipy.stats for statistical analysis.
- Pandas is a third-party library for numerical computing based on NumPy. It excels in handling labeled one-dimensional (1D) data with Series objects and two-dimensional (2D) data with DataFrame objects.
- Matplotlib is a third-party library for data visualization. It works well in combination with NumPy, SciPy, and Pandas.

## Calculating Descriptive Statistics

In [2]:
import math
import statistics
import numpy as np
import scipy.stats
import pandas as pd

In [3]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [4]:
# Membuat objek np.ndarray dan pd.Series yang sesuai dengan x dan x_with_nan
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)

print(y)
print(y_with_nan)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


## Mean

In [5]:
mean_ = sum(x) /len(x)
mean_

8.7

In [6]:
# Alternatif 1 (built-in)
mean_ = statistics.mean(x)
print(mean_)

8.7


In [7]:
mean_ = statistics.mean(x_with_nan)
print(mean_)

nan


In [8]:
# Alternatif 2 (NumPy)
mean_ = np.mean(y)
mean_

8.7

In [9]:
mean_ = y.mean()
mean_

8.7

In [10]:
print(np.mean(y_with_nan))
print(y_with_nan.mean())

nan
nan


In [11]:
# Mengabaikan nilai NaN dengan np.nanmean()
np.nanmean(y_with_nan)

8.7

In [12]:
# pd.Series objects juga mempunyai method .mean()
mean_ = z.mean()
mean_

8.7

In [13]:
z_with_nan.mean()

8.7

# Weighted Mean

Weighted mean, juga disebut weighted arithmetic mean atau weighted average, adalah generalisasi dari rata-rata aritmatika yang memungkinkan kita untuk menentukan kontribusi relatif dari setiap titik data ke hasil.

Kita menentukan satu bobot 𝑤ᵢ untuk setiap titik data 𝑥ᵢ dari dataset 𝑥, di mana 𝑖 = 1, 2,…, 𝑛 dan 𝑛 adalah jumlah item di 𝑥. Kemudian, kita mengalikan setiap titik data dengan bobot yang sesuai, menjumlahkan semua produk, dan membagi jumlah yang diperoleh dengan jumlah bobot: Σᵢ(𝑤ᵢ𝑥ᵢ) / Σᵢ𝑤ᵢ.

Weighted mean sangat berguna saat kita membutuhkan rata-rata kumpulan data yang berisi item yang muncul dengan frekuensi relatif tertentu. Misalnya, kiita memiliki himpunan di mana 20% dari semua item sama dengan 2, 50% item sama dengan 4, dan 30% sisanya sama dengan 8. Kita dapat menghitung rata-rata dari set seperti ini:

In [14]:
0.2 * 2 + 0.5 * 4 + 0.3 * 8

4.8

In [15]:
x = [8.0, 1, 2.5, 4, 28.0]
w = [0.1, 0.2, 0.3, 0.25, 0.15]

wmean = sum(w[i] * x[i] for i in range(len(x))) / sum(w)
print(wmean)

wmean = sum(x_ * w_ for (x_, w_) in zip(x, w)) / sum(w)
print(wmean)

6.95
6.95


In [16]:
y, z, w = np.array(x), pd.Series(x), np.array(w)

wmean = np.average(y, weights = w)
print(wmean)

wmean = np.average(z, weights=w)
print(wmean)

6.95
6.95


In [17]:
(w * y).sum() / w.sum()

6.95

# Harmonic Mean

Secara teknis, pengertian dari harmonic mean adalah: the reciprocal of the average of the reciprocals.

Reciprocal artinya adalah 1/value .

Harmonic mean adalah reciprocal dari mean dari semua item dalam dataset: 𝑛 / Σᵢ (1 / 𝑥ᵢ), di mana 𝑖 = 1, 2,…, 𝑛 dan 𝑛 adalah jumlah item dalam dataset 𝑥.

Contoh: we travel 10 km at 60 km/h, than another 10 km at 20 km/h, what is our average speed?

Harmonic mean = 2/(1/60 + 1/20) = 30 km/h

Harmonic mean juga bagus untuk handling outliers yang besar. Contoh: 2, 4, 6, dan 100

Arithmetic mean adalah 2+4+6+100/4 = 28

Harmonic mean adalah 4/( 1/2 + 1/4 + 1/6 + 1/100 ) = 4.32

Salah satu varian dari implementasi Python pure dari harmonic mean adalah dibawah ini:

In [19]:
hmean = len(x) / sum(1 / item for item in x)
hmean

2.7613412228796843

In [20]:
scipy.stats.hmean(y)

2.7613412228796843

In [21]:
scipy.stats.hmean(z)

2.7613412228796843

# Geometric Mean

Geometric mean adalah akar ke-𝑛 dari hasil kali semua 𝑛 elemen 𝑥ᵢ dalam dataset 𝑥: ⁿ√ (Πᵢ𝑥ᵢ), di mana 𝑖 = 1, 2,…, 𝑛.

Example: What is the Geometric Mean of 2 and 18?

Pertama kita kalikan: 2 × 18 = 36 Lalu ambil square root: √36 = 6 Dalam one line:

Geometric Mean of 2 and 18 = √(2 × 18) = 6

gmean = 1
for item in x:
    gmean *= item

gmean **= 1 / len(x)
gmean

Kita juga bisa mendapatkan geometric mean dengan scipy.stats.gmean():

In [23]:
scipy.stats.gmean(y)

4.67788567485604

In [24]:
scipy.stats.gmean(z)

4.67788567485604

In [25]:
# Median

Sample median adalah elemen tengah dari kumpulan data yang diurutkan. Dataset dapat diurutkan dalam urutan naik atau turun. Jika jumlah elemen n dari dataset ganjil, maka median adalah nlai pada posisi tengah: 0.5(n + 1). Jika n genap, median adalah arithmetic mean dari dua nilai di tengah, yaitu item pada posisi 0,5n dan 0,5n + 1.and

In [26]:
n = len(x)
if(n % 2):
    median_ = sorted(x)[round(0.5*(n - 1))]
else:
    x_ord, index = sorted(x), round(0.5 * n)
    median_ = 0.5 * (x_ord[index - 1] + x_ord[index])

median_

4

Versi yang diurutkan dari x adalah [1, 2.5, 4, 8.0, 28.0], jadi elemen di tengah adalah 4. Versi yang diurutkan dari x[:-1], yaitu x tanpa item terakhir 28.0, adalah [1, 2.5, 4, 8.0]. Sekarang, ada dua elemen tengah, 2.5 dan 4. Rata-ratanya adalah 3.25.

median_low() dan median_high() adalah dua fungsi lainnya yang terkait dengan median di pustaka statistics Python. Mereka selalu mengembalikan elemen dari kumpulan data:

Jika jumlah elemennya ganjil, maka hanya ada satu nilai tengah, sehingga fungsi ini berperilaku seperti median().
Jika jumlah elemennya genap, maka ada dua nilai tengah. Dalam kasus ini, median_low() mengembalikan nilai tengah yang lebih rendah dan median_high() lebih tinggi.

In [27]:
x

[8.0, 1, 2.5, 4, 28.0]

In [28]:
statistics.median_low(x[:-1])

2.5

In [29]:
statistics.median_high(x[:-1])

4

In [30]:
print(statistics.median(x_with_nan))
print(statistics.median_low(x_with_nan))
print(statistics.median_high(x_with_nan))

6.0
4
8.0


In [31]:
# Kita juga bisa mendapatkan median dengan np.median():

median_ = np.median(y)
print(median_)

4.0


In [32]:
median_ = np.median(y[:-1])
print(median_)

3.25


Mode
Sample mode adalah nilai dalam kumpulan data yang paling sering muncul. Jika tidak ada satu pun nilai tersebut, maka set tersebut multimodal karena memiliki beberapa nilai modal. Misalnya, pada set yang berisi poin 2, 3, 2, 8, dan 12, angka 2 adalah mode karena terjadi dua kali, tidak seperti item lain yang hanya muncul sekali.

In [33]:
u = [2, 3, 2, 8, 12]
v = [12, 15, 12, 15, 21, 15]

mode_ = max((u.count(item), item) for item in set(u))[1]
mode_

2

In [34]:
mode_ = statistics.mode(u)
mode_

2

In [35]:
u, v = np.array(u), np.array(v)

mode_ = scipy.stats.mode(u)
mode_

ModeResult(mode=array([2]), count=array([2]))

In [36]:
mode_ = scipy.stats.mode(v)
mode_

ModeResult(mode=array([15]), count=array([3]))

In [37]:
print(mode_.mode)
print(mode_.count)

[15]
[3]


In [38]:
u, v, w = pd.Series(u), pd.Series(v), pd.Series([2, 2, math.nan])

print(u.mode())
print(v.mode())
print(w.mode())

0    2
dtype: int32
0    15
dtype: int32
0    2.0
dtype: float64


## Measures of Variability
Measures of central tendency tidak cukup untuk menggambarkan data. Kita juga memerlukan ukuran variabilitas yang mengukur penyebaran titik data. Di bagian ini, kita akan mempelajari cara mengidentifikasi dan menghitung ukuran variabilitas berupa:

- Variance
- Standard Deviation
- Skewness
- Percentiles
- Ranges

Sample variance mengukur penyebaran data. Sample variance menunjukkan secara numerik seberapa jauh titik data dari mean. Kita dapat mengekspresikan varians sampel dari kumpulan data 𝑥 dengan 𝑛 elemen secara matematis sebagai 𝑠² = Σᵢ(𝑥ᵢ − mean(𝑥))² / (𝑛 − 1), di mana 𝑖 = 1, 2,…, 𝑛 dan mean (𝑥) adalah sample mean dari 𝑥.

In [39]:
n = len(x)

mean_ = sum(x) / n

var_ = sum((item - mean_)**2 for item in x) / (n - 1)
var_

123.19999999999999

In [40]:
var_ = np.var(y, ddof=1)
var_

123.19999999999999

In [41]:
var_ = y.var(ddof=1)
var_

123.19999999999999

In [42]:
# Objek pd.Series memiliki metode .var() yang mengabaikan nilai NaN secara default:

z.var(ddof=1)

123.19999999999999

# Standard Deviation

Sample standard deviation adalah cara lain mengukur penyebaran data. Berhubungan dengan varians sampel, karena standard deviation, s, adalah positive square root dari sample variance, standard deviation seringkali lebih cocok daripada varians karena memiliki satuan yang sama dengan data points. Setelah kita mendapatkan variance, kita dapat menghitung deviasi standar dengan Python pure:

In [43]:
std_ = var_ ** 0.5
std_

11.099549540409285

In [44]:
std_ = statistics.stdev(x)
std_

11.099549540409287

Tentu saja hasilnya sama seperti sebelumnya. Seperti variance(), stdev() tidak menghitung mean jika kita memberikannya secara eksplisit sebagai argumen kedua: statistics.stdev(x, mean_).

Kita bisa mendapatkan standard deviation dengan NumPy dengan cara yang hampir sama. Kita dapat menggunakan fungsi std() dan method.std() untuk menghitung standard deviation. Jika ada nilai NaN dalam kumpulan data, maka akan mengembalikan NaN. Untuk mengabaikan nilai NaN, kita harus menggunakan np.nanstd().

In [46]:
np.std(y, ddof=1)

11.099549540409285

In [47]:
y.std(ddof=1)

11.099549540409285

In [48]:
# Objek pd.Series juga memiliki method .std() yang mengabaikan NaN secara default:

z.std(ddof=1)

11.099549540409285

# Skewness
Sample skewness mengukur asimetri sampel data.

Ada beberapa definisi matematis tentang skewness. Satu ekspresi umum untuk menghitung skewness kumpulan data 𝑥 dengan elemen 𝑛 adalah (𝑛² / ((𝑛 - 1) (𝑛 - 2))) (Σᵢ (𝑥ᵢ - mean (𝑥)) ³ / (𝑛𝑠³)). Ekspresi yang lebih sederhana adalah Σᵢ (𝑥ᵢ - mean (𝑥)) ³ 𝑛 / ((𝑛 - 1) (𝑛 - 2) 𝑠³), di mana 𝑖 = 1, 2,…, 𝑛 dan mean (𝑥) adalah mean sampel dari 𝑥. skewness yang didefinisikan seperti ini disebut adjusted Fisher-Pearson standardized moment coefficient.

In [51]:
x = [8.0, 1, 2.5, 4, 28.0]

n = len(x)

mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
std_ = var_ ** 0.5

skew_ = (sum((item - mean_)**3 for item in x) * n / ((n - 1) * (n - 2) * std_**3))

In [52]:
skew_


1.9470432273905929

In [53]:
y, y_with_nan = np.array(x), np.array(x_with_nan)

scipy.stats.skew(y, bias=False)

1.9470432273905927

In [54]:
scipy.stats.skew(y_with_nan, bias=False)

nan

In [55]:
# Objek Pandas Series memiliki metode .skew() yang juga mengembalikan skewness kumpulan data:

z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
z.skew()

1.9470432273905924

In [56]:
z_with_nan.skew()

1.9470432273905924

# Percentiles

sample 𝑝 percentile adalah elemen dalam kumpulan data sehingga 𝑝% elemen dalam kumpulan data kurang dari atau sama dengan nilai tersebut. Juga, (100 - 𝑝)% elemen lebih besar dari atau sama dengan nilai tersebut.

Jika ada dua elemen seperti itu dalam kumpulan data, maka persentil 𝑝 sampel adalah arithmetic mean mereka.

Tiap dataset memiliki tiga quartiles, yang merupakan persentil yang membagi dataset menjadi empat bagian:

- First quartile adalah sampel persentil ke-25. Kuartil pertama membagi sekitar 25% item terkecil dari kumpulan data lainnya.
- Second quartile adalah sampel persentil ke-50 atau median. Kira-kira 25% item terletak di antara kuartil pertama dan kedua dan 25% lainnya antara kuartil kedua dan ketiga.
- Third quartile adalah sampel persentil ke-75. Kuartil ketiga membagi sekitar 25% item terbesar dari sisa kumpulan data.
Jika kita ingin membagi data kita menjadi beberapa interval, maka kita dapat menggunakan statistics.quantiles():

In [57]:
x = [-5.0, -1.1, 0.1, 2.0, 8.0, 12.8, 21.0, 25.8, 41.0]
statistics.quantiles(x, n=2)

[8.0]

In [58]:
statistics.quantiles(x, n=4, method='inclusive')

[0.1, 8.0, 21.0]

Kita juga dapat menggunakan np.percentile() untuk menentukan persentil sampel apapun dalam kumpulan data kita. Misalnya, ini cara kita mencari persentil ke-5 dan ke-95.

In [59]:
y = np.array(x)
np.percentile(y, 5)

-3.44

In [60]:
np.percentile(y, 95)

34.919999999999995

percentile() membutuhkan beberapa argumen. Kita harus menyediakan dataset sebagai argumen pertama dan nilai persentil sebagai yang kedua. Dataset dapat berupa array NumPy, list, tuple, atau struktur data serupa. Persentil bisa berupa angka antara 0 dan 100 seperti pada contoh di atas, tetapi bisa juga berupa urutan angka:

In [61]:
np.percentile(y, [25, 50, 75])

array([ 0.1,  8. , 21. ])

In [62]:
np.median(y)

8.0

Kode tersebut menghitung persentil ke-25, ke-50, ke-75 sekaligus. Jika nilai persentil adalah sebuah urutan, maka percentile() mengembalikan array NumPy dengan hasilnya. Statement pertama mengembalikan array quartiles. Pernyataan kedua mengembalikan median, sehingga kita dapat mengonfirmasi bahwa itu sama dengan persentil ke-50, yaitu 8.0.

Jika kita ingin mengabaikan nilai NaN, gunakan np.nanpercentile() sebagai gantinya:

In [63]:
y_with_nan = np.insert(y, 2, np.nan)
y_with_nan

array([-5. , -1.1,  nan,  0.1,  2. ,  8. , 12.8, 21. , 25.8, 41. ])

In [64]:
np.nanpercentile(y_with_nan, [25, 50, 75])

array([ 0.1,  8. , 21. ])

Begitulah cara kita menghindari nilai NaN.

NumPy juga menawarkan fungsionalitas yang sangat mirip di quantile() dan nanquantile(). Jika kita ingin menggunakannya, kita harus memberikan nilai-nilai kuantitatif sebagai angka antara 0 dan 1, bukan persentil:

In [65]:
np.quantile(y, 0.05)

-3.44

In [66]:
np.quantile(y, 0.95)

34.919999999999995

In [67]:
np.quantile(y, [0.25, 0.5, 0.75])

array([ 0.1,  8. , 21. ])

In [68]:
np.nanquantile(y_with_nan, [0.25, 0.5, 0.75])

array([ 0.1,  8. , 21. ])

Hasilnya sama seperti pada contoh sebelumnya, tetapi di sini argumen kita antara 0 dan 1. Dengan kata lain, kita memberikan 0.05 daripada 5 dan 0.95 dari pada 95.

pd.Series objek memiliki method .quantile()

In [69]:
z, z_with_nan = pd.Series(y), pd.Series(y_with_nan)
z.quantile(0.05)

-3.44

In [70]:
z.quantile(0.95)

34.919999999999995

In [71]:
z.quantile([0.25, 0.5, 0.75])

0.25     0.1
0.50     8.0
0.75    21.0
dtype: float64

In [72]:
z_with_nan.quantile([0.25, 0.5, 0.75])

0.25     0.1
0.50     8.0
0.75    21.0
dtype: float64

.quantile() juga membutuhkan kita untuk memberikan nilai quantile sebagai argumennya. Nilai ini bisa berupa angka antara 0 dan 1 urutan angka. Dalam kasus pertama, .quantile() mengembalikan skalar. Dalam kasus kedua, ia mengembalikan Series baru.

# Ranges
Rentang data/range data adalah perbedaan antara elemen maksimum dan minimum dalam kumpulan data. Kita bisa mendapatkannya dengan fungsi np.ptp():