 Nama : Muhammad Reesa Rosyid
 
 Program : Python for Data Science

# Statistika Deskriptif

### Definisi
Statistika deskriptif adalah statistik yang digunakan untuk menganalisis data dengan cara mendeskripsikan atau menggambarkan data yang telah terkumpul sebagaimana adanya tanpa bermaksud membuat kesimpulan yang berlaku secara umum.

### Tipe Statistik Deskriptif

Di dalam statistika deskriptif terdapat dua tipe yaitu **Measures of central tendency** dan **Measures of variability (spread)**.

### Populasi Dan Sample

Pada statistik juga terdapat yang namanya populasi dan sample. **Populasi** adalah keseluruhan dari subjek penelitian, sedangkan sampel adalah sebagian dari populasi tersebut. **Sampel** adalah bagian dari populasi yang memiliki karakteristik mirip dengan populasi itu sendiri. Sampel disebut juga contoh. Nilai hitungan yang diperoleh dari sampel inilah yang disebut dengan statistik.

### Outlier

**Outlier** merupakan data yang memiliki karakteristik yang berbeda jauh dari observasi-observasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk variabel tunggal atau variabel kombinasi.

### Import Library

In [1]:
import math
import statistics
import numpy as np
import scipy.stats
import pandas as pd

## Measure of Central Tendency

Central Tendency mengacu pada gagasan bahwa ada satu bilangan yang paling baik untuk meringkas seluruh rangkaian pengukuran, sebuah bilangan yang dalam beberapa hal merupakan central dari himpunan tersebut.

Dalam measure of central tendency terdapat:
* Mean
* Median
* Modus

### Mean

Mean adalah salah satu ukuran gejala pusat. Mean dapat dikatakan sebagai wakil kumpulan data. Menentukan mean dapat dilakukan dengan cara menjumlahkan seluruh nilai data, kemudian membaginya dengan banyaknya data.

Rumus :

$$\overline{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}=\frac{1}{n}\left(x_{1}+\cdots+x_{n}\right)$$

#### Implementasi pada Python

**Membuat variable contoh**

In [2]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [3]:
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


**Implementasi**

In [4]:
# Menggunakan python vanila
mean_ = sum(x)/len(x)
mean_

8.7

In [5]:
# Menggunakan lib statistics
mean_ = statistics.mean(x)
mean_

8.7

In [6]:
# Library statistics tidak dapat memproses apabila ada nan
mean_1 = statistics.mean(x_with_nan)
mean_1

nan

In [7]:
# Menggunakan Numpy
mean_ = y.mean()
mean_

8.7

In [8]:
# Numpy juga tidak dapat memproses nan
mean_1 = y_with_nan.mean()
mean_1

nan

In [9]:
# Kecuali menggunakan fungsi kusus .nanmean()
mean_1 = np.nanmean(y_with_nan)
mean_1

8.7

### Median

Median memiliki pengertian sebagai nilai data tengah. Penyajian data yang dimaksud lebih kepada hasil dari penelitian. Biasanya data tersebut disajikan dalam bentuk tabel, diagram ataupun daftar dan kerap disebut sebagai statistik.

#### Implementasi pada Python

**Membuat variable contoh**

In [10]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [11]:
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


**Implementasi**

In [12]:
# Menggunakan python vanila
n = len(x)
if n%2:
    median_ = sorted(x)[round(0.5*(n-1))]
else:
    x_ord, index = sorted(x), round(0.5*(n))
    median_ = 0.5 * (x_ord[index-1]+x_ord[index])
    
median_

4

In [13]:
# Menggunakan lib statistics
median_ = statistics.median(x)
median_

4

In [14]:
#Menggunakan numpy
mean_ = np.median(y)
print(median_)

4


### Mode

Modus adalah data yang paling sering muncul. Modus merupakan ukuran pemusatan untuk menyatakan fenomena yang paling banyak terjadi. Sekumpulan data yang diperoleh, memungkinkan untuk memiliki nilai modus yang tidak tunggal atau mungkin juga tidak memilikinya.

#### Implementasi Pada Python

**Membuat variable contoh**

In [15]:
u = [2,3,2,8,12]
v = [12,15,12,15,21,15,12]
print(u)
print(v)

[2, 3, 2, 8, 12]
[12, 15, 12, 15, 21, 15, 12]


**Implementasi**

In [16]:
# Menggunakan python Vanila
mode_ = max((u.count(item), item)for item in set(u))[1]
mode_

2

In [17]:
# Menggunakan lib Statistic dengan statistics.mode()

mode_ = statistics.mode(u)
mode_

2

In [18]:
# Menggunakan scipy dengan scipy.stats.mode()

u,v = np.array(u), np.array(v)
mode_ = scipy.stats.mode(u)
mode_

ModeResult(mode=array([2]), count=array([2]))

In [19]:
# Menggunakan Pandas
u,v,w = pd.Series(u), pd.Series(v), pd.Series([2,2, math.nan])

print(u.mode())
print(v.mode())
print(w.mode())

0    2
dtype: int32
0    12
1    15
dtype: int32
0    2.0
dtype: float64


## Measure of Variability

 dapat didefinisikan sebagai suatu pengukuran nilai yang dapat digunakan untuk merepresentasikan keberagaman atau sebaran data. Di dalam measure of variability terdapat:
 * Variance
 * Standard deviation
 * Skewness
 * Percentiles
 * Ranges
 
### Variance

Dalam teori probabilitas dan statistika, varians (dari bahasa Inggris: variance) atau ragam suatu peubah acak (atau distribusi probabilitas) adalah ukuran seberapa jauh sebuah kumpulan bilangan tersebar. Varians nol mengindikasikan bahwa semua nilai sama.

Rumus : 

$$S^2 = \frac{\sum_{i=1}^{n}(x_i - \overline{x})^2} {n-1}$$

#### Implementasi pada Python

**Membuat variable contoh**

In [20]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [21]:
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


**Implementasi**

In [22]:
# Menggunakan python vanila
mean_ = sum(x)/len(x)
var_ = sum((item-mean_)**2 for item in x) /(n-1)
var_

123.19999999999999

In [23]:
# Menggunakan lib statistic
var_ = statistics.variance(x)
var_

123.2

In [24]:
# Menggunakan Numpy
var_ = y.var(ddof=1)
var_

123.19999999999999

In [25]:
# Menggunakan Pandas
z.var(ddof=1)

123.19999999999999

### Standard Deviation

Standar deviasi adalah nilai akar kuadrat dari suatu varians dimana digunakan untuk menilai rata-rata atau yang diharapkan.

Rumus :
$$S = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \overline{x})^2}$$

#### Implementasi pada Python

**Membuat variable contoh**

In [26]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [27]:
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


**Implementasi**

In [28]:
# Menggunakan python vanila
mean_ = sum(x)/len(x)
var_ = sum((item-mean_)**2 for item in x) /(n-1)
std_ = var_**0.5
std_

11.099549540409285

In [30]:
# Menggunakan lib statistics
std_ = statistics.stdev(x)
std_

11.099549540409287

In [31]:
# Menggunakan Numpy
np.std(y, ddof=1)

11.099549540409285

In [32]:
y.std(ddof=1)

11.099549540409285

In [33]:
# Menggunakan Pandas
z.std(ddof=1)

11.099549540409285

### Skewness

Kemencengan atau kecondongan (skewness) adalah tingkat ketidaksimetrisan atau kejauhan simetri dari sebuah distribusi. Skewness diartikan sebagai kemiringan distribusi data. Sebuah distribusi yang tidak simetris akan memiliki rata-rata, median, dan modus yang tidak sama besarnya sehingga distribusi akan terkonsentrasi pada salah satu sisi dan kurvanya akan menceng. Ukuran kemiringan kurva adalah derajat atau ukuran dari ketidaksimetrian suatu distribusi data. Nilai skewness (ukuran kemiringan) menunjukkan data normal ketika nilai-nilai tersebut berada di antara rentang nilai -2 sampai dengan 2. Kurva positif apabila rata-rata hitung > modus/median. Kurva negative apabila rata-rata hitung < modus/media. Jika distribusi memiliki ekor yang lebih panjang ke kanan daripada yang ke kiri maka distribusi disebut menceng ke kanan atau memiliki kemencengan positif. Sebaliknya, jika distribusi memiliki ekor yang lebih panjang ke kiri daripada yang ke kanan maka distribusi disebut menceng ke kiri atau memiliki kemencengan negatif. Berikut ini gambar kurva dari distribusi yang menceng ke kanan (menceng positif) dan menceng ke kiri (menceng negatif) (Ghozali, 2016).

Kriteria untuk mengetahui model distribusi dari koefisien kemiringan :
* Jika koefisien kemiringan <nol, maka bentuk distribusinya negative (ekor bagian kiri lebih Panjang).
* Jika koefisien kemiringan = nol, maka bentuk distribusinya simetrik.
* Jika koefisien kemiringan > nol, maka bentuk distribusinya positif (ekor bagian kanan lebih Panjang).

Rumus :

$$Sk=\frac{1}{N}\sum_{i=1}^{N}\frac{(x_i-\overline{x})^3}{\sigma^3}$$

#### Implementasi Pada Python

**Membuat variable contoh**

In [34]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [35]:
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


**Implementasi**

In [37]:
# Menggunakan python vanila
mean_ = sum(x)/len(x)
var_ = sum((item-mean_)**2 for item in x) /(n-1)
std_ = var_**0.5
skew_ = (sum((item-mean_)**3 for item in x)*n / ((n-1)*(n-2)*std_**3))
skew_

1.9470432273905929

In [38]:
# Menggunakan lib scipy
scipy.stats.skew(y, bias=False)

1.9470432273905927

In [39]:
# Tidak bisa menghitunh apabila terdapat nan
scipy.stats.skew(y_with_nan, bias=False)

nan

In [40]:
# Menggunakan Pandas
z.skew()

1.9470432273905924

In [41]:
z_with_nan.skew()

1.9470432273905924

### Quartil

Kuartil adalah nilai yang membagi data yang berurutan menjadi empat bagian yang sama banyak. Karena data terbagi menjadi empat bagian yang sama, artinya terdapat tiga nilai kuartil, yaitu kuartil bawah (Q1), kuartil tengah (Q2), dan kuartil atas (Q3).

* Kuartil pertama membagi sekitar 25% item terkecil dari kumpulan data lainnya.
* Kuartil kedua adalah sample ke 50 atau median. Kira-kira 25% terletak di antara kuartil pertama dan kedua dan 25% lainnya antara kuartil kedua dan ketiga.
* Kuartil ketiga membagi sekitar 25% item terbesar dari sisa kumpulan data.

Rumus Q1 : $$(N+1)\frac{1}{4}$$

Rumus Q2 : $$(N+1)\frac{2}{4}$$

Rumus Q3 : $$(N+1)\frac{3}{4}$$

#### Implementasi Pada Python

**Membuat variable contoh**

In [50]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [44]:
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


In [42]:
# Menggunakan statistic
statistics.quantiles (x,n=2)

[4.0]

In [43]:
statistics.quantiles(x, n=4, method='inclusive')

[2.5, 4.0, 8.0]

In [45]:
# Menggunakan numpy
np.percentile(y,5)

1.3

In [46]:
np.percentile(y,95)

23.999999999999996

In [47]:
np.percentile(y, [25,50,100])

array([ 2.5,  4. , 28. ])

In [48]:
np.nanpercentile(y_with_nan, [25,50,100])

array([ 2.5,  4. , 28. ])

In [49]:
# Menggunakan pandas
z.quantile(0.95)

23.999999999999996

### Ranges

Range adalah selisih antara harga minimum dan maksimum dari sebuah instrumen selama periode tertentu.

#### Implementasi pada Python

**Membuat variable contoh**

In [51]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

print(x)
print(x_with_nan)

[8.0, 1, 2.5, 4, 28.0]
[8.0, 1, 2.5, nan, 4, 28.0]


In [52]:
y, y_with_nan = np.array(x), np.array(x_with_nan)
z, z_with_nan = pd.Series(x), pd.Series(x_with_nan)
print(y)
print(y_with_nan)
print(z)
print(z_with_nan)

[ 8.   1.   2.5  4.  28. ]
[ 8.   1.   2.5  nan  4.  28. ]
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64


* max() dan min() untuk standard library python
* amax() dan amin() untuk Numpy
* nanmax() dan nanmin() untuk Numpy mengabaikan nan value
* .max() dan .min() untuk Numpy
* .max() dan .min() untuk Pandas yang mengabaikan nan value

In [53]:
np.amax(y) - np.amin(y)

27.0

In [56]:
np.nanmax(y_with_nan) - np.nanmin(y_with_nan)

27.0

In [55]:
y.max() - y.min()

27.0

In [57]:
z.max() - z.min()

27.0

In [None]:
z_with_nan.max() - z_with_nan.min()

**IQR(Interquartile range)** adalah perbedaan antara kuartil pertama dan ketiga.

In [58]:
quartil = np.quantile(y,[0.25,0.75])
quartil[1] - quartil[0]

5.5

In [59]:
quartil = z.quantile([0.25,0.75])
quartil[0.75] - quartil[0.25]

5.5