## Statistics Desktiptif dengan pandas Dataframe

Ketika kita memiliki data serangkaian pengamatan, akan berguna untuk meringkas fitur data ke dalam satu pernyataan yang disebut statistik deskriptif. Statistik ini dibagi dalam dua kategori umum: ukuran pemusatan data (**central tendency**) dan ukuran penyebaran data (**spread**)

In [1]:
import numpy as np
import pandas as pd
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy', 'Joane'], 
        'age': [42, 52, 42, 24, 73, 52], 
        'preTestScore': [4, 24, 31, 4, 3, 28],
        'postTestScore': [25, 94, 57, 62, 70, 76],
        'sex': ['M', 'F', 'F', 'M', 'F', 'F']}
df = pd.DataFrame(data, columns = ['name', 'age', 'preTestScore', 'postTestScore', 'sex'])
df

Unnamed: 0,name,age,preTestScore,postTestScore,sex
0,Jason,42,4,25,M
1,Molly,52,24,94,F
2,Tina,42,31,57,F
3,Jake,24,4,62,M
4,Amy,73,3,70,F
5,Joane,52,28,76,F


### 1. Ukuran Pemusatan Data
Salah satu aspek yang paling penting untuk menggambarkan distribusi data adalah nilai pusat data. 
Terdapat tiga ukuran tendensi sentral yang sering digunakan, yaitu:
* Mean (Rata-rata hitung/rata-rata aritmetika)
* Median
* Mode


In [4]:
# df['age'].sum()
# df['age'].count()
df[0:4]['age'].median()


42.0

### Rata-rata (mean)
Rata-rata (mean) merupakan metode yang paling banyak digunakan untuk menggambarkan ukuran tendensi sentral. Mean dihitung dengan menjumlahkan semua nilai data pengamatan kemudian dibagi dengan banyaknya data.

In [5]:
# Menghitung rata-rata
df['preTestScore'].mean()

15.666666666666666

### Median
Median dari n pengukuran atau pengamatan x1, x2 ,..., xn adalah nilai pengamatan yang terletak di tengah gugus data setelah data tersebut diurutkan. Apabila banyaknya pengamatan (n) ganjil, median terletak tepat ditengah gugus data, sedangkan bila n genap, median diperoleh dengan cara interpolasi yaitu rata-rata dari dua data yang berada di tengah gugus data.

In [6]:
# Menghitung median
df['preTestScore'].median()

14.0

### Mode (modus)
Mode adalah data yang paling sering muncul/terjadi. Untuk menentukan modus, pertama susun data dalam urutan meningkat atau sebaliknya, kemudian hitung frekuensinya. Nilai yang frekuensinya paling besar (sering muncul) adalah modus. Modus digunakan baik untuk tipe data numerik atau pun data kategoris. Modus tidak dipengaruhi oleh nilai ekstrem. Beberapa kemungkinan tentang modus suatu gugus data:

* Apabila pada sekumpulan data terdapat dua mode, maka gugus data tersebut dikatakan **bimodal**.
* Apabila pada sekumpulan data terdapat lebih dari dua mode, maka gugus data tersebut dikatakan **multimodal**.
* Apabila pada sekumpulan data tidak terdapat mode, maka gugus data tersebut dikatakan tidak mempunyai modus.


In [7]:
# Menghitung mode
df['preTestScore'].mode()

0    4
dtype: int64

In [8]:
# Menghitung mode data kategoris
df['sex'].mode()

0    F
dtype: object

### Karakteristik penting untuk ukuran tendensi sentral yang baik

Ukuran nilai pusat/tendensi sentral (average) merupakan nilai pewakil dari suatu distribusi data, sehingga harus memiliki sifat-sifat berikut:

* Harus mempertimbangkan semua gugus data
* Tidak boleh terpengaruh oleh nilai-nilai ekstrim.
* Harus stabil dari sampel ke sampel.
* Harus mampu digunakan untuk analisis statistik lebih lanjut.

Dari beberapa ukuran nilai pusat, Mean hampir memenuhi semua persyaratan tersebut, kecuali syarat pada point kedua, rata-rata dipengaruhi oleh nilai ekstrem. Sebagai contoh, jika item adalah 2; 4; 5; 6; 6; 6; 7; 7; 8; 9 maka mean, median dan modus semua bernilai sama, yaitu 6. Jika nilai terakhir adalah 90 bukan 9, rata-rata akan menjadi 14.10, sedangkan median dan modus tidak berubah. Meskipun dalam hal ini median dan modus lebih baik, namun tidak memenuhi persyaratan lainnya. Oleh karena itu Mean merupakan ukuran nilai pusat yang terbaik dan sering digunakan dalam analisis statistik.

### Kapan kita menggunakan nilai tendensi sentral yang berbeda?

Nilai ukuran pusat yang tepat untuk digunakan tergantung pada sifat data, sifat distribusi frekuensi dan tujuan. Jika data bersifat ketegoris (kualitatif), hanya modus yang dapat digunakan. Sebagai contoh, apabila kita tertarik untuk mengetahui jenis tanah yang khas di suatu lokasi, atau pola tanam di suatu daerah, kita hanya dapat menggunakan modus. 

Di sisi lain, jika data bersifat numerik (kuantitatif), kita dapat menggunakan salah satu dari ukuran nilai pusat tersebut, mean atau median atau modus. Meskipun pada jenis data kuantitatif kita dapat menggunakan ketiga ukuran tendensi sentral, namun kita harus mempertimbangkan sifat distribusi frekuensi dari gugus data tersebut.

* Bila distribusi frekuensi data **tidak normal** (tidak simetris), median atau modus merupakan ukuran pusat yang tepat.
* Apabila terdapat nilai-nilai **ekstrim**, baik kecil atau besar, lebih tepat menggunakan median atau modus.
* Apabila distribusi data normal (simetris), semua ukuran nilai pusat, baik mean, median, atau modus dapat digunakan. Namun, mean lebih sering digunakan dibanding yang lainnya karena lebih memenuhi persyaratan untuk ukuran pusat yang baik.

### Fungsi-fungsi lain pada data numerik

In [9]:
df['preTestScore'].cumsum()

0     4
1    28
2    59
3    63
4    66
5    94
Name: preTestScore, dtype: int64

In [10]:
df['preTestScore'].count()

6

In [11]:
df['preTestScore'].min()

3

In [12]:
df['preTestScore'].max()

31

In [13]:
# Menghitung Pemusatan data dengan describe()
df['preTestScore'].describe()

count     6.000000
mean     15.666667
std      13.336666
min       3.000000
25%       4.000000
50%      14.000000
75%      27.000000
max      31.000000
Name: preTestScore, dtype: float64

## 2. Ukuran Penyebaran Data
Ukuran penyebaran atau ukuran keragaman pengamatan dari nilai rata-ratanya disebut simpangan (deviation/dispersi). Terdapat beberapa ukuran untuk menentukan dispersi data pengamatan:
* Jangkauan/rentang (range)
* simpangan kuartil (quartile deviation)
* simpangan baku (standard deviation).

### Jangkauan/rentang (Range)
Ukuran penyebaran yang paling sederhana adalah Range (Jangkauan/Rentang). Range dari suatu kelompok data pengamatan adalah selisih antara nilai minimum dan maksimum.

Berapakah Range dari postTestScore?

Range hanya memperhitungkan dua nilai, yaitu nilai maksimum dan nilai minimum dan tidak memperhitungkan semua nilai, sehingga sangat tidak stabil atau tidak dapat diandalkan sebagai indikator dari ukuran penyebaran. Hal ini terjadi karena range sangat dipengaruhi oleh nilai-nilai ekstrim.

Kelemahan lain dari Range adalah tidak menggambarkan sebaran data terhadap nilai pusatnya. Untuk menghindari kelemahan range seperti di atas, ukuran dispersi lain seperti simpangan kuartil

### Simpangan kuartil (Quartile Deviation)

Simpangan kuartil dihitung dengan cara menghapus nilai-nilai yang terletak di bawah kuartil pertama dan nilai-nilai di atas kuartil ketiga, sehingga nilai-nilai ekstrem, baik yang berada di bawah ataupun di atas distribusi data, dihilangkan.

Simpangan kuartil didapatkan dengan cara menghitung nilai rata-rata dari kedua kuartil tersebut, Q1 dan Q3.

Simpangan kuartil = (Q3-Q1)/2

In [14]:
df.age.quantile([0.25,0.5,0.75])

0.25    42.0
0.50    47.0
0.75    52.0
Name: age, dtype: float64

In [15]:
np.percentile(df.age,25), np.percentile(df.age,75)

(42.0, 52.0)

Simpangan kuartil lebih stabil dibandingkan dengan Range karena tidak dipengaruhi oleh nilai ekstrem. Nilai-nilai ekstrim sudah dihapus. Meskipun demikian, sama seperti Range, simpangan kuartil juga tetap tidak memperhatikan dan memperhitungkan penyimpangan semua gugus datanya. Simpangan kuartil hanya memperhitungkan nilai pada kuartil pertama dan kuartil ketiga saja.

### Simpangan baku (standard deviation)
Standar deviasi adalah nilai statistik yang dimanfaatkan untuk menentukan bagaimana sebaran data dalam sampel, serta seberapa dekat titik data individu ke mean atau rata-rata nilai sampel. 

Sebuah standar deviasi dari kumpulan data sama dengan nol menandakan bahwa semua nilai dalam himpunan tersebut adalah sama. Sedangkan nilai deviasi yang lebih besar menunjukkan bahwa titik data individu jauh dari nilai rata-rata. 

In [16]:
df['preTestScore'].var(), df['preTestScore'].std()

(177.86666666666667, 13.336666250104134)

## Latihan

In [None]:
import numpy as np
import matplotlib.pyplot as plt

import pandas as pd
reviews = pd.read_csv("./wine-reviews/winemag-data_first150k.csv", index_col=0)
reviews.head(3)

In [None]:
price = reviews['price']

mean=price.mean()
median=price.median()
mode=price.mode()

print('Mean: ',mean,'\nMedian: ',median,'\nMode: ',mode[0])

In [None]:
reviews.describe()

In [None]:
reviews[reviews['price'] < 100]['price'].plot.hist()