# Descriptive Statistics
Pada pembahasan ini, anda akan mempelajari tiga sub bahasan mengenai statistika.
1. Probababilitas
2. Statistika deskriptif (Pemusatan dan penyebaran data)
3. Aplikasi statistika di dunia bisnis

## Import packages
Terdapat beberapa packages yang dapat mendukung materi statistics dan data essentials concepts, diantaranya<br>
**pandas** untuk keperluan pengolahan data dalam bentuk dataframe<br>
**numpy** untuk keperluan terkait perhitungan matematika dan statistik<br>
**os** untuk keperluan terkait keperluan operating sistem seperti directory

In [None]:
import pandas as pd
import numpy as np
import os

## Probabilitas

Probabilitas adalah cara untuk mengungkapkan pengetahuan atau kepercayaan bahwa suatu kejadian akan berlaku atau telah terjadi. Probabilitas banyak digunakan untuk mengetahui kemungkinan suatu kejadian akan terjadi dan seberapa besar kemungkinan kejadian tersebut akan terjadi, besar kecilnya ini ditentukan dalam bentuk angka. Nilai dari probabilitas adalah antara 0 dan 1, dimana 1 menunjukkan bahwa kejadian tersebut akan terjadi sedangkan 0 menunjukkan bahwa kejadian tersebut tidak akan terjadi. Dengan kata lain semakin besar nilainya maka semakin besar pula peluang kejadian tersebut terjadi.<br><br>
Rumus dari probabilitas adalah sebagai berikut.<br><br>
$P(A)= \frac{n(A)}{n(S)}$ \\

P(A) = Probabilitas yang terjadi pada event A \\
n(A) = jumlah kejadian yang terjadi pada event A \\
n(S) = jumlah seluruh kejadian atau ruang sampel


<img src = "https://miro.medium.com/max/1200/1*YVL0hT1qsR8KPpkFDV2-wA.jpeg">



Perhatikan ilustrasi berikut ini.<br>
Anda mempunyai data yang berisi kejadian pelanggan random membuka sebuah aplikasi. Data tersebut tersimpan dalam sebuah list dengan item didalamnya adalah seperti berikut.

In [None]:
#LIST PELANGGAN BOOKING
apps_booking = ['GO-CAR','GO-RIDE','GO-CAR','GO-PULSA','GO-RIDE','GO-RIDE',
'GO-CAR','GO-RIDE','GO-CAR','GO-PULSA','GO-RIDE','GO-RIDE',
'GO-CAR','GO-RIDE','GO-CAR','GO-PULSA','GO-RIDE','GO-RIDE',
'GO-CAR','GO-RIDE','GO-CAR','GO-CAR','GO-RIDE','GO-CAR',
'GO-CAR','GO-RIDE','GO-CAR','GO-PULSA','GO-RIDE','GO-FOOD',
'GO-RIDE','GO-FOOD','GO-CAR','GO-RIDE','GO-CAR','GO-PULSA',
'GO-RIDE','GO-FOOD','GO-RIDE','GO-FOOD','GO-CAR','GO-PULSA',
'GO-SEND','GO-SEND','GO-RIDE','GO-FOOD','GO-SEND']

Bagaimana cara anda mengetahui probabilitas pelanggan akan menggunakan produk GO-RIDE, GO-CAR, GO-SEND, GO-FOOD, dan GO-PULSA?
<br>
<br>
Pertama, hitunglah jumlah masing-masing produk dalam data yang anda miliki. Anda dapat menggunakan series untuk menghitung kuantitas dari tiap product.

In [None]:
# Mengubah list kedalam bentuk series
apps_booking_series = pd.Series(apps_booking)

# Menghitung jumlah masing-masing items
x = apps_booking_series.value_counts()

# Display jumlah masing-masing items
x

GO-RIDE     18
GO-CAR      15
GO-PULSA     6
GO-FOOD      5
GO-SEND      3
dtype: int64

Sekarang anda sudah mengetahui jumlah dari masing-masing product. Selanjutnya akan dicari probabilitas dari tiap product berdasarkan data jumlah tiap product pada langkah sebelumnya.

In [None]:
# Mencari probabilitas dengan membagi jumlah kejadian dengan total kejadian
probabilitas = x / x.sum()

# Display probabilitas tiap product
print('Probabilitas masing-masing produk adalah')
print(probabilitas)

Probabilitas masing-masing produk adalah
GO-RIDE     0.382979
GO-CAR      0.319149
GO-PULSA    0.127660
GO-FOOD     0.106383
GO-SEND     0.063830
dtype: float64


In [None]:
probabilitas = x.div(sum(x))
probabilitas

GO-RIDE     0.382979
GO-CAR      0.319149
GO-PULSA    0.127660
GO-FOOD     0.106383
GO-SEND     0.063830
dtype: float64

### Probabilitas Bersyarat (Teorema Bayes)

Teorema Bayes menyatakan seberapa jauh derajat kepercayaan subjektif harus berubah secara rasional ketika ada petunjuk baru. Dalam penafsiran frekuentis teorema ini menjelaskan representasi invers probabilitas dua kejadian. dengan kata lain probalitas bersyarat digunakan untuk mencari tau peluang terjadinya kejadian A dimana diketahui kejadian lain B telah terjadi.


Rumus probabilitas bersyarat adalah sebagai berikut:
<br>
<br>
<img src ="https://www.gstatic.com/education/formulas2/-1/id/bayes__theorem.svg">

Perhatikan studi kasus dibawah ini<br>
Anda mempunyai dataset seperti berikut: \\

| company|     model|    rating|   type|
|----|----|-----|-----|
|ford |   mustang    | A |     coupe
|chevy |     camaro   |   B    |  coupe
|   ford |       fiesta|      C |     sedan
|   ford  |     focus   |    A   |   sedan
|   ford   |    taurus   |   B    |  sedan
|  toyota   |  camry      | B   |   sedan

Terdapat 4 kolom yang memuat informasi berupa company, model, rating, dan type dari suatu kendaraan bermotor.

In [None]:
# Menerapkan dictionary untuk membuat dataframe
df = pd.DataFrame({'company': ['ford', 'chevy', 'ford', 'ford', 'ford', 'toyota'],
                     'model': ['mustang', 'camaro', 'fiesta', 'focus', 'taurus', 'camry'],
                     'rating': ['A', 'B', 'C', 'A', 'B', 'B'],
                     'type': ['coupe', 'coupe', 'sedan', 'sedan', 'sedan', 'sedan']})

# Display dataframe
df

Unnamed: 0,company,model,rating,type
0,ford,mustang,A,coupe
1,chevy,camaro,B,coupe
2,ford,fiesta,C,sedan
3,ford,focus,A,sedan
4,ford,taurus,B,sedan
5,toyota,camry,B,sedan


Anda diminta untuk menghitung probabilitas bersyarat dengan rating A,B,C berikut \\
Prob(type=coupe|rating=A) = ? \\
Prob(type=sedan|rating=A) = ? \\
Prob(type=coupe|rating=B) = ? \\
Prob(type=sedan|rating=B) = ? \\
Prob(type=coupe|rating=C) = ? \\
Prob(type=sedan|rating=C) = ? \\
<br>
Langkah pertama yang dapat anda lakukan adalah mengelompokkan informasi berdasarkan type mobil. Anda dapat menggubakan method **groupby()** untuk mengelompokkan data berdasarkan kondisi tertentu 

In [None]:
# Mengelompokkan informasi berdasarkan rating
group_rating = df.groupby('rating').size()

# Display hasil
group_rating

rating
A    2
B    3
C    1
dtype: int64

Sekarang anda sudah mendapatkan jumlah dari tiap-tiap rating. Selanjutnya Hitunglah probability dari tiap-tiap rating. Pada kesempatan ini, akan digunakan div() function untuk mendapatkan probabilitas.<br>
**div()** dalam python digunakan untuk mendapatkan hasil pembagian dengan type data berupa data float dan dapat memasukkan kondisi tertentu dalam perhitungannya. div() di dalam python dapat membantu anda untuk menangani missing data dengan menambahkan konsidi tertentu untuk mendapatkan hasil pembagian.

In [None]:
# Mendapatkan probabilitas untuk setiap rating
rating_probs = group_rating.div(len(df))

# Display hasil
print("Probabilitas untuk setiap rating adalah")
print(rating_probs)

Probabilitas untuk setiap rating adalah
rating
A    0.333333
B    0.500000
C    0.166667
dtype: float64


Sebelumnya, anda diminta untuk mencari probabilitas type mobil berdasarkan rating dari tiap-tiap tipe mobil. Untuk mendapatkan probabilitas tersebut, pertama anda harus mengelompokkan data berdasarkan rating dan tipe mobil-nya.

In [None]:
# Mengelompokkan data berdasarkan rating dan tipe mobil
rating_type_group = df.groupby(['rating', 'type']).count()

# Display hasil
rating_type_group

Unnamed: 0_level_0,Unnamed: 1_level_0,company,model
rating,type,Unnamed: 2_level_1,Unnamed: 3_level_1
A,coupe,1,1
A,sedan,1,1
B,coupe,1,1
B,sedan,2,2
C,sedan,1,1


Perbedaan dari size() dan count() didalam python adalah size() digunakan untuk menghitung total data tanpa kecuali termasuk menghitung Nan didalam data, sedangkan count() hanya menghitung item yang tidak Nan.<br>
<br>
Selanjutkan akan dicari probabilitas bersyarat

In [None]:
# Mendapatkan probabilitas bersyarat dengan menampilkan kolom model saja
prob_type_rating = (rating_type_group / df.groupby('rating').count())['model']

print("probabilitas bersyarat P(type|rating) adalah ")
print(prob_type_rating)

probabilitas bersyarat P(type|rating) adalah 
rating  type 
A       coupe    0.500000
        sedan    0.500000
B       coupe    0.333333
        sedan    0.666667
C       sedan    1.000000
Name: model, dtype: float64


## Statistika Deskriptif (Pemusatan dan Penyebaran Data)
Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna. Statistika deskriptif hanya memberikan informasi mengenai data yang dipunyai dan sama sekali tidak menarik inferensia atau kesimpulan apapun tentang data secara keseluruhan. Penyajian statitika deskriptif biasanya ditampilkan dalam bentuk tabel, diagram, grafik, dan besaran-besaran lainnya.
<br>
Ada tiga ukuran utama tendensi sentral yang dapat dihitung dengan menggunakan metode yang ada di pandas python library.
<br>
Mean - Merupakan nilai rata-rata dari data yang merupakan pembagian dari jumlah nilai dengan banyaknya nilai.
<br>
Median - adalah nilai tengah dalam distribusi saat nilai disusun dalam urutan naik atau turun.
<br>
Mode - adalah nilai yang paling sering muncul dalam sebuah distribusi.
<br>
Untuk informasi lebih lanjut, anda dapat mengunjungi link berikut ini
[link](https://www.tutorialspoint.com/python_data_science/python_measuring_central_tendency.htm)
<br>
<br>
Berikut akan dicontohkan penerapan dari statistika deskriptif

In [None]:
# Membuat series dictionary
daftar = {'nama' : pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'usia' : pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'rating' : pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

# Display Dataframe
df = pd.DataFrame(daftar)
df

Unnamed: 0,nama,usia,rating
0,Tom,25,4.23
1,James,26,3.24
2,Ricky,25,3.98
3,Vin,23,2.56
4,Steve,30,3.2
5,Smith,29,4.6
6,Jack,23,3.8
7,Lee,34,3.78
8,Chanchal,40,2.98
9,Gasper,30,4.8


Dibawah ini akan dicontohkan bagaimana cara menghitung mean secara manual pada masing-masih kolom dalam dataframe

In [None]:
# Mendapatkan rata-rata secara manual
# Mendapatkan mean pada kolom usia
mean_usia= sum(df['usia'])/len(df['usia'])

# Mendapatkan mean pada kolom rating
mean_rating= sum(df['rating'])/len(df['rating'])

# Display hasil
print("Nilai rata-rata usia adalah ", str(mean_usia))
print("Nilai rata-rata rating adalah ", str(mean_rating))

Nilai rata-rata usia adalah  31.833333333333332
Nilai rata-rata rating adalah  3.7433333333333336


In [None]:
# Melakukan pembulatan pada rata-rata usia
print("Nilai rata-rata usia adalah ", str(round(mean_usia , 0)))

Nilai rata-rata usia adalah  32.0


Dalam python anda dapat menggunakan fuction yang sudah terdapat di python. Berikut merupakan contoh cara mendapatkan mean dan median dengan menggunakan fuction dalam python.

In [None]:
#Create a DataFrame
print( "Nilai rata-rata dalam distribusi")
print(df.mean())
print("*******************************")
print("Nilai median dalam distribusi")
print(df.median())

Nilai rata-rata dalam distribusi
usia      31.833333
rating     3.743333
dtype: float64
*******************************
Nilai median dalam distribusi
usia      29.50
rating     3.79
dtype: float64


Selain menggunakan fuction secara terpisah, didalam python keunggulan penggunakan pandas adalah anda dapat menggunakan **decsribe()** function untuk mendapatkan summary statistik dari kolom yang bertipe data numerik. Berikut adalah contoh penerapannya

In [None]:
# Mendapatkan summary statistik
df.describe()

Unnamed: 0,usia,rating
count,12.0,12.0
mean,31.833333,3.743333
std,9.232682,0.661628
min,23.0,2.56
25%,25.0,3.23
50%,29.5,3.79
75%,35.5,4.1325
max,51.0,4.8


Menggunakan **mode()** function untuk mendapatkan modus dari suatu data

In [None]:
# Membuat dictionary
daftar2 = {'nama':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'usia':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46])}

# Membuat dataframe
df = pd.DataFrame(daftar2)

# Mendapatkan modus dari kolom usia
print("Nilai modus pada kolom usia adalah")
print(df['usia'].mode())

Nilai modus pada usia adalah
0    25
dtype: int64


Selain menggunakan mode() function, anda juga dapat menggunakan cara berikut ini untuk mendapatkan modus suatu data

In [None]:
# Mencari Jumlah data
modus_data = df['usia'].value_counts()

# Mendapatkan nilai dengan tingkat kemunculan terbanyak
print("Nilai modus pada kolom usia adalah " + str(modus_data.index[0]))

Nilai modus pada kolom usia adalah 25


Standar deviasi adalah akar kuadrat dari varians. Sedangkan varians adalah rata-rata perbedaan kuadrat nilai dalam kumpulan data dari nilai rata-rata. Untuk mendapatkan nilai dari standart deviasi, anda dapat menggunakan function **std()**.

In [None]:
# mendapatkan standar deviasi
df.std()

usia    7.265527
dtype: float64

Berikut akan di contohkan cara mendapatkan standar deviasi dan varians dengan menggunakan packages statistics

In [None]:
# Import Package
import statistics

# Mendapatkan standar deviasi dan varians
print("Standar Deviasi :", statistics.stdev(df['usia']))
print("Varians :", statistics.variance(df['usia']))

Standar Deviasi : 7.2655267385014
Varians : 52.78787878787879


## Statistik Deskriptif dalam Analisis Data di Bisnis

In [None]:
# Mengkoneksikan colab dengan gdrive
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
# Mendefinisiakan directory data
path_data = '/content/gdrive/My Drive/Stat/Data/'

In [None]:
# Mengkonfirmasi penyimpanan data dalam directory
os.listdir(path_data)

['customer.csv', 'reciepts.csv', 'house_pricing.csv']

In [None]:
# Import dataset
df_cust = pd.read_csv(path_data+'customer.csv')
df_rec = pd.read_csv(path_data+'reciepts.csv')

In [None]:
# Menampilkan 5 data teratas dari dataset customer
df_cust.head()

Unnamed: 0,customer_id,home_store,customer_first-name,customer_email,customer_since,loyalty_card_number,birthdate,gender,birth_year
0,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950
1,2,3,Clark Schroeder,Nora@fames.gov,2017-01-07,032-732-6308,1950-07-30,M,1950
2,3,3,Elvis Cardenas,Brianna@tellus.edu,2017-01-10,459-375-9187,1950-09-30,M,1950
3,4,3,Rafael Estes,Ina@non.gov,2017-01-13,576-640-9226,1950-12-01,M,1950
4,5,3,Colin Lynn,Dale@Integer.com,2017-01-15,344-674-6569,1951-02-01,M,1951


In [None]:
# Menampilkan 5 data teratas dari dataset receipts
df_rec.head()

Unnamed: 0,transaction_id,transaction_date,transaction_time,sales_outlet_id,staff_id,customer_id,instore_yn,order,line_item_id,product_id,quantity,line_item_amount,unit_price,promo_item_yn
0,7,2019-04-01,12:04:43,3,12,558,N,1,1,52,1,2.5,2.5,N
1,11,2019-04-01,15:54:39,3,17,781,N,1,1,27,2,7.0,3.5,N
2,19,2019-04-01,14:34:59,3,17,788,Y,1,1,46,2,5.0,2.5,N
3,32,2019-04-01,16:06:04,3,12,683,N,1,1,23,2,5.0,2.5,N
4,33,2019-04-01,19:18:37,3,17,99,Y,1,1,34,1,2.45,2.45,N


In [None]:
# Menampilkan nama kolom dari dataset receipts
df_rec.columns

Index(['transaction_id', 'transaction_date', 'transaction_time',
       'sales_outlet_id', 'staff_id', 'customer_id', 'instore_yn', 'order',
       'line_item_id', 'product_id', 'quantity', 'line_item_amount',
       'unit_price', 'promo_item_yn'],
      dtype='object')

In [None]:
# Menampilkan nama kolom dari dataset customers dalam bentuk list
list(df_cust)

['customer_id',
 'home_store',
 'customer_first-name',
 'customer_email',
 'customer_since',
 'loyalty_card_number',
 'birthdate',
 'gender',
 'birth_year']

Sama seperti dalam materi sebelumnya, apabila kita memiliki 2 data yang terpisah namun terdapat informasi pendukung dari kedua data yang berbeda tersebut, dengan menggunakan key yang sama kita dapat menggabungkan kedua data tersebut. Didalam python, anda dapat menggunakan **merge()** function untuk join 2 data.

In [None]:
# Join columns (Merging.. Left Join..) 
df_trx = pd.merge(df_cust, df_rec, left_on = 'customer_id', right_on = 'customer_id', how = 'left')

In [None]:
# Menampilakan 11 data teratas
df_trx.head(11)

Unnamed: 0,customer_id,home_store,customer_first-name,customer_email,customer_since,loyalty_card_number,birthdate,gender,birth_year,transaction_id,transaction_date,transaction_time,sales_outlet_id,staff_id,instore_yn,order,line_item_id,product_id,quantity,line_item_amount,unit_price,promo_item_yn
0,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950,1783.0,2019-04-02,15:14:47,3.0,12.0,Y,1.0,1.0,32.0,1.0,3.0,3.0,N
1,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950,235.0,2019-04-03,15:01:44,3.0,17.0,N,1.0,1.0,37.0,1.0,3.0,3.0,N
2,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950,662.0,2019-04-15,08:53:26,3.0,14.0,N,1.0,1.0,28.0,2.0,4.0,2.0,N
3,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950,662.0,2019-04-19,08:53:26,3.0,14.0,N,1.0,1.0,28.0,2.0,4.0,2.0,N
4,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950,2112.0,2019-04-26,09:59:54,3.0,14.0,N,1.0,1.0,58.0,1.0,3.5,3.5,N
5,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950,3019.0,2019-04-26,07:28:50,3.0,14.0,Y,1.0,1.0,23.0,1.0,2.5,2.5,N
6,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950,76.0,2019-04-29,19:41:43,3.0,20.0,N,1.0,1.0,57.0,2.0,6.2,3.1,N
7,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950,76.0,2019-04-29,19:41:43,3.0,20.0,N,1.0,5.0,77.0,1.0,3.0,3.0,N
8,2,3,Clark Schroeder,Nora@fames.gov,2017-01-07,032-732-6308,1950-07-30,M,1950,1209.0,2019-04-01,17:29:25,3.0,17.0,Y,1.0,1.0,46.0,1.0,2.5,2.5,N
9,2,3,Clark Schroeder,Nora@fames.gov,2017-01-07,032-732-6308,1950-07-30,M,1950,1209.0,2019-04-01,17:29:25,3.0,17.0,Y,1.0,5.0,75.0,1.0,3.5,3.5,N


In [None]:
# Mendapatkan ukuran data
df_trx.shape

(24853, 22)

**Analisis 1** : Mencari Summary statistics dari data transaksi

In [None]:
# Summary statistics
df_trx.describe()

Unnamed: 0,customer_id,home_store,birth_year,transaction_id,sales_outlet_id,staff_id,order,line_item_id,product_id,quantity,line_item_amount,unit_price
count,24853.0,24853.0,24853.0,24852.0,24852.0,24852.0,24852.0,24852.0,24852.0,24852.0,24852.0,24852.0
mean,4579.738221,5.239649,1978.252122,892.281426,5.239659,24.70606,1.129084,1.618502,47.615162,1.435458,4.598432,3.313008
std,3248.033149,2.029584,15.091449,842.161314,2.029624,12.168177,0.878473,1.416289,17.515239,0.527978,3.551991,2.285187
min,1.0,3.0,1950.0,1.0,3.0,6.0,1.0,1.0,1.0,1.0,0.0,0.8
25%,584.0,3.0,1965.0,226.0,3.0,15.0,1.0,1.0,33.0,1.0,3.0,2.5
50%,5417.0,5.0,1981.0,519.0,5.0,20.0,1.0,1.0,46.0,1.0,3.75,3.0
75%,8099.0,8.0,1992.0,1485.0,8.0,30.0,1.0,1.0,59.0,2.0,6.0,3.75
max,8501.0,8.0,2001.0,4203.0,8.0,45.0,9.0,10.0,87.0,8.0,360.0,45.0


**Analisis 2** : Berapakah rata-rata price customer yang belanja pada coffee shop tersebut?

In [None]:
# Mencari rata-rata price customer
avg_cust = df_trx.groupby('customer_id')['unit_price'].mean()
avg_cust

customer_id
1       2.762500
2       3.409524
3       4.825806
4       2.861111
5       2.791667
          ...   
8497    4.029167
8498    2.916667
8499    3.225000
8500    3.088095
8501    3.291667
Name: unit_price, Length: 2246, dtype: float64

**Analisis 3** : Berikan summary statistics dari quantity masing-masing product yang dibeli oleh customer

In [None]:
#Analisis 3: Berikan summary statistics dari quantity masing-masing product yang dibeli oleh customer
prod_quantity = df_trx.groupby('customer_id')['quantity'].mean()
prod_quantity

customer_id
1       1.375000
2       1.285714
3       1.451613
4       1.111111
5       1.333333
          ...   
8497    1.500000
8498    1.555556
8499    1.500000
8500    1.428571
8501    1.500000
Name: quantity, Length: 2246, dtype: float64