# **Ukuran Pusat**

## **Rata-rata (Mean)**

Kita dapat menghitung nilai rata-rata menggunakan method .mean() pada numpy atau pandas sebagaimana pada contoh berikut:



In [4]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

# mengambil hanya data untuk produk 'A'
produk_A = raw_data[raw_data['Produk'] == 'A']

# menghitung rerata pendapatan menggunakan method .mean pada objek pandas DataFrame
print (produk_A['Pendapatan'].mean())

# menghitung rerata pendapatan menggunakan method .mean pada objek pandas DataFrame dengan numpy
print (np.mean(produk_A['Pendapatan']))

550000.0
550000.0


## **Median**

Kita dapat menemukan nilai median dengan menggunakan method .median() pada numpy maupun pandas sebagaimana contoh berikut:

In [6]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

print (raw_data)
# Hitung median dari pendapatan menggunakan pandas
print (produk_A['Pendapatan'].median())

# Hitung median dari pendapatan menggunakan numpy
print (np.median(produk_A['Pendapatan']))

    ID Pelanggan     Nama  Jenis Kelamin  ...  Jumlah     Total  Tingkat Kepuasan
0              1     Arif              1  ...        4   400000                 2
1              2     Dian              2  ...        4  1000000                 2
2              3    Dinda              2  ...        3   750000                 3
3              4    Fajar              1  ...        2   200000                 3
4              5      Ika              2  ...        4  1000000                 2
5              6    Ilham              1  ...        4   600000                 3
6              7    Indra              1  ...        5   750000                 1
7              8  Kartika              2  ...        3   900000                 3
8              9  Lestari              2  ...        2   600000                 1
9             10      Lia              2  ...        5  1500000                 1
10            11    Maria              2  ...        4   400000                 3
11            12

## **Modus**

Kita dapat menggunakan method .count_values() pada pandas sebagaimana contoh berikut:

In [7]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

# Melihat jumlah dari masing-masing produk
print (raw_data['Produk'].value_counts())

D    5
A    4
C    4
B    4
E    3
Name: Produk, dtype: int64


## **Kuantil**

Untuk mencari fraktil dari data, kita dapat menggunakan method .quantile dari pandas atau numpy sebagaimana contoh berikut:

In [8]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

# mencari median atau 50% dari data menggunakan pandas
print (raw_data['Pendapatan'].quantile(q = 0.5))

# mencari median atau 50% dari data menggunakan pandas
print (np.quantile(raw_data['Pendapatan'], q=0.5))

875000.0
875000.0


## **Agregasi Data dengan method .agg()**
Ada kalanya kita ingin menghitung sekaligus beberapa ukuran, misalnya menghitung nilai mean sekaligus menghitung nilai median. Kita dapat melakukan kedua hal tersebut dengan menggunakan method .agg() pada objek pandas DataFrame sebagaimana contoh berikut:



In [10]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

# menghitung rerata dan median usia (age) dan insulin (insu)
print (raw_data[['Pendapatan', 'Harga']].agg([np.mean, np.median]))

# menghitung rerata dan median Pendapatan dan Harga dari tiap produk
print (raw_data[['Pendapatan', 'Harga', 'Produk']].groupby('Produk').agg([np.mean, np.median]))

        Pendapatan     Harga
mean     1160000.0  197500.0
median    875000.0  200000.0
       Pendapatan            Harga        
             mean   median    mean  median
Produk                                    
A          550000   600000  100000  100000
B          875000   875000  150000  150000
C          850000   900000  200000  200000
D         2100000  1200000  250000  250000
E         1200000  1100000  300000  300000


# **Ukuran Sebaran**

## **Proporsi Kategori**
Proporsi kategori adalah ukuran sebaran yang paling sederhana dari ukuran sebaran pada data nomisal dan ordinal. Secara matematis dapat dirumuskan sebagai:

In [11]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

# cari proporsi tiap Produk
print (raw_data['Produk'].value_counts()/raw_data.shape[0])

D    0.25
A    0.20
C    0.20
B    0.20
E    0.15
Name: Produk, dtype: float64


## **Ukuran Sebaran pada Data Interval dan Rasio**
Rentang (range)
Rentang adalah jarak antara nilai maksimum dengan nilai minimum. Semakin besar jarang antara nilai maksimum dan minimum semakin besar pula sebaran datanya. Secara matematis dapat dituliskan sebagai berikut:

 

In [13]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

# Cari nilai rentang dari kolom 'Pendapatan'
print (raw_data['Pendapatan'].max() - raw_data['Pendapatan'].min())

6050000


## **Variansi**

Untuk menghitung variansi kita dapat menggunakan method .var() dari numpy maupun pandas.

In [14]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

# menghitung variansi umur menggunakan method .var() dari pandas
print (raw_data['Pendapatan'].var())

# menghitung variansi umur menggunakan method .var() dari numpy
print (np.var(raw_data['Pendapatan']))

# mengatur variansi populasi dengan method `.var()` dari pandas
print (raw_data['Pendapatan'].var(ddof = 0))

1645684210526.3157
1563400000000.0
1563400000000.0


## **Deviasi Baku (Standard Deviation)**

Kita dapat menghitung deviasi baku menggunakan method .std dari numpy maupun pandas.

In [15]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

# menghitung deviasi baku sampel pendapatan menggunakan method std() dari pandas
print (raw_data['Pendapatan'].std())

# menghitung deviasi baku pendapatan menggunakan method std() dari numpy
print (np.std(raw_data['Pendapatan'], ddof = 1))

1282842.2391417876
1282842.2391417876


## **Menghitung Korelasi**
Untuk menghitung korelasi antara kedua variabel, kita dapat menggunakan method .corr() dari pandas sebagaimana contoh berikut: 

In [16]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

# memuat data bernama 'dataset_statistics.csv' dan memasukkan hasilnya ke dalam 'raw_data'
raw_data = pd.read_csv("drive/My Drive/Dataset/dataset_statistic.csv", sep=';')

# menghitung korelasi dari setiap pasang variabel pada raw_data
print (raw_data.corr())

# mencari korelasi 'kendall' untuk tiap pasang variabel
print (raw_data.corr(method='kendall'))

# mencari korelasi 'spearman' untuk tiap pasang variabel
print (raw_data.corr(method='spearman'))

                  ID Pelanggan  Jenis Kelamin  ...     Total  Tingkat Kepuasan
ID Pelanggan          1.000000       0.151375  ... -0.039968         -0.245717
Jenis Kelamin         0.151375       1.000000  ...  0.238051         -0.088339
Pendapatan            0.110958       0.192849  ...  0.592044         -0.312663
Harga                -0.028707       0.457555  ...  0.645455         -0.380798
Jumlah                0.011289      -0.104168  ...  0.636097          0.017568
Total                -0.039968       0.238051  ...  1.000000         -0.268345
Tingkat Kepuasan     -0.245717      -0.088339  ... -0.268345          1.000000

[7 rows x 7 columns]
                  ID Pelanggan  Jenis Kelamin  ...     Total  Tingkat Kepuasan
ID Pelanggan          1.000000       0.126650  ... -0.065998         -0.183817
Jenis Kelamin         0.126650       1.000000  ...  0.190245         -0.085796
Pendapatan           -0.054998       0.190245  ...  0.988506         -0.165588
Harga                -0.005753

## **Interpretasi Nilai Korelasi dan Kaitannya dengan Kausalitas**
Perhatikan nilai korelasi Pearson dari raw_data berikut:

In [17]:
print(raw_data.corr())

                  ID Pelanggan  Jenis Kelamin  ...     Total  Tingkat Kepuasan
ID Pelanggan          1.000000       0.151375  ... -0.039968         -0.245717
Jenis Kelamin         0.151375       1.000000  ...  0.238051         -0.088339
Pendapatan            0.110958       0.192849  ...  0.592044         -0.312663
Harga                -0.028707       0.457555  ...  0.645455         -0.380798
Jumlah                0.011289      -0.104168  ...  0.636097          0.017568
Total                -0.039968       0.238051  ...  1.000000         -0.268345
Tingkat Kepuasan     -0.245717      -0.088339  ... -0.268345          1.000000

[7 rows x 7 columns]
