### Pengenalan Statistika
Secara definisi, statistika adalah bidang studi yang mempelajari bagaimana mengumpulkan dan menganalisa data. Jika mengambil definisi yang lebih lengkap, maka statistika dapat didefinisikan sebagai ilmu yang mempelajari cara pengumpulan data, menganalisis data untuk mendapatkan kesimpulan informasi sampai dapat dijadikan dasar pembuatan keputusan atau kebijakan.

Di dalam mempelajari statistika, akan mempelajari bagaimana caranya mengorganisir dan membuat kesimpulan dari data. Kegiatan mengorganisir dan membuay kesimpulan dari data disebut sebagai statistika deskriptif. Ada banyak cara bagaimana kita menyimpulkan suatu data, misalnya dengan membuat grafik atau dengan angka, misalnya mengambil suatu rata-rata dari data.

Selanjutnya ketika harus mengambil keputusan dari data yang sudah diolah, kemudian akan menggunakan statistika inferensial sehingga dapat mengambil keputusan yang benar dari data yang juga sudah diolah dengan benar.

### Package Statistika di Python
Untuk melakukan perhitungan statistika, kita dapat menggunakan beberapa package atau library berikut yang tersedia di Python. Diantaranya adalah:

numpy: digunakan untuk melakukan analisa data numerik dan perhitungan berbasis vektor atau matriks
pandas: digunakan untuk melakukan pengolahan data tabular
matplotlib: digunakan untuk melakukan ploting atau penggambaran grafik, dapat digunakan sebagai alat bantu dalam analisa data
statsmodels: digunakan untuk melakukan uji hipotesa, eksplorasi data maupun pemodelan statistika
scipy: digunakan untuk melakukan uji statistika, juga dapat digunakan untuk melakukan pemodelan statistika
Sebenarnya masih banyak lagi library python untuk pengolahan data statistika, namun untuk materi ini cukup 4 atau 5 library di atas saja yang akan kita gunakan.

### Load Library

In [2]:
# memuat numpy sebagai np
import numpy as np
 
# memuat pandas sebagai pd
import pandas as pd

In [3]:
raw_data = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dataset_statistic.csv", sep=';')

#### Inspeksi Data

In [4]:
raw_data

Unnamed: 0,ID Pelanggan,Nama,Jenis Kelamin,Pendapatan,Produk,Harga,Jumlah,Total,Tingkat Kepuasan
0,1,Arif,1,600000,A,100000,4,400000,2
1,2,Dian,2,1200000,D,250000,4,1000000,2
2,3,Dinda,2,950000,D,250000,3,750000,3
3,4,Fajar,1,400000,A,100000,2,200000,3
4,5,Ika,2,1200000,D,250000,4,1000000,2
5,6,Ilham,1,800000,B,150000,4,600000,3
6,7,Indra,1,950000,B,150000,5,750000,1
7,8,Kartika,2,1100000,E,300000,3,900000,3
8,9,Lestari,2,800000,E,300000,2,600000,1
9,10,Lia,2,1700000,E,300000,5,1500000,1


In [5]:
# melihat 10 data pada baris pertama
raw_data.head(10)

Unnamed: 0,ID Pelanggan,Nama,Jenis Kelamin,Pendapatan,Produk,Harga,Jumlah,Total,Tingkat Kepuasan
0,1,Arif,1,600000,A,100000,4,400000,2
1,2,Dian,2,1200000,D,250000,4,1000000,2
2,3,Dinda,2,950000,D,250000,3,750000,3
3,4,Fajar,1,400000,A,100000,2,200000,3
4,5,Ika,2,1200000,D,250000,4,1000000,2
5,6,Ilham,1,800000,B,150000,4,600000,3
6,7,Indra,1,950000,B,150000,5,750000,1
7,8,Kartika,2,1100000,E,300000,3,900000,3
8,9,Lestari,2,800000,E,300000,2,600000,1
9,10,Lia,2,1700000,E,300000,5,1500000,1


In [6]:
# melihat 5 data pada baris terakhir
raw_data.tail()

Unnamed: 0,ID Pelanggan,Nama,Jenis Kelamin,Pendapatan,Produk,Harga,Jumlah,Total,Tingkat Kepuasan
15,16,Rini,2,800000,B,150000,4,600000,1
16,17,Rizki,1,1200000,C,200000,5,1000000,3
17,18,Sari,2,700000,D,250000,2,500000,1
18,19,Tyas,2,600000,A,100000,4,400000,3
19,20,Wahyu,1,800000,C,200000,3,600000,1


In [7]:
# melihat dimensi dari raw_data
raw_data.shape

(20, 9)

In [8]:
# mengambil jumlah data
raw_data.shape[0]

20

In [9]:
#Melihat Kolom Dalam Dataset
raw_data.columns

Index(['ID Pelanggan', 'Nama', 'Jenis Kelamin', 'Pendapatan', 'Produk',
       'Harga', 'Jumlah ', 'Total', 'Tingkat Kepuasan'],
      dtype='object')

In [10]:
# melihat data yang hilang dari dataset
raw_data.isna().sum()

ID Pelanggan        0
Nama                0
Jenis Kelamin       0
Pendapatan          0
Produk              0
Harga               0
Jumlah              0
Total               0
Tingkat Kepuasan    0
dtype: int64

In [11]:
raw_data.describe()

Unnamed: 0,ID Pelanggan,Jenis Kelamin,Pendapatan,Harga,Jumlah,Total,Tingkat Kepuasan
count,20.0,20.0,20.0,20.0,20.0,20.0,20.0
mean,10.5,1.7,1160000.0,197500.0,3.65,710000.0,2.05
std,5.91608,0.470162,1282842.0,69726.910912,1.182103,333876.8,0.887041
min,1.0,1.0,400000.0,100000.0,1.0,200000.0,1.0
25%,5.75,1.0,675000.0,150000.0,3.0,475000.0,1.0
50%,10.5,2.0,875000.0,200000.0,4.0,675000.0,2.0
75%,15.25,2.0,1125000.0,250000.0,4.25,925000.0,3.0
max,20.0,2.0,6450000.0,300000.0,5.0,1500000.0,3.0


In [12]:
raw_data.max()

ID Pelanggan             20
Nama                  Wahyu
Jenis Kelamin             2
Pendapatan          6450000
Produk                    E
Harga                300000
Jumlah                    5
Total               1500000
Tingkat Kepuasan          3
dtype: object

In [13]:
raw_data['Harga'].max()

300000

In [14]:
raw_data['Harga'].min()

100000

In [15]:
# menghitung jumlah dari semua kolom
raw_data.sum()

ID Pelanggan                                                      210
Nama                ArifDianDindaFajarIkaIlhamIndraKartikaLestariL...
Jenis Kelamin                                                      34
Pendapatan                                                   23200000
Produk                                           ADDADBBEEEABCDCBCDAC
Harga                                                         3950000
Jumlah                                                             73
Total                                                        14200000
Tingkat Kepuasan                                                   41
dtype: object

In [16]:
# menghitung jumlah dari semua kolom bertipe data numerik saja
raw_data.sum(numeric_only=True)

ID Pelanggan             210
Jenis Kelamin             34
Pendapatan          23200000
Harga                3950000
Jumlah                    73
Total               14200000
Tingkat Kepuasan          41
dtype: int64

In [17]:
# menghitung jumlah dari kolom 'Harga' dan 'Pendapatan'
raw_data[['Harga', 'Pendapatan']].sum()

Harga          3950000
Pendapatan    23200000
dtype: int64

In [18]:
# Memilih kolom 'Pendapatan' saja
raw_data['Pendapatan']

0      600000
1     1200000
2      950000
3      400000
4     1200000
5      800000
6      950000
7     1100000
8      800000
9     1700000
10     600000
11     950000
12     400000
13    6450000
14    1000000
15     800000
16    1200000
17     700000
18     600000
19     800000
Name: Pendapatan, dtype: int64

In [19]:
# Memilih kolom 'Jenis Kelamin' dan 'Pendapatan'
raw_data[['Jenis Kelamin', 'Pendapatan']]

Unnamed: 0,Jenis Kelamin,Pendapatan
0,1,600000
1,2,1200000
2,2,950000
3,1,400000
4,2,1200000
5,1,800000
6,1,950000
7,2,1100000
8,2,800000
9,2,1700000


#### Metode Loc

In [20]:
# mengambil data dari baris ke-0 sampai baris ke-(10-1) atau baris ke-9
raw_data[:10]

Unnamed: 0,ID Pelanggan,Nama,Jenis Kelamin,Pendapatan,Produk,Harga,Jumlah,Total,Tingkat Kepuasan
0,1,Arif,1,600000,A,100000,4,400000,2
1,2,Dian,2,1200000,D,250000,4,1000000,2
2,3,Dinda,2,950000,D,250000,3,750000,3
3,4,Fajar,1,400000,A,100000,2,200000,3
4,5,Ika,2,1200000,D,250000,4,1000000,2
5,6,Ilham,1,800000,B,150000,4,600000,3
6,7,Indra,1,950000,B,150000,5,750000,1
7,8,Kartika,2,1100000,E,300000,3,900000,3
8,9,Lestari,2,800000,E,300000,2,600000,1
9,10,Lia,2,1700000,E,300000,5,1500000,1


In [21]:
# mengambil data dari baris ke-3 sampai baris ke-(5-1) atau baris ke-4
raw_data[3:5]
 

Unnamed: 0,ID Pelanggan,Nama,Jenis Kelamin,Pendapatan,Produk,Harga,Jumlah,Total,Tingkat Kepuasan
3,4,Fajar,1,400000,A,100000,2,200000,3
4,5,Ika,2,1200000,D,250000,4,1000000,2


In [22]:
# Mengambil kolom 'Jenis Kelamin' dan 'Pendapatan' dan ambil baris ke-1 sampai ke-9
raw_data[['Jenis Kelamin', 'Pendapatan']][1:10]

Unnamed: 0,Jenis Kelamin,Pendapatan
1,2,1200000
2,2,950000
3,1,400000
4,2,1200000
5,1,800000
6,1,950000
7,2,1100000
8,2,800000
9,2,1700000


In [23]:
# Mengambil kolom 'Harga' dan 'Tingkat Kepuasan' dan ambil baris ke-1, ke-10 dan ke-15
raw_data[['Harga', 'Tingkat Kepuasan']].loc[[1,10,15]]

Unnamed: 0,Harga,Tingkat Kepuasan
1,250000,2
10,100000,3
15,150000,1


#### Rata-rata (Mean)

In [24]:
# mengambil hanya data untuk produk 'A'
produk_A = raw_data[raw_data['Produk'] == 'A']

In [25]:
# menghitung rerata pendapatan menggunakan method .mean pada objek pandas DataFrame
produk_A['Pendapatan'].mean()

550000.0

In [26]:
# menghitung rerata pendapatan menggunakan method .mean pada objek pandas DataFrame dengan numpy
np.mean(produk_A['Pendapatan'])

550000.0

#### Median

In [29]:
# Hitung median dari pendapatan menggunakan pandas
produk_A['Pendapatan'].median()

600000.0

In [27]:
# Hitung median dari pendapatan menggunakan numpy
np.median(produk_A['Pendapatan'])

600000.0

#### Modus

In [30]:
# Melihat jumlah dari masing-masing produk
raw_data['Produk'].value_counts()

Produk
D    5
A    4
B    4
C    4
E    3
Name: count, dtype: int64

#### Kuantil

In [31]:
# mencari median atau 50% dari data menggunakan pandas
raw_data['Pendapatan'].quantile(q = 0.5)

875000.0

In [32]:
# mencari median atau 50% dari data menggunakan pandas
np.quantile(raw_data['Pendapatan'], q=0.5)

875000.0

#### Agregasi Data dengan method .agg()

In [33]:
# menghitung rerata dan median 'Pendapatan' dan 'Harga'
raw_data[['Pendapatan', 'Harga']].agg([np.mean, np.median])

  raw_data[['Pendapatan', 'Harga']].agg([np.mean, np.median])
  raw_data[['Pendapatan', 'Harga']].agg([np.mean, np.median])
  raw_data[['Pendapatan', 'Harga']].agg([np.mean, np.median])
  raw_data[['Pendapatan', 'Harga']].agg([np.mean, np.median])


Unnamed: 0,Pendapatan,Harga
mean,1160000.0,197500.0
median,875000.0,200000.0


In [35]:
# menghitung rerata dan median Pendapatan dan Harga dari tiap produk
raw_data[['Pendapatan', 'Harga', 'Produk']].groupby('Produk').agg([np.mean, np.median])

  raw_data[['Pendapatan', 'Harga', 'Produk']].groupby('Produk').agg([np.mean, np.median])
  raw_data[['Pendapatan', 'Harga', 'Produk']].groupby('Produk').agg([np.mean, np.median])
  raw_data[['Pendapatan', 'Harga', 'Produk']].groupby('Produk').agg([np.mean, np.median])


Unnamed: 0_level_0,Pendapatan,Pendapatan,Harga,Harga
Unnamed: 0_level_1,mean,median,mean,median
Produk,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,550000.0,600000.0,100000.0,100000.0
B,875000.0,875000.0,150000.0,150000.0
C,850000.0,900000.0,200000.0,200000.0
D,2100000.0,1200000.0,250000.0,250000.0
E,1200000.0,1100000.0,300000.0,300000.0


### Ukuran Sebaran

In [36]:
# cari proporsi tiap Produk
print (raw_data['Produk'].value_counts()/raw_data.shape[0])

Produk
D    0.25
A    0.20
B    0.20
C    0.20
E    0.15
Name: count, dtype: float64


In [37]:

# Cari nilai rentang dari kolom 'Pendapatan'
print (raw_data['Pendapatan'].max() - raw_data['Pendapatan'].min())

6050000


In [38]:
# menghitung variansi Pendapatan menggunakan method .var() dari pandas
print (raw_data['Pendapatan'].var())
 

1645684210526.3157


In [39]:
 
# menghitung variansi umur menggunakan method .var() dari numpy
print (np.var(raw_data['Pendapatan']))

1563400000000.0


In [40]:
# mengatur variansi populasi dengan method `.var()` dari pandas
print (raw_data['Pendapatan'].var(ddof=0))

1563400000000.0


#### Standard Deviation

In [41]:
# menghitung deviasi baku sampel pendapatan menggunakan method std() dari pandas
print (raw_data['Pendapatan'].std())
 

1282842.2391417876


In [42]:
 
# menghitung deviasi baku sampel pendapatan menggunakan method std() dari numpy
print (np.std(raw_data['Pendapatan'], ddof = 1))

1282842.2391417876


#### Korelasi

In [56]:
# Identifikasi kolom numerik
numeric_columns = raw_data.select_dtypes(include=['int64', 'float64']).columns

numeric_columns

Index(['ID Pelanggan', 'Jenis Kelamin', 'Pendapatan', 'Harga', 'Jumlah ',
       'Total', 'Tingkat Kepuasan'],
      dtype='object')

In [57]:
numeric_data = raw_data[numeric_columns]
numeric_data

Unnamed: 0,ID Pelanggan,Jenis Kelamin,Pendapatan,Harga,Jumlah,Total,Tingkat Kepuasan
0,1,1,600000,100000,4,400000,2
1,2,2,1200000,250000,4,1000000,2
2,3,2,950000,250000,3,750000,3
3,4,1,400000,100000,2,200000,3
4,5,2,1200000,250000,4,1000000,2
5,6,1,800000,150000,4,600000,3
6,7,1,950000,150000,5,750000,1
7,8,2,1100000,300000,3,900000,3
8,9,2,800000,300000,2,600000,1
9,10,2,1700000,300000,5,1500000,1


In [59]:
numeric_data.corr()

Unnamed: 0,ID Pelanggan,Jenis Kelamin,Pendapatan,Harga,Jumlah,Total,Tingkat Kepuasan
ID Pelanggan,1.0,0.151375,0.110958,-0.028707,0.011289,-0.039968,-0.245717
Jenis Kelamin,0.151375,1.0,0.192849,0.457555,-0.104168,0.238051,-0.088339
Pendapatan,0.110958,0.192849,1.0,0.322443,0.399825,0.592044,-0.312663
Harga,-0.028707,0.457555,0.322443,1.0,-0.138883,0.645455,-0.380798
Jumlah,0.011289,-0.104168,0.399825,-0.138883,1.0,0.636097,0.017568
Total,-0.039968,0.238051,0.592044,0.645455,0.636097,1.0,-0.268345
Tingkat Kepuasan,-0.245717,-0.088339,-0.312663,-0.380798,0.017568,-0.268345,1.0


In [58]:
numeric_data.corr(method='kendall')

Unnamed: 0,ID Pelanggan,Jenis Kelamin,Pendapatan,Harga,Jumlah,Total,Tingkat Kepuasan
ID Pelanggan,1.0,0.12665,-0.054998,-0.005753,0.024016,-0.065998,-0.183817
Jenis Kelamin,0.12665,1.0,0.190245,0.415339,-0.090299,0.190245,-0.085796
Pendapatan,-0.054998,0.190245,1.0,0.523053,0.501925,0.988506,-0.165588
Harga,-0.005753,0.415339,0.523053,1.0,-0.09845,0.535078,-0.325659
Jumlah,0.024016,-0.090299,0.501925,-0.09845,1.0,0.501925,-0.028923
Total,-0.065998,0.190245,0.988506,0.535078,0.501925,1.0,-0.165588
Tingkat Kepuasan,-0.183817,-0.085796,-0.165588,-0.325659,-0.028923,-0.165588,1.0


In [61]:
numeric_data.corr(method='spearman')

Unnamed: 0,ID Pelanggan,Jenis Kelamin,Pendapatan,Harga,Jumlah,Total,Tingkat Kepuasan
ID Pelanggan,1.0,0.151375,-0.063711,-0.039149,0.046356,-0.069779,-0.23889
Jenis Kelamin,0.151375,1.0,0.219508,0.463635,-0.098864,0.219508,-0.090784
Pendapatan,-0.063711,0.219508,1.0,0.64,0.60711,0.99847,-0.192463
Harga,-0.039149,0.463635,0.64,1.0,-0.130749,0.646194,-0.378933
Jumlah,0.046356,-0.098864,0.60711,-0.130749,1.0,0.60711,-0.023874
Total,-0.069779,0.219508,0.99847,0.646194,0.60711,1.0,-0.192463
Tingkat Kepuasan,-0.23889,-0.090784,-0.192463,-0.378933,-0.023874,-0.192463,1.0
