# Exploratory Data Analysis with Python for Beginner

## Pengenalan Library dalam Python

### Library NumPy
Numpy berasal dari kata ‘Numerical Python’, sesuai namanya NumPy berfungsi sebagai library untuk melakukan proses komputasi numerik terutama dalam bentuk array multidimensional (1-Dimensi ataupun 2-Dimensi). Array merupakan kumpulan dari variabel yang memiliki tipe data yang sama. NumPy menyimpan data dalam bentuk arrays.

Bentuk 1D NumPy array dapat diilustrasikan sebagai berikut:

![image-3.png](attachment:image-3.png)

Bentuk 2D NumPy array dapat diilustrasikan sebagai berikut:

![image-4.png](attachment:image-4.png)

### Library Pandas
Pandas merupakan library yang memudahkan dalam melakukan manipulasi, cleansing maupun analisis struktur data. Dengan menggunakan Pandas, dapat memanfaatkan lima fitur utama dalam pemrosesan dan analisis data, yaitu load, prepare, manipulate, modelling, dan analysis data.

Pandas menggunakan konsep array dari NumPy namun memberikan index kepada array tersebut, sehingga disebut series ataupun data frame. Sehingga bisa dikatakan Pandas menyimpan data dalam dictionary-based NumPy arrays. 1-Dimensi labelled array dinamakan sebagai Series. Sedangkan 2-Dimensi dinamakan sebagai Data Frame.

Bentuk dari series diilustrasikan sebagai berikut:

![image.png](attachment:image.png)

Bentuk dari data frame diilustrasikan sebagai berikut:

![image-2.png](attachment:image-2.png)

### Library SciPy
Scipy dibangun untuk bekerja dengan array NumPy dan menyediakan banyak komputasi numerik yang ramah pengguna dan efisien seperti rutinitas untuk integrasi, diferensiasi dan optimasi numerik.

Baik NumPy maupun SciPy berjalan pada semua operating system, cepat untuk diinstall dan gratis. NumPy dan SciPy mudah digunakan, tetapi cukup kuat untuk diandalkan oleh beberapa data scientist dan researcher terkemuka dunia.

### Library Matplotlib
Matplotlib merupakan library dari Python yang umum digunakan untuk visualisasi data. Matplotlib memiliki kapabilitas untuk membuat visualisasi data 2-dimensional. Contoh visualisasi yang dapat dibuat dengan menggunakan matplotlib diantaranya adalah

1. Line chart
2. Bar chart
3. Pie chart
4. Box plot chart
5. Violin chart
6. Errorbar chart
7. Scatter chart

Jenis-jenis chart lainnya juga dapat dibuat melalui library ini.

### Quiz
Karyawan A mendapatkan tugas dari karyawan B untuk membuat summary dari hasil dataset penjualan di e-commerce ABC, dimana order dataset tersebut disimpan di CSV file. Namun karyawan A memiliki kesulitan dalam melakukan proses loading dataset tersebut ke dalam Python.

Library dari Python manakah yang dapat direkomendasikan kepada karyawan A?

JAWABAN

Pandas

### Quiz
Setelah melakukan proses manipulasi data, untuk menyajikan data tersebut, karyawan A butuh membuat beberapa chart terkait distribusi data. Library manakah yang paling cocok digunakan oleh karyawan A?

JAWABAN

Matplotlib

### Memanggil library di Python


In [None]:
import numpy as np
import pandas as pd

## Exploratory Data Analysis dengan Pandas - Part 1

### Membaca file dari Excel atau CSV sebagai data frame
Salah satu fungsi Pandas yaitu melakukan load data dari CSV atau Excel file. Syntax yang digunakan untuk melakukan operasi tersebut, yaitu:

![image.png](attachment:image.png)

Nama variabel (**[nama_variabel]**) dari contoh diatas menunjukkan nama variabel dari dataframe untuk menampung data dari datasets tersebut!

 

### Tugas Praktek

In [None]:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")

### Inspeksi struktur data frame
Setelah melakukan proses loading dataframe ke dalam Python. Hal selanjutnya sebelum memulai analisis tentunya mengerti struktur dataset tersebut. Sehingga langkah selanjutnya dari pre - analisis biasanya dilakukan untuk:

1. melihat struktur data frame,
2. melihat preview data dari dataframe tersebut, dan
3. membuat summary data sederhana dari dataset.

### Melihat struktur kolom dan baris dari data frame
Hal pertama dalam mengerti struktur dari dataframe adalah informasi mengenai berapa size dari dataframe yang akan digunakan termasuk berapa jumlah kolom dan jumlah baris data frame tersebut.

Dalam kasus ini, menggunakan attribute .shape pada suatu dataframe. Syntaxnya dinyatakan dengan:

![image.png](attachment:image.png)

### Tugas Praktek

In [None]:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.shape)

### Melihat preview data dari data frame
Selanjutnya, untuk mendapatkan gambaran dari konten dataframe tersebut. Kita dapat menggunakan function head dan tail, dengan syntax:

![image.png](attachment:image.png)

Jika [jumlah_data] pada function head dan tail dikosongkan maka secara default akan ditampilkan sebanyak 5 (lima) baris saja. Sehingga bisa ditulis sebagai berikut: 

![image-2.png](attachment:image-2.png)

### Tugas Praktek

In [None]:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.head(10))

### Statistik Deskriptif dari Data Frame - Part 1
Statistik deskriptif atau summary dalam Python - Pandas, dapat diperoleh dengan menggunakan fungsi describe(), yaitu:

![image.png](attachment:image.png)

Function describe dapat memberikan informasi mengenai nilai rataan, standar deviasi dan IQR (interquartile range).

Ketentuan umum:

* Secara umum function **describe()** akan secara otomatis mengabaikan kolom category dan hanya memberikan summary statistik untuk kolom berjenis numerik.
* Kita perlu menambahkan argument bernama **include = "all"** untuk mendapatkan summary statistik atau statistik deskriptif dari kolom numerik dan karakter.
yaitu

![image-2.png](attachment:image-2.png)

**Contoh penggunaan describe() di Pandas!**

Terdapat dataframe Pandas dengan nama **nilai_skor_df** dengan informasi seperti gambar dibawah:

![image-3.png](attachment:image-3.png)

dengan menggunakan fungsi describe pada **nilai_skor_df**

![image-4.png](attachment:image-4.png)

menghasilkan

![image-5.png](attachment:image-5.png)

### Statistik Deskriptif dari Data Frame - Part 2
Jika ingin mendapatkan summary statistik dari kolom yang tidak bernilai angka, maka aku dapat menambahkan command **include=["object"]** pada syntax **describe()**.

![image.png](attachment:image.png)

Hasil:

![image-2.png](attachment:image-2.png)

Function **describe()** dengan **include="all"** akan memberikan summary statistik dari semua kolom. Contoh penggunaannya:

![image-3.png](attachment:image-3.png)

Hasil:

![image-4.png](attachment:image-4.png)

### Statistik Deskriptif dari Data Frame - Part 3
Selanjutnya, untuk mencari rataan dari suatu data dari dataframe. Aku dapat menggunakan syntax mean, median, dan mode dari Pandas.

![image.png](attachment:image.png)

Contoh penggunaan:

![image-2.png](attachment:image-2.png)

Memberikan hasil:

```
21.4 # Mean
78   # Median
```

### Tugas Praktek


In [None]:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Quick summary  dari segi kuantitas, harga, freight value, dan weight
print(order_df.describe())
# Median dari total pembelian konsumen per transaksi kolom price
print(order_df.loc[:, 'price'].median)

## Exploratory Data Analysis dengan Pandas - Part 2

### Mengenal dan Membuat Distribusi Data dengan Histogram
Histogram merupakan salah satu cara untuk mengidentifikasi sebaran distribusi dari data. Histogram adalah grafik yang berisi ringkasan dari sebaran (dispersi atau variasi) suatu data. Pada histogram, tidak ada jarak antar batang/bar dari grafik. Hal ini dikarenakan bahwa titik data kelas bisa muncul dimana saja di daerah cakupan grafik. Sedangkan ketinggian bar sesuai dengan frekuensi atau frekuensi relatif jumlah data di kelas. Semakin tinggi bar, semakin tinggi frekuensi data. Semakin rendah bar, semakin rendah frekuensi data.

**Syntax umum**:

![image.png](attachment:image.png)

Beberapa atribut penting dalam histogram pandas:

* bins = jumlah_bins dalam histogram yang akan digunakan. Jika tidak didefinisikan jumlah_bins, maka function akan secara default menentukan jumlah_bins sebanyak 10.
* by = nama kolom di DataFrame untuk di group by. (valuenya berupa nama column di dataframe tersebut).
* alpha = nilai_alpha untuk menentukan opacity dari plot di histogram. (value berupa range 0.0 - 1.0, dimana semakin kecil akan semakin kecil opacity nya)
* figsize = tuple_ukuran_gambar yang digunakan untuk menentukan ukuran dari plot histogram. Contoh: figsize=(10,12)

![image-2.png](attachment:image-2.png)

### Tugas Praktek

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# plot histogram kolom: price
order_df[['price']].hist(figsize=(4, 5), bins=10, xlabelsize=8, ylabelsize=8)
plt.show()  # Untuk menampilkan histogram plot

### Standar Deviasi dan Varians pada Pandas
Varians dan standar deviasi juga merupakan suatu ukuran dispersi atau variasi. Standar deviasi merupakan ukuran dispersi yang paling banyak dipakai. Hal ini mungkin karena standar deviasi mempunyai satuan ukuran yang sama dengan satuan ukuran data asalnya. Sedangkan varians memiliki satuan kuadrat dari data asalnya (misalnya cm^2).

Syntax dari standar deviasi dan varians pada Pandas:

![image.png](attachment:image.png)

Contoh penggunaan pada dataframe nilai_skor_df:

![image-2.png](attachment:image-2.png)

Hasil:

```
2.701851217
152.8
```

### Tugas Praktek


In [None]:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Standar variasi kolom product_weight_gram
print(order_df.loc[:, 'product_weight_gram'].std)
# Varians kolom product_weight_gram
print(order_df.loc[:, 'product_weight_gram'].var)

### Menemukan Outliers Menggunakan Pandas
Sebelum menuju ke step by step dalam menemukan outliers, sedikit intermezo dahulu mengenai definisi dari outliers.

Outliers merupakan data observasi yang muncul dengan nilai-nilai ekstrim. Yang dimaksud dengan nilai-nilai ekstrim dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai lain dalam kelompoknya.

![image.png](attachment:image.png)

Pada umumnya, outliers dapat ditentukan dengan metric IQR (interquartile range).

Rumus dasar dari IQR: Q3 - Q1. Dan data suatu observasi dapat dikatakan outliers jika memenuhi kedua syarat dibawah ini:

* data < Q1 - 1.5 * IQR
* data > Q3 + 1.5 * IQR
 
Syntax di Python:

![image-2.png](attachment:image-2.png)

Contoh case: mengidentifikasi IQR dari dataframe nilai_skor_df

![image-3.png](attachment:image-3.png)

Hasil:

![image-4.png](attachment:image-4.png)

Karena saat ini memiliki skor IQR, saatnya untuk menentukan Outliers. Kode di bawah ini akan memberikan output dengan beberapa nilai True atau False. Titik data di mana terdapat False yang berarti nilai-nilai ini valid sedangkan True menunjukkan adanya outliers.

![image-5.png](attachment:image-5.png)

menghasilkan

![image-6.png](attachment:image-6.png)

### Tugas Praktek

In [None]:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Hitung quartile 1
Q1 = order_df[['product_weight_gram']].quantile(0.25)
# Hitung quartile 3
Q3 = order_df[['product_weight_gram']].quantile(0.75)
# Hitung inter quartile range dan cetak ke console
IQR = Q3 - Q1
print(IQR)

### Rename Kolom Data Frame
Pada bagian ini, aku belajar cara mengganti nama kolom dataframe menggunakan Pandas. Mengganti nama kolom pada Pandas dapat dilakukan dengan 2 cara:

1. Menggunakan nama kolom.
2. Menggunakan indeks kolom.
 

**1. Rename menggunakan nama kolom**

Syntax:

![image.png](attachment:image.png)

Contoh penggunaan:

![image-2.png](attachment:image-2.png)

**2. Rename menggunakan indeks kolom**

Syntax:

![image-3.png](attachment:image-3.png)

Contoh penggunaan:

![image-4.png](attachment:image-4.png)

### Tugas Praktek

In [None]:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Ganti nama kolom freight_value menjadi shipping_cost
order_df.rename(columns={"freight_value": "shipping_cost"}, inplace=True)
print(order_df)

### .groupby menggunakan Pandas
Kegunaan .groupby adalah mencari summary dari data frame dengan menggunakan aggregate dari kolom tertentu.

Contoh penggunaan:

Diberikan dataset bernama df seperti pada gambar dibawah!

![image.png](attachment:image.png)

Penggunaan groupby:

![image-2.png](attachment:image-2.png)

Hasil:

![image-3.png](attachment:image-3.png)

Penjelasan: komputasi diatas menggunakan kolom ‘Name’ sebagai aggregate dan kemudian menggunakan menghitung mean dari kolom ‘Score’ pada tiap - tiap aggregate tersebut.

Contoh lainnya:

![image-4.png](attachment:image-4.png)

Hasil:

![image-5.png](attachment:image-5.png)

Penjelasan: komputasi diatas menggunakan kolom ‘Name’ dan ‘Exam’ sebagai aggregate dan kemudian menggunakan menghitung sum dari kolom ‘Score’ pada tiap - tiap aggregate tersebut.

### Tugas Praktek

In [None]:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Hitung rata rata dari price per payment_type
rata_rata = order_df["price"].groupby(order_df["payment_type"]).mean()
print(rata_rata)

### Sorting Menggunakan Pandas
Sorting adalah sebuah metode mengurutkan data berdasarkan syarat kolom tertentu dan biasanya digunakan untuk melihat nilai maksimum dan minimum dari dataset. Library Pandas sendiri menyediakan fungsi sorting sebagai fundamental dari exploratory data analysis.

Syntax untuk operasi sorting pada Pandas:

![image.png](attachment:image.png)

Contoh:

Sorting terhadap dataset nilai_skor_df berdasarkan age!

![image-2.png](attachment:image-2.png)

menghasilkan

![image-3.png](attachment:image-3.png)

Function tersebut akan secara default mengurutkan secara ascending (dimulai dari nilai terkecil), untuk dapat mengurutkan secara descending (nilai terbesar lebih dahulu), dapat menggunakan properti tambahan:

![image-4.png](attachment:image-4.png)

Contoh:

Sorting terhadap dataset nilai_skor_df berdasarkan age dimulai dari umur tertua!

![image-5.png](attachment:image-5.png)

menghasilkan

![image-6.png](attachment:image-6.png)

Fungsi sorting di Pandas juga dapat dilakukan menggunakan lebih dari satu kolom sebagai syarat. Contohnya pada skenario di bawah, akan mencoba mengaplikasikan fungsi sorting menggunakan Age dan Score sekaligus:

![image-7.png](attachment:image-7.png)

### Tugas Praktek

In [None]:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Hitung harga maksimum pembelian customer
sort_harga = order_df.sort_values(by="customer_id", ascending=False)
#print(sort_harga)
print(order_df.info())
median_price = order_df["price"].groupby(order_df["payment_type"]).median()
print(median_price)

## Mini Project

### Tugas dari Andra

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Median price yang dibayar customer dari masing-masing metode pembayaran. 
median_price = order_df["price"].groupby(order_df["payment_type"]).median()
print(median_price)
# Ubah freight_value menjadi shipping_cost dan cari shipping_cost 
# termahal dari data penjualan tersebut menggunakan sort.
order_df.rename(columns={"freight_value": "shipping_cost"}, inplace=True)
sort_value = order_df.sort_values(by="shipping_cost", ascending=0)
print(sort_value)
# Untuk product_category_name, berapa  rata-rata weight produk tersebut 
# dan standar deviasi mana yang terkecil dari weight tersebut, 
mean_value = order_df["product_weight_gram"].groupby(order_df["product_category_name"]).mean()
print(mean_value.sort_values())
std_value = order_df["product_weight_gram"].groupby(order_df["product_category_name"]).std()
print(std_value.sort_values())
# Buat histogram quantity penjualan dari dataset tersebutuntuk melihat persebaran quantity 
# penjualan tersebut dengan bins = 5 dan figsize= (4,5)
order_df[["quantity"]].hist(figsize=(4, 5), bins=5)
plt.show()