# **Simple Exploratory Data Analysis (EDA) Dengan Statistik Deskriptif**

## **Pengertian EDA**
exploratory Data Analysis adalah suatu proses uji investigasi awal yang bertujuan untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi. Dengan melakukan EDA, pengguna akan sangat terbantu dalam mendeteksi kesalahan dari awal, dapat mengidentifikasi outlier, mengetahui hubungan antar data serta dapat menggali faktor-faktor penting dari data. Proses EDA ini sangat bermanfaat dalam proses analisis statistik.


Dengan demikian tidak heran jika para praktisi data profesional sudah sangat sering menggunakan EDA agar hasil analisis menjadi lebih valid dan relevan dengan tujuan bisnis. Secara umum terdapat beberapa teknik exploratory data analysis yaitu dengan menggunakan statistik deskriptif, univariat analysis, dan multivariat analysis.

## **Pentingnya EDA**

Ketika seseorang melakukan proses analisis data, salah satu proses yang sebaiknya tidak terlewatkan adalah exploratory data analysis (EDA). EDA merupakan salah satu proses penting dalam analisis data dikarenakan dengan melakukan EDA pengguna akan dapat lebih menghemat waktu dalam proses analisis data, dapat mengetahui beberapa kesalahan dalam data seperti adanya missing value, outliers, duplikasi, encodings, data noisy, data tidak lengkap, dll.


Salah satu hal yang dikhawatirkan jika tidak melalui proses EDA adalah terjadinya error yang berulang-ulang dalam proses analisis, atau hasil analisis menjadi kurang valid dan kurang relevan dengan tujuan bisnis dikarenakan data yang digunakan masih benar-benar belum siap. Selain itu dengan melakukan EDA, pengguna akan terbantu dalam melihat data sebelum membuat asumsi apapun sehingga dapat mengidentifikasi kesalahan-kesalahan dalam data.

## **Teknik Exploratory Data Analysis**

Pada proses pengolahan data, dalam melakukan exploratory data analysis dapat menggunakan beberapa teknik yang tersedia, yaitu:

**Statistik deskriptif**

    mendeskripsikan atau merangkum data sehingga menghasilkan informasi secara umum tanpa bertujuan untuk menarik kesimpulan. Statistik deskriptif dapat menampilkan beberapa informasi penting seperti nilai rata-rata, median, modus, standar deviasi, variansi dan kecekungan. Statistik deskriptif ini dapat ditampilkan dalam berbagai bentuk seperti tabel, diagram, grafik, dll.

**Univariate analysis**

    Menganalisis kolom secara terpisah dan melihat distribusi datanya. Univariate analysis secara umum terbagi dua, yaitu numerik dan kategorik. Analisis ini digunakan juga dengan tujuan untuk mengambil kesimpulan dengan menggunakan beberapa analisis inferensial yang mungkin digunakan.

**Multivariate analysis**

    Menggabungkan beberapa kolom dengan tujuan menemukan hubungan antara satu kolom dengan kolom lainnya.




## Contoh Kasus
EDA untuk Data penjualan cabang supermarket XYZ dengan metode statistik Deskriptif. Berikut ini detailnya:

1. Bagimana mentukan *Median price* yang dibayar customer dari masing-masing metode pembayaran.
2. Mecari data metode pembayaran yang memiliki basket size (rataan median price) terbesar. Untuk mencari metode pembayaran apa yang sering digunakan pelanggan.
3. Mencari data termahal dari *freight_value*, dengan Ubah freight_value menjadi shipping_cost dan cari shipping_cost termahal dari data penjualan tersebut menggunakan sort. Untuk mencari data shipping_cost termahal.
4. Mencari *standar deviasi* untuk setiap product_category_name, berapa rata-rata weight produk tersebut dan standar deviasi mana yang terkecil dari weight tersebut, untuk mengukur penyebaran kelompok data produk.
5. Membuat histogram quantity penjualan dari dataset tersebut untuk melihat persebaran quantity penjualan tersebut dengan bins = 5 dan figsize= (4,5). Untuk membandingkan secara visual antara data penjualan

Dari studi kasus diatas dapat diterjemahkah dengan kode sebagai berikut:

**Kode Program 6.1**


```python
import pandas as pd
import matplotlib.pyplot as plt
order_df = pd.read_csv("https://github.com/rahmadsa/dataset/blob/main/order.csv?raw=true")

# Median price yang dibayar customer dari masing-masing metode pembayaran.

median_price = order_df["price"].groupby(order_df["payment_type"]).median()
print(median_price)

# Ubah freight_value menjadi shipping_cost dan cari shipping_cost
# termahal dari data penjualan tersebut menggunakan sort.
order_df.rename(columns={"freight_value": "shipping_cost"}, inplace=True)
sort_value = order_df.sort_values(by="shipping_cost", ascending=0)
print(sort_value)

# Untuk product_category_name, berapa  rata-rata weight produk tersebut
# dan standar deviasi mana yang terkecil dari weight tersebut,
mean_value = order_df["product_weight_gram"].groupby(order_df["product_category_name"]).mean()
print(mean_value.sort_values())
std_value = order_df["product_weight_gram"].groupby(order_df["product_category_name"]).std()
print(std_value.sort_values())

# Buat histogram quantity penjualan dari dataset tersebutuntuk melihat persebaran quantity
# penjualan tersebut dengan bins = 5 dan figsize= (4,5)
order_df[["quantity"]].hist(figsize=(4, 5), bins=5)
plt.show()
```

**Tugas Project 1a: **

Amati dan pahami proses EDA dengan menjalankan script **Kode Program 6.1** pada cell editor dibawah ini.


In [None]:
#Tugas Project 1a:

**Tugas Project 1b:**

Rubahlah kode script **Kode Program 6.1** dengan ketentuan sebagai berikut.....

In [None]:
#Implentasi Praktik 2