# **EXPLORATORY DATA ANALYSIS PART 2**



Sebelumnya kita load terlebih dahulu data Iris sebelum dilakukan proses analisis :

```
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd 

jalur_file = r'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
atribut_data = ['sepal-length', 'sepal-width', 'petal-length',
              'petal-width', 'class']
data_iris = pd.read_csv(jalur_file, names=atribut_data)
data_iris
```


# **A. UNIVARIATE ANALYSIS**

Univariate Analysis merupakan analisis sederhana karena yang akan dianalisis hanya memiliki **satu variable** atau variable tunggal. Sehingga variable ini tidak berurusan dengan hubungan atau sebab. Tujuan dari univariate analysis ini yaitu mendeskripsikan data dan menemukan pola yang ada didalamnya.


## **1. Box Plot | Whisker Box**

Menampilkan 5 angka ringkasan dari kumpulan data. Kelima ringkasan itu adalah nilai minimum, kuartile pertama, median, kuartile ketiga, dan nilai maksimum.

![teks alternatif](https://miro.medium.com/max/8000/1*0MPDTLn8KoLApoFvI0P2vQ.png)

Berdasarkan gambar bahwa data outlier adalah nilai yang berada diluar nilai minimum dan maximum.

Cara memvisualisasikan Iris data dengan Box Plot adalah sebagai berikut :
```
# visualize boxplot
plt.figure(figsize=(10,7))
data_iris.boxplot()
```


dari visualisasi diatas kita dapat melihat pada bagian tampilan dari `sepal-width` adanya titik - titik dibawah nilai minimum dan diatas nilai maksimum. Itu adalah outliers atau pencilan. 

## **2. Histogram Sepal Length of Iris Data**

Dengan `Box Plot` kita melihat pada `sepal-length` ada outlier. Namun kita ingin mengetahui bagaimana visualisasi datanya. Nah kita bisa menggunakan histogram. Berikut adalah kodenya :

```
# histogram
plt.figure(figsize = (10, 7))
x = data_iris["sepal-length"]
plt.hist(x, bins = 20, color = "blue")
plt.title("Sepal Length Iris")
plt.xlabel("Sepal-length")
plt.ylabel("Count")
```

**Keterangan**

1. `plt.figure(figsize = (10, 7))` adalah syntax untuk membuat bingkai dengan ukuran tertentu 

2. `x = data_iris["sepal-width"]` adalah syntax untuk mendeklarasikan dataset kedalam sumbu X / variable x

3. `plt.hist(x, bins = 20, color = "blue")` adalah syntax untuk membuat histogram dimana **x** = inputan data, **bins** = ukuran histogram antar data, **color** = warna histogram

4. `plt.title("Sepal Length Iris")` adalah syntax untuk memberikan judul pada histogram yang kita buat

5. `plt.xlabel("Sepal-length")` adalah syntax untuk memberi nama pada sumbu x

6. `plt.ylabel("Count")` adalah syntax untuk memberi nama pada sumbu y

Kita perhatikan dari visualisasi daiatas.  Perhatikan pada data kisaran 2.0 - 2.1 serta 3,9 - 4,4 (kira kira). Histogram terlihat melandai artinya ada beberapa data terkait bunga Iris yang tebal sepal atau sepal widthnya diatas 4.0 dan mendekati 2.0 yang berada di luar nilai max dan min pada box plot. Jika lupa, Anda bisa mengecek deskripsi statistik singkatnya dengan fungsi `describe()` yaitu dengan mengetikkan `dataset.describe()`.

# **B. MULTIVARIATE ANALYSIS**

Multivariate Analysis merupakan teknik analisis yang mana data bisa muncul dengan lebih dari satu variable. Tujuan menggunakan Multivariate Analysis ini untuk memodelkan data lebih realistis, karena variable dalam pengambilan keputusannya melibatkan lebih dari satu variable.

## **1. Violin Chart**

Grafik Violin digunakan untuk melihat density atau kepadatan dari suatu data. Violin yang semakin besar atau menggembung menandakan kepadatan datanya semakin banyak, ditinjau dari kolom atau features data yang divisualisasikan.

Berikut kodenya :

```
import matplotlib.pyplot as plt
import seaborn as sns

sns.violinplot(x="class", y="petal-length", data=data_iris, size=6)
plt.show()
```

Dari visualisasi diatas kita bisa melihat bahwa density paling padat ada di `iris=setosa`. Dari sini kita bisa menyimpulkan bahwa dibanyak data yang ada, atau kolom features mulai dari sepal-length hingga petal-width lebih banyak merepresentasikan kategori `Iris-Setosa`.

## **2. Paiprlot Chart using Seaborn**

Pairplot ini adalah grafik yang merepresentasikan hubungan antara dua variabel. Dari sini kita bisa melihat secara kasar bagaimana karakteristik suatu data, atau hubungan antara varibel dalam data tersebut. Dengan kode hanya 1 baris, ini adalah chart yang paling powerfull. Berikut kodenya :

```
import seaborn as sns
from seaborn import pairplot

sns.pairplot(data_iris, hue='class').add_legend()
```

**Keterangan**

1. `import seaborn as sns` adalah syntax untuk memanggil library seaborn dengan sns adalah sebagai prefix nya.

2. `from seaborn import pairplot` dari seaborn kita panggil fungsi pairplot.
3. `sns.pairplot(dataset, hue ="class").add_legend()` perintah untuk menampilkan pairplot dengan penambahan keterangan atau legend.


Dari visualisasi diatas kita bisa melihat matriks grafik yaitu hubungan 2 variabel dari data Iris. Mulai dari sisi paling kiri kita melihat hubungan antara sepal-length dengan petal-width. Kemudian ada 2 macam grafik yang ditampilkan yaitu **Scatter (diagram pencar)** dan **Diagram KDE**. 

Hasil analisisnya adalah :
Perhatikan warna biru yang merupakan warna untuk `Iris Setosa`. Sebelumnya di `Violin Chart` kita sudah melihat bahwa kepdatan data paling banyak ada di Iris Setosa. Dimana features data cenderung lebih menjelaskan tentang Iris Setosa. Begitu juga seperti yang terlihat di grafik diatas, mulai dari hubungan sepal-length dengan petal-width kita melihat Iris setosa berkelompok dengan baik. 

# **References**

* **Python Docs**. https://docs.python.org/3/library/io.html 
* **LABKOM**. 2021. "Modul Pemrograman Data Analisis". Bogor. Laboratorium Ilmu Komputer UNPAK
* **Avuluri, V. S. R**. 2019. EDA of Iris Data using Python . https://medium.com/@avulurivenkatasaireddy/exploratory-data-analysis-of-iris-data-set-using-python-823e54110d2d
*  **Koeherlsen, W**. 2018. Visualizing Data using Pairplots. https://towardsdatascience.com/visualizing-data-with-pair-plots-in-python-f228cf529166
* **Kaggle**. 2018. Visualizing Iris Data. https://www.kaggle.com/kstaud85/iris-data-visualization
* **Restori, M**. What is EDA?. https://chartio.com/learn/data-analytics/what-is-exploratory-data-analysis/ 