# Explorasi Data Iris

## Pengertian
Explorasi Data adalah tahap dalam proyek sains data yang berfokus pada analisis mendalam terhadap dataset untuk menemukan pola, tren, hubungan antar variabel, dan anomali. Tahap ini sering disebut juga sebagai Exploratory Data Analysis (EDA), yaitu proses untuk “menceritakan kisah” yang ada di balik data melalui analisis statistik dan visualisasi.

## Tujuan
- Memahami distribusi data dan karakteristik variabel.<br>
- Mengidentifikasi pola, tren, dan hubungan antar variabel.<br>
- Menemukan outlier atau nilai ekstrem yang perlu ditangani.<br>
- Menguji hipotesis awal yang berkaitan dengan tujuan bisnis.<br>
- Memberikan insight awal yang bisa menjadi dasar pemodelan.<br>

## Langkah - Langkah
1. Analisis Statistik Deskriptif<br>
Menghitung ukuran pemusatan (mean, median, modus) dan ukuran penyebaran (range, varians, standar deviasi).

2. Visualisasi Distribusi Data<br>
Menggunakan histogram, boxplot, atau density plot untuk melihat distribusi variabel numerik.

3. Analisis Korelasi<br>
Menggunakan scatter plot, heatmap, atau matriks korelasi untuk melihat hubungan antar variabel.

4. Identifikasi Outlier & Anomali<br>
Mendeteksi nilai yang tidak wajar yang bisa memengaruhi analisis.

5. Segmentasi atau Clustering Awal<br>
Jika relevan, dilakukan segmentasi untuk mengenali kelompok dalam data.

## Data Iris

In [None]:
import pandas as pd

df = pd.read_csv("data/IRIS.csv")
df.head(20)

Berikut ini adalah data iris flower yang di ambil dari Kaggle, data yang ditampilkan hanya beberapa dari semua data

## Source Code

In [None]:
import pandas as pd
from scipy import stats

# Membaca data
df = pd.read_csv("data/IRIS.csv", usecols=[0])
df.columns = ['sepal_length']

# Statistik deskriptif
print("Jumlah data      :", df['sepal_length'].count())
print("Rata-rata        :", df['sepal_length'].mean())
print("Nilai minimum    :", df['sepal_length'].min())
print("Q1               :", df['sepal_length'].quantile(0.25))
print("Median (Q2)      :", df['sepal_length'].quantile(0.5))
print("Q3               :", df['sepal_length'].quantile(0.75))
print("Nilai maksimum   :", df['sepal_length'].max())

# Modus
mode = stats.mode(df['sepal_length'], keepdims=True)
print("Modus            :", mode.mode[0])
print("Frekuensi modus  :", mode.count[0])

# Variasi data
print("Standar deviasi  :", df['sepal_length'].std())
print("Variansi         :", df['sepal_length'].var())

## Keterangan Hasil

- **Jumlah data** menunjukkan banyaknya sampel yang dianalisis.
- **Rata-rata (mean)** merupakan nilai pemusatan data.
- **Nilai minimum dan maksimum** menunjukkan rentang data.
- **Q1, Median (Q2), dan Q3** membagi data menjadi empat bagian sama besar.
- **Modus** adalah nilai yang paling sering muncul dalam data.
- **Standar deviasi** menunjukkan tingkat penyebaran data dari rata-rata.
- **Variansi** merupakan kuadrat dari standar deviasi.

## Kesimpulan

Berdasarkan analisis statistik deskriptif, atribut **sepal_length**
pada dataset Iris memiliki sebaran data yang relatif stabil.
Nilai standar deviasi yang tidak terlalu besar menunjukkan bahwa
data tidak menyebar jauh dari nilai rata-ratanya.