# Tutorial Visualisasi Scatter Plot

Selamat datang di tutorial visualisasi scatter plot! Dalam tutorial ini, kita akan mempelajari cara membuat dan mengkustomisasi scatter plot menggunakan berbagai library Python.

## Daftar Isi:
1. Pengenalan Scatter Plot
2. Library untuk Membuat Scatter Plot
   - Matplotlib
   - Seaborn
   - Plotly
3. Kustomisasi Scatter Plot
4. Studi Kasus
5. Latihan

## 1. Pengenalan Scatter Plot

Scatter plot adalah jenis grafik yang menampilkan hubungan antara dua variabel numerik. Kegunaan scatter plot:
- Melihat korelasi antar variabel
- Mengidentifikasi pola dan tren
- Menemukan outlier
- Menampilkan clustering data

Mari kita mulai dengan mengimport library yang diperlukan dan menyiapkan data:

In [1]:
# Import library yang diperlukan
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Set style untuk visualisasi
plt.style.use('seaborn-v0_8')
sns.set_style("whitegrid")

# Set random seed untuk reproduktifitas
np.random.seed(42)

# Buat beberapa dataset sampel
n_samples = 100

# 1. Data dengan korelasi positif
x_pos = np.linspace(0, 10, n_samples)
y_pos = x_pos + np.random.normal(0, 1, n_samples)

# 2. Data dengan korelasi negatif
x_neg = np.linspace(0, 10, n_samples)
y_neg = 10 - x_neg + np.random.normal(0, 1, n_samples)

# 3. Data dengan pola non-linear
x_nonlin = np.linspace(0, 10, n_samples)
y_nonlin = np.sin(x_nonlin) * 3 + np.random.normal(0, 0.5, n_samples)

# Buat DataFrame
df = pd.DataFrame({
    'x_pos': x_pos, 'y_pos': y_pos,
    'x_neg': x_neg, 'y_neg': y_neg,
    'x_nonlin': x_nonlin, 'y_nonlin': y_nonlin,
    'category': np.random.choice(['A', 'B', 'C'], n_samples),
    'size': np.random.uniform(10, 100, n_samples)
})

print("Data sampel yang akan digunakan:")
print(df.head())
print("\nStatistik deskriptif:")
print(df.describe().round(2))

OSError: 'seaborn' is not a valid package style, path of style file, URL of style file, or library style name (library styles are listed in `style.available`)

## 2. Membuat Scatter Plot dengan Matplotlib

Matplotlib adalah library visualisasi dasar di Python. Mari kita lihat berbagai cara membuat scatter plot menggunakan matplotlib:

In [None]:
# 1. Scatter plot dasar
plt.figure(figsize=(15, 5))

# Plot korelasi positif
plt.subplot(131)
plt.scatter(df['x_pos'], df['y_pos'])
plt.title('Korelasi Positif')
plt.xlabel('X')
plt.ylabel('Y')

# Plot korelasi negatif
plt.subplot(132)
plt.scatter(df['x_neg'], df['y_neg'])
plt.title('Korelasi Negatif')
plt.xlabel('X')
plt.ylabel('Y')

# Plot non-linear
plt.subplot(133)
plt.scatter(df['x_nonlin'], df['y_nonlin'])
plt.title('Pola Non-linear')
plt.xlabel('X')
plt.ylabel('Y')

plt.tight_layout()
plt.show()

# 2. Scatter plot dengan berbagai kustomisasi
plt.figure(figsize=(15, 5))

# Scatter dengan warna berdasarkan kategori
plt.subplot(131)
categories = df['category'].unique()
colors = ['skyblue', 'lightgreen', 'salmon']
for cat, color in zip(categories, colors):
    mask = df['category'] == cat
    plt.scatter(df.loc[mask, 'x_pos'], 
               df.loc[mask, 'y_pos'],
               c=color, label=cat, alpha=0.6)
plt.title('Scatter dengan Kategori')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend()

# Scatter dengan ukuran berbeda
plt.subplot(132)
plt.scatter(df['x_pos'], df['y_pos'], 
           s=df['size'], alpha=0.6)
plt.title('Scatter dengan Ukuran Berbeda')
plt.xlabel('X')
plt.ylabel('Y')

# Scatter dengan colormap
plt.subplot(133)
scatter = plt.scatter(df['x_pos'], df['y_pos'],
                     c=df['size'], cmap='viridis',
                     alpha=0.6)
plt.colorbar(scatter, label='Size')
plt.title('Scatter dengan Colormap')
plt.xlabel('X')
plt.ylabel('Y')

plt.tight_layout()
plt.show()

## 3. Membuat Scatter Plot dengan Seaborn

Seaborn menyediakan interface yang lebih tinggi untuk membuat scatter plot dengan tambahan fitur seperti regresi line dan confidence intervals:

In [None]:
# 1. Scatter plot dengan Seaborn
plt.figure(figsize=(15, 5))

# Scatter plot dasar
plt.subplot(131)
sns.scatterplot(data=df, x='x_pos', y='y_pos')
plt.title('Scatter Plot Dasar')

# Scatter dengan hue dan style
plt.subplot(132)
sns.scatterplot(data=df, x='x_pos', y='y_pos',
                hue='category', style='category')
plt.title('Scatter dengan Kategori')

# Scatter dengan size
plt.subplot(133)
sns.scatterplot(data=df, x='x_pos', y='y_pos',
                size='size', hue='category',
                sizes=(20, 200))
plt.title('Scatter dengan Size')

plt.tight_layout()
plt.show()

# 2. Scatter plot dengan regression line
plt.figure(figsize=(15, 5))

# Regression line untuk data linear
plt.subplot(131)
sns.regplot(data=df, x='x_pos', y='y_pos',
            scatter_kws={'alpha':0.5})
plt.title('Linear Regression')

# Regression line untuk data non-linear
plt.subplot(132)
sns.regplot(data=df, x='x_nonlin', y='y_nonlin',
            scatter_kws={'alpha':0.5},
            order=2)
plt.title('Polynomial Regression')

# Regression by category
plt.subplot(133)
sns.lmplot(data=df, x='x_pos', y='y_pos',
           hue='category', height=5)
plt.title('Regression by Category')

plt.tight_layout()
plt.show()

# 3. Joint plot
g = sns.jointplot(data=df, x='x_pos', y='y_pos',
                 hue='category', height=8)
plt.show()

## 4. Membuat Scatter Plot Interaktif dengan Plotly

Plotly memungkinkan kita membuat scatter plot interaktif dengan fitur hover, zoom, dan pan:

In [None]:
# 1. Scatter plot dasar dengan Plotly Express
fig = px.scatter(df, x='x_pos', y='y_pos',
                 title='Interactive Scatter Plot')
fig.show()

# 2. Scatter plot dengan multiple dimensions
fig = px.scatter(df, x='x_pos', y='y_pos',
                 color='category', size='size',
                 hover_data=['x_nonlin', 'y_nonlin'],
                 title='Multi-dimensional Scatter Plot')
fig.show()

# 3. Scatter matrix
fig = px.scatter_matrix(df,
                       dimensions=['x_pos', 'y_pos', 'x_neg', 'y_neg'],
                       color='category',
                       title='Scatter Matrix')
fig.show()

# 4. Custom scatter plot dengan Graph Objects
fig = go.Figure()

# Tambahkan scatter untuk setiap kategori
for cat in df['category'].unique():
    mask = df['category'] == cat
    fig.add_trace(go.Scatter(
        x=df.loc[mask, 'x_pos'],
        y=df.loc[mask, 'y_pos'],
        mode='markers',
        name=cat,
        marker=dict(
            size=df.loc[mask, 'size'],
            sizemode='area',
            sizeref=2.*max(df['size'])/(40.**2),
            sizemin=4
        )
    ))

# Update layout
fig.update_layout(
    title='Custom Interactive Scatter Plot',
    xaxis_title='X',
    yaxis_title='Y',
    showlegend=True
)

fig.show()

# 5. Studi Kasus: Analisis Dataset Iris

Pada bagian ini, kita akan mengaplikasikan teknik-teknik visualisasi scatter plot yang telah dipelajari pada dataset Iris yang terkenal. Dataset Iris berisi pengukuran dari tiga spesies bunga iris yang berbeda, dengan empat fitur: panjang sepal, lebar sepal, panjang petal, dan lebar petal.

Kita akan:
1. Memuat dan memeriksa dataset
2. Membuat scatter plot dasar menggunakan Matplotlib
3. Membuat scatter plot dengan kategori menggunakan Seaborn
4. Membuat scatter matrix interaktif menggunakan Plotly
5. Menganalisis hubungan antar variabel dan mengidentifikasi pola

Mari kita mulai dengan memuat dataset dan melihat strukturnya.

In [None]:
# Import library yang diperlukan
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from sklearn.datasets import load_iris

# Muat dataset Iris
iris = load_iris()
df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df_iris['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

# Tampilkan informasi dataset
print("Informasi Dataset Iris:")
print("\nBentuk dataset:", df_iris.shape)
print("\nKolom dataset:")
print(df_iris.columns.tolist())
print("\nContoh 5 baris pertama:")
print(df_iris.head())
print("\nRingkasan statistik:")
print(df_iris.describe())

In [None]:
# Import library yang diperlukan
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from sklearn.datasets import load_iris

# Muat dataset Iris
iris = load_iris()
df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df_iris['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

# Tampilkan informasi dataset
print("Informasi Dataset Iris:")
print("\nBentuk dataset:", df_iris.shape)
print("\nKolom dataset:")
print(df_iris.columns.tolist())
print("\nContoh 5 baris pertama:")
print(df_iris.head())
print("\nRingkasan statistik:")
print(df_iris.describe())

# Analisis Dataset Iris

Pada notebook ini, kita akan melakukan analisis dan visualisasi dataset Iris. Dataset Iris adalah salah satu dataset klasik dalam machine learning yang berisi pengukuran dari tiga spesies bunga iris yang berbeda.

Dataset ini memiliki empat fitur:
1. sepal length (cm)
2. sepal width (cm)
3. petal length (cm)
4. petal width (cm)

Dan tiga kelas spesies:
1. setosa
2. versicolor
3. virginica

Mari kita mulai dengan memuat data dan melihat informasi dasarnya.

In [None]:
# Import library yang diperlukan
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from sklearn.datasets import load_iris

# Muat dataset Iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

# Tampilkan dimensi dataset
print("Dimensi dataset:", df.shape)
print("\nNama kolom:")
print(df.columns.tolist())

### Code untuk Import Library dan Load Data

Berikut adalah code yang perlu dijalankan untuk memulai analisis:

```python
# Import library yang diperlukan
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from sklearn.datasets import load_iris

# Muat dataset Iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

# Tampilkan dimensi dataset
print("Dimensi dataset:", df.shape)
print("\nNama kolom:")
print(df.columns.tolist())
```

Silakan copy code di atas ke cell baru dan jalankan. Code ini akan:
1. Mengimport library yang diperlukan (pandas, matplotlib, seaborn, plotly, dan sklearn)
2. Memuat dataset Iris dari sklearn
3. Mengubah data menjadi DataFrame pandas
4. Menambahkan kolom species
5. Menampilkan informasi dasar tentang dataset

Setelah menjalankan code ini, kita akan siap untuk membuat visualisasi scatter plot.