# Seaborn 기본 튜토리얼

이 노트북은 Seaborn의 기본 기능들을 실습하기 위한 튜토리얼입니다. 기본적인 플롯부터 다양한 시각화 기법을 다룹니다.

## 목차
1. Seaborn 소개 및 설정
2. 기본 플롯 유형
3. 범주형 데이터 시각화
4. 분포 시각화
5. 관계형 데이터 시각화

## 1. Seaborn 소개 및 설정

In [None]:
# 필요한 라이브러리 임포트
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 한글 폰트 설정 (Windows)
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

# Seaborn 테마 설정
sns.set_theme(style="whitegrid")
sns.set_context("notebook")

print("Seaborn 버전:", sns.__version__)
print("Matplotlib 버전:", plt.matplotlib.__version__)
print("Pandas 버전:", pd.__version__)

## 2. 샘플 데이터 로드

In [None]:
# Seaborn 내장 데이터셋 로드
tips = sns.load_dataset("tips")
iris = sns.load_dataset("iris")
titanic = sns.load_dataset("titanic")

# 데이터 확인
print("Tips 데이터셋 정보:")
print(tips.head())
print("\n데이터 크기:", tips.shape)
print("\n데이터 타입:")
print(tips.dtypes)

## 3. 기본 플롯 유형

### 3.1 산점도 (Scatter Plot)

In [None]:
# 기본 산점도
plt.figure(figsize=(10, 6))
sns.scatterplot(data=tips, x="total_bill", y="tip")
plt.title("총 청구액과 팁의 관계")
plt.xlabel("총 청구액 ($)")
plt.ylabel("팁 ($)")
plt.show()

In [None]:
# 범주별 색상 구분
plt.figure(figsize=(10, 6))
sns.scatterplot(data=tips, x="total_bill", y="tip", hue="day")
plt.title("요일별 총 청구액과 팁의 관계")
plt.show()

In [None]:
# 다차원 산점도
plt.figure(figsize=(12, 7))
sns.scatterplot(
    data=tips, 
    x="total_bill", 
    y="tip", 
    hue="day",           # 색상으로 요일 구분
    size="party_size",   # 크기로 파티 크기 구분
    style="time",        # 스타일로 시간 구분
    sizes=(20, 200),      # 크기 범위 설정
    alpha=0.7             # 투명도 설정
)
plt.title("다차원 산점도")
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

### 3.2 선 그래프 (Line Plot)

In [None]:
# 시계열 데이터 생성
dates = pd.date_range('2023-01-01', periods=100)
values = np.cumsum(np.random.randn(100)) + 100

time_series_df = pd.DataFrame({
    'date': dates,
    'value': values,
    'category': np.random.choice(['A', 'B', 'C'], 100)
})

# 기본 선 그래프
plt.figure(figsize=(12, 6))
sns.lineplot(data=time_series_df, x='date', y='value')
plt.title("시간에 따른 값의 변화")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# 카테고리별 선 그래프
plt.figure(figsize=(12, 6))
sns.lineplot(
    data=time_series_df, 
    x='date', 
    y='value', 
    hue='category',
    ci='sd',              # 표준편차 신뢰 구간
    style='category',     # 선 스타일 구분
    markers=True,         # 마커 표시
    dashes=False          # 실선으로 표시
)
plt.title("카테고리별 시계열 추세")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 4. 범주형 데이터 시각화

### 4.1 박스 플롯 (Box Plot)

In [None]:
# 기본 박스 플롯
plt.figure(figsize=(10, 6))
sns.boxplot(data=tips, x="day", y="total_bill")
plt.title("요일별 총 청구액 분포")
plt.show()

In [None]:
# 범주별 박스 플롯
plt.figure(figsize=(12, 7))
sns.boxplot(
    data=tips,
    x="day",
    y="total_bill",
    hue="smoker",
    palette="Set2",
    width=0.8
)
plt.title("요일 및 흡연 여부별 총 청구액 분포")
plt.legend(title="흡연 여부")
plt.show()

### 4.2 바이올린 플롯 (Violin Plot)

In [None]:
# 기본 바이올린 플롯
plt.figure(figsize=(10, 6))
sns.violinplot(data=tips, x="day", y="total_bill")
plt.title("요일별 총 청구액 분포")
plt.show()

In [None]:
# 분할 바이올린 플롯
plt.figure(figsize=(12, 7))
sns.violinplot(
    data=tips,
    x="day",
    y="total_bill",
    hue="smoker",
    split=True,        # 양쪽으로 분할
    inner="quartile",  # 내부에 사분위수 표시
    palette="muted"
)
plt.title("요일 및 흡연 여부별 총 청구액 분포")
plt.legend(title="흡연 여부")
plt.show()

### 4.3 막대 그래프 (Bar Plot)

In [None]:
# 기본 막대 그래프
plt.figure(figsize=(10, 6))
sns.barplot(data=tips, x="day", y="total_bill")
plt.title("요일별 평균 청구액")
plt.show()

In [None]:
# 신뢰 구간이 포함된 막대 그래프
plt.figure(figsize=(12, 7))
sns.barplot(
    data=tips,
    x="day",
    y="total_bill",
    hue="time",
    ci=95,           # 95% 신뢰 구간
    palette="deep",
    capsize=0.1      # 신뢰 구간 막대 크기
)
plt.title("요일 및 시간별 평균 청구액")
plt.legend(title="시간")
plt.show()

### 4.4 카운트 플롯 (Count Plot)

In [None]:
# 기본 카운트 플롯
plt.figure(figsize=(10, 6))
sns.countplot(data=tips, x="day")
plt.title("요일별 방문자 수")
plt.show()

In [None]:
# 수평 카운트 플롯
plt.figure(figsize=(10, 7))
sns.countplot(data=tips, y="day", hue="time")
plt.title("요일 및 시간별 방문자 수")
plt.legend(title="시간")
plt.show()

## 5. 분포 시각화

### 5.1 히스토그램 (Histogram)

In [None]:
# 기본 히스토그램
plt.figure(figsize=(10, 6))
sns.histplot(data=tips, x="total_bill", bins=20)
plt.title("총 청구액 분포")
plt.xlabel("총 청구액 ($)")
plt.ylabel("빈도")
plt.show()

In [None]:
# 커널 밀도 추정이 포함된 히스토그램
plt.figure(figsize=(10, 6))
sns.histplot(
    data=tips, 
    x="total_bill", 
    bins=20,
    kde=True,        # 커널 밀도 추정 곡선 추가
    stat="density"   # 밀도로 표시
)
plt.title("총 청구액 분포와 밀도")
plt.xlabel("총 청구액 ($)")
plt.show()

### 5.2 커널 밀도 추정 (KDE Plot)

In [None]:
# 기본 밀도 플롯
plt.figure(figsize=(10, 6))
sns.kdeplot(data=tips, x="total_bill")
plt.title("총 청구액 밀도")
plt.xlabel("총 청구액 ($)")
plt.show()

In [None]:
# 2D 밀도 플롯
plt.figure(figsize=(10, 8))
sns.kdeplot(data=tips, x="total_bill", y="tip", shade=True, cmap="Blues")
plt.title("총 청구액과 팁의 2D 밀도")
plt.xlabel("총 청구액 ($)")
plt.ylabel("팁 ($)")
plt.show()

## 6. 실습: 직접 해보기

### 실습 1: Iris 데이터셋으로 다양한 플롯 그리기

In [None]:
# Iris 데이터셋 확인
print("Iris 데이터셋 정보:")
print(iris.head())
print("\n품종별 개수:")
print(iris['species'].value_counts())

In [None]:
# 여기에 코드를 작성하여 Iris 데이터셋으로 다양한 플롯을 그려보세요
# 1. 품종별 꽃받침 길이 분포 (박스 플롯)
# 2. 품종별 꽃잎 너비와 꽃잎 길이 관계 (산점도)
# 3. 꽃받침 길이 분포 (히스토그램)
# 4. 품종별 꽃잎 길이 분포 (바이올린 플롯)

# 예시:
plt.figure(figsize=(10, 6))
sns.boxplot(data=iris, x='species', y='sepal_length')
plt.title('품종별 꽃받침 길이 분포')
plt.show()

### 실습 2: Titanic 데이터셋 탐색

In [None]:
# Titanic 데이터셋 확인
print("Titanic 데이터셋 정보:")
print(titanic.head())
print("\n결측치:")
print(titanic.isnull().sum())

In [None]:
# 여기에 코드를 작성하여 Titanic 데이터셋을 탐색해보세요
# 1. 생존 여부별 승객 수 (카운트 플롯)
# 2. 성별별 생존율 (막대 그래프)
# 3. 객실 등급별 나이 분포 (바이올린 플롯)
# 4. 성별과 객실 등급별 요금 분포 (박스 플롯)

# 힌트: 결측치가 있는 경우 처리해야 합니다
# 예시:
plt.figure(figsize=(10, 6))
sns.countplot(data=titanic, x='survived')
plt.title('생존 여부별 승객 수')
plt.show()

## 7. 요약

이 튜토리얼에서는 Seaborn의 기본 플롯 유형들을 학습했습니다:

1. **산점도**: 두 연속형 변수 간의 관계 시각화
2. **선 그래프**: 시계열 데이터나 추세 시각화
3. **박스 플롯**: 범주별 데이터 분포와 통계적 요약
4. **바이올린 플롯**: 박스 플롯과 밀도 추정의 결합
5. **막대 그래프**: 범주별 통계적 요약
6. **카운트 플롯**: 범주별 관측치 수
7. **히스토그램**: 데이터의 분포
8. **커널 밀도 추정**: 확률 밀도 함수 시각화

이 기본 플롯들을 조합하면 대부분의 데이터 시각화 요구사항을 충족할 수 있습니다. 다음 튜토리얼에서는 더 고급 시각화 기법들을 다룹니다.