In [None]:
import pandas as pd
import seaborn as snsimport 
import matplotlib.pyplot as plt
 
# 한글 사용 준비
plt.rcParams['font.family'] = 'Malgun Gothic'


In [None]:
train_dt = pd.read_csv('titanic.csv')
train_dt.head()

In [None]:
train_dt.info()

In [None]:
# 연속형 변수 선택
continuous_vars = ["Age", "SibSp", "Parch", "Fare"]

# 그래프 스타일 설정
plt.figure(figsize=(12, 4))
plt.suptitle("연속형 데이터 개별 변수 분포(Variation)", fontsize=14, fontweight="bold")

# 각 변수에 대한 분포 플롯 생성
for i, var in enumerate(continuous_vars):
    plt.subplot(1, 4, i+1)
    sns.histplot(train_dt[var], bins=30, kde=True)
    plt.title(var.capitalize())
    plt.xlabel(var)
    plt.ylabel("Count")

plt.tight_layout(rect=[0, 0, 1, 0.9])
plt.show()

In [None]:
# 범주형 변수 선택
categorical_vars = ["Pclass", "Sex", "Embarked"]

# 그래프 스타일 설정
plt.figure(figsize=(12, 4))
plt.suptitle("범주형 데이터 개별 변수 분포", fontsize=14, fontweight="bold")

# 각 변수에 대한 카운트 플롯 생성
for i, var in enumerate(categorical_vars):
    plt.subplot(1, 3, i+1)
    sns.countplot(x=train_dt[var], palette="muted")
    plt.title(var.capitalize())
    plt.xlabel(var)
    plt.ylabel("Count")

plt.tight_layout(rect=[0, 0, 1, 0.9])
plt.show()

In [None]:
train_dt['Survived'].value_counts()

In [None]:
train_dt_copy = train_dt.copy()
# Survived 변수 매핑 (0: 사망, 1: 생존)
train_dt_copy["Survived"] = train_dt_copy["Survived"].map({0: "사망", 1: "생존"})


# 생존자 및 사망자 수 계산
survived_counts = train_dt_copy["Survived"].value_counts()
labels = survived_counts.index
sizes = survived_counts.values
colors = ["#1f77b4", "#ff7f0e"]
explode = [0, 0.1]  # 생존자 부분만 분리

# 그래프 설정
fig, axes = plt.subplots(1, 2, figsize=(8, 4))  # 크기 조정
fig.suptitle("", fontsize=14, fontweight="bold")

# 파이 차트 (조각 분리)
axes[0].pie(
    sizes, labels=labels, autopct="%1.1f%%", colors=colors, explode=explode, shadow=True
)
axes[0].set_title("")

# 바 차트
sns.barplot(x=labels, y=sizes, ax=axes[1], palette=colors)
axes[1].set_ylabel("Count")

plt.tight_layout()
plt.show()

In [None]:
train_dt['Name'].unique()

In [None]:
train_dt['Pclass'].value_counts()

In [None]:
# 그래프 스타일 설정
plt.figure(figsize=(6, 5))

# 막대 그래프 생성
ax = sns.barplot(x=train_dt["Pclass"].value_counts().index, 
                 y=train_dt["Pclass"].value_counts().values, 
                 palette=["#76b7b2", "#f28e75", "#a5add9"])  # 색상 설정

# 제목 설정
plt.title("Feature Exploration - Pclass", fontsize=14, fontweight="bold", color="#1f3b7a")
plt.xlabel("Pclass", fontsize=12)
plt.ylabel("Count", fontsize=12)

# y축 눈금 설정
plt.ylim(0, 550)

plt.show()

In [None]:
# 그래프 스타일 설정
plt.figure(figsize=(6, 5))
sns.set(font="Malgun Gothic", rc={"axes.unicode_minus": False})  

# 막대 그래프 생성 (Pclass별 Survived 분포)
ax = sns.countplot(data=train_dt, x="Pclass", hue="Survived", palette=["#4c72b0", "#dd8452"])

# 제목 및 축 설정
plt.title("Feature Exploration - Pclass", fontsize=14, fontweight="bold", color="#1f3b7a")
plt.xlabel("Pclass", fontsize=12)
plt.ylabel("Count", fontsize=12)

# 범례 설정
plt.legend(title="", labels=["사망", "생존"])

# y축 제한 설정
plt.ylim(0, 400)

plt.show()

In [None]:
# 생존자와 사망자 그룹별 Pclass 비율 계산
dead_pclass = train_dt[train_dt["Survived"] == 0]["Pclass"].value_counts(normalize=True) * 100
survived_pclass = train_dt[train_dt["Survived"] == 1]["Pclass"].value_counts(normalize=True) * 100

# 파이 차트에 표시할 레이블 (Pclass 값)
labels = ["1", "2", "3"]
colors = ["#4c72b0", "#dd8452", "#55a868"]

# 그래프 생성
fig, axes = plt.subplots(1, 2, figsize=(8, 4))

# 사망자 파이 차트
axes[0].pie(dead_pclass.sort_index(), labels=labels, autopct="%1.1f%%", colors=colors)
axes[0].set_title("사망 - Pclass")

# 생존자 파이 차트
axes[1].pie(survived_pclass.sort_index(), labels=labels, autopct="%1.1f%%", colors=colors)
axes[1].set_title("생존 - Pclass")

plt.show()

In [None]:
# 성별 분포 계산
sex_counts = train_dt["Sex"].value_counts()
sex_percent = train_dt["Sex"].value_counts(normalize=True) * 100

# 성별 한글 변환
labels = ["남성", "여성"]
colors = ["#4c72b0", "#dd8452"]
explode = [0.1, 0]  # 여성 부분만 분리

# 그래프 생성
fig, axes = plt.subplots(1, 2, figsize=(8, 4))

# 파이 차트
axes[0].pie(sex_percent, labels=labels, autopct="%1.1f%%", colors=colors, shadow=True)
axes[0].set_title("")

# 바 차트
sns.barplot(x=labels, y=sex_counts, ax=axes[1], palette=colors)
axes[1].set_ylabel("Count")

plt.show()


In [None]:
# 그래프 크기 설정
plt.figure(figsize=(5, 4))

# 성별에 따른 생존 여부 카운트 플롯
ax = sns.countplot(data=train_dt, x="Sex", hue="Survived", palette=["#4c72b0", "#dd8452"])

# 한글 라벨 적용
plt.xlabel("")
plt.ylabel("Count")
plt.xticks(ticks=[0, 1], labels=["남성", "여성"], fontsize=11)

# 범례 설정
plt.legend(title="", labels=["사망", "생존"], loc="upper right")

plt.show()

In [None]:
fig, ax = plt.subplots(1,2,figsize=(10,6), constrained_layout=True)
labels = ['여성', '남성']
 
#Survived 가 0인 데이터를 이용한 Pie Plot
train_dt[train_dt['Survived'] == 0]['Sex'].value_counts().sort_index().plot.pie(ax=ax[0], shadow=True, autopct='%1.1f%%', labels=labels)
ax[0].set(ylabel='', title='사망 - Sex')
 
#Survived 가 1인 데이터를 이용한 Pie Plot
train_dt[train_dt['Survived'] == 1]['Sex'].value_counts().sort_index().plot.pie(ax=ax[1], shadow=True, autopct='%1.1f%%', labels=labels)
ax[1].set(ylabel='', title='생존 - Sex')
 
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(10,6))
 
sns.histplot(train_dt["Age"], bins=30, kde=True, stat="density", color="steelblue", alpha=0.4)
 
plt.show()

In [None]:
# 생존율을 저장할 리스트 생성
age_range_survival_ratio = []

# 1살부터 80살까지 생존율 계산 (해당 나이 이하인 데이터 활용)
for i in range(1, 80):
    subset = train_dt[train_dt["Age"] < i]  # i살 이하 데이터 필터링
    survival_rate = subset["Survived"].mean() if len(subset) > 0 else 0  # 생존율 계산
    age_range_survival_ratio.append(survival_rate)

# 그래프 크기 설정
plt.figure(figsize=(6, 5))

# 생존율 선 그래프 생성
plt.plot(range(1, 80), age_range_survival_ratio, color="steelblue")

# 제목 및 축 레이블 설정
plt.title("나이별 생존률")
plt.xlabel("나이", fontsize=12)
plt.ylabel("생존율", fontsize=12)

plt.show()

In [None]:
# 그래프 크기 설정
fig, ax = plt.subplots(figsize=(5, 6))

# SibSp 분포를 나타내는 막대 그래프 (Seaborn 기본 색상 사용)
sns.countplot(data=train_dt, x="SibSp", palette="muted")

# 제목 및 축 설정
plt.xlabel("SibSp", fontsize=12)
plt.ylabel("Count", fontsize=12)

plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(5,6))
 
sns.countplot(data=train_dt, x='SibSp', hue='Survived', ax=ax)
 
#범례 한글로 변경
labels=['사망', '생존']
ax.legend(labels=labels)
 
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(5,6))
 
sns.countplot(data=train_dt, x='Parch', palette="muted")
 
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(5,6))
 
sns.countplot(data=train_dt, x='Parch', hue='Survived', ax=ax)
 
#범례 한글로 변경
labels=['사망', '생존']
ax.legend(labels=labels)
 
plt.show()

In [None]:
fig, ax = plt.subplots(1,2,figsize=(14,5))
 
train_dt['Embarked'].value_counts().plot.pie(ax=ax[0], shadow=True, autopct='%1.1f%%')
ax[0].set(title='Embarked', ylabel='')
 
sns.countplot(data=train_dt, x='Embarked', palette='muted', ax=ax[1])
 
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(5,6))
 
sns.countplot(data=train_dt, x='Embarked', hue='Survived', ax=ax)
 
#범례 한글로 변경
labels=['사망', '생존']
ax.legend(labels=labels)
 
plt.show()

In [None]:
# Pclass 별로 데이터를 나눠줍니다
Pclass1 = train_dt[train_dt['Pclass']==1]['Embarked'].value_counts()
Pclass2 = train_dt[train_dt['Pclass']==2]['Embarked'].value_counts()
Pclass3 = train_dt[train_dt['Pclass']==3]['Embarked'].value_counts()
 
# DataFrame으로 만들어서 그래프
fig, ax = plt.subplots(figsize=(5,7))
df = pd.DataFrame([Pclass1, Pclass2, Pclass3])
df.index = ['1st class','2nd class','3rd class']
df.plot(kind='bar', stacked=True, ax=ax)
 
# xlabel 회전
plt.xticks(rotation=45)
 
plt.show()

In [None]:
fig, ax = plt.subplots(1,2,figsize=(10,6))
 
sns.countplot(data=train_dt, x='SibSp', hue='Embarked', ax=ax[0])
sns.countplot(data=train_dt, x='Parch', hue='Embarked', ax=ax[1])
 
# 범례 위치조정
ax[0].legend(loc='upper right')
ax[1].legend(loc='upper right')
 
plt.show()

In [None]:
fig, ax = plt.subplots(1,2,figsize=(10,6))
 
sns.countplot(data=train_dt, x='SibSp', hue='Pclass', ax=ax[0])
sns.countplot(data=train_dt, x='Parch', hue='Pclass', ax=ax[1])
 
# 범례 위치조정
ax[0].legend(loc='upper right')
ax[1].legend(loc='upper right')
 
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(10,6))
 
# 분포확인
sns.distplot(train_dt['Fare'], bins=25, ax=ax)
 
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
 
# 분포 확인
sns.kdeplot(train_dt[train_dt['Survived']==1]['Fare'], ax=ax)
sns.kdeplot(train_dt[train_dt['Survived']==0]['Fare'], ax=ax)
 
# 가장 높은 가격까지 범위 확대
ax.set(xlim=(0, train_dt['Fare'].max()))
ax.legend(['생존', '사망'])
 
plt.show()

In [None]:
train_dt['Ticket'].unique()

In [None]:
train_dt['Cabin'].unique()
