In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.pyplot as plt
plt.rc('font', family='Malgun Gothic')

# Titanic 데이터를 불러와서 DataFrame으로 저장합니다.
df = pd.read_csv("titanic.csv")

# 데이터 탐색
# 첫 5개 행을 출력합니다.
print(df.head())

# 데이터 요약 정보를 출력합니다.
print(df.info())

# 숫자형 변수들의 기술 통계량을 출력합니다.
print(df.describe())

# 생존 여부에 따른 승객 수를 시각화합니다.
sns.countplot(x="Survived", data=df)
plt.title("Survival Count")
plt.show()

# 성별에 따른 생존 여부를 시각화합니다.
sns.countplot(x="Sex", hue="Survived", data=df)
plt.title("Survival by Gender")
plt.show()

# 나이 분포를 히스토그램으로 시각화합니다.
sns.histplot(df['Age'].dropna(), bins=20, kde=True)
plt.title("Age Distribution")
plt.xlabel("Age")
plt.show()

# 클래스별 승객 수를 시각화합니다.
sns.countplot(x="Pclass", data=df)
plt.title("Passenger Class Count")
plt.show()

In [None]:
# 1. 생존자 중 몇 명인지 계산
survived_count = df['Survived'].sum()
print("1. 생존자 수:", survived_count)

# 2. 항구 "S"에서 탑승한 승객 수 계산
embarked_S_count = (df['Embarked'] == 'S').sum()
print("2. 항구 'S'에서 탑승한 승객 수:", embarked_S_count)

# 4. 3등실에 탑승하고 지불한 요금이 40.000 미만인 승객 수 계산
third_class_low_fare_count = ((df['Pclass'] == 3) & (df['Fare'] < 40)).sum()
print("4. 3등실에 탑승하고 40.000 미만의 요금을 지불한 승객 수:", third_class_low_fare_count)

# 5. 승객 ID가 674인 승객의 이름 찾기
passenger_name_674 = df.loc[df['PassengerId'] == 674, 'Name'].values[0]
print("5. 승객 ID가 674인 승객의 이름:", passenger_name_674)

In [None]:
# 6. 승객들의 평균 나이 계산
average_age = df['Age'].mean()
print("6. 승객들의 평균 나이:", average_age)

# 7. 생존자와 사망자 수 각각 계산
survived_count = df['Survived'].sum()
died_count = df['Survived'].count() - survived_count
print("7. 생존자 수:", survived_count)
print("   사망자 수:", died_count)

# 8. 남성과 여성 승객 수 계산
male_passenger_count = (df['Sex'] == 'male').sum()
female_passenger_count = (df['Sex'] == 'female').sum()
print("8. 남성 승객 수:", male_passenger_count)
print("   여성 승객 수:", female_passenger_count)

# 9. 각 성별에 따른 생존자와 사망자 수 계산 (groupby 사용)
gender_survival_counts = df.groupby('Sex')['Survived'].value_counts().unstack()
print("9. 각 성별에 따른 생존자와 사망자 수:")
print(gender_survival_counts)

# 10. 각 등급별로 생존한 사람과 사망한 사람의 평균 지불 요금 계산 (pivot_table 사용)
fare_by_class_survival = df.pivot_table(index='Pclass', columns='Survived', values='Fare', aggfunc='mean')
print("10. 각 등급별로 생존한 사람과 사망한 사람의 평균 지불 요금:")
print(fare_by_class_survival)


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 1. 탑승자의 생존 여부에 대한 비율을 계산하고 막대 그래프로 시각화
plt.figure(figsize=(6, 4))
survival_ratio = df['Survived'].value_counts(normalize=True)
survival_ratio.plot(kind='bar', color=['blue', 'red'], alpha=0.7)
plt.title('Survival Ratio')
plt.xticks(rotation=0)
plt.xlabel('Survived')
plt.ylabel('Ratio')
plt.show()

# 2. 나이 열의 분포를 20개의 구간(bin)으로 나누어 히스토그램으로 시각화
plt.figure(figsize=(8, 6))
sns.histplot(df['Age'].dropna(), bins=20, kde=True)
plt.title('Age Distribution')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

# 3. 나이와 요금 간의 산점도 시각화
plt.figure(figsize=(8, 6))
sns.scatterplot(x='Age', y='Fare', data=df, alpha=0.5)
plt.title('Scatter Plot of Age vs. Fare')
plt.xlabel('Age')
plt.ylabel('Fare')
plt.show()

# 4. 객실 등급(Pclass)별로 생존자와 사망자 수를 막대그래프로 시각화
plt.figure(figsize=(8, 6))
class_survival_counts = df.groupby('Pclass')['Survived'].value_counts().unstack()
class_survival_counts.plot(kind='bar', stacked=True, color=['red', 'green'], alpha=0.7)
plt.title('Survival by Passenger Class')
plt.xlabel('Passenger Class')
plt.ylabel('Count')
plt.xticks(rotation=0)
plt.legend(['Died', 'Survived'])
plt.show()