In [None]:
# environment setup
try:
    import google.colab
    !git clone https://github.com/DevSlem/AI-Lecture-Incheon-Youngsun-HS.git
    %cd AI-Lecture-Incheon-Youngsun-HS
except ImportError:
    pass

In [None]:
import pandas as pd

train_dt = pd.read_csv('data/train.csv')
train_dt.head()

In [None]:
train_dt.describe()

In [None]:
train_dt.info()

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt
import seaborn as sns

#시각화 준비
plt.style.use('seaborn')
sns.set(font_scale=2)


In [None]:
# FEATURE 별로 분석
# 최초는 생존유무를 나타내는 feature, 0은 사망, 1은 생존

In [None]:
train_dt['Survived'].value_counts()

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(14,5))
labels = ['death', 'survival']

# Pie Plot
train_dt['Survived'].value_counts().plot.pie(ax=ax[0], explode=[0,0.1], shadow=True, autopct='%1.1f%%', labels=labels)
ax[0].set(ylabel='')

# Count Plot
sns.countplot(data=train_dt, x='Survived', ax=ax[1])
ax[1].set(xlabel='', xticklabels=labels)

plt.show()

In [None]:
# 수치상으로 사망자의 수가 더 많음
# pie plot과 bar plot을 사용해 시각화 해봄

In [None]:
# 탑승객의 이름을 나타내는 feature

In [None]:
train_dt['Name'].unique()

In [None]:
# 티켓의 클래스 (등급)를 나타내는 feature (1등석, 2등석 ,3등석 )

In [None]:
train_dt['Pclass'].value_counts()

In [None]:
fig, ax = plt.subplots(figsize=(7,5))

sns.countplot(data=train_dt, x='Pclass', ax=ax)

plt.show()

In [None]:
# 1등석의 생존율이 가장 높고 3등석의 생존율이 가장 낮음

In [None]:
train_dt[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)


In [None]:
fig, ax = plt.subplots(figsize=(6,6))

sns.countplot(data=train_dt, x='Pclass', hue='Survived', ax=ax)

labels=['death', 'survival']
ax.legend(labels=labels)

plt.show()

In [None]:
# 성별을 나타내는 feature
# male,female

In [None]:
train_dt[['Sex', 'Survived']].groupby(['Sex'], as_index=False).mean().sort_values(by='Survived', ascending=False)


In [None]:
fig, ax = plt.subplots(figsize=(6,6))

sns.countplot(data=train_dt, x='Sex', hue='Survived', ax=ax)

ax.set(xticklabels=['male', 'female'], xlabel='')

#범례 한글로 변경
labels=['death', 'survival']
ax.legend(labels=labels)

plt.show()

In [None]:
# Age: 나이를 나타내는 feature
# 단, age는 결측치가 있음
# 20대 - 40대가 가장 많음

In [None]:
fig, ax = plt.subplots(figsize=(10,6))

sns.histplot(train_dt['Age'], bins=25, ax=ax)

plt.show()

In [None]:
# 나이별 생존률 그래프

In [None]:
# 생존율을 입력받을 List 생성
age_range_survival_ratio = []

# 1살 부터 생존율 구하기
for i in range(1,80):
    age_range_survival_ratio.append(train_dt[train_dt['Age'] < i]['Survived'].sum() / len(train_dt[train_dt['Age'] < i]['Survived']))

plt.figure(figsize=(7,7))
plt.plot(age_range_survival_ratio)
plt.title('survival rate with respect to age')
plt.ylabel('survival rate')
plt.xlabel('age')

plt.show()

In [None]:
# sibsp: 함께 탑승한 형제 자매, 배우자의 총합을 나타내는 feature
# 본인을 포함하고 있지는 않음
fig, ax = plt.subplots(figsize=(5,6))

sns.countplot(data=train_dt, x='SibSp')

plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(10,6))

sns.countplot(data=train_dt, x='SibSp', hue='Survived', ax=ax)

#범례 한글로 변경
labels=['death', 'survival']
ax.legend(labels=labels)

plt.show()

In [None]:
# 한께 탑승한 부모, 자녀수 총합

In [None]:
fig, ax = plt.subplots(figsize=(5,6))

sns.countplot(data=train_dt, x='Parch')

plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(10,6))

sns.countplot(data=train_dt, x='Parch', hue='Survived', ax=ax)

#범례 한글로 변경
labels=['death', 'survival']
ax.legend(labels=labels)

plt.show()

In [None]:
# 탑승한 항구를 나타내는 feature
# S항구, C항구, Q항구 3종류의 항구가 있으며 결측값이 존재

In [None]:
fig, ax = plt.subplots(1,2,figsize=(14,5))

train_dt['Embarked'].value_counts().plot.pie(ax=ax[0], shadow=True, autopct='%1.1f%%')
ax[0].set(title='Embarked', ylabel='')

sns.countplot(data=train_dt, x='Embarked', ax=ax[1])

plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(10,6))

sns.countplot(data=train_dt, x='Embarked', hue='Survived', ax=ax)

#범례 한글로 변경
labels=['death', 'survival']
ax.legend(labels=labels)

plt.show()

In [None]:
# Pclass 별로 데이터를 나눠줍니다
Pclass1 = train_dt[train_dt['Pclass']==1]['Embarked'].value_counts()
Pclass2 = train_dt[train_dt['Pclass']==2]['Embarked'].value_counts()
Pclass3 = train_dt[train_dt['Pclass']==3]['Embarked'].value_counts()

# DataFrame으로 만들어서 그래프
fig, ax = plt.subplots(figsize=(10,7))
df = pd.DataFrame([Pclass1, Pclass2, Pclass3])
df.index = ['1st class','2nd class','3rd class']
df.plot(kind='bar', stacked=True, ax=ax)

# xlabel 회전
plt.xticks(rotation=45)

plt.show()

In [None]:
# 탑승 요금을 나타내는 feature
fig, ax = plt.subplots(figsize=(10,6))

# 분포확인
sns.histplot(train_dt['Fare'], bins=25, ax=ax)

plt.show()

In [None]:
# 지금 부터 데이터 분석을 끝내고 machine learning