# 안녕하세요, 여러분 ^^ 

# 디지코 디그리 AI 모델링 과정 
# 🎈"도전 머신러닝" 시간에 오신 여러분을 환영합니다!

## 오늘은 <font color="#01918a">'타이타닉 생존자 예측'</font> 문제를 해결해 보겠습니다.

<img src = "https://images.unsplash.com/photo-1654170816607-f355d5cd5619?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=2664&q=80" width=100% align="center"/>

<div align="right">사진: <a href="https://unsplash.com/ko/%EC%82%AC%EC%A7%84/TQAWPDbuwrc?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>의<a href="https://unsplash.com/@ep_petrus?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Edwin Petrus</a></div>
  

---

## 0. 문제 정의하기

### 1) 문제 설명 
타이타닉 호는 영국의 화이트 스타 라인이 운영한 북대서양 횡단 여객선이다. 1912년 4월 10일 영국의 사우샘프턴을 떠나 미국의 뉴욕으로 향하던 첫 항해 중에 4월 15일 빙산과 충돌하여 침몰하였습니다. 탑승했던 승객 데이터를 분석하여 승객들의 생존 여부를 예측하는 문제입니다.  

### 2) 데이터 설명
학습용 데이터 셋을 활용하여 모델을 학습하고, 테스트용 데이터셋에 대한 생존 여부를 예측합니다. 
- 학습용 데이터 셋 (train.csv) : 891명의 승객 정보와 생존 여부를 포함한 데이터
- 테스트용 데이터 셋 (test.csv) : 418명의 승객 정보를 포함한 데이터, 생존 여부는 누락되어 있습니다. 


| 컬럼명       | 내용                                                       |
| :--------- | :--------------------------------------------------------- |
| PassengerId  | 승객의 고유 식별자                                        |
| Survived     | 생존 여부 (0: 사망, 1: 생존)                               |
| Pclass       | 티켓 등급 (1: 1등석, 2: 2등석, 3: 3등석)                     |
| Name         | 승객의 이름                                                |
| Sex          | 승객의 성별 (male: 남성, female: 여성)                      |
| Age          | 승객의 나이                                                |
| SibSp        | 함께 탑승한 형제자매/배우자 수                              |
| Parch        | 함께 탑승한 부모/자녀 수                                   |
| Ticket       | 티켓 번호                                                  |
| Fare         | 지불한 운임 요금                                           |
| Cabin        | 객실 번호                                                  |
| Embarked     | 탑승 항구 (C: Cherbourg, Q: Queenstown, S: Southampton)     |


---

## 1. 데이터 수집 및 분석
데이터 분석을 위해 필요한 라이브러리와 데이터를 불러온 후, 데이터를 탐색하여 주요 정보를 파악하고, <br>
시각화하여 데이터의 패턴과 특성을 보다 쉽게 이해할 수 있는 과정입니다.

### 1) 데이터 불러오기

#### ① 라이브러리 불러오기
> - pandas : 데이터를 처리하고 분석하는데 효과적인 패키지
> - matplotlib : 데이터를 차트나 플롯으로 그려주는 시각화 라이브러리 패키지
> - seaborn : matplolib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지

- **pip 이용해서 필요 라이브러리 설치**

In [None]:
# 사내 컴퓨터 사용 시
#!pip install --trusted-hos pypi.python.org --trusted-host files.pythonhosted.org --trusted-host pypi.org -U pandas-profiling seaborn graphviz

# 사외 컴퓨터 사용 시
%pip install pandas-profiling seaborn graphviz joblib

- **pandas는 별칭을 pd로, matplotlib은 별칭을 plt로 해서 라이브러리를 불러오세요**

In [None]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

#### ② 데이터 불러오기
- **pandas 라이브러리의 read_csv 함수를 사용하면 파일을 불러오고 변수에 저장할 수 있습니다.**

In [None]:
pd.read_csv("./data/train.csv")

In [None]:
df = pd.read_csv("./data/train.csv")

In [None]:
df

---

### 2) 데이터 탐색하기

#### ① Sample 데이터 확인하기
- **Sample 데이터를 육안으로 확인하여 데이터의 구성과 필요 유무를 확인합니다.**
- **head()와 tail()을 활용하여 Sample 데이터 확인이 가능합니다.**

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.head(10)

#### ② 데이터 정보 확인하기
- **컬럼 수, 데이터 타입 등 불러온 데이터의 정보를 확인합니다.**
- **info() 함수는 데이터 구성과 특성을 확인해 볼 수 있습니다.**

In [None]:
df.info()

#### ③ 통계적 특성 파악하기
- **수치 데이터 특성에 따른 데이터의 분포를 확인합니다.**
- **describe() 함수를 통해 수학적 통계를 확인해 보는 작업을 해봅시다.**
> - 컬럼별 개수(count)
> - 데이터의 평균값(mean)
> - 표춘편차(std)
> - 최소값(min)
> - 4분위수(25%, 50%, 75%)
> - 최대값(max)

In [None]:
df.describe()

- **value_counts() 함수를 사용하면 각 컬럼에서 고유한 값을 빈도수를 확인할 수 있습니다.**


In [None]:
df['Survived'].value_counts()

---

### 3) 데이터 시각화하기

데이터 시각화는 Matplotlib$^{[1]}$과 Seaborn$^{[2]}$ 라이브러리를 주로 활용하여 수행됩니다.<br> 
이를 통해 데이터의 패턴, 추세, 관계 등을 시각적으로 파악하고, 유의미한 인사이트를 발견하며, 데이터 기반의 의사 결정을 지원할 수 있습니다.

>[Matplotlib](https://matplotlib.org/)$^{[1]}$: 파이썬의 대표적인 데이터 시각화 라이브러리로, 다양한 유형의 그래프와 플롯을 생성할 수 있습니다. <br>
>[Seaborn](https://seaborn.pydata.org/)$^{[2]}$: Seaborn은 Matplotlib을 기반으로 한 고급 데이터 시각화 라이브러리로, 아름다운 디자인과 통계적인 시각화 기능을 제공합니다.

**[주요 속성]**
> - title : 그래프의 제목을 설정합니다.
> - xlabel, ylabel : x축, y축 레이블을 설정합니다. 
> - figure : 그래프의 전체적인 속성에 대한 설정입니다. 주로, figsize=(가로 크기, 세로크기) 속성으로 그래프의 크기를 지정 
> - xticks, yticks : x축, y축 눈금의 위치와 값을 설정합니다.
> - legend : 범례 설정에 관련된 값으로, 그래프에 포함된 요소들의 설명을 표시합니다.

#### ① 막대 그래프(Bar Chart, Count Plot)
- **생존 여부(Survived)나 성별(Sex)과 같이 범주형 데이터를 시각화하는 데 적합합니다.**
- **각 범주별로 막대의 길이를 비교하여 데이터의 분포를 확인할 수 있습니다.**

In [None]:
# Matplot 라이브러리를 활용해서 막대 그래프 (생존 여부에 따른 승객 수)
survived_counts = df['Survived'].value_counts()
plt.figure(figsize=(4,3))
plt.bar(survived_counts.index, survived_counts.values)
plt.xlabel('Survived')
plt.ylabel('Count')
plt.title('Passenger Survival')
plt.show()

In [None]:
# Seaborn 라이브러리르 활용해서 그리기1
# countplot을 활용하면 간단하게 그릴 수 있습니다.
plt.figure(figsize=(4,3))
sns.countplot(data=df, x='Survived')
plt.xlabel('Survived')
plt.ylabel('Count')
plt.title('Passenger Survival')
plt.show()

In [None]:
# Seaborn 라이브러리를 활용해서 그리기2
# countplot hue 옵션을 활용하면 법주형 변수에 대한 그룹화 및 색상 구분을 가능하게 해주어 데이터를 다양한 관점에서 시각적으로 분석할 수 있습니다.
plt.figure(figsize=(4,3))
sns.countplot(data=df, x='Survived', hue='Sex')
plt.xlabel('Survived')
plt.ylabel('Count')
plt.title('Survivors and Deaths by Gender')
plt.show()

#### ② 히스토그램(Histogram)
- **나이(Age)와 같이 연속형 데이터의 분포룰 확인하는데 적합합니다.**
- **데이터의 빈도를 나타내는 막대 그래프로 표현되며, 데이터의 분포와 이상치를 시각적으로 파악할 수 있습니다.**

In [None]:
# 히스토그램 (나이 분포)
plt.hist(df['Age'])
plt.xlabel('Age')
plt.ylabel('Count')
plt.title('Passenger Age Distribution')
plt.show()

#### ③ 원 그래프(Pie Chart)
- **각 범주의 비율을 보여주기 위해 사용됩니다.**
- **티켓 등급(Pclass)이나 탑승 항구(Embarked)와 같은 범주형 데이터의 비율을 비교하는 데 유용합니다.**

In [None]:
# 원 그래프 (티켓 등급 비율)
pclass_counts = df['Pclass'].value_counts()
plt.pie(pclass_counts.values, labels=pclass_counts.index, autopct='%1.1f%%')
plt.title('Ticket Class Distribution')
plt.show()

#### ④ 산점도 그래프 (Scatter Plot)
- **두 개의 연속형 변수 사이의 관계를 시각화하는 데 사용됩니다.**
- **나이(Age)와 운임 요금(Fare)와 같이 두 변수 간의 상관관계를 확인할 수 있습니다.**

In [None]:
# 산점도 그래프 (나이와 운임 요금)
plt.scatter(df['Age'], df['Fare'])
plt.xlabel('Age')
plt.ylabel('Fare')
plt.title('Age vs Fare')
plt.show()

#### ⑤ 박스 그래프 (Box Plot)
- **여러 그룹 간의 분포 차이를 시각화하기 위해 사용됩니다.**
- **티켓 등급(Pclass)에 따른 나이(Age) 분포와 같이 그룹별로 데이터의 분산과 이상치를 비교하는 데 유용합니다.**

In [None]:
# 박스 그래프 (티켓 등급에 따른 나이 분포)
sns.boxplot(x='Pclass', y='Age', data=df)
plt.xlabel('Ticket Class')
plt.ylabel('Age')
plt.title('Age Distribution by Ticket Class')
plt.show()

#### ⑥ 히트맵 (Heatmap)
- **변수 사이의 관계를 시각화하는 데 사용됩니다.**
- **df.corr()를 사용하여 얻은 상관계수 행렬을 활용하여 히트맵을 그릴 수 있습니다.**

In [None]:
number_df = df.select_dtypes(include='number')
number_df.corr()

In [None]:
# 히트맵 (상관관계)
corr_matrix = number_df.corr()

# 히트맵 그리기
#plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, cmap='coolwarm', annot=True, fmt=".2f", cbar=True)
plt.title('Correlation Matrix')
plt.show()

### 4) Pandas 프로파일링 활용하기
데이터 분석을 위한 파이썬 라이브러리인 판다스(Pandas)를 기반으로 한 자동화된 데이터 프로파일링 도구입니다. 데이터 프로파일링은 데이터셋의 구조와 통계적 특성을 탐색하여 데이터에 대한 포괄적인 이해를 도와주는 과정입니다.<br>

판다스 프로파일링은 데이터셋을 분석하여 다양한 정보와 통계량을 생성합니다. 이를 통해 데이터의 품질, 분포, 상관 관계, 결측값, 이상치 등 다양한 측면에서 인사이트를 얻을 수 있습니다. 판다스 프로파일링은 다음과 같은 내용을 제공할 수 있습니다:

> - 기본 정보: 데이터프레임의 크기, 변수 수, 결측값의 비율 등을 제공합니다.
> - 변수 분석: 각 변수의 데이터 유형, 고유값의 수, 상위 값 및 하위 값 목록 등을 제공합니다.
> - 상관 관계: 변수 간의 상관 관계를 시각화 및 수치적으로 제공합니다.
> - 결측값 분석: 변수별 결측값의 비율과 패턴을 분석합니다.
> - 이상치 분석: 변수별 이상치의 존재 여부를 탐지하고 시각화합니다.
> - 분포 분석: 변수별 분포를 시각화하고 통계적으로 요약합니다.
> -상위 값 및 하위 값 분석: 각 변수의 상위 값과 하위 값 목록을 제공합니다.

In [None]:
# 설치한 라이브러리 불러오기
#import pandas_profiling
!pip install ydata-profiling
from ydata_profiling import ProfileReport

In [None]:
# 불러온 데이터프레임에 대한 레포트 생성하기
# report = df.profile_report()

report = ProfileReport(df, title='Pandas Profiling Report')
report

In [None]:
# 레포트 파일로 저장하기
report.to_file('./train_report.html') 

---

### <font color="red"> [실습 문제]</font> 

**<font color=red>[Q]</font>  pandas 라이브러리의 read_csv 함수를 사용하여 데이터를 불러와서 데이터프레임 'df'에 저장하세요.**
- 파일명 : "train.csv"

In [None]:
# 여기에 입력하세요.

import warnings
warnings.filterwarnings('ignore')

import pandas as pd

df = pd.read_csv("./data/train.csv")



**<font color=red>[Q]</font> 'df' 데이터프레임의 Sample 데이터를 아래의 조건들로 검색해 보세요.**
- <u>앞 부분 5줄</u>의 데이터를 검색해보세요.
- <u>뒤 부분 10줄</u>의 데이터를 검색해보세요.
- <u>index 번호 10에서 20까지</u>의 데이터를 검색해보세요.

In [None]:
# 여기에 입력하세요.
df.head()

In [None]:
df.tail(10)

In [None]:
df[10:21]

**<font color=red>[Q]</font> 'df' 데이터프레임의 데이터정보를 확인해보세요.**

In [None]:
# 여기에 입력하세요.
df.info()



**<font color=red>[Q]</font> 'df' 데이터프레임의 통계적 특성을 확인해보세요.**

In [None]:
# 여기에 입력하세요.
df.describe()




**<font color=red>[Q]</font> Pandas 프로파일링 활용하여 데이터프레임 'df' 의 EDA 레포트를 출력해 보세요.**

In [None]:
# 여기에 입력하세요.
import pandas_profiling

df.profile_report()


---