# 머신러닝 프로세스

- 인공지능(Artificial Intelligence, AI)
  - 머신러닝 프로세스와 데이터 전처리
  - 데이터를 확보한 후 데이터를 정제 및 전처리
  - 학습용과 테스트 데이터를 나눠 학습용 데이터로 학습을 실시
  - 학습 결과를 평가 지표와 비교하여 하이퍼 매개변수 변환
  - 최종적인 모델 생성하여 테스트 데이터셋으로 성능을 측정
  - 모델을 시스템에 배치하여 모델을 작동시킴


# 데이터 전처리

- 데이터 정제/데이터 전처리 단계는 실제로 가장 많은 시간이 들어가는 작업
  - 머신러닝 모델을 만드는 'ML Code'작업은 가장 작은 부분을 차지하고, 데이터 수집이나 피쳐 추출(Feature Extraction), 데이터 검증(Data Verification)이 훨씬 더 많은 부분을 차지


# 타이타닉 생존자 예측하기

- 타이타닉 생존자 예측하기
  - 타이타닉 문제는 캐글(Kaggle)에 있는 많은 데이터 중 데이터 분석 입문자가 처음 사용하기 좋은 데이터
  - 데이터가 기본적이면서 평가가 쉬움


- 타이타닉 웹 페이지
  - 개요, 데이터, 코드, 논의, 리더보드, 규칙 등으로 구성
  - 처음에는 개요 페이지에서 대회의 내용과 평가지표를 확인
  - 평가지표에 맞게 머신러닝 모델링을 실시
  - 타이타닉 문제는 배에 타고 있는 승객 중 살아남을 수 있는 승객을 예측하는 모델로, 'accuracy'라는 지표를 사용


# 데이터 확보하기

- 데이터 확보하기
  - https://www.kaggle.com/c/titanic
  - [Data] 탭 - 오른쪽 하단 [Download All] 버튼
  - 'titanic.zip'파일의 압축을 풂
  - gender_submission.csv
    - 데이터 제출 예제 파일로 캐글에 제출하여 평가를 받을 파일의 예시
  - test.csv
    - 예측되는 탑승객들의 데이터가 있는 파일
  - train.csv
    - 모델을 학습시키기 위한 데이터가 있는 파일
    - 'train.csv' 파일 데이터를 사용하여 모델을 만들고, 모델을 'test.csv' 데이터에 적용하여 결과를 'gender_submission.csv' 파일 형태로 제출
    - 'train.csv' 파일과 달리 'test.csv' 파일에는 y값, 즉 탑승객의 생존 유무에 대한 열이 없음
    - 예측에 해당하는 데이터임


# 데이터 확인하기

- 데이터 확인하기
  - 다운로드한 데이터를 작업 폴더에 넣음
  - 코드 사용이 용이하도록 gender_submission.csv 파일은 삭제


In [2]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

sns.set_theme(style="whitegrid", color_codes=True)
DATA_DIR = "./titanic"
os.listdir(DATA_DIR)

['test.csv', 'train.csv']

In [4]:
data_files = sorted(
    [os.path.join(DATA_DIR, filename) for filename in os.listdir(DATA_DIR)],
    reverse=True,
)
data_files

['./titanic/train.csv', './titanic/test.csv']

In [None]:
# 데이터프레임을 각 파일에서 읽어온 후 df_list에 추가
df_list = []
for filename in data_files:
    df_list.append(pd.read_csv(filename))

df = pd.concat(df_list, sort=False)  # 두개의 데이터 프레임을 하나로 통합
df = df.reset_index(drop=True)  # 인덱스 초기화
df.head(5)  # 결과 출력

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0.0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1.0,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0.0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


- 데이터 열 확인하기
  | 변수명 | 의미 | 값 종류 |
  | ---- | --- | ---- |
  | Survived | 생존 여부 | 0=No, 1=Yes |
  | Pclass | 티켓 클래스 | 1=1st, 2=2nd, 3=3rd |
  | Sex | 성별 | |
  | Age | 나이 | |
  | SibSp | 타이타닉 밖의 형제자매/부부의 수 | |
  | Parch | 타이타닉 밖의 부모/자식의 수 | |
  | Ticket | 티켓 번호 | |
  | Fare | 티켓 가격 | |
  | Cabin | 객실 번호 | |
  | Embarked | 승선항구 | C=Cherbourg, Q=Queenstown, S=Southampton |


In [6]:
# †rain.csv 데이터의 수
number_of_train_dataset = df.Survived.notnull().sum()

# test.csv 데이터 수
number_of_test_dataset = df.Survived.isnull().sum()

# train.csv 데이터의 y 값 추출
y_true = df.pop("Survived")[:number_of_train_dataset]

# 데이터 노트 작성하기

- 데이터 노트
  - 분석해야 하는 데이터에 대한 여러 가지 아이디어를 정리하는 노트
- 각 데이터의 현재 데이터 타입 올바르게 정의
- 숫자로 표시되어 있지만 범주형 데이터로 변형이 필요한 경우 등


| 변수명   | 의미                             | 데이터 타입 | 아이디어                            |
| -------- | -------------------------------- | ----------- | ----------------------------------- |
| Survived | 생존 여부                        | 범주형      | Y 데이터                            |
| Pclass   | 티켓 클래스                      | 범주형      |                                     |
| Sex      | 성별                             | 범주형      |                                     |
| Age      | 나이                             | 범주형      | 생존여부에 나이가 영향을 줄까?      |
| SibSp    | 타이타닉 밖의 형제자매/부부의 수 | 연속형(int) |                                     |
| Parch    | 타이타닉 밖의 부모/자식의 수     | 연속형(int) |                                     |
| Ticket   | 티켓 번호                        | 범주형      |                                     |
| Fare     | 티켓 가격                        | 연속형(int) | 티켓 가격과 pclass와 관련있지 않나? |
| Cabin    | 객실 번호                        | 범주형      |                                     |
| Embarked | 승선항구                         | 범주형      | 승선항구와 생존률은 영향이 있을까?  |


- 데이터의 모양을 확인할 때 T 함수 사용
  - transpose 함수는 데이터를 가로로 한 줄씩 보여줘 안에 있는 값들을 확인하기 좋음


In [7]:
df.head(2).T

Unnamed: 0,0,1
PassengerId,1,2
Pclass,3,1
Name,"Braund, Mr. Owen Harris","Cumings, Mrs. John Bradley (Florence Briggs Th..."
Sex,male,female
Age,22.0,38.0
SibSp,1,1
Parch,0,0
Ticket,A/5 21171,PC 17599
Fare,7.25,71.2833
Cabin,,C85
