# 캐글(Kaggle) 로 시작하고 연습하는 데이터분석
## 타이타닉 경연 ver
**작성자 : 진 정 우**

[1. 문제정의 및 데이터 다운로드]()<br>
[2. 데이터로드 및 체크]()<br>
[3. 탐색적 데이터분석(EDA) 1회차]()<br>
[4. 베이스 모델링 및 평가]()<br>
[5. 탐색적 데이터분석 2회차]()<br>
[6. 기계학습 모델링]()<br>
[7. 교차검증 및 모델 최적화]()<br>
[8. 추가학습2_결과 향상: 앙상블 테크닉]()<br>
[9. 추가학습3_결과 향상: 인코딩]()<br>
[10. 보충1_왜 캐글에서 많이 사용될까?]()<br>

## 2. 데이터 체크 

* **목적:데이터 로딩 후 문제 여부와 데이터 구조에 대한 전반적 이해**
    - 데이터 자체가 문제 있을 수 있지만 로딩과정에서 값이 누락되거나 깨지는 등 오류가 발생할 수 있습니다. 이러한 이상 여부를 파악해야합니다.
    - 비록 EDA과정을 통해 데이터에 대한 인사이트를 탐색하지만 무조건 데이터를 보는것 보다 대략적인 구조를 파악하고 다음 단계에 대해 생각하는게 훨씬 효율이 좋고 길을 잃지 않을 수 있기 때문에 데이터에 대한 이해가 중요합니다.
 
 
* **5단계**
    1. N : 데이터의 전체 사이즈를 체크한다.
    2. Head&Tail : 데이터의 Head와 Tail을 체크하여 이상 여부, 값을 눈으로 파악한다.
    3. Structure : 데이터의 변수타입을 파악하여 데이터 구조를 파악한다.(예: 숫자가 문자로, 혹은 날짜가 문자로 불러와줬는지)
    4. Summary : 데이터의 기술통계치를 살펴봐 분포를 대략적으로 파악한다.
    5. NaN : 이상치의 유무를 체크한다.
    
**동일한 과정이 반복되기 때문에 test에 대한 과정은 생략합니다.**

### 데이터 로드

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 디렉토리 경로 : kaggle/titanic/data/

train = pd.read_csv('../data/train.csv')
test = pd.read_csv('../data/test.csv')

### (1)  N 체크

* 체크 포인트
    1. 데이터 설명서(data description)와 비교하여 전부 로드됐는지 확인(가끔 인코딩이나 함수 옵션에 따라서 일부만 로딩되는 경우가 있습니다.)
    2. 데이터의 크기 : If 데이터가 크다면(컴퓨터 사양에 따라 다릅니다.) 간단한 전처리에 많은 시간이 소요될 수 있고 시각화 시 대용량 데이터에 대한 고려를 생각해야 합니다.

In [23]:
print('============= Checking N ====================')
print('Train 데이터는 |{}| 행과 |{}| 열로 구성돼 있습니다.'.format(train.shape[0], train.shape[1]))
print('Test  데이터는 |{}| 행과 |{}| 열로 구성돼 있습니다.'.format(test.shape[0], test.shape[1]))

Train 데이터는 |891| 행과 |12| 열로 구성돼 있습니다.
Test  데이터는 |418| 행과 |11| 열로 구성돼 있습니다.


### (2) Head&Tail
* 체크 포인트<br>
    1. 값을 눈으로 직접 확인하여 로드되는 과정에서 깨진 값이 없는지 확인합니다.<br><br>
    2. 데이터 설명서가 있다면 같이 보며 데이터에 대해 이해합니다<br><br>
        - 생각보다 많은것을 생각해 볼 수 있습니다. 예를 들어 Name 변수의 경우 PassengerId와 마찬가지로 식별자의 역할을 하지만 Miss, Mrs 처럼 결혼의 유무를 알 수 있습니다. 이런점들을 꼼꼼하게 하나하나 본다기 보다. 데이터를 이해하고 전처리 혹은 EDA를 어떻게 할지 방향을 세우는 것에 주안점을 두고  훑으면 됩니다.<br><br>
        - 처음에는 "Sex의 경우 범주형이니 나중에 숫자로 코딩해줘야 겠다." 처럼 간단한 계획과 방향을 고려하는 연습을 추천드립니다. 익숙해 질 수록 "Ticket에 문자가 있는것과 숫자가 있는것"의 차이 "Cabin에서 앞의 대문자 규칙성", "Cabin 숫자의 대/소가 생존에 영향을 미쳤을까?"하는 방향들을 캐치해 낼 수 있을 겁니다.<br><br>

In [4]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
train.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### (3) Structure

* 체크 포인트<br>
    1. 데이터의 변수가 분석가가 예상한 타입으로 로드됐는지 파악합니다.<br><br>
        - 예를 들어 Pclass는 Head를 통해 Int형으로 파악됐으나 실제 로드과정에서 object로 불러와졌을 수도 있습니다. 이러한 점을 살펴보는 단계입니다.<br><br>
    2. 데이터의 결측값 유무를 파악합니다.(열이 적을 경우 가능)<br><br>
        - 타이타닉 데이터처럼 변수가 13개 밖에 되지 않을 경우 아래 숫자를 통해 결측값을 파악할 수 있습니다. 하지만 열이 100개 200개 처럼 많아진다면 쥬피터 노트북은 중간 변수에 대한 정보를 생략하기 때문에 파악할 수 없습니다.<br><br>
        

In [6]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


### (4) Summary

* 자동으로 숫자형 변수만 표현되게 돼있으며, include='all' 옵션을 추가할 경우 문자형 타입에 대한 기술통계치도 표시합니다.
* 체크 포인트<br>
    1. EDA 전 간단하게 분포를 살펴봅니다.<br><br>
        - 저는 주로 4분위수를 통해 이상치나 왜도에 대해 주의깊게 보는편입니다. 예를 들어 Age 변수의 경우 75%까지 38.0세이지만 max값이 80.0입니다. 이 경우 소수의 고령자가 전체의 분포를 잡아먹고 있다는 것을 의미하고 EDA시 이상치(or 영향치) 판단 여부를 메모해 놓습니다.<br><br>
        
    2. 변수에 대해 조금 더 명확하게 판단합니다.<br><br>
        - Pclass 변수의 경우 head&tail, structure 과정을 통해 int형 임을 확인했습니다. 하지만 범주형인지 연속형 변수인지 판단할 수는 없습니다. 저는 summary 과정을 통해 숫자형으로 나타나지만 실제로 범주형인 변수들을 대략적으로 구분합니다. Pclass의 경우 최소값이 1이고 최대값이 3입니다. 또한 int형이기 때문에 모든 정보를 종합할 때 범주형이지만 숫자로 표현돼있는 변수라는 생각이 합리적일것입니다.(물론 description에 나타나있지만 description이 없다면 이 방법을 통해 정의합니다.)<br><br>
        
    3. 범주형 변수에 대한 처리를 생각해 봅니다.<br><br>
        - Name변수의 경우 동명이인이 없다는 것을 'freq(최빈도 수)'가 1임을 통해 확인할 수 있습니다. 따라서 PassengerId와 마찬가지로 식별자 역할을 하고있음을 알 수 있습니다.
        - Cabin변수의 경우 'unique'를 통해 147개의 고유값과 최빈도수(freq)가 4임을 확인할 수 있습니다. 따라서 좀 더 적은 범주로 묶어 다시 나눠줘야 함을 예상할 수 있습니다.
        

In [16]:
train.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [20]:
train.describe(include='all')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891,891.0,204,889
unique,,,,891,2,,,,681,,147,3
top,,,,"Fortune, Mr. Mark",male,,,,CA. 2343,,C23 C25 C27,S
freq,,,,1,577,,,,7,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


### (5) NaN

* 체크 포인트<br>
    1. 결측치 여부를 확인합니다.<br><br>
        - 데이터 결측치를 처리하는 방법은 크게 4가지가 존재합니다. 이러한 과정을 임퓨테이션(imputation)이라 부르며 데이터 마다 모델을 가장 잘 설명할 수 있는 방법으로 처리해야 합니다(No Free Launch Theory)<br><br>
            1. 삭제
            2. 평균(중앙값) 대체
            3. 0 대체
            4. 도메인 지식을 활용해서 적절한 값으로 대체
            5. 결측값 자체를 특성으로로 설정(범주형)<br><br>
        - 임퓨테이션 작업을 수행하는 이유는 원칙적으로 결측값이 존재할 경우 파이썬은 모델학습을 진행할 수 없으며 진행하더라도 올바르지 못한 결과해석을 불러오기 때문에 꼭 적절한 처리가 필요합니다.<br><br>
        
        - 'E.결측값 자체를 특성으로로 설정' 같은 경우 Cabin 처럼 변수 대부분이 결측값인 경우에 사용할 수 있습니다. Cabin의 경우 데이터의 행이 891인데 반해 결측값이 687개로 약 80%를 차지합니다. 이 경우 Cabin을 변수를 삭제하지 않을경우 'NaN'이라는 범주를 만들어 결측값 자체를 하나의 범주로 생각하는 방법도 있습니다.

In [21]:
train.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [22]:
# 결측값의 비중(100%)
train.isnull().sum()/train.shape[0]

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.198653
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.000000
Cabin          0.771044
Embarked       0.002245
dtype: float64

## 3. 정리

```데이터 체크```단계는 데이터를 심도있게 이해하는 EDA가 아니라 데이터의 이상 유무를 판단하고 전처리든 EDA든 앞으로 진행될 작업에 대한 방향을 설정하는데 있습니다. 쉽게 말해 산을 오르기 전 입구에서 이정표를 보는것과 같습니다. 이정표를 보고 내가 오늘 어떤 코스로 산을 오르고 어디서 쉴것인지 등 계획과 방향을 세우는것입니다. 이정표를 보고 계획을 세운다고 하더라도 길을 잃을 수 있고 예기치 못한 문제가 생길 수도 있습니다. 하지만 무턱대고 정상에 오르려는 사람과 비교해서 훨신 효율적으로 등산을 할 수 있을것입니다.

제 방법이 항상 옳은 것은 아닙니다. 저도 다른 분들처럼 부족하고 모두들 이 부족함을 메꾸기 위해 노력하고 있습니다. 따라서 "이 방법대로 해야지!" 라기 보다는 "이렇게 분석하는 사람도 있구나" 정도로 받아들여 주셨으면 좋겠습니다.