<a href="https://colab.research.google.com/github/kimayeon-hub/DeepLearning1/blob/main/Python/Week4_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 딥러닝 이론
- `딥러닝`: 딥러닝 학습 과정
- `딥러닝 모델`: 딥러닝을 해서 나온 모델

## 범주형 데이터의 수치화
- 범주형 데이터를 수치형 값으로 변환시키기
  - 딥러닝 네트워크의 입력과 출력은 모두 숫자(실수)로 이루어짐
  - 범주형 데이터는 직접 네트워크에 넣을 수 없으므로, 수치형 값으로 변환하여 입력해야 함
  > 이미지 데이터: 숫자 <br>
  > 수치형 데이터: 숫자

- **원-핫-인코딩 (one-hot-encoding)**을 사용해 숫자로 변환함
  - 범주의 개수만큼 항목을 만들고, 각각의 항목이 각 범주를 나타내도록 하는 데이터의 표현 방법
  - 숫자로 바꿀 때 숫자끼리의 관계가 없도록 바꾸는 방법
  > tensorflow.keras.utils 모듈의 `to_categorical`이라는 함수를 사용하여 손쉽게 적용할 수 있음
  - 사용 방법
    1. 문자열로 된 데이터를 숫자로 바꾸고
    2. `to_categorical` 함수를 사용해 one-hot-encoding 된 데이터로 변환시키기
  
    > `to_categorical` 함수를 사용할 때는 수치 데이터가 **0부터 1씩 증가하는 형태**로 되어 있어야 함

## 수치형 데이터의 정규화
- 모델에 입력되는 수치형 데이터는 보통 **0과 1사이**의 숫자로 조정하여 사용하는 것이 일반적임
- **정규화**를 사용
  - 일반적인 방법: 0과 1사이의 값으로 조정
  > (원 데이터 - 최솟값) / (최댓값 - 최솟값)
  - 정규분포로 나타내기: 0과 1사이의 값으로 조정X
  

# 실습: 타이타닉 데이터의 수치화 및 정규화 (데이터 전처리)
- p.247 ~ 253

## 1. 타이타닉 데이터 업로드
- 딥러닝1 > Week3-3 > test.csv, train.csv

## 2. 데이터 읽기

In [5]:
import pandas as pd

In [7]:
data_train = pd.read_csv('train.csv')
data_test = pd.read_csv('test.csv')

In [8]:
data_train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [9]:
data_test

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


## 3. numpy 배열 형식으로 변환하기 (data_train 변환하기)
- 딥러닝 모델에 사용하기 위해서는 numpy의 배열 형식으로 된 수치형 데이터로 변환해야 함

In [10]:
import numpy as np

In [11]:
data_train.shape

(891, 12)

In [12]:
data_train_np = np.zeros([data_train.shape[0], 8])  # 8개의 정보만 사용할 것이므로 numpy 표를 만들기

# 성별(범주형 데이터 -> 수치형 데이터 (one-hot-encoding): 2개의 항목이 됨)
# 나이
# 티켓 등급(범주형 데이터 -> 수치형 데이터 (one-hot-encoding): 3개의 항목이 됨)
# 형제 자매 배우자 수
# 부모 자녀 수

### 성별 데이터 수치화하기

In [13]:
cnt = 0
sex_num = np.zeros(data_train_np.shape[0])
sex_num[np.array(data_train['Sex'] == 'femaie')] = 1  # 원 데이터의 값이 female인 경우 1로 바꾸기

In [14]:
from tensorflow.keras.utils import to_categorical
data_train_np[:, 0:2] = to_categorical(sex_num) # one-hot-encoding 적용 (0번, 1번 칼럼에 채워넣겠다)

### 티켓 등급 데이터 수치화하기
- one-hot-encoding을 위해서는 `to_categorical' 함수를 호출하기 전에 Pclass의 값에서 1을 빼줘야 함
- DataFrame에서는 이 작업이 복잡하므로 numpy 배열로 변환을 먼저 해야 함

In [15]:
data_train_np[:, 2:5] = to_categorical(data_train['Pclass'].to_numpy() - 1)

### 나머지 변수(Age, SibSp, Parch) 정규화하기
- Age, SibSp, Parch의 최솟값이 0이므로 최댓(추정)값으로 나누어 정규화하기

In [16]:
data_train_np[:, 5] = data_train['Age'] / 80
data_train_np[:, 6] = data_train['SibSp'] / 10
data_train_np[:, 7] = data_train['Parch'] / 10

- Age 변수에 결측치가 많으므로 평균 값으로 대체하기

In [17]:
data_train_np[:, 5]

array([0.275   , 0.475   , 0.325   , 0.4375  , 0.4375  ,      nan,
       0.675   , 0.025   , 0.3375  , 0.175   , 0.05    , 0.725   ,
       0.25    , 0.4875  , 0.175   , 0.6875  , 0.025   ,      nan,
       0.3875  ,      nan, 0.4375  , 0.425   , 0.1875  , 0.35    ,
       0.1     , 0.475   ,      nan, 0.2375  ,      nan,      nan,
       0.5     ,      nan,      nan, 0.825   , 0.35    , 0.525   ,
            nan, 0.2625  , 0.225   , 0.175   , 0.5     , 0.3375  ,
            nan, 0.0375  , 0.2375  ,      nan,      nan,      nan,
            nan, 0.225   , 0.0875  , 0.2625  , 0.6125  , 0.3625  ,
       0.8125  ,      nan, 0.2625  , 0.35625 , 0.0625  , 0.1375  ,
       0.275   , 0.475   , 0.5625  , 0.05    ,      nan,      nan,
       0.3625  , 0.2375  , 0.2125  , 0.325   , 0.4     , 0.2     ,
       0.2625  , 0.325   , 0.4     , 0.3125  ,      nan,      nan,
       0.010375, 0.375   , 0.275   , 0.3625  ,      nan, 0.35    ,
       0.2125  , 0.4125  , 0.2     ,      nan, 0.2875  , 0.3  

In [18]:
data_train_np[:, 5][np.isnan(data_train_np[:, 5])] = 30/80

In [19]:
data_train_np[:, 5]  # 제대로 적용이 됐는지 확인

array([0.275   , 0.475   , 0.325   , 0.4375  , 0.4375  , 0.375   ,
       0.675   , 0.025   , 0.3375  , 0.175   , 0.05    , 0.725   ,
       0.25    , 0.4875  , 0.175   , 0.6875  , 0.025   , 0.375   ,
       0.3875  , 0.375   , 0.4375  , 0.425   , 0.1875  , 0.35    ,
       0.1     , 0.475   , 0.375   , 0.2375  , 0.375   , 0.375   ,
       0.5     , 0.375   , 0.375   , 0.825   , 0.35    , 0.525   ,
       0.375   , 0.2625  , 0.225   , 0.175   , 0.5     , 0.3375  ,
       0.375   , 0.0375  , 0.2375  , 0.375   , 0.375   , 0.375   ,
       0.375   , 0.225   , 0.0875  , 0.2625  , 0.6125  , 0.3625  ,
       0.8125  , 0.375   , 0.2625  , 0.35625 , 0.0625  , 0.1375  ,
       0.275   , 0.475   , 0.5625  , 0.05    , 0.375   , 0.375   ,
       0.3625  , 0.2375  , 0.2125  , 0.325   , 0.4     , 0.2     ,
       0.2625  , 0.325   , 0.4     , 0.3125  , 0.375   , 0.375   ,
       0.010375, 0.375   , 0.275   , 0.3625  , 0.375   , 0.35    ,
       0.2125  , 0.4125  , 0.2     , 0.375   , 0.2875  , 0.3  

### 정답 데이터 변환하기
- 정답은 'Survived' 항목에 0 또는 1의 값으로 저장되어 있음

In [20]:
data_train_np_y = to_categorical(data_train['Survived'])

## 4. numpy 배열 형식으로 변환하기 (data_test 변환하기)

In [30]:
import numpy as np
from tensorflow.keras.utils import to_categorical

# 0으로 초기화 된 배열 생성
data_test_np = np.zeros([data_test.shape[0], 8])

# 성별 데이터 수치화
sex_num = np.zeros(data_test_np.shape[0])
sex_num[data_test['Sex'] == 'female'] = 1
data_test_np[:, 0:2] = to_categorical(sex_num)

# 티켓 등급 데이터 수치화
data_test_np[:, 2:5] = to_categorical(data_test['Pclass'].to_numpy() - 1)

# Age, SibSp, Parch 정규화
data_test_np[:, 5] = data_test['Age'] / 80
data_test_np[:, 6] = data_test['SibSp'] / 10
data_test_np[:, 7] = data_test['Parch'] / 10

# Age에 있는 결측치 평균값으로 대체하기
data_test_np[:, 5][np.isnan(data_test_np[:, 5])] = 30/80

In [31]:
data_test_np

array([[1.     , 0.     , 0.     , ..., 0.43125, 0.     , 0.     ],
       [0.     , 1.     , 0.     , ..., 0.5875 , 0.1    , 0.     ],
       [1.     , 0.     , 0.     , ..., 0.775  , 0.     , 0.     ],
       ...,
       [1.     , 0.     , 0.     , ..., 0.48125, 0.     , 0.     ],
       [1.     , 0.     , 0.     , ..., 0.375  , 0.     , 0.     ],
       [1.     , 0.     , 0.     , ..., 0.375  , 0.1    , 0.1    ]])