In [1]:
import numpy as np
import pandas as pd

In [2]:
train = pd.read_csv('https://bit.ly/fc-ml-titanic')

In [3]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 데이터 셋: 타이타닉 데이터셋 (출처: Kaggle.com)

In [4]:
train.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


* PassengerId: 승객 아이디
* Survived: 생존 여부, 1: 생존, 0: 사망
* Pclass: 등급
* Name: 성함
* Sex: 성별
* Age: 나이
* SibSp: 형제, 자매, 배우자 수
* Parch: 부모, 자식 수
* Ticket: 티켓번호
* Fare: 요즘
* Cabin: 좌석번호
* Embarked: 탑승 항구

## 전처리: train / validation 세트 나누기

1. 먼저, feature 와 label을 정의합니다.
2. feature / label을 정의했으면, 적절한 비율로 train / validation set을 나눕니다.

In [5]:
# 전체 데이터중 학습에 사용할 데이터를 선택
feature = [
    'Pclass', 'Sex', 'Age', 'Fare'
]

In [6]:
# 예측 해야할 값
label = [
    'Survived'
]

In [7]:
train[feature].head()

Unnamed: 0,Pclass,Sex,Age,Fare
0,3,male,22.0,7.25
1,1,female,38.0,71.2833
2,3,female,26.0,7.925
3,1,female,35.0,53.1
4,3,male,35.0,8.05


In [8]:
train[label].head()

Unnamed: 0,Survived
0,0
1,1
2,1
3,1
4,0


In [9]:
# 전체 데이터수를 확인
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 66.2+ KB


In [10]:
from sklearn.model_selection import train_test_split

* **test_size**: validation set에 할당할 비율 (20% -> 0.2)
* **shuffle**: 셔플 옵션 (기본 True)
* **random_state**: 랜덤 시드값

전체 데이터를 train data와 validation data의 비율을 8:2로 나눈다.

In [11]:
x_train, x_valid, y_train, y_valid = train_test_split(
            train[feature], train[label], test_size=0.2, shuffle=True, random_state=30)

In [12]:
x_train.shape, y_train.shape
# 훈련을 할 데이터(train)의 개수(x : 결과에 영향을 줄 예상 요인 / y : 결과) 확인

((712, 4), (712, 1))

In [13]:
x_valid.shape, y_valid.shape
# 훈련이 잘 되었는지 확인할 데이터(valid)의 개수(x : 결과에 영향을 줄 예상 요인 / y : 결과) 확인

((179, 4), (179, 1))

## 전처리: 결측치

In [14]:
#전체 데이터수와 비교해서 갯수가 부족한 항목을 확인
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 66.2+ KB


결측치를 확인하는 방법은 pandas의 **isnull()** 

그리고 합계를 구하는 sum()을 통해 한 눈에 확인할 수 있습니다.

In [15]:
train.isnull()
# 결측치 확인하기

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [16]:
# 결측치의 갯수를 구함
train.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

개별 column의 결측치에 대하여 확인하는 방법은 다음과 같습니다.

In [17]:
# 결측치중 'Age'의 갯수를 구함
train['Age'].isnull().sum()

177

[Impute 도큐먼트](https://scikit-learn.org/stable/modules/impute.html)

### 1. 수치형 (Numerical Column) 데이터에 대한 결측치 처리

In [18]:
# 수치형 데이터는 대체로 평균 값을 구한뒤, 결측치를 평균 값으로 채워줌

In [19]:
# 0으로 채웠을때의 통계값(전반적인 정보)을 출력
# fillna : 결측치 채우기
train['Age'].fillna(0).describe()

count    891.000000
mean      23.799293
std       17.596074
min        0.000000
25%        6.000000
50%       24.000000
75%       35.000000
max       80.000000
Name: Age, dtype: float64

In [20]:
# 평균 값으로 채웠을때의 통계값(전반적인 정보)을 출력
train['Age'].fillna(train['Age'].mean()).describe()

count    891.000000
mean      29.699118
std       13.002015
min        0.420000
25%       22.000000
50%       29.699118
75%       35.000000
max       80.000000
Name: Age, dtype: float64

#### 사이킷런의 imputer를 활용하면 2개 이상의 column을 한 번에 처리할 수 있다.

In [21]:
from sklearn.impute import SimpleImputer
# sklearn.impute 패키지 : 결측 데이터 채워넣기
# SimpleImputer 클래스 : 누락된 값을 손쉽게 다루도록 도와줌

In [22]:
imputer = SimpleImputer(strategy='mean')
# 결측치를 평균값(mean)으로 채우기
# SimpleImputer 인스턴스(객체) 생성

In [23]:
imputer

SimpleImputer()

In [24]:
print(imputer, type(imputer))

SimpleImputer() <class 'sklearn.impute._base.SimpleImputer'>


fit() 을 통해 결측치에 대한 학습을 진행합니다.

In [25]:
imputer.fit(train[['Age', 'Pclass']])
# fir(x_training_data)

SimpleImputer()

In [26]:
type(train[['Age', 'Pclass']])

pandas.core.frame.DataFrame

In [27]:
train[['Age', 'Pclass']]

Unnamed: 0,Age,Pclass
0,22.0,3
1,38.0,1
2,26.0,3
3,35.0,1
4,35.0,3
...,...,...
886,27.0,2
887,19.0,1
888,,3
889,26.0,1


transform() 은 실제 결측치에 대한 처리를 해주는 함수합니다.

---



In [28]:
result = imputer.transform(train[['Age', 'Pclass']])

In [29]:
result

array([[22.        ,  3.        ],
       [38.        ,  1.        ],
       [26.        ,  3.        ],
       ...,
       [29.69911765,  3.        ],
       [26.        ,  1.        ],
       [32.        ,  3.        ]])

In [30]:
#결과값은 numpy.ndarray로 저장된다.
type(result)

numpy.ndarray

In [31]:
train[['Age', 'Pclass']] = result

In [32]:
train[['Age', 'Pclass']].isnull().sum()
# 'Age', 'Pclass'컬럼에 결측치 개수 합계

Age       0
Pclass    0
dtype: int64

In [33]:
train[['Age', 'Pclass']].describe()
# 'Age', 'Pclass' 컬럼의 간략한 정보 확인

Unnamed: 0,Age,Pclass
count,891.0,891.0
mean,29.699118,2.308642
std,13.002015,0.836071
min,0.42,1.0
25%,22.0,2.0
50%,29.699118,3.0
75%,35.0,3.0
max,80.0,3.0


#### fit_transform()은 fit()과 transform()을 한 번에 해주는 함수 입니다.

In [34]:
train = pd.read_csv('https://bit.ly/fc-ml-titanic')
# CSV파일 읽어오기

In [35]:
train[['Age', 'Pclass']].isnull().sum()
# 'Age', 'Pclass' 컬럼의 결측치 개수 합계 확인하기

Age       177
Pclass      0
dtype: int64

In [36]:
imputer = SimpleImputer(strategy='median')
# 결측치를 중앙값(median)으로 채우기

In [37]:
result = imputer.fit_transform(train[['Age', 'Pclass']])

In [38]:
train[['Age', 'Pclass']] = result

In [39]:
train[['Age', 'Pclass']].isnull().sum()
# 'Age', 'Pclass'컬럼에 결측치 개수 합계

Age       0
Pclass    0
dtype: int64

In [40]:
train[['Age', 'Pclass']].describe()

Unnamed: 0,Age,Pclass
count,891.0,891.0
mean,29.361582,2.308642
std,13.019697,0.836071
min,0.42,1.0
25%,22.0,2.0
50%,28.0,3.0
75%,35.0,3.0
max,80.0,3.0


### 2.  (Categorical Column) 데이터에 대한 결측치 처리
문자형 데이터의 결측치를 채워줄 경우는 가장 빈도수가 높은 것으로 채워준다.

In [41]:
train = pd.read_csv('https://bit.ly/fc-ml-titanic')

1개의 column을 처리하는 경우

In [42]:
train['Embarked'].fillna('S')
# Embarked: 탑승 항구
# Embarked의 결측치를 'S'로 채우기

0      S
1      C
2      S
3      S
4      S
      ..
886    S
887    S
888    S
889    C
890    Q
Name: Embarked, Length: 891, dtype: object

Imputer를 사용하는 경우 : 2개 이상의 column을 처리할 때

In [43]:
imputer = SimpleImputer(strategy='most_frequent')
# most frequent : 가장 빈번한(많이 나온 값)
# SimpleImputer 인스턴스(객체) 생성

In [44]:
result = imputer.fit_transform(train[['Embarked', 'Cabin']])

In [45]:
train[['Embarked', 'Cabin']] = result

In [46]:
train[['Embarked', 'Cabin']].isnull().sum()

Embarked    0
Cabin       0
dtype: int64

## Label Encoding : 문자(categorical)를 수치(numerical)로 변환

학습을 위해서 모든 문자로된 **데이터는 수치로 변환**하여야 합니다.

In [47]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        891 non-null    object 
 11  Embarked     891 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 66.2+ KB


#### 함수를 만들어서 문자열을 수치로 변환 가능

In [48]:
# 함수 정의
def convert(data):
    if data == 'male':
        return 1
    elif data == 'female':
        return 0

In [49]:
train['Sex'].value_counts()
# 각각의 value가 몇 개 있는지 확인

male      577
female    314
Name: Sex, dtype: int64

In [50]:
train['Sex'].apply(convert)
# convert함수 호출

0      1
1      0
2      0
3      0
4      1
      ..
886    1
887    0
888    0
889    1
890    1
Name: Sex, Length: 891, dtype: int64

#### 사이킷런에서 LabelEncoder라는 함수 사용 가능

In [51]:
from sklearn.preprocessing import LabelEncoder
# 범주형 데이터를 쉽게 수치형 데이터로 바꾸기
# one-hot encoder, label encoder

In [52]:
le = LabelEncoder()

In [53]:
le

LabelEncoder()

In [54]:
train['Sex_num'] = le.fit_transform(train['Sex'])
print(train)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

In [55]:
train['Sex_num'].value_counts()

1    577
0    314
Name: Sex_num, dtype: int64

In [56]:
le.classes_
# classes_ : 변환된 인코딩 값에 대한 원본 값을 가지고 있음

array(['female', 'male'], dtype=object)

In [57]:
print(le.classes_, type(le.classes_))

['female' 'male'] <class 'numpy.ndarray'>


In [58]:
le.inverse_transform([0, 1, 1, 0, 0, 1, 1])
# inverse_transform : 인코딩된 값을 다시 디코딩

array(['female', 'male', 'male', 'female', 'female', 'male', 'male'],
      dtype=object)

NaN 값이 포함되어 있다면, `LabelEncoder`가 정상 동작하지 않습니다.

In [59]:
le.fit_transform(train['Embarked'])

array([2, 0, 2, 2, 2, 1, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2, 2,
       1, 2, 2, 2, 0, 2, 1, 2, 0, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 0,
       1, 2, 1, 1, 0, 2, 2, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 2, 2, 2, 0, 0,
       2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1,
       2, 0, 2, 2, 0, 2, 1, 2, 0, 2, 2, 2, 0, 2, 2, 0, 1, 2, 0, 2, 0, 2,
       2, 2, 2, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2,
       2, 0, 2, 2, 2, 0, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 0, 0, 1, 2,
       1, 2, 2, 2, 2, 0, 2, 2, 2, 0, 1, 0, 2, 2, 2, 2, 1, 0, 2, 2, 0, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1,
       2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 1, 2, 2, 2,
       1, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 0,
       2, 2, 2, 1, 2, 0, 0, 2, 2, 0, 0, 2, 2, 0, 1,

In [60]:
train['Embarked'] = train['Embarked'].fillna('S')

In [61]:
le.fit_transform(train['Embarked'])

array([2, 0, 2, 2, 2, 1, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2, 2,
       1, 2, 2, 2, 0, 2, 1, 2, 0, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 0,
       1, 2, 1, 1, 0, 2, 2, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 2, 2, 2, 0, 0,
       2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1,
       2, 0, 2, 2, 0, 2, 1, 2, 0, 2, 2, 2, 0, 2, 2, 0, 1, 2, 0, 2, 0, 2,
       2, 2, 2, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2,
       2, 0, 2, 2, 2, 0, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 0, 0, 1, 2,
       1, 2, 2, 2, 2, 0, 2, 2, 2, 0, 1, 0, 2, 2, 2, 2, 1, 0, 2, 2, 0, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1,
       2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 1, 2, 2, 2,
       1, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 0,
       2, 2, 2, 1, 2, 0, 0, 2, 2, 0, 0, 2, 2, 0, 1,

## 원 핫 인코딩 (One Hot Encoding)

In [62]:
train = pd.read_csv('https://bit.ly/fc-ml-titanic')

In [63]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


`Embarked`를 살펴봅시다

In [64]:
train['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [65]:
train['Embarked'].isnull().sum()

2

In [66]:
train['Embarked'] = train['Embarked'].fillna('S')

In [67]:
train['Embarked'].value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

In [68]:
train['Embarked_num'] = LabelEncoder().fit_transform(train['Embarked'])

In [69]:
train['Embarked_num'].value_counts()

2    646
0    168
1     77
Name: Embarked_num, dtype: int64

Embarked는 탑승 항구의 이니셜을 나타냈습니다. 

그런데, 우리는 이전에 배운 내용처럼 `LabelEncoder`를 통해서 수치형으로 변환해주었습니다.

하지만, 이대로 데이터를 기계학습을 시키면, 기계는 데이터 안에서 관계를 학습합니다.

즉, 'S' = 2, 'Q' = 1 이라고 되어 있는데, `Q` + `Q` = `S` 가 된다 라고 학습해버린다는 것이죠.

그렇기 때문에, 독립적인 데이터는 별도의 column으로 분리하고,
각각의 컬럼에 해당 값에만 **True** 나머지는 **False**를 갖습니다.
우리는 이것은 원 핫 인코딩 한다라고 합니다.

In [70]:
train['Embarked'][:6]

0    S
1    C
2    S
3    S
4    S
5    Q
Name: Embarked, dtype: object

In [71]:
train['Embarked_num'][:6]

0    2
1    0
2    2
3    2
4    2
5    1
Name: Embarked_num, dtype: int32

In [72]:
pd.get_dummies(train['Embarked_num'][:6])
# get_dummies : pandas에서 이용할 수 있는 원핫 인코딩 API

Unnamed: 0,0,1,2
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
5,0,1,0


In [73]:
one_hot = pd.get_dummies(train['Embarked_num'][:6])

In [74]:
one_hot.columns = ['C','Q','S']
# 컬럼명 바꾸기

In [75]:
one_hot

Unnamed: 0,C,Q,S
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
5,0,1,0


위와 같이 column 을 분리시켜 **카테고리형 -> 수치형으로 변환**하면서 생기는 `수치형 값`의 관계를 끊어주어서 독립적인 형태로 바꾸어 줍니다.

**원핫인코딩**은 카테고리 (계절, 항구, 성별, 종류, 한식/일식/중식...)의 특성을 가지는 column에 대해서 적용 합니다.

## 전처리: Normalize (정규화)

부동산 가격을 예측하기 위해 상관관계가 있는 특성들을 도출한다고 하면,
집의 평수, 아파트의 나이, 지하철 역과의 거리, 대형마트와의 거리 등이
관련이 있을 것입니다. 

집의 평수는 10평부터 100평까지 다양할 것이고, 아파트의 나이는 1년에서 20년, 
지하철 역과의 거리는 0.1km부터 1km, 대형마트와의 거리도 1km에서 20km까지 다양할 것입니다. 
문제는 '평수', '년', 'km' 등 각 특성의 단위도 다르고, 값의 범위도 꽤 차이가 있다는 것입니다. 
우선 단위가 다르면 직접적인 비교가 불가능합니다. 사람의 키와 사람의 몸무게를 직접적으로 
비교할 수 없는 것처럼 말이죠.

따라서 특성들의 단위를 무시할 수 있도록, 또한 특성들의 값의 범위를 비슷하게 만들어줄 필요가 있습니다. 
그것이 바로 정규화 또는 표준화가 해주는 일입니다. 정규화와 표준화가 해주는 것을 특성 스케일링(feature scaling)
또는 데이터 스케일링(data scaling)이라고 부릅니다. 

참고 사이트 : https://bskyvision.com/849

column 간에 다른 **min**, **max** 값을 가지는 경우, 정규화를 통해 최소치/ 최대값의 척도를 맞추어 주는 것

* 네이버 영화평점 (0점 ~ 10점): [2, 4, 6, 8, 10]
* 넷플릭스 영화평점 (0점 ~ 5점): [1, 2, 3, 4, 5]

In [76]:
movie = {'naver': [2, 4, 6, 8, 10], 
         'netflix': [1, 2, 3, 4, 5]
         }

In [77]:
movie = pd.DataFrame(data=movie)
movie

Unnamed: 0,naver,netflix
0,2,1
1,4,2
2,6,3
3,8,4
4,10,5


In [78]:
from sklearn.preprocessing import MinMaxScaler
# MinMaxScaler : 데이터값을 0과 1사이의 범위 값으로 변환

In [79]:
min_max_scaler = MinMaxScaler()

In [80]:
min_max_movie = min_max_scaler.fit_transform(movie)

In [81]:
pd.DataFrame(min_max_movie, columns=['naver', 'netflix'])

Unnamed: 0,naver,netflix
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


## 표준화 (Standard Scaling)

**평균이 0과 표준편차가 1**이 되도록 변환

In [82]:
from sklearn.preprocessing import StandardScaler

In [83]:
standard_scaler = StandardScaler()

샘플데이터를 생성합니다.

In [84]:
x = np.arange(10)
# outlier 추가
x[9] = 1000

In [85]:
print(x, type(x))

[   0    1    2    3    4    5    6    7    8 1000] <class 'numpy.ndarray'>


In [86]:
x.mean(), x.std()
# mean : 평균 구하기
# std : 표준편차 구하기

(103.6, 298.8100399919654)

In [87]:
scaled = standard_scaler.fit_transform(x.reshape(-1, 1))

In [88]:
x.mean(), x.std()

(103.6, 298.8100399919654)

In [89]:
scaled.mean(), scaled.std()

(4.4408920985006264e-17, 1.0)

In [90]:
round(scaled.mean(), 2), scaled.std()
# round() : 반올림

(0.0, 1.0)

In [91]:
import numpy as np
import pandas as pd

In [92]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'train.csv'

In [93]:
# One-hot-encoding for categorical variables
train = pd.get_dummies(train)
test = pd.get_dummies(test)

NameError: name 'test' is not defined

In [94]:
train_label = train['Survived']
train_data = train.drop('Survived', axis=1)
test_data = test.drop("PassengerId", axis=1).copy()

NameError: name 'test' is not defined

In [95]:
from sklearn.linear_model import LogisticRegression
from sklearn.utils import shuffle

In [96]:
train_data, train_label = shuffle(train_data, train_label, random_state = 5)

In [97]:
def train_and_test(model):
    model.fit(train_data, train_label)
    prediction = model.predict(test_data)
    accuracy = round(model.score(train_data, train_label) * 100, 2)
    print("Accuracy : ", accuracy, "%")
    return prediction

In [98]:
# Logistic Regression
log_pred = train_and_test(LogisticRegression())

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').