# Data Split ( train, test )
머신러닝 혹은 딥러닝을 훈련시키는데 빠짐없이 나오는 것이 모델 평가이다.
모델을 평가하기 위해서 훈련데이터와 테스트 데이터를 나누는 것은 매우 중요한 작업이다.
이러한 작업이 평소에 골치아퍼 이렇게 노트북으로 따로 정리한다.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

## 1. 데이터 불러오기

In [6]:
# 데이터 불러오기
data = pd.read_csv("Iris.csv")

# 데이터 정보
print(data.shape) # 데이터 형태
print(data.columns) # 데이터 열 정보
print(data.head()) # 앞 5개 출력
print(data.info())

(150, 6)
Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')
   Id  SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm      Species
0   1            5.1           3.5            1.4           0.2  Iris-setosa
1   2            4.9           3.0            1.4           0.2  Iris-setosa
2   3            4.7           3.2            1.3           0.2  Iris-setosa
3   4            4.6           3.1            1.5           0.2  Iris-setosa
4   5            5.0           3.6            1.4           0.2  Iris-setosa
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
Id               150 non-null int64
SepalLengthCm    150 non-null float64
SepalWidthCm     150 non-null float64
PetalLengthCm    150 non-null float64
PetalWidthCm     150 non-null float64
Species          150 non-null object
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB
None


## 2. 훈련, 테스트 데이터 분리
> 참고  
1. https://stackoverflow.com/questions/24147278/how-do-i-create-test-and-train-samples-from-one-dataframe-with-pandas
2. https://blog.naver.com/PostView.nhn?blogId=siniphia&logNo=221396370872&parentCategoryNo=&categoryNo=22&viewDate=&isShowPopularPosts=true&from=search


* 방법  
(1)sklearn라이브러리의 train_test_split 사용하는 방법  
(2)numpy로 값 하나 뽑아서 리스트의 인덱스로 나누는 방법.

In [13]:
# 나누기 전
print(data.shape)

(150, 5)


In [14]:
# sklearn의 train_test_split을 사용한 방법
train_data, test_data = train_test_split(data, test_size=0.2)
print(train_data.shape)
print(test_data.shape)

(120, 5)
(30, 5)


## 2. 데이터 정제
### 2-1. Y값 One-hot Encoding
* y값을 수치화

In [7]:
# one-hot encoding ( replace메소드를 사용한 변환 )
data['Species'] = data['Species'].replace(to_replace=['Iris-setosa', 'Iris-versicolor','Iris-virginica'],value=[0,1,2])
print(data['Species'])

0      0
1      0
2      0
3      0
4      0
      ..
145    2
146    2
147    2
148    2
149    2
Name: Species, Length: 150, dtype: int64


### 2-2. 불필요한 열 없애기

In [8]:
# 불필요한 열 없애기 ( Id열 없애기 )
data = data.drop(labels=['Id'], axis=1) # 열이기 때문에 axis=1
print(data)

     SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm  Species
0              5.1           3.5            1.4           0.2        0
1              4.9           3.0            1.4           0.2        0
2              4.7           3.2            1.3           0.2        0
3              4.6           3.1            1.5           0.2        0
4              5.0           3.6            1.4           0.2        0
..             ...           ...            ...           ...      ...
145            6.7           3.0            5.2           2.3        2
146            6.3           2.5            5.0           1.9        2
147            6.5           3.0            5.2           2.0        2
148            6.2           3.4            5.4           2.3        2
149            5.9           3.0            5.1           1.8        2

[150 rows x 5 columns]


### 2-3. X데이터 Y데이터 분리


In [9]:
# 데이터 분리
data_X = data.drop(labels=['Species'],axis=1).values
data_Y = data['Species'].values
print(data_X)
print(data_Y)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.1 1.5 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.