머신러닝
========
머신러닝은 문제 해결을 위한 알고리즘으로 사용된다. 일반적인 지도 학습의 경우 문제와 정답을 동시에 주고 규칙성을 스스로 파악하도록 한다. 사이킷런(Scikit-Learn)은 여러 가지 종류의 머신러닝 알고리즘들을 통해 사용자들이 머신러닝을 쉽게 사용할 수 있도록 도와준다. 특히 분류, 회귀, 군집화, 모델 선택 및 최적화 등의 작업과 메트릭 학습과 유사한 최적화 기법을 사용하는데 유용하다. 이러한 방법들로 머신러닝 작업을 더 효율적으로 수행할 수 있게 도와준다.

머신러닝은 다음과 같은 순서로 진행된다.
- 데이터 수집 및 불러오기
- 데이터 전처리
- 데이터 분류 (학습용/테스트용)
- 학습하기
- 예측하기
- 예측 정확도 분석

**붓꽃 품종 예측하기**를 통해 머신러닝의 대략적 과정을 이해해 보자

사이킷런에 내장된 데이터 세트 구성
- data: 특징 데이터 세트
- target: 라벨 데이터 , 숫자형 데이터
- feature_names: 특징의 이름
- target_names: 개별 라벨의 이름
- DESCR: 데이터 세트에 대한 설명과 각 피쳐에 대한 설명

In [None]:
# 붓꽃 데이터 세트 불러오기


# 붓꽃 데이터 세트 설명


.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [None]:


# 붓꽃 데이터 세트 중 특징 데이터


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [None]:
# 붓꽃 데이터 세트 중 라벨 데이터


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label,name
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


In [None]:
# 학습용 데이터 테스트용 데이터 분리
''' X_train: 학습용 특징 데이터
    X_test: 테스트용 특징 데이터
    y_train: 학습용 라벨 데이터
    y_test: 테스트용 라벨 데이터 '''
# 랜덤하게 80%는 학습용 데이터, 20%는 테스트 데이터로 분리


In [None]:
# 의사 결정 트리 알고리즘 사용


In [None]:
# 학습 수행


In [None]:
# 예측 수행


array([0])

In [None]:
# 예측 정확도 분석


실제 값:  [0 1 1 1 2 1 2 0 1 1 0 0 0 2 0 1 2 2 1 1 1 1 1 0 0 2 1 2 2 0]
예측 값:  [0 1 2 1 2 1 2 0 1 1 0 0 0 2 0 1 2 2 1 1 1 1 1 0 0 2 1 2 2 0]
예측 정확도: 0.9667


학습/테스트 데이터 세트 분리
----------------------------
학습/테스트 데이터를 분리하지 않고 모든 데이터 세트로 학습하면 다음과 같다.

In [None]:
# 붓꽃 데이터 불러오기

# 학습하기


# 예측하기


예측 정확도: 1.0000


위의 예측 결과가 1 즉, 100%인 이유는 이미 학습한 데이트 세트를 기반으로 예측을 진행했기 때문이다. 주어진 자료에만 과도하게 최적화되었기에 새로운 데이터가 주어지면 낮은 정확도를 보여주기도한다. 이러한 문제를 과적합 문제라고 한다. 이를 방지하고자 학습/테스트 데이터를 분리한다.

train_test_split(특징 데이터 세트, 라벨 데이터 세트, test_size=0.25, shuffle=True, random_state):<br/>
test_size: 테스트 데이터의 비율을 입력한다. (0 ~ 1) <br/>
shuffle: 주어진 데이터를 섞을 것인지 결정한다. <br/>
random_state: 데이터를 섞을 때 사용할 시드값

교차검증
--------
고정된 학습 데이터와 테스트 데이터로 평가하다보면 고정된 데이터에 과적합되는 문제가 발생한다. 이를 예방하기 위해 다양하게 학습 데이터와 테스트 데이터를 나누는 교차검증을 진행한다.

**K 폴드 교차 검증** <br/>
가장 보편적으로 사용되는 교차 검증 기법으로 먼저 K개의 데이터 폴드 세트를 만들어 K번 만큼 각 폴드 세트에 학습과 검증을 반복적으로 진행한다.

In [None]:


# 붓꽃 데이터 불러오기


# 5개의 폴드 세트로 분리하기 위해 KFold 객체 생성

# 각 폴드 별 정확도


In [None]:

# KFold 객체의 split() 메소드를 호출하면 폴드 별 학습용, 검증요 테슽의 로우 인덱스 반환

    # KFold.split()으로 얻은 인덱스로 데이터 추출


    # 학습

    # 예측

    # 정확도




print('평균 검증 정확도: ', np.mean(accuracy))

1번째 교차 검증 정확도: 1.0000, 학습 데이터 크기: 120, 검증 데이터 크기: 30
1번째 교차 검증 데이터 인덱스:  [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
학습 데이터 분포: 
 1    50
2    50
0    20
dtype: int64 

2번째 교차 검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
2번째 교차 검증 데이터 인덱스:  [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]
학습 데이터 분포: 
 2    50
1    40
0    30
dtype: int64 

3번째 교차 검증 정확도: 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
3번째 교차 검증 데이터 인덱스:  [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]
학습 데이터 분포: 
 0    50
2    50
1    20
dtype: int64 

4번째 교차 검증 정확도: 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
4번째 교차 검증 데이터 인덱스:  [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]
학습 데이터 분포: 
 0    50
1    40
2    30
dtype: int64 

5번째 교차 검증 정확도: 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
5번째 교차 검증 데이터 인덱스:  [120 121 122 123 124 125 

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label,name
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


0    50
1    50
2    50
Name: label, dtype: int64

붓꽃 품종는 각각 50개씩 동일한 수를 가진다. 하지만 위의 방식대로 폴드를 구분하게 되면 각 폴드에 들어있는 품종데이터는 전체 데이터의 비율과 달라지는 문제가 발생하게 된다. 이를 방지하고자 Stratified K 폴드를 이용한다.

**Stratified K 폴드**<br/>
불균형한 분포도를 가진 데이터 집합을 위한 K 폴드 방식이다. Stratified K 폴드는 전체 데이터 세트에서 각 데이터의 비율과 폴드 내 데이트의 비율이 동일하도록 데이터 세트를 분배한다.

In [None]:

# 5개의 균일한 폴드 세트로 분리하기 위해 StratifiedKFold 객체 생성

# 붓꽃 데이터 불러오기


# 각 폴드 별 정확도

# label 내 데이터 비율에 따라 나누기에 label 또한 입력

    # 학습

    # 예측

    # 정확도


1번째 교차 검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
1번째 교차 검증 데이터 인덱스:  [  0   1   2   3   4   5   6   7   8   9  50  51  52  53  54  55  56  57
  58  59 100 101 102 103 104 105 106 107 108 109]
학습 데이터 분포: 
 0    40
1    40
2    40
dtype: int64 

2번째 교차 검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
2번째 교차 검증 데이터 인덱스:  [ 10  11  12  13  14  15  16  17  18  19  60  61  62  63  64  65  66  67
  68  69 110 111 112 113 114 115 116 117 118 119]
학습 데이터 분포: 
 0    40
1    40
2    40
dtype: int64 

3번째 교차 검증 정확도: 0.9000, 학습 데이터 크기: 120, 검증 데이터 크기: 30
3번째 교차 검증 데이터 인덱스:  [ 20  21  22  23  24  25  26  27  28  29  70  71  72  73  74  75  76  77
  78  79 120 121 122 123 124 125 126 127 128 129]
학습 데이터 분포: 
 0    40
1    40
2    40
dtype: int64 

4번째 교차 검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
4번째 교차 검증 데이터 인덱스:  [ 30  31  32  33  34  35  36  37  38  39  80  81  82  83  84  85  86  87
  88  89 130 131 132 133 134 135 136 137 138 139]
학습 데이터 분포: 
 0    40
1    40
2    40
dtype: int64 

5번째 교차 검

데이터 전처리
-------------
머신러닝 알고리즘에서 NaN값과 문자열 값을 허용하지 않는다. 결손값은 적절한 값으로 채워넣고 문자열 값은 모두 인코딩하여 숫자형 데이터로 변환해야한다. 이러한 과정을 데이터 전처리라 한다.

**레이블 인코딩(Lable encoding)**<br/>
카테고리 특징을 코드형 숫자 값으로 변환하는 것이다. 예를 들어 과일이 '포도', '감', '사과', '수박', '배'가 있다면 이들을 각각 '포도':0, '감':1, '사과':2, '수박':3, '배':4와 같은 숫자형으로 변환한다.

In [None]:

# 레이블 인코딩


레이블 인코딩:  [4 0 2 2 3 1 4 1]


In [None]:
# classes_ 객체 값을 통해 어떤 문자열이 어떤 숫자로 변환 됐는 지 확인할 수 있다.


array(['감', '배', '사과', '수박', '포도'], dtype='<U2')

In [None]:
# inverse_transform() 메소드를 통해 원본 값으로 복구할 수 있다.


원본:  ['포도' '감' '사과' '사과' '수박' '배' '포도' '배']


1보다 2는 더욱 큰 수 이기에 일부 머신러닝 알고리즘에서 '배'보다 '사과'에 더욱 큰 가중치를 두는 문제가 발생하기도 한다. 이러한 문제점은 원-핫 인코딩을 통해 해결할 수 있다.

**원-핫 인코딩(One-Hot Encoding)**<br/>
각 특징에 따른 컬럼을 만들고 해당 특징에 해당하면 1 그렇지 않으면 0을 표시하는 방식이다.

In [None]:

# 먼저 숫자 값으로 변환하기 위해 레이블 인코딩을 적용한다.


# 2차원 데이터로 변환

# 원-핫 인코딩 적용


원-핫 인코딩 결과


array([[0., 0., 0., 0., 1.],
       [1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       [0., 1., 0., 0., 0.]])

서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처 스케이링(Feature Scaling)이라한다. 대표적으로 표준화(Standardization), 정규화(Normalization)가 있다.
- 표준화(Standardizatioin): 특징 데이터 각각을 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
- 정규화(Normalization): 서로 다른 특징 데이터의 크기를 통일하기 위해 크기를 변환하는 것

In [None]:
# 붓꽃 데이터 불러오기


**StandardScaler**<br/>
표준화를 지원하는 모듈, 평균이 0, 분산이 1인 값으로 변환한다.

In [None]:
# 평균, 분산 값 확인
# mean(): 평균값 계산 메소드

# var(): 분산값 계산 메소드

평균값:
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64 

분산값: 
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [None]:
# 표준화


# StandardScaler 객체 생성

# StandatdScaler로 데이터 세트 변환
# ndarray 또는 DataFrame을 입력할 수 있다.
# ndarray 또는 DataFrame을 입력할 수 있다. 반환값은 ndarray이다.

# 반환된 ndarray값을 DataFrame으로 변환


# 평균, 분산 값 확인
# mean(): 평균값 계산 메소드

# var(): 분산값 계산 메소드

평균값:
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64 

분산값: 
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


**MinMaxScaler**<br/>
정규화를 지원하는 모듈, 0\~1의 범위 값으로 변환한다. (음수가 있으면 -1\~1의 범위 값으로 변환한다.)

In [None]:


# MinMaxScaler 객체 생성


# MinMaxScaler로 데이터 세트 변환
# ndarray 또는 DataFrame을 입력할 수 있다.
# ndarray 또는 DataFrame을 입력할 수 있다. 반환값은 ndarray이다.

# 반환된 ndarray값을 DataFrame으로 변환

# 최대, 최소 값 확인
# min(): 최솟값 추출 메소드

# max()):최댓값 추출 메소드

최솟값:
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64 

최댓값: 
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


실습 예제
=========
<hr/>

타이타닉 생존자 예측
--------------------
이전에 이용한 타이타닉 탑승자 데이터를 이용해 생존자를 예측해보자
해당 데이터 컬럼이 뜻하는 바는 다음과 같다.
- PassengerId: 탑승자 데이터 일련번호
- Survived: 생존 여부 (사망:0, 생존:1)
- Pclass: 티켓의 선실 등급 (일등석:1, 이등석:2, 삼등석:3)
- Sex: 탑승자 성별
- Name: 탑승자 이름
- Age: 탑승자 나이
- SibSp: 같이 탑승한 형제자매 또는 배우자 인원수
- Parch: 같이 탑승한 부모 또는 자식 인원수
- Ticket: 티켓 번호
- Fare: 요금
- Cabin: 선실 번호
- Embarked: 중간 정착 항구 (Cherbourg:C, Queenstown:Q, S:Southampton)



###데이터 수집 및 불러오기

Drive already mounted at /content/gdrive/; to attempt to forcibly remount, call drive.mount("/content/gdrive/", force_remount=True).


###데이터 전처리


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


'PassengerId' 와 'Name', 'Ticket'컬럼은 생존율과 관계없을 것이기에 삭제한다.

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
0,0,3,male,22.0,1,0,7.2500,,S
1,1,1,female,38.0,1,0,71.2833,C85,C
2,1,3,female,26.0,0,0,7.9250,,S
3,1,1,female,35.0,1,0,53.1000,C123,S
4,0,3,male,35.0,0,0,8.0500,,S
...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,,S
887,1,1,female,19.0,0,0,30.0000,B42,S
888,0,3,female,,1,2,23.4500,,S
889,1,1,male,26.0,0,0,30.0000,C148,C


결손값(NaN)을 채워 넣는다.
- 'Age': 평균값
- 'Cabin': 'N'
- 'Embarked': 'N'

0

'Cabin' 컬럼을 살펴보면 너무 다양한 문자열 데이터가 저장되어있다. 이들을 살펴보면 첫번째 알파벳이 선실 등급을 나타냄을 추정할 수 있다. 첫번째 알파벳만 추출하여 전처리 할 수 있다.

In [None]:
# 'Cabin' 값 분포 확인


N              687
C23 C25 C27      4
G6               4
B96 B98          4
C22 C26          3
              ... 
E34              1
C7               1
C54              1
E36              1
C148             1
Name: Cabin, Length: 148, dtype: int64

In [None]:
# 첫번째 스펠링만 추출한다.


N    687
C     59
B     47
D     33
E     32
A     15
F     13
G      4
T      1
Name: Cabin, dtype: int64

'Age' 컬럼의 경우 값의 종류가 많기 때문에 범위별 카테고리로 분류한다.

In [None]:
# 나이에 따라 구분 값을 반환하는 함수
''' Baby: 0~5세
    Child: 6~12세
    Teenager: 13~18세
    Student: 19~25세
    Yong Adult: 26~35세
    Adult:36~59세
    Elderly: 60세 이상 '''


**레이블인코딩**<br/>
'Sex', 'Cabin', 'Embarked' 컬럼은 문자열 데이터이기에 레이블 인코딩을 이용해 숫자형 데이터로 변환한다.

In [None]:
# 라벨 인코딩 진행



**원-핫 인코딩**<br/>
'Age' 컬럼의 경우 데이터 Baby, Child, Teenager, Student, Young Adult, Adult , Ederly로 구분할 수 있다. 또한 일부 머신러닝 알고즘에서 특정 카테고리에 높은 가중치를 둘 수 있기에 원-핫 인코딩을 적용한다.

In [None]:

# 라벨 인코딩 진행


# 원-핫 인코딩 진행
# 나이 카데고리 데이터 추출

# 2차원 데이터로 변환

# 원-핫 인코딩 진행




Unnamed: 0,Adult,Baby,Child,Ederly,Sutdent,Teenager,Young Adult
0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,1.0
3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,0.0,0.0,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...
886,0.0,0.0,0.0,0.0,0.0,0.0,1.0
887,0.0,0.0,0.0,0.0,1.0,0.0,0.0
888,0.0,0.0,0.0,0.0,0.0,0.0,1.0
889,0.0,0.0,0.0,0.0,0.0,0.0,1.0


Unnamed: 0,Survived,Pclass,Sex,SibSp,Parch,Fare,Cabin,Embarked,Adult,Baby,Child,Ederly,Sutdent,Teenager,Young Adult
0,0,3,1,1,0,7.2500,7,3,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1,1,1,0,1,0,71.2833,2,0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1,3,0,0,0,7.9250,7,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
3,1,1,0,1,0,53.1000,2,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,0,3,1,0,0,8.0500,7,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,1,0,0,13.0000,7,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
887,1,1,0,0,0,30.0000,1,3,0.0,0.0,0.0,0.0,1.0,0.0,0.0
888,0,3,0,1,2,23.4500,7,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
889,1,1,1,0,0,30.0000,2,0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


**정규화, MinMaxScaler**<br/>
'Fare'컬럼만 숫자 데이터의 값이 크다. 이는 'Fare' 컬럼에 높은 가중치를 줄 수 있기에 정규화를 진행한다.

In [None]:

# MinMaxScaler객체 생성


Unnamed: 0,Survived,Pclass,Sex,SibSp,Parch,Fare,Cabin,Embarked,Adult,Baby,Child,Ederly,Sutdent,Teenager,Young Adult
0,0,3,1,1,0,0.014151,7,3,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1,1,1,0,1,0,0.139136,2,0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1,3,0,0,0,0.015469,7,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
3,1,1,0,1,0,0.103644,2,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,0,3,1,0,0,0.015713,7,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,1,0,0,0.025374,7,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
887,1,1,0,0,0,0.058556,1,3,0.0,0.0,0.0,0.0,1.0,0.0,0.0
888,0,3,0,1,2,0.045771,7,3,0.0,0.0,0.0,0.0,0.0,0.0,1.0
889,1,1,1,0,0,0.058556,2,0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


###데이터 분류 (학습용/테스트용)

In [None]:
# 5개의 균일한 폴드 세트로 분리하기 위해 StratifiedKFold 객체 생성

# 각 폴드 별 정확도



# label 내 데이터 비율에 따라 나누기에 label 또한 입력

    # StratifiedKFold.split()으로 얻은 인덱스로 데이터 추출

    # 학습

    # 예측

    # 정확도



평균 검증 정확도:  0.7935157868307074
[0.770949720670391, 0.7640449438202247, 0.8089887640449438, 0.7808988764044944, 0.8426966292134831]
