#지도학습 - 분류

- 정답이 있는 데이터가 주어진 상태에서 학습하는 방법

- 분류와 회귀로 구분 가능

- 이진분류 : 주어진 데이터에 대해 두 가지 중 하나로 분류하는 것

- 다중분류 : 주어진 데이터에 대해 여러 가지 중 하나로 분류하는 것

> 대표적인 알고리즘

- Decision Tree
- KNN
- 로지스틱 회귀
- 나이브베이즈
- SVM
- 랜덤포레스트
- 신경망

##1.의사결정나무를 이용한 분류 문제 해결

###1-1.의사결정나무 알고리즘

- 의사결정을 위한 규칙을 나무 모양으로 조합해 종속변수에 대한 분류를 수행

- 종속변수가 이산형인 경우로 의사결정나무를 학습하는 것은 최종적으로 분류나무를 구축하는 과정

> 특징

- 수학적 지식 없이도 결과를 해석하고 이해 가능

- 과대 적합의 위험이 높아, 학습 모델이 과대적합 되지 않도록 적절히 조절

###1-2.분석 목표

1. 데이터셋 및 분석문제 정의 : 타이타닉 데이터 셋에서 탑승자들의 여러 속성 데이터를 기반으로 생존 여부 예측

2. 접근 방법 : 불필요한 속성을 제거하고 전처리과정을 거친 후 의사결정나무 알고리즘을 이용해 학습 모델을 구축한 후 예측

###1-3.의사결정나무를 이용한 타이타닉 생존자 분류 분석 수행

> 1.필요패키지 임포트

In [None]:
# 필요 패키지 임포트
import numpy as np
import pandas as pd
import sklearn

from sklearn.tree import DecisionTreeClassifier

from sklearn.model_selection import train_test_split

> 2.데이터 불러오기

In [None]:
df = pd.read_csv('/content/drive/MyDrive/BigData/CSV_File/titanic.csv')

> 3.데이터 살펴보기

In [None]:
df

> 타이타닉 데이터셋 컬럼 설명

- Pclass : 등급별 분류(1등실, 2등실, 3등실)

- Sibsp : 동승 가족 수(형제/배우자)

- Parch : 동승 가족 수(부모/자녀)

- Cabin : 선실 번호

- Embarked : 탑승지 (C, Q, S)

In [None]:
df.info()

In [None]:
df.describe()

> 4.데이터 전처리

- 분석에 앞서 필요한 전처리 수행

- Age 컬럼은 결측치를 평균값으로 대치

- Embarked 컬럼은 결측치를 최빈값으로 대치

- Cabin 컬럼은 결측치가 너무 많기 때문에 분석에서 제외

In [None]:
df['Age'].fillna(df['Age'].mean(), inplace = True)

df['Embarked'].fillna(df['Embarked'].mode()[0], inplace = True)

In [None]:
df.drop(['Cabin'], axis = 1, inplace = True)

In [None]:
df.info()

- Sex 컬럼은 숫자 0과 1로 변환하는 레이블 인코딩 수행

- Embarked 컬럼도 레이블 인코딩 수행, 사이킷런의 LabelEncoder() 함수 사용

In [None]:
from sklearn.preprocessing import LabelEncoder

df['Sex'] = LabelEncoder().fit_transform(df['Sex'])

df['Embarked'] = LabelEncoder().fit_transform(df['Embarked'])

- 가족 수 파생변수 생성

In [None]:
df['Family'] = df['SibSp'] + df['Parch']

> 5.분석 데이터셋 준비

- 전처리를 마친 데이터를 train과 test 데이터셋으로 8:2로 분리

- 타이타닉 데이터셋에서 목표변수는 'Survived'이고 탑승자 생존과 무관하여 분석 결과에 영향을 주지 않는 ID, Name, Ticket은 분석에서 제외

- 가족 수 컬럼은 가족의 파생변수로 합쳐졌기 때문에 제외

In [None]:
X = df[['Pclass', 'Sex', 'Age', 'Fare', 'Embarked', 'Family']]
y = df['Survived']

In [None]:
X

- 데이터 분리를 위해 스플릿 함수를 이용

- test_size=0.2 파라미터로 설정하면 test_data를 20%로 전체 데이터를 분리

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=11)

In [None]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

> 6.데이터 분석 수행

- 분류를 위한 알고리즘 중 의사결정나무 이용



In [None]:
dt = DecisionTreeClassifier(random_state = 11)

dt.fit(X_train, y_train)

- 학습이 완료된 dt 객체에서 테스트 데이터셋으로 분류 수행

In [None]:
pred = dt.predict(X_test)

> 7.성능평가 및 시각화

- 분류 결과와 실제 분류 결과를 비교하여 정확도 평가

- 사이킷런의 accuracy_score() 함수로 정확도 측정

In [None]:
from sklearn.metrics import accuracy_score

acc = accuracy_score(y_test, pred)
print(acc)

- accuracy_score(a, b)

- a : 실제 정답, 분류데이터셋(y_test)

- b : 예측한 답, 분석 결과 분류된 데이터셋(pred)

### 전체코드 - 의사결정나무

In [None]:
import numpy as np # 넘파이
import pandas as pd # 판다스
import sklearn # 사이킷런

from sklearn.tree import DecisionTreeClassifier # 의사결정나무 분류모델을 위한 패키지
from sklearn.model_selection import train_test_split # 데이터셋 분리를 위한 패키지
from sklearn.preprocessing import LabelEncoder # 라벨 인코딩을 위한 패키지
from sklearn.metrics import accuracy_score # 정확도 측정을 위한 패키지

df = pd.read_csv('/content/drive/MyDrive/BigData/CSV_File/titanic.csv') # 타이타닉 데이터셋 불러오기

df['Age'].fillna(df['Age'].mean(), inplace = True) # 나이 컬럼의 결측치를 평균으로 대체
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace = True) # 탑승지 컬럼의 결측치를 최빈값으로 대체(옆에 [0]이 뭔지 배워야함)

# 성별과 탑승지 컬럼의 문자를 숫자로 레이블 인코딩
df['Sex'] = LabelEncoder().fit_transform(df['Sex'])
df['Embarked'] = LabelEncoder().fit_transform(df['Embarked'])

# 형제/배우자 가족수와 부모/자녀 가족수를 합쳐 가족이라는 파생변수 생성
df['Family'] = df['SibSp'] + df['Parch']

# 독립변수와 종속변수 설정
X = df[['Pclass', 'Sex', 'Age', 'Fare', 'Embarked', 'Family']]
y = df['Survived']

# 데이터셋을 8:2로 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 11)

# 의사결정나무 객체 생성
dt = DecisionTreeClassifier(random_state=11)

# 학습
dt.fit(X_train, y_train)

# 예측
pred = dt.predict(X_test)

# 정확도 측정
acc = accuracy_score(y_test, pred)
print(acc)

## 2.KNN을 이용한 분류 문제 해결

###2-1.KNN 알고리즘

- 지도학습의 한 종류로, 정답이 있는 데이터를 사용해 분류 작업

- 서로 가까운 점들은 유사하다는 가정하에, 데이터로부터 거리가 가까운 K개의 다른 데이터의 정답을 참조하여 분류

> 특징

- 동작원리가 단순하여 이해하기 쉬움

- 거리 기반의 연산으로, 숫자로 구분된 속성에 우수한 성능을 보임

###2-2.분석 목표

1. 데이터셋 및 문제 정의 : iris 데이터셋을 사용해 꽃잎의 길이와 너비, 꽃받침의 길이와 너비를 가지고 품종을 분류하는 문제를 KNN으로 해결

2. 접근 방법 : K값에 따라 분류의 정확도가 달라지므로, 적절한 K값을 찾는 것이 매우 중요


###2-3. KNN을 이용한 붓꽃 종류 분류 분석 수행

> 1.필요 패키지 임포트

In [None]:
import numpy as np
import pandas as pd
import sklearn

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier 

> 2.iris 데이터셋 불러오기

In [None]:
df = pd.read_csv('/content/drive/MyDrive/BigData/CSV_File/iris.csv')

> 3.데이터 살펴보기

In [None]:
df

In [None]:
df.info()

In [None]:
df.describe()

> 4.데이터 전처리

- 4개의 독립변수에 대해서 Min-Max 정규화 실행(모든 값을 0~1 사이의 값으로 변환)

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[['sepal_length']] = scaler.fit_transform(df[['sepal_length']])
df[['sepal_width']] = scaler.fit_transform(df[['sepal_width']])
df[['petal_length']] = scaler.fit_transform(df[['petal_length']])
df[['petal_width']] = scaler.fit_transform(df[['petal_width']])

In [None]:
df

> 5.분석 데이터셋 준비

- 데이터 분리를 위한 사이킷런의 train_test_split() 함수 사용

In [None]:
X = df[['sepal_length','sepal_width','petal_length','petal_width']]
y = df['species']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=11)

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

> 6.데이터분석 수행

In [None]:
knn_3 = KNeighborsClassifier(n_neighbors=3)
knn_6 = KNeighborsClassifier(n_neighbors=6)
knn_9 = KNeighborsClassifier(n_neighbors=9)

knn_3.fit(X_train, y_train)
knn_6.fit(X_train, y_train)
knn_9.fit(X_train, y_train)

In [None]:
pred_3 = knn_3.predict(X_test)
pred_6 = knn_6.predict(X_test)
pred_9 = knn_9.predict(X_test)

> 7.성능평가 및 시각화

In [None]:
from sklearn.metrics import accuracy_score

acc_3 = accuracy_score(y_test, pred_3)
acc_6 = accuracy_score(y_test, pred_6)
acc_9 = accuracy_score(y_test, pred_9)

In [None]:
print(acc_3, acc_6, acc_9)

### 전체코드 - KNN

In [None]:
import numpy as np
import pandas as pd
import sklearn

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score

df = pd.read_csv('/content/drive/MyDrive/BigData/CSV_File/iris.csv')

mms = MinMaxScaler()
df[['sepal_length']] = scaler.fit_transform(df[['sepal_length']])
df[['sepal_width']] = scaler.fit_transform(df[['sepal_width']])
df[['petal_length']] = scaler.fit_transform(df[['petal_length']])
df[['petal_width']] = scaler.fit_transform(df[['petal_width']])

X = df[['sepal_length','sepal_width','petal_length','petal_width']]
y = df['species']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 11)

knn_1 = KNeighborsClassifier(n_neighbors = 1)
knn_6 = KNeighborsClassifier(n_neighbors = 6)
knn_9 = KNeighborsClassifier(n_neighbors = 9)

knn_1.fit(X_train, y_train)
knn_6.fit(X_train, y_train)
knn_9.fit(X_train, y_train)

pred_1 = knn_1.predict(X_test)
pred_6 = knn_6.predict(X_test)
pred_9 = knn_9.predict(X_test)

acc_1 = accuracy_score(y_test, pred_1)
acc_6 = accuracy_score(y_test, pred_6)
acc_9 = accuracy_score(y_test, pred_9)

print(acc_1, acc_6, acc_9)

### 타이타닉 데이터셋에 적용

In [None]:
import numpy as np # 넘파이
import pandas as pd # 판다스
import sklearn # 사이킷런

from sklearn.neighbors import KNeighborsClassifier # KNN 모델을 위한 패키지
from sklearn.model_selection import train_test_split # 데이터셋 분리를 위한 패키지
from sklearn.preprocessing import LabelEncoder # 라벨 인코딩을 위한 패키지
from sklearn.metrics import accuracy_score # 정확도 측정을 위한 패키지

df = pd.read_csv('/content/drive/MyDrive/BigData/CSV_File/titanic.csv') # 타이타닉 데이터셋 불러오기

df['Age'].fillna(df['Age'].mean(), inplace = True) # 나이 컬럼의 결측치를 평균으로 대체
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace = True) # 탑승지 컬럼의 결측치를 최빈값으로 대체(옆에 [0]이 뭔지 배워야함)

# 성별과 탑승지 컬럼의 문자를 숫자로 레이블 인코딩
df['Sex'] = LabelEncoder().fit_transform(df['Sex'])
df['Embarked'] = LabelEncoder().fit_transform(df['Embarked'])

# 형제/배우자 가족수와 부모/자녀 가족수를 합쳐 가족이라는 파생변수 생성
df['Family'] = df['SibSp'] + df['Parch']

# 독립변수와 종속변수 설정
X = df[['Pclass', 'Sex', 'Age', 'Fare', 'Embarked', 'Family']]
y = df['Survived']

# 데이터셋을 8:2로 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 11)

# KNN 객체 생성
knn_3 = KNeighborsClassifier(n_neighbors=3)
knn_6 = KNeighborsClassifier(n_neighbors=6)
knn_9 = KNeighborsClassifier(n_neighbors=9)

# 학습
knn_3.fit(X_train, y_train)
knn_6.fit(X_train, y_train)
knn_9.fit(X_train, y_train)

# 예측
pred_3 = knn_3.predict(X_test)
pred_6 = knn_6.predict(X_test)
pred_9 = knn_9.predict(X_test)

# 정확도 측정
acc_3 = accuracy_score(y_test, pred_3)
acc_6 = accuracy_score(y_test, pred_6)
acc_9 = accuracy_score(y_test, pred_9)

print(acc_3, acc_6, acc_9)

- KNN을 이용해 타이타닉 데이터셋을 분석한 결과 n_neighbors=9의 파라미터가 가장 정확도가 높은 것을 알 수 있음

In [None]:
cd /content/drive/MyDrive/BigData/Exam

In [None]:
!git config --global user.email 'dydwns9436@naver.com'
!git config --global user.name 'dydwns9436'

!git add Study_06.ipynb

!git commit -m '2022-06-10'
!git push

##3.SVM을 이용한 분류 문제 해결

### 3-1.SVM 알고리즘

- 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만듦

- 데이터가 사상된 공간에서 경계로 표현되는데 SVM 알고리즘은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘

> 알고리즘 특징

- 비교적 적은 학습 데이터로도 정확도가 높은 분류를 기대할 수 있음

- 변수가 많은 경우 결정 경계 및 데이터 시각확 어려워 분류 결과의 이해가 어려움

###3-2.분석 목표

1. 데이터셋 및 분석문제 정의 : 타이타닉 데이터셋에서 여러 속성 데이터를 기반으로 생존여부 분류

2. 접근 방법 : 전처리 과정에서 Sex와 Embarked 컬럼에 원-핫 인코딩 수행

###3-3.SVM을 이용한 타이타닉 생존자 분류 분석 수행

> 1.필요 패키지 임포트

In [None]:
import numpy as np
import pandas as pd
import sklearn

from sklearn import svm
from sklearn.model_selection import train_test_split

> 2.데이터 불러오기

In [None]:
df = pd.read_csv('/content/drive/MyDrive/BigData/CSV_File/titanic.csv')

> 3.데이터 살펴보기

In [None]:
df

In [None]:
df.info()

> 4.데이터 전처리

- Age 컬럼은 결측치를 평균값으로 대치
- Embarked 컬럼은 결측치를 최빈값으로 대치
- Cabin 컬럼은 결측치가 많기 때문에 분석에서 제외
- 동승 가족수는 2개의 컬럼 SibSp, Parch로 존재하므로 두 값을 더해 파생변수 생성

In [None]:
df['Age'].fillna(df['Age'].mean(), inplace = True)
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace = True)
df['Family'] = df['SibSp'] + df['Parch']

In [None]:
df.drop(df[['Cabin']], axis = 1, inplace = True)

In [None]:
df.info()

- 원-핫 인코딩 진행

In [None]:
onehot_sex = pd.get_dummies(df['Sex'])
df = pd.concat([df, onehot_sex], axis = 1)

onehot_embarked = pd.get_dummies(df['Embarked'])
df = pd.concat([df, onehot_embarked], axis = 1)

df

In [None]:
df.drop(df[['Sex', 'Embarked','SibSp', 'Parch']], axis=1, inplace = True)

In [None]:
df

> 5.분석 데이터셋 준비

- 생존과 무관한 아이디, 이름, 티켓번호는 분석에서 제외

In [None]:
X = df[['Pclass', 'Age', 'Fare', 'Family', 'female', 'male' ,'C', 'Q', 'S']]
y = df['Survived']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 10)

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

> 6.데이터분석 수행

In [None]:
sv = svm.SVC(kernel='rbf')

sv.fit(X_train, y_train)

In [None]:
pred_sv = sv.predict(X_test)

> 7.성능평가 및 시각화

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
acc_sv = accuracy_score(y_test, pred_sv)
acc_sv

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
mat = confusion_matrix(y_test, pred_sv)
print(mat)

In [None]:
from sklearn.metrics import classification_report
rpt = classification_report(y_test, pred_sv)
print(rpt)

### 전체코드 - SVM

In [None]:
import numpy as np
import pandas as pd
import sklearn 

from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

df = pd.read_csv('/content/drive/MyDrive/BigData/CSV_File/titanic.csv')

df['Age'].fillna(df['Age'].mean(), inplace = True)
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace = True)
df['Family'] = df['SibSp'] + df['Parch']

onehot_sex = pd.get_dummies(df['Sex'])
onehot_embarked = pd.get_dummies(df['Embarked'])

df = pd.concat([df, onehot_sex], axis=1)
df = pd.concat([df, onehot_embarked], axis=1)

X = df[['Age', 'Family', 'Pclass', 'Fare', 'female', 'male', 'C', 'Q', 'S']]
y = df['Survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state = 10)

sv_rbf = svm.SVC(kernel = 'rbf')
sv_linear_c1_g01 = svm.SVC(kernel = 'linear', C=1, gamma = 0.1)

sv_rbf.fit(X_train, y_train)
sv_linear_c1_g01.fit(X_train, y_train)

pred_sv_rbf = sv_rbf.predict(X_test)
pred_sv_linear_c1_g01 = sv_linear_c1_g01.predict(X_test)

acc_sv_rbf = accuracy_score(y_test, pred_sv_rbf)
matrix_sv_rbf = confusion_matrix(y_test, pred_sv_rbf)
rpt_sv_rbf = classification_report(y_test, pred_sv_rbf)

acc_sv_linear_c1_g01 = accuracy_score(y_test, pred_sv_linear_c1_g01)
matrix_sv_linear_c1_g01 = confusion_matrix(y_test, pred_sv_linear_c1_g01)
rpt_sv_linear_c1_g01 = classification_report(y_test, pred_sv_linear_c1_g01)

print(acc_sv_rbf, '\n', matrix_sv_rbf, '\n', rpt_sv_rbf)
print(acc_sv_linear_c1_g01, '\n', matrix_sv_linear_c1_g01, '\n', rpt_sv_linear_c1_g01)