# 알고리즘 활용

## 1. 의사결정나무

target 변수가 있는 일반적인 정형데이터에 활용할 수 있는 알고리즘 중 하나입니다.

<br>
<hr>
<br>

### 1.1. 회귀 나무(Regression Tree) : 관심변수가 수치형인 경우

In [None]:
# 라이브러리 불러오기
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# 데이터 불러오기
df_ins = pd.read_csv('data/insurance.csv')
df_ins_test = pd.read_csv('data/insurance_test.csv')

In [None]:
# 데이터 살펴보기
df_ins.head()

In [None]:
# 예측 대상 데이터 살펴보기
df_ins_test.head()

In [None]:
# 데이터 처리
    # X : 타겟 변수를 제외하고 범주형 변수를 가변수(dummy variable)로 변환
    # y : 타겟 변수만 선택
X = pd.get_dummies(data=df_ins.drop(columns=['charges']), drop_first=True)
y = df_ins['charges']

In [None]:
X.head()

In [None]:
y.head()

In [None]:
# 의사결정나무 모형의 적합 
    # max_depth를 바꿔보기
from sklearn.tree import DecisionTreeRegressor, plot_tree

model_tree = DecisionTreeRegressor(max_depth=4)
model_tree.fit(X, y)

In [None]:
# 모형 적합 결과의 시각화
plt.figure(figsize=(20,12)) # 이미지 크기 조정
plot_tree(model_tree, 
          feature_names=X.columns,  
          filled=True, 
          fontsize=20)
plt.show()

In [None]:
# 예측값 계산
df_dummies_test = pd.get_dummies(data=df_ins_test, drop_first=True)
model_tree.predict(df_dummies_test)

<br>

#### [실습] 주택 가격 예측 의사결정 나무 적합

1. 데이터 불러오기/처리 
2. 데이터 df_house_price에서 SalePrice를 나머지 변수로 설명하는 의사결정 나무 모형적합 
3. 적합 모형의 시각화 


In [None]:
# train 데이터 불러오기
df_house_price = pd.read_csv('data/house_price_train.csv', index_col=0)

# 결측값 등 처리 
df_house_price = df_house_price.fillna(0) # 결측값을 모두 0으로 처리

df_house_price

<br>


## 2. 판별 나무( Tree) : 관심변수가 범주형인 경우

In [None]:
# 데이터 불러오기 
    # 관심변수 : Attrition(퇴직여부)
df_hr = pd.read_csv('data/ibm_hr_sample.csv')
df_hr.head()
    

In [None]:
# 관심변수, 설명변수 분할
X = pd.get_dummies(data=df_hr.drop(columns=['Attrition']), drop_first=True)
y = df_hr['Attrition']

In [None]:
# 판별 모형 적합
from sklearn.tree import DecisionTreeClassifier

model_tree_c = DecisionTreeClassifier(max_depth=3)
model_tree_c.fit(X, y)


# 모형 적합 결과의 시각화
plt.figure(figsize=(20,12))
plot_tree(model_tree_c, 
          feature_names=X.columns,  
          filled=True, 
          fontsize=15,
          impurity=False, 
          proportion=True)
plt.show()

### 2.1. 모형 저장 및 활용

In [None]:
import pickle
filename = 'model_id_name_date.pkl'
pickle.dump(model_tree_c, open(filename, 'wb'))


In [None]:
# pickle을 활용한 불러오기
loaded_model = pickle.load(open('model_id_name_date.pkl', 'rb'))
loaded_model

In [None]:
# 모형 적합 결과의 시각화
plt.figure(figsize=(20,12))
plot_tree(loaded_model, 
          feature_names=X.columns,  
          filled=True, 
          fontsize=15,
          impurity=False, 
          proportion=True)
plt.show()

## 2. 딥러닝을 활용한 이미지 분류 예제

[Tensrflow 튜토리얼](https://www.tensorflow.org/tutorials/keras/classification?hl=ko)

### 2.1. 준비

In [None]:
# Tensorflow 설치
!pip install tensorflow

In [None]:
# TensorFlow and tf.keras
import tensorflow as tf

# Helper libraries
import numpy as np
import matplotlib.pyplot as plt

print(tf.__version__)

### 2.2. 데이터 다운로드 및 탐색

In [None]:
# 의류 이미지 다운로드
fashion_mnist = tf.keras.datasets.fashion_mnist
(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()

In [None]:
# 클래스 정보 생성
class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',
               'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

In [None]:
# 데이터 탐색
train_images.shape

In [None]:
# 첫번째 이미지 확인
train_labels[0], class_names[train_labels[0]]

In [None]:
train_images[0]

In [None]:
plt.figure()
plt.imshow(train_images[0])
plt.colorbar()
plt.grid(False)
plt.show()

In [None]:
# 데이터 처리(정규화 - 0~1사이의 값을 갖도록)
train_images = train_images / 255.0

test_images = test_images / 255.0

In [None]:
# 몇개 사진 확인하기 
plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(train_images[i], cmap=plt.cm.binary)
    plt.xlabel(class_names[train_labels[i]])
plt.show()

### 2.3. 딥러닝 모형 적합

In [None]:
# 모형 구조 설정
  ## Flatten: 펼치기
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10)
])

In [None]:
model.summary()

In [None]:
# 모형 적합 방법 설정
model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])



In [None]:
# 데이터를 활용한 모형 적합
model.fit(train_images, train_labels, epochs=10)

### 2.4. 모형적합 및 예측

In [None]:
# 정확도 평가
test_loss, test_acc = model.evaluate(test_images,  test_labels, verbose=2)
print('\nTest accuracy:', test_acc)

In [None]:
# 예측 
test_images[10]

In [None]:
plt.figure()
plt.imshow(test_images[10])
plt.colorbar()
plt.grid(False)
plt.show()

In [None]:
model.predict(test_images[[10]])

In [None]:
# 확률 예측
probability_model = tf.keras.Sequential([model, 
                                         tf.keras.layers.Softmax()])

In [None]:
prob = probability_model.predict(test_images[[10]])
np.round(prob, 2)

In [None]:
class_names[2], class_names[4], class_names[6] 

In [None]:
test_labels[10]

### 2.5. 모형 구조 변경 후 재적합 

In [None]:
# 모형 구조 설정
  ## Flatten: 펼치기
model = tf.keras.Sequential([
    tf.keras.layers.Conv2D(input_shape=(28, 28, 1), kernel_size=(3, 3), filters=32),
    tf.keras.layers.MaxPool2D(),
    tf.keras.layers.Conv2D(kernel_size=(3, 3), filters=64),
    tf.keras.layers.MaxPool2D(),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10)
])


In [None]:
model.summary()

In [None]:
# 모형 적합 방법 설정
model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])



In [None]:
# 데이터를 활용한 모형 적합
model.fit(train_images, train_labels, epochs=10)

In [None]:
# 정확도 평가
test_loss, test_acc = model.evaluate(test_images,  test_labels, verbose=2)
print('\nTest accuracy:', test_acc)

## 3. 텍스트 마이닝의 개념

[딥러닝을 활용한 자연어처리 입문](https://wikidocs.net/book/2155)


#### End of script