## 데이터베이스를 기반으로 데이터를 학습시키는 방법

### CSV로 출력하고 CSV를 머신러닝 시스템에 전달하기
- 데이터를 쉽게 다룰 수 있다는 장점이 있으나 데이터가 깨지지 않게 주의해야함

## 키와 체중 데이터베이스 만들기
- 새로운 키와 체중을 데이터베이스에 추가하는 프로그램
- 데이터베이스의 값을 머신러닝 시스템에 학습시키는 프로그램
- 키와 체중을 입력하면 진단 결과를 출력하는 프로그램

### SQLite로 키와 체중 데이터베이스 만들기
- 키, 체중, 체형
    - 체형 : 0(저체중), 1(표준 체중) ~ 5(비만 4도)
- `CREATE TABLE` : 테이블 생성
- `sqlite3.connect()` : 데이터베이스 연결
- `execute()` : SQL 구문 실행

In [1]:
import sqlite3

dbpath = './db.sqlite3'
sql = '''
    CREATE TABLE IF NOT EXISTS person (
    id INTEGER PRIMARY KEY,
    height NUMBER,
    weight NUMBER,
    typeNo INTEGER
    )
'''

with sqlite3.connect(dbpath) as conn:
    conn.execute(sql)

### 새로운 키와 체중을 데이터베이스에 추가하기

In [2]:
import sqlite3
import random

dbpath = './db.sqlite3'

def insert_db(conn):
    # 더미 데이터 만들기
    height = random.randint(130, 180)
    weight = random.randint(30, 100)
    
    # 체형 데이터 생성
    type_no = 1
    bmi = weight / ((height / 100) ** 2)
    if bmi < 18.5:
        type_no = 0
    elif bmi < 25:
        type_no = 1
    elif bmi < 30:
        type_no = 2
    elif bmi < 35:
        type_no = 3
    elif bmi < 40:
        type_no = 4
    else:
        type_no = 5
    
    # 데이터베이스에 저장
    sql = '''
        INSERT INTO person (height, weight, typeNo)
        VALUES (?, ?, ?)
    '''
    
    values = (height, weight, type_no)
    conn.executemany(sql, [values])

# 100개 데이터 삽입
with sqlite3.connect(dbpath) as conn:
    for i in range(100):
        insert_db(conn)
    
    # 확인
    c = conn.execute('SELECT count(*) FROM person')
    cnt = c.fetchone()
    print(cnt[0])

100


In [3]:
import sqlite3

dbpath = './db.sqlite3'
select_sql = 'SELECT * FROM person'
with sqlite3.connect(dbpath) as conn:
    i = 0
    for row in conn.execute(select_sql):
        print(row)
        if i == 5:
            break
        i += 1

(1, 170, 61, 1)
(2, 166, 75, 2)
(3, 138, 48, 2)
(4, 175, 66, 1)
(5, 176, 76, 1)
(6, 135, 60, 3)


## 키, 체중, 체형 학습하기

In [4]:
from tensorflow import keras
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import RMSprop

in_size = 2 # 체중, 키
nb_classes = 6

# MLP 모델 정의
model = Sequential()
model.add(Dense(512, activation='relu', input_shape=(in_size, )))
model.add(Dropout(0.5))
model.add(Dense(nb_classes, activation='softmax'))

# 컴파일
model.compile(loss='categorical_crossentropy',
             optimizer=RMSprop(), metrics=['accuracy'])

model.save('../models/hw_model.h5')
print('saved')

saved


#### 100개 데이터 추출해 학습

In [5]:
from tensorflow import keras
from tensorflow.keras.models import load_model
from tensorflow.keras.utils import to_categorical
import numpy as np
import sqlite3
import os

# 데이터 읽기
dbpath = './db.sqlite3'
select_sql = 'SELECT * FROM person ORDER BY id DESC LIMIT 100'

# 데이터를 리스트에 추가
x = []
y = []
with sqlite3.connect(dbpath) as conn:
    for row in conn.execute(select_sql):
        id, height, weight, type_no = row
        # 데이터 정규화
        height = height / 200
        weight = weight / 150
        y.append(type_no)
        x.append(np.array([height, weight]))
    
# 모델 읽기
model = load_model('../models/hw_model.h5')

# 이미 학습 데이터가 있는 경우 읽어들이기
if os.path.exists('../models/hw_weights.h5'):
    model.load_weights('../models/hw_weights.h5')
    
nb_classes = 6
y = to_categorical(y, nb_classes) # OHE 변환

# 학습
model.fit(np.array(x), y, batch_size=50, epochs=100)

# 결과 저장
model.save_weights('../models/hw_weights.h5')

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


### Keras의 fit() 메서드는 새로운 데이터를 추가로 학습할 수 있음
- 이미 학습된 데이터가 있는 상태에서 model.fit()을 호출하면 이전에 학습된 결과에 추가로 새로운 데이터가 학습됨

### 정답률 확인하기

In [6]:
from tensorflow.keras.models import load_model
import numpy as np

# 학습 모델 읽어 들이기
model = load_model('../models/hw_model.h5')

# 학습한 데이터 읽어 들이기
model.load_weights('../models/hw_weights.h5')

# 레이블
LABELS = [
    '저체중', '표준 체중', '비만(1도)',
    '비만(2도)', '비만(3도)', '비만(4도)'
]

# 테스트 데이터
height = 160
weight = 50

# 정규화
text_x = [height / 200, weight / 150]

# 예측
pre = model.predict(np.array([text_x]))
idx = pre[0].argmax()
print(LABELS[idx], '/ 가능성', pre[0][idx])

표준 체중 / 가능성 0.2930612


## 데이터 추가하여 학습

In [7]:
# 데이터 4900개 추가 삽입
with sqlite3.connect(dbpath) as conn:
    for i in range(4900):
        insert_db(conn)
    
    # 확인
    c = conn.execute('SELECT count(*) FROM person')
    cnt = c.fetchone()
    print(cnt[0])

5000


In [8]:
from tensorflow import keras
from tensorflow.keras.models import load_model
from tensorflow.keras.utils import to_categorical
import numpy as np
import sqlite3
import os

# 데이터 읽기
dbpath = './db.sqlite3'
select_sql = 'SELECT * FROM person ORDER BY id DESC LIMIT 5000'

# 데이터를 리스트에 추가
x = []
y = []
with sqlite3.connect(dbpath) as conn:
    for row in conn.execute(select_sql):
        id, height, weight, type_no = row
        # 데이터 정규화
        height = height / 200
        weight = weight / 150
        y.append(type_no)
        x.append(np.array([height, weight]))
    
# 모델 읽기
model = load_model('../models/hw_model.h5')

# 이미 학습 데이터가 있는 경우 읽어들이기
if os.path.exists('../models/hw_weights.h5'):
    model.load_weights('../models/hw_weights.h5')
    
nb_classes = 6
y = to_categorical(y, nb_classes) # OHE 변환

# 학습
model.fit(np.array(x), y, batch_size=50, epochs=100)

# 결과 저장
model.save_weights('../models/hw_weights.h5')

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 82/100
Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


In [9]:
from tensorflow.keras.models import load_model
import numpy as np

# 학습 모델 읽어 들이기
model = load_model('../models/hw_model.h5')

# 학습한 데이터 읽어 들이기
model.load_weights('../models/hw_weights.h5')

# 레이블
LABELS = [
    '저체중', '표준 체중', '비만(1도)',
    '비만(2도)', '비만(3도)', '비만(4도)'
]

# 테스트 데이터
height = 160
weight = 50

# 정규화
text_x = [height / 200, weight / 150]

# 예측
pre = model.predict(np.array([text_x]))
idx = pre[0].argmax()
print(LABELS[idx], '/ 가능성', pre[0][idx])

표준 체중 / 가능성 0.9768397


### 분류 정답률 확인하기

In [11]:
from tensorflow.keras.models import load_model
import numpy as np

# 학습 모델 읽어 들이기
model = load_model('../models/hw_model.h5')

# 학습한 데이터 읽어 들이기
model.load_weights('../models/hw_weights.h5')

x = []
y = []
for i in range(1000):
    h = random.randint(130, 180)
    w = random.randint(30, 100)
    type_no = 1
    
    bmi = w / ((h / 100) ** 2)
    if bmi < 18.5:
        type_no = 0
    elif bmi < 25:
        type_no = 1
    elif bmi < 30:
        type_no = 2
    elif bmi < 35:
        type_no = 3
    elif bmi < 40:
        type_no = 4
    else:
        type_no = 5
    x.append(np.array([h/200, w/150]))
    y.append(type_no)
    
x = np.array(x)
y = to_categorical(y, 6)

score = model.evaluate(x, y, verbose=1)
print('정답률 =', score[1], '손실률 :', score[0])

정답률 = 0.9629999995231628 손실률 : 0.1569320410490036
