### 1. 패키지 import 및 기본 사항 확인

In [18]:
# 기본 패키지
import pandas as pd
import numpy as np

# 디렉토리 관련 패키지
import os
import glob
import natsort

# MySQL 관련 패키지
import MySQLdb
import mysql.connector
import sqlalchemy
from sqlalchemy import create_engine

---
### 2. 환경변수 CSV 처리

In [24]:
# 1. 폴더에 있는 파일들 중 csv 형식의 파일만 보여주기
# natsort.natsorted() : 파일을 순서대로 정렬하기 위해 사용
# 파일들을 불러오기 위한 기본 경로
var_path = r'C:\Users\admin\Desktop\FinalProject\chromate\chromate_data\variable\\'
varfilelist = natsort.natsorted(os.listdir(var_path))
varfilelist = [file for file in varfilelist if file.endswith('.csv')]
varfilelist

['kemp-abh-sensor-2021.09.06.csv',
 'kemp-abh-sensor-2021.09.07.csv',
 'kemp-abh-sensor-2021.09.08.csv',
 'kemp-abh-sensor-2021.09.09.csv',
 'kemp-abh-sensor-2021.09.10.csv',
 'kemp-abh-sensor-2021.09.13.csv',
 'kemp-abh-sensor-2021.09.14.csv',
 'kemp-abh-sensor-2021.09.15.csv',
 'kemp-abh-sensor-2021.09.16.csv',
 'kemp-abh-sensor-2021.09.17.csv',
 'kemp-abh-sensor-2021.09.23.csv',
 'kemp-abh-sensor-2021.09.24.csv',
 'kemp-abh-sensor-2021.09.27.csv',
 'kemp-abh-sensor-2021.09.28.csv',
 'kemp-abh-sensor-2021.09.29.csv',
 'kemp-abh-sensor-2021.09.30.csv',
 'kemp-abh-sensor-2021.10.01.csv',
 'kemp-abh-sensor-2021.10.05.csv',
 'kemp-abh-sensor-2021.10.06.csv',
 'kemp-abh-sensor-2021.10.07.csv',
 'kemp-abh-sensor-2021.10.08.csv',
 'kemp-abh-sensor-2021.10.12.csv',
 'kemp-abh-sensor-2021.10.13.csv',
 'kemp-abh-sensor-2021.10.14.csv',
 'kemp-abh-sensor-2021.10.15.csv',
 'kemp-abh-sensor-2021.10.18.csv',
 'kemp-abh-sensor-2021.10.19.csv',
 'kemp-abh-sensor-2021.10.20.csv',
 'kemp-abh-sensor-20

In [26]:
# 2. Date 컬럼을 만들어줄 수 있도록 파일 이름에서 날짜만 추출하기 테스트
# Error Lot list에 있는 날짜들이 '-'으로 표시되어 있으므로 맞춰주기
# filelist[1:] 라고 쓴 이유 : Error Lot list 파일은 필요없기 때문에
for file in varfilelist:
    date = file.split('-')[-1].replace('.','-')
    date = date.removesuffix('-'+date.split('-')[-1])
    print(date)

2021-09-06
2021-09-07
2021-09-08
2021-09-09
2021-09-10
2021-09-13
2021-09-14
2021-09-15
2021-09-16
2021-09-17
2021-09-23
2021-09-24
2021-09-27
2021-09-28
2021-09-29
2021-09-30
2021-10-01
2021-10-05
2021-10-06
2021-10-07
2021-10-08
2021-10-12
2021-10-13
2021-10-14
2021-10-15
2021-10-18
2021-10-19
2021-10-20
2021-10-21
2021-10-22
2021-10-25
2021-10-26
2021-10-27


In [27]:
# 3. 조합해서 반복문으로 넣어줄 수 있게 코드 짜기
# 3-1. df들을 집어넣을 수 있게 빈 데이터프레임 틀 만들어주기
var_df = pd.DataFrame(columns=['Index', 'Date', 'Time', 'Lot', 'pH', 'Temp', 'Voltage'])
var_df

Unnamed: 0,Index,Date,Time,Lot,pH,Temp,Voltage


In [28]:
for file in varfilelist:
    # 3-2. csv의 데이터들을 dataframe으로 불러오기
    df = pd.read_csv(var_path + file)

    # 3-3. Date 컬럼 생성
    date = file.split('-')[-1].replace('.','-')
    date = date.removesuffix('-' + date.split('-')[-1])
    df['Date'] = date

    # 3-4. Time을 HH:MM:SS 형태로 조정
    adj_time = list()
    for time in df['Time']:
        tmp = time.split(':')
        # 3-4-1. 오전·오후 문자를 제거하고 오후일 경우 +12를 해준다
        if tmp[0].split(' ')[0] == '오후':
            tmp[0] = str(int(tmp[0].split(' ')[-1]) + 12)
        else:
            tmp[0] = tmp[0].split(' ')[-1]
        # 3-4-2. HH:MM:SS 형태로 합쳐주고 소수점 뒷부분은 제거한다
        tmp = ':'.join(tmp).split('.')[0]
        adj_time.append(tmp)
    # 3-4-3. Time 컬럼을 조정된 형태로 바꾼다
    df['Time'] = adj_time

    # 3-5. 컬럼 순서 조정
    df = df[['Index', 'Date', 'Time', 'Lot', 'pH', 'Temp', 'Voltage']]

    # 3-6. 각각의 파일들에서 나온 dataframe 전부 합치기
    var_df = pd.concat([var_df, df], axis=0)

# 3-7. 인덱스 깔끔하게 처리
var_df.reset_index(inplace=True)
var_df = var_df.drop(columns=['index', 'Index'])
var_df

Unnamed: 0,Date,Time,Lot,pH,Temp,Voltage
0,2021-09-06,16:29:54,1,2.15,43.15,19.74
1,2021-09-06,16:29:59,1,2.08,40.13,18.01
2,2021-09-06,16:30:04,1,2.18,43.46,18.73
3,2021-09-06,16:30:09,1,1.99,41.72,16.75
4,2021-09-06,16:30:14,1,1.85,43.65,18.02
...,...,...,...,...,...,...
50089,2021-10-27,18:36:03,22,2.05,42.84,15.38
50090,2021-10-27,18:36:08,22,1.91,42.64,19.08
50091,2021-10-27,18:36:13,22,2.11,44.09,18.14
50092,2021-10-27,18:36:18,22,1.92,43.95,17.96


#### 2-1. MySQL 올리기 전 확인사항 (※ 소수점자리 확인방법 수정 필요)

In [29]:
# 1. 기본적인 사항 확인
var_df.shape

(50094, 6)

In [30]:
var_df.describe()

Unnamed: 0,pH,Temp,Voltage
count,50094.0,50094.0,50094.0
mean,2.008331,42.454195,17.452394
std,0.123021,1.4718,1.458218
min,1.81,33.14,10.23
25%,1.91,41.3,16.3
50%,2.01,42.48,17.48
75%,2.1,43.65,18.64
max,2.49,44.99,19.99


In [31]:
# 2. 데이터들이 어떤 타입으로 저장되어 있는지 확인 필요
var_df.dtypes

Date        object
Time        object
Lot         object
pH         float64
Temp       float64
Voltage    float64
dtype: object

In [32]:
# Lot, pH, Temp, Voltage를 수치타입으로 변경하고 확인
var_df['Lot'] = pd.to_numeric(var_df['Lot'])
var_df['pH'] = pd.to_numeric(var_df['pH'])
var_df['Temp'] = pd.to_numeric(var_df['Temp'])
var_df['Voltage'] = pd.to_numeric(var_df['Voltage'])
var_df.dtypes

Date        object
Time        object
Lot          int64
pH         float64
Temp       float64
Voltage    float64
dtype: object

In [163]:
# 3. pH, Temp, Voltage 컬럼의 소수점자리가 몇 자리까지인지 확인
# pH 자리수 확인 -> max가 4이므로 모든 데이터가 소수점 두 자리까지인 것을 확인하였다
var_df['pH'] = var_df['pH'].astype(str)
ph_lenlist = []
for rows in var_df['pH']:
    a = len(rows)
    ph_lenlist.append(a)
print(max(ph_lenlist))

4


In [135]:
# Temp 자리수 확인 -> max가 5이므로 모든 데이터가 소수점 두 자리까지인 것을 확인하였다
var_df['Temp'] = var_df['Temp'].astype(str)
temp_lenlist = []
for rows in var_df['Temp']:
    a = len(rows)
    temp_lenlist.append(a)
print(max(temp_lenlist))

5


In [136]:
# Voltage 자리수 확인 -> max가 5이므로 모든 데이터가 소수점 두 자리까지인 것을 확인하였다
var_df['Voltage'] = var_df['Voltage'].astype(str)
vol_lenlist = []
for rows in var_df['Voltage']:
    a = len(rows)
    vol_lenlist.append(a)
print(max(vol_lenlist))

5


#### 2-2. MySQL 'variable' 테이블로 올리기

In [33]:
# 1. 서버에 연결하기
# 형식: 'mysql://{0}:{1}@{2}:{3}/{4}'.format(user, pass, host, port, db)
url    = 'mysql://root:1234@127.0.0.1:3306'
engine = sqlalchemy.create_engine(url, echo=True)
conn   = engine.connect()

2022-10-15 11:03:48,910 INFO sqlalchemy.engine.Engine SELECT DATABASE()
2022-10-15 11:03:48,910 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-10-15 11:03:48,912 INFO sqlalchemy.engine.Engine SELECT @@sql_mode
2022-10-15 11:03:48,913 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-10-15 11:03:48,914 INFO sqlalchemy.engine.Engine SELECT @@lower_case_table_names
2022-10-15 11:03:48,915 INFO sqlalchemy.engine.Engine [raw sql] ()


In [85]:
# 2. 새로운 데이터베이스(SCHEMA) 만들기 : 데이터베이스 이름을 chromate로 만들었습니다
# 이미 만들었으므로 주석처리
# engine.execute("CREATE DATABASE chromate")

In [34]:
# 3. 만든 데이터베이스를 실행
engine.execute("USE chromate")

2022-10-15 11:03:52,195 INFO sqlalchemy.engine.Engine USE chromate
2022-10-15 11:03:52,197 INFO sqlalchemy.engine.Engine [raw sql] ()


<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1f55fcefe50>

In [35]:
# 4. 'variable' 테이블 만들기 → 테이블 만들고 집어넣으려니까 자꾸 에러가 나서, 일단 주석처리 하고 아래 코드로 실행
# engine.execute("CREATE TABLE variable ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, Time TIME NOT NULL, Lot INT NOT NULL, pH FLOAT(3,2) NOT NULL, Temp FLOAT(4,2) NOT NULL, Voltage FLOAT(4,2) NOT NULL )")

In [36]:
# 5. 데이터프레임에 있는 데이터 insert하기
dtypesql = {'ID':sqlalchemy.types.INT(),
            'Date':sqlalchemy.types.DATE(),
            'Time':sqlalchemy.types.TIME(),
            'Lot':sqlalchemy.types.INT(),
            'pH':sqlalchemy.types.FLOAT(),
            'Temp':sqlalchemy.types.FLOAT(),
            'Voltage':sqlalchemy.types.FLOAT()
}
var_df.to_sql(name='variable', con=engine, if_exists='append', index=False, dtype=dtypesql)

2022-10-15 11:04:26,110 INFO sqlalchemy.engine.Engine SELECT COUNT(*) FROM information_schema.tables WHERE table_schema = %s AND table_name = %s
2022-10-15 11:04:26,111 INFO sqlalchemy.engine.Engine [generated in 0.00111s] ('None', 'variable')
2022-10-15 11:04:26,114 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-15 11:04:26,117 INFO sqlalchemy.engine.Engine 
CREATE TABLE variable (
	`Date` DATE, 
	`Time` TIME, 
	`Lot` INTEGER, 
	`pH` FLOAT, 
	`Temp` FLOAT, 
	`Voltage` FLOAT
)


2022-10-15 11:04:26,118 INFO sqlalchemy.engine.Engine [no key 0.00120s] ()
2022-10-15 11:04:26,188 INFO sqlalchemy.engine.Engine COMMIT
2022-10-15 11:04:26,206 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-15 11:04:26,452 INFO sqlalchemy.engine.Engine INSERT INTO variable (`Date`, `Time`, `Lot`, `pH`, `Temp`, `Voltage`) VALUES (%s, %s, %s, %s, %s, %s)
2022-10-15 11:04:26,453 INFO sqlalchemy.engine.Engine [generated in 0.20523s] (('2021-09-06', '16:29:54', 1, 2.15, 43.15, 19.74), ('2021-09-06', 

50094

---
### 3. Error Lot list CSV 처리

In [37]:
# 1. 폴더에 있는 파일들 중 csv 형식의 파일만 보여주기
# natsort.natsorted() : 파일을 순서대로 정렬하기 위해 사용
# 파일들을 불러오기 위한 기본 경로
err_path = r'C:\Users\admin\Desktop\FinalProject\chromate\chromate_data\error\\'
errfilelist = natsort.natsorted(os.listdir(err_path))
errfilelist = [file for file in errfilelist if file.endswith('.csv')]
errfilelist

['Error Lot list.csv']

In [38]:
# 2. 조합해서 반복문으로 넣어줄 수 있게 코드 짜기
# df들을 집어넣을 수 있게 빈 데이터프레임 틀 만들어주기
err_df = pd.DataFrame(columns=['Date', 'FailureLot1', 'FailureLot2'])
err_df

Unnamed: 0,Date,FailureLot1,FailureLot2


In [39]:
for file in errfilelist:
    # csv의 데이터들을 dataframe으로 불러오기
    df = pd.read_csv(err_path + file)
    # 컬럼 이름 조정 필요
    df.rename(columns = {'0':'Date', '1':'FailureLot1', '2':'FailureLot2'}, inplace=True)

    # FailureLot1, FailureLot2 INT로 바꿔주기: 결측치가 있으므로 0으로 채워주고 바꾼다
    # df.to_sql() 할 때 INT로 설정하면 INT로 들어가서 이 작업이 필요할지는 정확히 모르겠다
    # df['FailureLot1'] = df['FailureLot1'].fillna(0).astype(int)
    # df['FailureLot2'] = df['FailureLot2'].fillna(0).astype(int)

    # 각각의 파일들에서 나온 dataframe 전부 합치기
    err_df = pd.concat([err_df, df], axis=0)

err_df

Unnamed: 0,Date,FailureLot1,FailureLot2
0,2021-09-06,,
1,2021-09-07,,
2,2021-09-08,20.0,
3,2021-09-09,16.0,5.0
4,2021-09-10,,
5,2021-09-13,,
6,2021-09-14,,
7,2021-09-15,,
8,2021-09-16,4.0,
9,2021-09-17,,


#### 3-1. MySQL 올리기 전 확인사항

In [40]:
# 1. 기초 확인
err_df.shape

(33, 3)

In [41]:
err_df.describe()

Unnamed: 0,FailureLot1,FailureLot2
count,8.0,1.0
mean,12.75,5.0
std,7.265378,
min,3.0,5.0
25%,5.5,5.0
50%,16.0,5.0
75%,17.0,5.0
max,21.0,5.0


In [42]:
# 2. 데이터가 어떤 타입으로 저장되어 있는지 확인 필요
err_df.dtypes

Date            object
FailureLot1    float64
FailureLot2    float64
dtype: object

In [43]:
# FailureLot1, FailureLot2를 수치타입으로 변경
err_df['FailureLot1'] = pd.to_numeric(err_df['FailureLot1'])
err_df['FailureLot2'] = pd.to_numeric(err_df['FailureLot2'])
err_df.dtypes

Date            object
FailureLot1    float64
FailureLot2    float64
dtype: object

#### 3-2. MySQL 'error' 테이블로 올리기

In [59]:
# 1. MySQL에 'error' 테이블 만들기 → 테이블 만들고 집어넣으려니까 자꾸 에러가 나서, 일단 주석처리 하고 아래 코드로 실행
# engine.execute("CREATE TABLE error ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, FailureLot1 INT, FailureLot2 INT )")

2022-10-13 14:03:30,954 INFO sqlalchemy.engine.Engine CREATE TABLE error ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, FailureLot1 INT, FailureLot2 INT )
2022-10-13 14:03:30,955 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-10-13 14:03:30,993 INFO sqlalchemy.engine.Engine COMMIT


<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1da35372620>

In [44]:
# 2. MySQL 'error' 테이블에 데이터들을 insert 하기
error_type = {'ID'      : sqlalchemy.types.INT(),
              'Date'    : sqlalchemy.types.DATE(),
              'FailureLot1' : sqlalchemy.types.INT(),
              'FailureLot2' : sqlalchemy.types.INT()
}
err_df.to_sql(name='error', con=engine, if_exists='append', index=False, dtype=error_type)

2022-10-15 11:05:24,414 INFO sqlalchemy.engine.Engine SELECT COUNT(*) FROM information_schema.tables WHERE table_schema = %s AND table_name = %s
2022-10-15 11:05:24,414 INFO sqlalchemy.engine.Engine [cached since 58.3s ago] ('None', 'error')
2022-10-15 11:05:24,417 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-15 11:05:24,418 INFO sqlalchemy.engine.Engine 
CREATE TABLE error (
	`Date` DATE, 
	`FailureLot1` INTEGER, 
	`FailureLot2` INTEGER
)


2022-10-15 11:05:24,421 INFO sqlalchemy.engine.Engine [no key 0.00178s] ()
2022-10-15 11:05:24,469 INFO sqlalchemy.engine.Engine COMMIT
2022-10-15 11:05:24,472 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-15 11:05:24,474 INFO sqlalchemy.engine.Engine INSERT INTO error (`Date`, `FailureLot1`, `FailureLot2`) VALUES (%s, %s, %s)
2022-10-15 11:05:24,475 INFO sqlalchemy.engine.Engine [generated in 0.00157s] (('2021-09-06', None, None), ('2021-09-07', None, None), ('2021-09-08', 20.0, None), ('2021-09-09', 16.0, 5.0), ('2021-09-10', N

33

---
### 4. 이미지 png 처리

In [2]:
# 1. 이미지 관련 패키지 import
import base64
from PIL import Image
from io import BytesIO

In [None]:
# 2. MySQL에 'img' 테이블 만들기 → 테이블 만들고 집어넣으려니까 자꾸 에러가 나서, 일단 주석처리 하고 아래 코드로 실행
# engine.execute("CREATE TABLE img ( ID INT AUTO_INCREMENT PRIMARY KEY, IMG_NAME VARCHAR(50), IMG_SPLIT TINYINT(1), IMG_JUDGE TINYINT(1), IMAGE DATA BLOB )")

In [45]:
# 3. 이미지를 encoding해서 MySQL 'img' 테이블에 넣기
# 디렉토리에서 이미지 파일들 전부 불러오기
# 이미지 파일들을 불러오기 위한 기본 경로
test_img_path = r'C:\Users\admin\Desktop\FinalProject\chromate\chromate_data\img\테스트\*\\'
train_img_path = r'C:\Users\admin\Desktop\FinalProject\chromate\chromate_data\img\학습\*\\'

test_img_list = natsort.natsorted( glob.glob(test_img_path + '*.png') )
train_img_list = natsort.natsorted( glob.glob(train_img_path + '*.png') )

In [46]:
test_img_list

['C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\테스트\\불량\\KEMP_IMG_DATA_Error_1.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\테스트\\불량\\KEMP_IMG_DATA_Error_9.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\테스트\\불량\\KEMP_IMG_DATA_Error_13.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\테스트\\불량\\KEMP_IMG_DATA_Error_14.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\테스트\\불량\\KEMP_IMG_DATA_Error_23.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\테스트\\불량\\KEMP_IMG_DATA_Error_32.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\테스트\\불량\\KEMP_IMG_DATA_Error_37.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\테스트\\불량\\KEMP_IMG_DATA_Error_55.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\테스트\\불량\\KEMP_IMG_DATA_Error_59.png',
 'C

In [47]:
train_img_list

['C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\학습\\불량\\KEMP_IMG_DATA_Error_2.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\학습\\불량\\KEMP_IMG_DATA_Error_3.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\학습\\불량\\KEMP_IMG_DATA_Error_4.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\학습\\불량\\KEMP_IMG_DATA_Error_5.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\학습\\불량\\KEMP_IMG_DATA_Error_6.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\학습\\불량\\KEMP_IMG_DATA_Error_7.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\학습\\불량\\KEMP_IMG_DATA_Error_8.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\학습\\불량\\KEMP_IMG_DATA_Error_10.png',
 'C:\\Users\\admin\\Desktop\\FinalProject\\chromate\\chromate_data\\img\\학습\\불량\\KEMP_IMG_DATA_Error_11.png',
 'C:\\Users\\admi

In [48]:
# 4. 이미지 인코딩을 위해 with로 열어서 변환하기
# train 폴더 binary 정보들 담을 수 있게 빈 리스트 만들기
train_binary_img = list()

for x in train_img_list:
    with open(x, 'rb') as train_binary_image:
        train_binary_image = train_binary_image.read()
    # Base64로 인코딩
    train_binary_image = base64.b64encode(train_binary_image)
    # UTF-8로 인코딩
    train_binary_image = train_binary_image.decode('UTF-8')
    # train_binary_img에 담아주기
    train_binary_img.append(train_binary_image)

train_binary_img

In [None]:
# test 폴더 binary 정보들 담을 수 있게 빈 리스트 만들기
test_binary_img = list()

for x in test_img_list:
    with open(x, 'rb') as test_binary_image:
        test_binary_image = test_binary_image.read()
    # Base64로 인코딩
    test_binary_image = base64.b64encode(test_binary_image)
    # UTF-8로 인코딩
    test_binary_image = test_binary_image.decode('UTF-8')
    # test_binary_img에 담아주기
    test_binary_img.append(test_binary_image)

test_binary_img

In [None]:
# 5. train_binary_img 리스트 → DataFrame에 넣기
# 파일명 | 불량·정상 | BLOB 형식으로 넣기

In [None]:
# 6. test_binary_img 리스트 → DataFrame에 넣기
# 파일명 | 불량·정상 | BLOB 형식으로 넣기

In [None]:
# 7. DataFrame들 df.to_sql() 로 올리기