### 1. 패키지 import 및 기본 사항 확인

In [1]:
# 기본 패키지
import pandas as pd
import numpy as np

# 디렉토리 관련 패키지
import os
import glob
import natsort

# MySQL 관련 패키지
import MySQLdb
import pymysql
import sqlalchemy
from sqlalchemy import create_engine

# 이미지 관련 패키지
import base64
from PIL import Image
from io import BytesIO

In [2]:
# 현재 경로 확인 : 디렉토리 파일을 불러올 때 절대경로를 사용해야 함
os.path

<module 'ntpath' from 'C:\\Program Files\\WindowsApps\\PythonSoftwareFoundation.Python.3.10_3.10.2032.0_x64__qbz5n2kfra8p0\\lib\\ntpath.py'>

### 2. MySQL 연결 및 데이터베이스 생성

In [3]:
# 1. 서버에 연결하기
# 형식: 'mysql://{0}:{1}@{2}:{3}/{4}'.format(user, pass, host, port, db)
engine = sqlalchemy.create_engine('mysql://root:1234@127.0.0.1:3306')
conn = engine.connect()

In [43]:
# 2. 새로운 데이터베이스(SCHEMA) 만들기 : 데이터베이스 이름을 chromate로 만들었습니다
engine.execute("CREATE DATABASE chromate")
engine.execute("USE chromate")

<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1ac79186b30>

### 3. 환경변수 CSV 처리

In [4]:
# 1. 폴더에 있는 파일들 중 csv 형식의 파일만 보여주기
# natsort.natsorted() : 파일을 순서대로 정렬하기 위해 사용
filelist = natsort.natsorted(os.listdir(r'C:\Users\admin\Desktop\[FP]Final_Project\chromate\chromate_data'))
filelist = [file for file in filelist if file.endswith('.csv')]
filelist

['Error Lot list.csv',
 'kemp-abh-sensor-2021.09.06.csv',
 'kemp-abh-sensor-2021.09.07.csv',
 'kemp-abh-sensor-2021.09.08.csv',
 'kemp-abh-sensor-2021.09.09.csv',
 'kemp-abh-sensor-2021.09.10.csv',
 'kemp-abh-sensor-2021.09.13.csv',
 'kemp-abh-sensor-2021.09.14.csv',
 'kemp-abh-sensor-2021.09.15.csv',
 'kemp-abh-sensor-2021.09.16.csv',
 'kemp-abh-sensor-2021.09.17.csv',
 'kemp-abh-sensor-2021.09.23.csv',
 'kemp-abh-sensor-2021.09.24.csv',
 'kemp-abh-sensor-2021.09.27.csv',
 'kemp-abh-sensor-2021.09.28.csv',
 'kemp-abh-sensor-2021.09.29.csv',
 'kemp-abh-sensor-2021.09.30.csv',
 'kemp-abh-sensor-2021.10.01.csv',
 'kemp-abh-sensor-2021.10.05.csv',
 'kemp-abh-sensor-2021.10.06.csv',
 'kemp-abh-sensor-2021.10.07.csv',
 'kemp-abh-sensor-2021.10.08.csv',
 'kemp-abh-sensor-2021.10.12.csv',
 'kemp-abh-sensor-2021.10.13.csv',
 'kemp-abh-sensor-2021.10.14.csv',
 'kemp-abh-sensor-2021.10.15.csv',
 'kemp-abh-sensor-2021.10.18.csv',
 'kemp-abh-sensor-2021.10.19.csv',
 'kemp-abh-sensor-2021.10.20.csv

In [5]:
# 2. Date 컬럼을 만들어줄 수 있도록 파일 이름에서 날짜만 추출하기 테스트
# Error Lot list에 있는 날짜들이 '-'으로 표시되어 있으므로 맞춰주기
# filelist[1:] 라고 쓴 이유 : Error Lot list 파일은 필요없기 때문에
for file in filelist[1:]:
    date = file.split('-')[-1].replace('.','-')
    date = date.removesuffix('-'+date.split('-')[-1])
    print(date)

2021-09-06
2021-09-07
2021-09-08
2021-09-09
2021-09-10
2021-09-13
2021-09-14
2021-09-15
2021-09-16
2021-09-17
2021-09-23
2021-09-24
2021-09-27
2021-09-28
2021-09-29
2021-09-30
2021-10-01
2021-10-05
2021-10-06
2021-10-07
2021-10-08
2021-10-12
2021-10-13
2021-10-14
2021-10-15
2021-10-18
2021-10-19
2021-10-20
2021-10-21
2021-10-22
2021-10-25
2021-10-26
2021-10-27


In [6]:
# 3. 조합해서 반복문으로 넣어줄 수 있게 코드 짜기
# df들을 집어넣을 수 있게 빈 데이터프레임 틀 만들어주기
frame_df = pd.DataFrame(columns=['Index', 'Date', 'Time', 'Lot', 'pH', 'Temp', 'Voltage'])
frame_df

Unnamed: 0,Index,Date,Time,Lot,pH,Temp,Voltage


In [7]:
# 파일들을 불러오기 위한 기본 경로
csv_path = r'C:\Users\admin\Desktop\[FP]Final_Project\chromate\chromate_data\\'

for file in filelist[1:]:
    # csv의 데이터들을 dataframe으로 불러오기
    df = pd.read_csv(csv_path + file)
    # Date 컬럼 생성
    date = file.split('-')[-1].replace('.','-')
    date = date.removesuffix('-' + date.split('-')[-1])
    df['Date'] = date
    # 컬럼 순서 조정
    df = df[['Index', 'Date', 'Time', 'Lot', 'pH', 'Temp', 'Voltage']]
    # 각각의 파일들에서 나온 dataframe 전부 합치기
    frame_df = pd.concat([frame_df, df], axis=0)

# 인덱스 조정
frame_df.reset_index(inplace=True)
frame_df = frame_df.drop(columns=['index', 'Index'])
frame_df

Unnamed: 0,Date,Time,Lot,pH,Temp,Voltage
0,2021-09-06,오후 4:29:54.0,1,2.15,43.15,19.74
1,2021-09-06,오후 4:29:59.0,1,2.08,40.13,18.01
2,2021-09-06,오후 4:30:04.0,1,2.18,43.46,18.73
3,2021-09-06,오후 4:30:09.0,1,1.99,41.72,16.75
4,2021-09-06,오후 4:30:14.0,1,1.85,43.65,18.02
...,...,...,...,...,...,...
50089,2021-10-27,오후 6:36:03.3,22,2.05,42.84,15.38
50090,2021-10-27,오후 6:36:08.3,22,1.91,42.64,19.08
50091,2021-10-27,오후 6:36:13.3,22,2.11,44.09,18.14
50092,2021-10-27,오후 6:36:18.3,22,1.92,43.95,17.96


In [8]:
# 4. 시간을 HH:MM:SS 형태로 만들기
adj_time = []

for time in frame_df['Time']:
    tmp = time.split(':')
    
    if tmp[0].split(' ')[0] == '오후':
        tmp[0] = str(int(tmp[0].split(' ')[-1]) + 12)
    else:
        tmp[0] = tmp[0].split(' ')[-1]
    
    tmp = ':'.join(tmp).split('.')[0]
    adj_time.append(tmp)

frame_df['Time'] = adj_time
frame_df

Unnamed: 0,Date,Time,Lot,pH,Temp,Voltage
0,2021-09-06,16:29:54,1,2.15,43.15,19.74
1,2021-09-06,16:29:59,1,2.08,40.13,18.01
2,2021-09-06,16:30:04,1,2.18,43.46,18.73
3,2021-09-06,16:30:09,1,1.99,41.72,16.75
4,2021-09-06,16:30:14,1,1.85,43.65,18.02
...,...,...,...,...,...,...
50089,2021-10-27,18:36:03,22,2.05,42.84,15.38
50090,2021-10-27,18:36:08,22,1.91,42.64,19.08
50091,2021-10-27,18:36:13,22,2.11,44.09,18.14
50092,2021-10-27,18:36:18,22,1.92,43.95,17.96


#### 3-1. MySQL 올리기 전 확인사항

In [9]:
# 1. pH 자리수 확인 -> max가 4이므로 모든 데이터가 소수점 두 자리까지인 것을 확인하였다
# MySQL에 column 설정 시 decimal 2자리까지만 하면 된다
frame_df['pH'] = frame_df['pH'].astype(str)
ph_lenlist = []
for rows in frame_df['pH']:
    a = len(rows)
    ph_lenlist.append(a)
print(max(ph_lenlist))

4


In [10]:
# 2. Temp 자리수 확인 -> max가 5이므로 모든 데이터가 소수점 두 자리까지인 것을 확인하였다
# MySQL에 column 설정 시 decimal 2자리까지만 하면 된다
frame_df['Temp'] = frame_df['Temp'].astype(str)
temp_lenlist = []
for rows in frame_df['Temp']:
    a = len(rows)
    temp_lenlist.append(a)
print(max(temp_lenlist))

5


In [11]:
# 3. Voltage 자리수 확인 -> max가 5이므로 모든 데이터가 소수점 두 자리까지인 것을 확인하였다
# MySQL에 column 설정 시 decimal 2자리까지만 하면 된다
frame_df['Voltage'] = frame_df['Voltage'].astype(str)
vol_lenlist = []
for rows in frame_df['Voltage']:
    a = len(rows)
    vol_lenlist.append(a)
print(max(vol_lenlist))

5


#### 3-2. 데이터프레임을 MySQL 'variable' 테이블로 올리기

In [12]:
engine.execute("USE chromate")

<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1da2e94b880>

In [23]:
# 1. MySQL에 'variable' 테이블 만들기 : 이미 만들었기 때문에 주석 처리
# engine.execute("CREATE TABLE variable ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, Time TIME NOT NULL, Lot INT NOT NULL, pH FLOAT(3,2) NOT NULL, Temp FLOAT(4,2) NOT NULL, Voltage FLOAT(4,2) NOT NULL )")

OperationalError: (MySQLdb.OperationalError) (1050, "Table 'variable' already exists")
[SQL: CREATE TABLE variable ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, Time TIME NOT NULL, Lot INT NOT NULL, pH FLOAT(3,2) NOT NULL, Temp FLOAT(4,2) NOT NULL, Voltage FLOAT(4,2) NOT NULL )]
(Background on this error at: https://sqlalche.me/e/14/e3q8)

In [13]:
engine.execute("CREATE TABLE test_variable ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, Time TIME NOT NULL, Lot INT NOT NULL, pH FLOAT(3,2) NOT NULL, Temp FLOAT(4,2) NOT NULL, Voltage FLOAT(4,2) NOT NULL )")

<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1da2e8139d0>

In [15]:
frame_df.to_sql(name='test_variable', con=engine, if_exists='append',index=False)

OperationalError: (MySQLdb.OperationalError) (1050, "Table 'test_variable' already exists")
[SQL: 
CREATE TABLE test_variable (
	`Date` TEXT, 
	`Time` TEXT, 
	`Lot` BIGINT, 
	`pH` TEXT, 
	`Temp` TEXT, 
	`Voltage` TEXT
)

]
(Background on this error at: https://sqlalche.me/e/14/e3q8)

In [27]:
# 2. MySQL 'variable' 테이블에 데이터들을 insert 하기
# 컬럼명 동적으로 만들기
cols = '`,`'.join([str(i) for i in frame_df.columns.tolist()])

In [28]:
# 3. 반복문으로 insert하기
for i, row in frame_df.iterrows():
    sql = 'INSERT INTO `variable` (`' + cols + '`) VALUES (' + '%s,'*(len(row)-1) + '%s)'
    engine.execute(sql, tuple(row))

engine.commit()
print('DB저장완료!')
engine.close()

AttributeError: 'Engine' object has no attribute 'commit'

### 4. Error Lot list CSV 처리

In [36]:
# 1. Error Lot list csv의 데이터들을 dataframe으로 불러오기
error_df = pd.read_csv(r'C:\Users\admin\Desktop\[FP]Final_Project\chromate\chromate_data\Error Lot list.csv')
error_df.columns = [['Date', 'Failure Lot 1', 'Failure Lot 2']]
error_df

Unnamed: 0,Date,Failure Lot 1,Failure Lot 2
0,2021-09-06,,
1,2021-09-07,,
2,2021-09-08,20.0,
3,2021-09-09,16.0,5.0
4,2021-09-10,,
5,2021-09-13,,
6,2021-09-14,,
7,2021-09-15,,
8,2021-09-16,4.0,
9,2021-09-17,,


In [41]:
# 2. 로트 번호이므로 type을 정수로 바꿔주기
# 결측값이 있으므로 우선 0으로 채우기
error_df.fillna(0)

Unnamed: 0,Date,Failure Lot 1,Failure Lot 2
0,2021-09-06,0.0,0.0
1,2021-09-07,0.0,0.0
2,2021-09-08,20.0,0.0
3,2021-09-09,16.0,5.0
4,2021-09-10,0.0,0.0
5,2021-09-13,0.0,0.0
6,2021-09-14,0.0,0.0
7,2021-09-15,0.0,0.0
8,2021-09-16,4.0,0.0
9,2021-09-17,0.0,0.0


In [42]:
error_df['Failure Lot 1'].astype(int)

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

#### 4-1. 'error' 테이블에 올리기

In [None]:
# 1. MySQL에 'error' 테이블 만들기
engine.execute("CREATE TABLE error ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, Failure Lot 1 INT, Failure Lot 2 INT )")

In [None]:
# 2. MySQL 'error' 테이블에 데이터들을 insert 하기

### 5. 이미지 png 처리

In [121]:
# 1. 디렉토리에서 이미지 파일들 전부 불러오기
# 이미지 파일들을 불러오기 위한 기본 경로
img_path = r'C:\Users\admin\Desktop\[FP]Final_Project\chromate\chromate_data\resized\*\**\\'

img_list = natsort.natsorted(glob.glob(img_path))
img_list    # 원래 파일 목록이 나와얀하는데 왜 안되지? 확인 필요

[]

In [None]:
# 2. MySQL 'img' 테이블에 데이터들을 insert 하기
buffer = BytesIO()
im = Image.open('이미지명.jpg')
# im.show()

im.save(buffer, format='jpeg')
img_str = base64.b64encode(buffer.getvalue())
print(img_str)  # 변환된 데이터 확인 가능

img_df = pd.DataFrame({'image_data': [img_str]})
img_df.to_sql('img', con=engine, if_exists='append', index=False)