### 1. 패키지 import 및 기본 사항 확인

In [155]:
# 기본 패키지
import pandas as pd
import numpy as np

# 디렉토리 관련 패키지
import os
import glob
import natsort

# MySQL 관련 패키지
import MySQLdb
import mysql.connector
import sqlalchemy
from sqlalchemy import create_engine

---
### 2. 환경변수 CSV 처리

In [156]:
# 1. 폴더에 있는 파일들 중 csv 형식의 파일만 보여주기
# natsort.natsorted() : 파일을 순서대로 정렬하기 위해 사용
# 파일들을 불러오기 위한 기본 경로
var_path = r'C:\Users\admin\Desktop\FinalProject\chromate\chromate_data\variable\\'
varfilelist = natsort.natsorted(os.listdir(var_path))
varfilelist = [file for file in varfilelist if file.endswith('.csv')]
varfilelist

['kemp-abh-sensor-2021.09.06.csv',
 'kemp-abh-sensor-2021.09.07.csv',
 'kemp-abh-sensor-2021.09.08.csv',
 'kemp-abh-sensor-2021.09.09.csv',
 'kemp-abh-sensor-2021.09.10.csv',
 'kemp-abh-sensor-2021.09.13.csv',
 'kemp-abh-sensor-2021.09.14.csv',
 'kemp-abh-sensor-2021.09.15.csv',
 'kemp-abh-sensor-2021.09.16.csv',
 'kemp-abh-sensor-2021.09.17.csv',
 'kemp-abh-sensor-2021.09.23.csv',
 'kemp-abh-sensor-2021.09.24.csv',
 'kemp-abh-sensor-2021.09.27.csv',
 'kemp-abh-sensor-2021.09.28.csv',
 'kemp-abh-sensor-2021.09.29.csv',
 'kemp-abh-sensor-2021.09.30.csv',
 'kemp-abh-sensor-2021.10.01.csv',
 'kemp-abh-sensor-2021.10.05.csv',
 'kemp-abh-sensor-2021.10.06.csv',
 'kemp-abh-sensor-2021.10.07.csv',
 'kemp-abh-sensor-2021.10.08.csv',
 'kemp-abh-sensor-2021.10.12.csv',
 'kemp-abh-sensor-2021.10.13.csv',
 'kemp-abh-sensor-2021.10.14.csv',
 'kemp-abh-sensor-2021.10.15.csv',
 'kemp-abh-sensor-2021.10.18.csv',
 'kemp-abh-sensor-2021.10.19.csv',
 'kemp-abh-sensor-2021.10.20.csv',
 'kemp-abh-sensor-20

In [157]:
# 2. Date 컬럼을 만들어줄 수 있도록 파일 이름에서 날짜만 추출하기 테스트
# Error Lot list에 있는 날짜들이 '-'으로 표시되어 있으므로 맞춰주기
# filelist[1:] 라고 쓴 이유 : Error Lot list 파일은 필요없기 때문에
for file in varfilelist:
    date = file.split('-')[-1].replace('.','-')
    date = date.removesuffix('-'+date.split('-')[-1])
    print(date)

2021-09-06
2021-09-07
2021-09-08
2021-09-09
2021-09-10
2021-09-13
2021-09-14
2021-09-15
2021-09-16
2021-09-17
2021-09-23
2021-09-24
2021-09-27
2021-09-28
2021-09-29
2021-09-30
2021-10-01
2021-10-05
2021-10-06
2021-10-07
2021-10-08
2021-10-12
2021-10-13
2021-10-14
2021-10-15
2021-10-18
2021-10-19
2021-10-20
2021-10-21
2021-10-22
2021-10-25
2021-10-26
2021-10-27


In [158]:
# 3. 조합해서 반복문으로 넣어줄 수 있게 코드 짜기
# df들을 집어넣을 수 있게 빈 데이터프레임 틀 만들어주기
var_df = pd.DataFrame(columns=['Index', 'Date', 'Time', 'Lot', 'pH', 'Temp', 'Voltage'])
var_df

Unnamed: 0,Index,Date,Time,Lot,pH,Temp,Voltage


In [159]:
for file in varfilelist:
    # csv의 데이터들을 dataframe으로 불러오기
    df = pd.read_csv(var_path + file)
    # Date 컬럼 생성
    date = file.split('-')[-1].replace('.','-')
    date = date.removesuffix('-' + date.split('-')[-1])
    df['Date'] = date
    # 컬럼 순서 조정
    df = df[['Index', 'Date', 'Time', 'Lot', 'pH', 'Temp', 'Voltage']]
    # 각각의 파일들에서 나온 dataframe 전부 합치기
    var_df = pd.concat([var_df, df], axis=0)

# 인덱스 조정
var_df.reset_index(inplace=True)
var_df = var_df.drop(columns=['index', 'Index'])
var_df

Unnamed: 0,Date,Time,Lot,pH,Temp,Voltage
0,2021-09-06,오후 4:29:54.0,1,2.15,43.15,19.74
1,2021-09-06,오후 4:29:59.0,1,2.08,40.13,18.01
2,2021-09-06,오후 4:30:04.0,1,2.18,43.46,18.73
3,2021-09-06,오후 4:30:09.0,1,1.99,41.72,16.75
4,2021-09-06,오후 4:30:14.0,1,1.85,43.65,18.02
...,...,...,...,...,...,...
50089,2021-10-27,오후 6:36:03.3,22,2.05,42.84,15.38
50090,2021-10-27,오후 6:36:08.3,22,1.91,42.64,19.08
50091,2021-10-27,오후 6:36:13.3,22,2.11,44.09,18.14
50092,2021-10-27,오후 6:36:18.3,22,1.92,43.95,17.96


In [160]:
# 4. 시간을 HH:MM:SS 형태로 만들기
adj_time = []

for time in var_df['Time']:
    tmp = time.split(':')
    
    if tmp[0].split(' ')[0] == '오후':
        tmp[0] = str(int(tmp[0].split(' ')[-1]) + 12)
    else:
        tmp[0] = tmp[0].split(' ')[-1]
    
    tmp = ':'.join(tmp).split('.')[0]
    adj_time.append(tmp)

var_df['Time'] = adj_time
var_df

Unnamed: 0,Date,Time,Lot,pH,Temp,Voltage
0,2021-09-06,16:29:54,1,2.15,43.15,19.74
1,2021-09-06,16:29:59,1,2.08,40.13,18.01
2,2021-09-06,16:30:04,1,2.18,43.46,18.73
3,2021-09-06,16:30:09,1,1.99,41.72,16.75
4,2021-09-06,16:30:14,1,1.85,43.65,18.02
...,...,...,...,...,...,...
50089,2021-10-27,18:36:03,22,2.05,42.84,15.38
50090,2021-10-27,18:36:08,22,1.91,42.64,19.08
50091,2021-10-27,18:36:13,22,2.11,44.09,18.14
50092,2021-10-27,18:36:18,22,1.92,43.95,17.96


#### 2-1. MySQL 올리기 전 확인사항 (※소수점자리 확인방법 수정 필요)

In [161]:
# 1. 데이터가 어떤 타입으로 저장되어 있는지 확인 필요
var_df.dtypes

Date        object
Time        object
Lot         object
pH         float64
Temp       float64
Voltage    float64
dtype: object

In [162]:
# Lot, pH, Temp, Voltage를 수치타입으로 변경
var_df['Lot'] = pd.to_numeric(var_df['Lot'])
var_df['pH'] = pd.to_numeric(var_df['pH'])
var_df['Temp'] = pd.to_numeric(var_df['Temp'])
var_df['Voltage'] = pd.to_numeric(var_df['Voltage'])
# var_df.dtypes

In [163]:
# 2. pH, Temp, Voltage 컬럼의 소수점자리가 몇 자리까지인지 확인
# pH 자리수 확인 -> max가 4이므로 모든 데이터가 소수점 두 자리까지인 것을 확인하였다
var_df['pH'] = var_df['pH'].astype(str)
ph_lenlist = []
for rows in var_df['pH']:
    a = len(rows)
    ph_lenlist.append(a)
print(max(ph_lenlist))

4


In [135]:
# Temp 자리수 확인 -> max가 5이므로 모든 데이터가 소수점 두 자리까지인 것을 확인하였다
var_df['Temp'] = var_df['Temp'].astype(str)
temp_lenlist = []
for rows in var_df['Temp']:
    a = len(rows)
    temp_lenlist.append(a)
print(max(temp_lenlist))

5


In [136]:
# Voltage 자리수 확인 -> max가 5이므로 모든 데이터가 소수점 두 자리까지인 것을 확인하였다
var_df['Voltage'] = var_df['Voltage'].astype(str)
vol_lenlist = []
for rows in var_df['Voltage']:
    a = len(rows)
    vol_lenlist.append(a)
print(max(vol_lenlist))

5


#### 2-2. MySQL 'variable' 테이블로 올리기

In [178]:
# 1. 서버에 연결하기
# 형식: 'mysql://{0}:{1}@{2}:{3}/{4}'.format(user, pass, host, port, db)
url    = 'mysql://root:1234@127.0.0.1:3306'
engine = sqlalchemy.create_engine(url, echo=True)
conn   = engine.connect()

2022-10-13 17:16:39,926 INFO sqlalchemy.engine.Engine SELECT DATABASE()
2022-10-13 17:16:39,926 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-10-13 17:16:39,926 INFO sqlalchemy.engine.Engine SELECT @@sql_mode
2022-10-13 17:16:39,926 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-10-13 17:16:39,926 INFO sqlalchemy.engine.Engine SELECT @@lower_case_table_names
2022-10-13 17:16:39,926 INFO sqlalchemy.engine.Engine [raw sql] ()


In [85]:
# 2. 새로운 데이터베이스(SCHEMA) 만들기 : 데이터베이스 이름을 chromate로 만들었습니다
# 이미 만들었으므로 주석처리
# engine.execute("CREATE DATABASE chromate")

In [179]:
# 3. 만든 데이터베이스를 실행
engine.execute("USE chromate")

2022-10-13 17:16:42,830 INFO sqlalchemy.engine.Engine USE chromate
2022-10-13 17:16:42,830 INFO sqlalchemy.engine.Engine [raw sql] ()


<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1da3e97d5d0>

In [180]:
# 4. 'variable' 테이블 만들기
engine.execute("CREATE TABLE variable ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, Time TIME NOT NULL, Lot INT NOT NULL, pH FLOAT(3,2) NOT NULL, Temp FLOAT(4,2) NOT NULL, Voltage FLOAT(4,2) NOT NULL )")

2022-10-13 17:16:46,848 INFO sqlalchemy.engine.Engine CREATE TABLE variable ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, Time TIME NOT NULL, Lot INT NOT NULL, pH FLOAT(3,2) NOT NULL, Temp FLOAT(4,2) NOT NULL, Voltage FLOAT(4,2) NOT NULL )
2022-10-13 17:16:46,848 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-10-13 17:16:46,896 INFO sqlalchemy.engine.Engine COMMIT


<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1da3ec48fd0>

In [181]:
# 5. 데이터프레임에 있는 데이터 insert하기
dtypesql = {'Date':sqlalchemy.types.DATE(),
            'Time':sqlalchemy.types.TIME(),
            'Lot':sqlalchemy.types.INT(),
            'pH':sqlalchemy.types.FLOAT(),
            'Temp':sqlalchemy.types.FLOAT(),
            'Voltage':sqlalchemy.types.FLOAT()
}
var_df.to_sql(name='variable', con=engine, if_exists='append', index=False, dtype=dtypesql)

2022-10-13 17:16:49,806 INFO sqlalchemy.engine.Engine SELECT COUNT(*) FROM information_schema.tables WHERE table_schema = %s AND table_name = %s
2022-10-13 17:16:49,806 INFO sqlalchemy.engine.Engine [generated in 0.00095s] ('None', 'variable')
2022-10-13 17:16:49,814 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-13 17:16:49,814 INFO sqlalchemy.engine.Engine 
CREATE TABLE variable (
	`Date` DATE, 
	`Time` TIME, 
	`Lot` INTEGER, 
	`pH` FLOAT, 
	`Temp` FLOAT, 
	`Voltage` FLOAT
)


2022-10-13 17:16:49,820 INFO sqlalchemy.engine.Engine [no key 0.00093s] ()
2022-10-13 17:16:49,820 INFO sqlalchemy.engine.Engine ROLLBACK


OperationalError: (MySQLdb.OperationalError) (1050, "Table 'variable' already exists")
[SQL: 
CREATE TABLE variable (
	`Date` DATE, 
	`Time` TIME, 
	`Lot` INTEGER, 
	`pH` FLOAT, 
	`Temp` FLOAT, 
	`Voltage` FLOAT
)

]
(Background on this error at: https://sqlalche.me/e/14/e3q8)

---
### 3. Error Lot list CSV 처리

In [122]:
# 1. 폴더에 있는 파일들 중 csv 형식의 파일만 보여주기
# natsort.natsorted() : 파일을 순서대로 정렬하기 위해 사용
# 파일들을 불러오기 위한 기본 경로
err_path = r'C:\Users\admin\Desktop\FinalProject\chromate\chromate_data\error\\'
errfilelist = natsort.natsorted(os.listdir(err_path))
errfilelist = [file for file in errfilelist if file.endswith('.csv')]
errfilelist

['Error Lot list.csv']

In [124]:
# 2. 조합해서 반복문으로 넣어줄 수 있게 코드 짜기
# df들을 집어넣을 수 있게 빈 데이터프레임 틀 만들어주기
err_df = pd.DataFrame(columns=['Date', 'FailureLot1', 'FailureLot2'])
err_df

Unnamed: 0,Date,FailureLot1,FailureLot2


In [174]:
for file in errfilelist:
    # csv의 데이터들을 dataframe으로 불러오기
    df = pd.read_csv(err_path + file)
    # 컬럼 이름 조정 필요
    df.rename(columns = {'0':'Date', '1':'FailureLot1', '2':'FailureLot2'}, inplace=True)
    # FailureLot1, FailureLot2 INT로 바꿔주기
    # - 결측치가 있으므로 0으로 채워주고 바꾼다
    df['FailureLot1'] = df['FailureLot1'].fillna(0)
    df['FailureLot2'] = df['FailureLot2'].fillna(0)
    # - 바꾸고 난 후 0들을 다시 결측치로 바꾼다
    df['FailureLot1'].replace(0, np.NaN)
    df['FailureLot2'].replace(0, np.NaN)
    # 각각의 파일들에서 나온 dataframe 전부 합치기
    err_df = pd.concat([err_df, df], axis=0)

err_df

Unnamed: 0,Date,FailureLot1,FailureLot2
0,2021-09-06,,
1,2021-09-07,,
2,2021-09-08,20.0,
3,2021-09-09,16.0,5.0
4,2021-09-10,,
...,...,...,...
28,2021-10-21,0.0,0.0
29,2021-10-22,3.0,0.0
30,2021-10-25,16.0,0.0
31,2021-10-26,0.0,0.0


#### 3-1. MySQL 올리기 전 확인사항

In [149]:
# 1. 데이터가 어떤 타입으로 저장되어 있는지 확인 필요
err_df.dtypes

Date            object
FailureLot1    float64
FailureLot2    float64
dtype: object

#### 3-2. MySQL 'error' 테이블로 올리기

In [59]:
# 1. MySQL에 'error' 테이블 만들기
engine.execute("CREATE TABLE error ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, FailureLot1 INT, FailureLot2 INT )")

2022-10-13 14:03:30,954 INFO sqlalchemy.engine.Engine CREATE TABLE error ( ID INT AUTO_INCREMENT PRIMARY KEY, Date DATE NOT NULL, FailureLot1 INT, FailureLot2 INT )
2022-10-13 14:03:30,955 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-10-13 14:03:30,993 INFO sqlalchemy.engine.Engine COMMIT


<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1da35372620>

In [None]:
# 2. MySQL 'error' 테이블에 데이터들을 insert 하기
error_type = {'ID'      : sqlalchemy.types.INT(),
              'Date'    : sqlalchemy.types.DATE(),
              'FailureLot1' : sqlalchemy.types.INT(),
              'FailureLot2' : sqlalchemy.types.INT()
}
err_df.to_sql(name='error', con=engine, if_exists='append', index=False, dtype=error_type)

---
### 4. 이미지 png 처리

In [121]:
# 1. 디렉토리에서 이미지 파일들 전부 불러오기
# 이미지 파일들을 불러오기 위한 기본 경로
img_path = r'C:\Users\admin\Desktop\[FP]Final_Project\chromate\chromate_data\resized\*\**\\'

img_list = natsort.natsorted(glob.glob(img_path))
img_list    # 원래 파일 목록이 나와얀하는데 왜 안되지? 확인 필요

[]