# 1. 라이브러리 선언

In [1]:
import csv
import pandas as pd
import os
import re
from sqlalchemy import create_engine
import pymysql
pymysql.install_as_MySQLdb()
import MySQLdb
from datetime import datetime
import mariadb

# 2. 함수정의

In [2]:
# 캐시 파일 등은 제외하고 디렉토리만 리스트로 추출하는 함수
def findDir(pwd):
    directory = []
    try:
        totalDir = os.listdir(pwd)
    except Exception as e:
        print(e)
        
    for eachDir in totalDir:
        fullDir = os.path.join(pwd, eachDir)
        if os.path.isdir(fullDir):
            directory.append(eachDir)

    return directory

# 입력 받은 디렉토리(pwd)와 그 하위 디렉토리 목록(subDir)을 입력 받아 경로를 merge 시켜 리스트로 반환
def mergeSubDirList(pwd, subDir):
    reDefinedDir = []
    
    for eachDir in subDir:
        reDefinedDir.append(os.path.join(pwd, eachDir))
    
    return reDefinedDir

# 대상 경로를 입력해주면 해당 경로의 하위의 하위 디렉토리까지 리스트로 반환
def findTreeDir(pwd):
    # 인풋 파라미터의 디렉토리 내의 디렉토리를 리스트로 만들어 병합
    subDir = findDir(pwd)
    subDirList = mergeSubDirList(pwd, subDir)
    
    # 위 디렉토리 리스트 내의 디렉토리를 다시 한 번 리스트로 만들어 병합
    treeDirList = []
    for each in subDirList:
        subDirList = findDir(each)
        treeDirList.append(mergeSubDirList(each, subDirList))

    return treeDirList

# 최신 디렉토리만 리스트로 반환
def findLatest(categories):
    result = []

    for eachList in categories:
        eachList.sort()
        try:
            result.append(eachList[-1])
        except Exception as e:
            print(e)

    return result

# 입력 받은 디렉토리에서 CSV 파일만 전체 디렉토리 리스트로 추출
def findCsv(pwd):
    try:
        fileList = os.listdir(pwd)
        csvList = [file for file in fileList if (file.endswith(".csv")) \
                   and (file.split("\\")[-1].split(".")[0] == "com")\
                    and (re.search("(food|breath|reward|hist|recommend)", pwd) is None)]
    except Exception as e:
        print(e)
    
    return csvList

# 입력 받은 디렉토리 내에 csv 파일을 찾아 전체 디렉토리를 리스트로 반환
def findCsvDir(pwd):
    # 디렉토리 내 csv 파일을 리스트로 반환
    try:
        csvList = findCsv(pwd)
    except Exception as e:
        print(e)
    try:
        csvPathList = mergeSubDirList(pwd, csvList)
    except Exception as e:
        print(e)

    return csvPathList

# csv 파일을 읽어서 list로 저장
def read_csv_file(path):
    try:
        with open(path, 'r', encoding = 'utf-8', newline='') as file:
            healtReader = csv.reader(file)
            rows = 0
            titleList = None
            dataList = []
            for line in healtReader:
                # print(line)
                if rows == 1:
                    titleList = line
                elif rows > 1:
                    if len(line) > 0:
                        dataList.append(line)
                rows += 1
    except Exception as e:
        print(e)
    
    return titleList, dataList

# 각 사람의 마지막 csv를 읽어 매트릭스 리스트로 반환
def searchTitleDataToList(pwd):
    # 컬럼명, 데이터 리스트를 뽑아낸다
    titleList = []
    dataList = []
    
    for each in pwd:
        try:
            titleTemp, dataTemp = read_csv_file(each)
            # print(titleList)
            # print(dataList)
        except Exception as e2:
            print(e2)
            print("csv file not open")
        
        titleList.append(titleTemp)
        dataList.append(dataTemp)
    
    return titleList, dataList

# 컬럼명 정제 : 컬럼명 유형이 com.samsung.shealth.calories_burned.active_calorie인 경우 active_calorie만 추출
def splitColumn(inputList):
    for eachList in inputList:
        for eachColumn in eachList:
            if re.search("com.", eachColumn) is not None:
                try:
                    eachColumn = eachColumn.split("."[-1])
                except Exception as e:
                    print(e)
            
    return inputList

# 월일시분초가 한자리일 때 두자리수로 표현하기 위한 함수. 즉 20201 -> 202001
def zeroFillFunc(inValue):
    outValue = ""
    if len(inValue) == 1:
        outValue = "0" + inValue
    else:
        outValue = inValue
        
    return outValue

# time 컬럼의 인덱스만 가져오는 함수
def getTargetIndex(columnList):
    targetIndex = []
    for i in range(len(columnList)):
        if (re.search("_time", columnList[j]) is not None) and (re.search("(day)", columnList[j]) is None): # day_time 컬럼의 경우 날짜 형식이 아니므로 제외
            targetIndex.append(j)
            
    return targetIndex

## time 데이터를 datetime 형식으로 바꾸는 함수
def dateTodatetime(date):
    result = None
    if re.search("\d{4}. \d{2}. \d{2}", date) is not None: # 시간 형식이 2020. 07. 08. ~인 경우에 대해서만
        yearMonthDay = date.split(".")
#                         print(yearMonthDay)
#                         print(dataPath)
        year = int(yearMonthDay[0])
        month = yearMonthDay[1].strip()
        day = yearMonthDay[2].strip()

        hourMinSec = yearMonthDay[3].split(":")
        hour = hourMinSec[0].strip()
        minute = hourMinSec[1]
        sec = hourMinSec[2]

        if (re.search("오후", hour) is not None) and (int(hour.split(" ")[1]) != 12):
            hour = str(int(hour.split(" ")[1]) + 12)
        elif re.search("(오전|오후 12)", hour) is not None:
            hour = str(int(hour.split(" ")[1]))
        else:
            hour = str(int(hour.strip()))
        result = datetime(int(year), int(month), int(day), int(hour), int(minute), int(sec)).strftime('%Y-%m-%d %H:%M:%S')
    elif re.search("\d{4}-\d{2}-\d{2}", date) is not None:
        dateInfo = datetime.fromisoformat(date.split(".")[0])
        result = date.split(".")[0]
    else:
        result = date
                   
    return result

## 최신 데이터 리스트를 가져오는 함수
def getLatestList(dataList, columnList, beforeUpdate):
    print(dataList)
    print(columnList)
    latestList = []
    dataListLen = len(dataList)
    targetIndex = getTargetIndex(columnList)
    targetIndexLastIndex = len(targetIndex) - 1
    dataDate = ""
    for i in range(dataListLen):
        for j in targetIndex:
            dataList[i][j] = dateTodatetime(dataList[i][j])
            dataListLastIndex = dataListLen - 1
            if (i == dataListLastIndex) and (j == targetIndexLastIndex):
                dateInfo = datetime.fromisoformat(dataList[i][j].split(".")[0])
                dataDate = str(dateInfo.year) + zeroFillFunc(str(dateInfo.month)) + \
                                        zeroFillFunc(str(dateInfo.day)) + zeroFillFunc(str(dateInfo.hour)) + \
                                        zeroFillFunc(str(dateInfo.minute))
                                                  
        if (dataDate != "") and (beforeUpdate is not None):
            if (int(dataDate) > int(beforeUpdate)):
                latestList.append(dataList[j])
            else:
                latestList.append(dataList[j])
                                                  
    return latestList

## 기존 데이터베이스 테이블에 없는 컬럼값을 입력했을 때 발생되는 에러를 반영하여 데이터베이스 테이블에 컬럼을 추가하는 함수
def addColumnToDB(error, tableName, config):
    if re.search("1054", error) is not None:
        try:
            column = "".join(re.findall("\w", error.split(' ')[4]))
            query = "alter table {0} add column {1} text".format(tableName, column)
            conn = mariadb.connect(**config)
            cur = conn.cursor()
            cur.execute(query)
            conn.close()
        except Exception as e:
            print(e)
            
## 데이터베이스 테이블에 데이터를 추가하는 함수
def dataToDB(engineInfo, latestList, columnList, tableName):
    error = ""
    try:
        if len(latestList) > 0:
            engine = create_engine("mysql+mysqldb://root:1234@localhost:3308/health")
#                     engine = create_engine("mysql+pymysql://root:1234@13.125.210.149:3306/health")
            healthData = pd.DataFrame(latestList, columns=columnList)
            healthData.to_sql(name="{}".format(tableName), con=engine, if_exists="append", index=False)
    except Exception as e:
        print(e)
        error = str(e)
        print("failed to transfer healthData to DB")
        
    return error

## 한 유저의 최신 데이터가 포함된 폴더를 입력했을 때 최신 데이터를 DB로 이관하는 함수
def userDataToDB(userLatestPath, beforeUpdate, engineInfo, config):
    csvPathList = findCsvDir(userLatestPath)
    
    for eachPath in csvPathList:
        titleList, dataList= read_csv_file(eachPath)
        columnList = splitColumn(titleList)
        
        # 데이터 정제 로직. 컬럼 리스트 길이보다 row 리스트 길이가 긴 경우
        # row 리스트 길이를 컬럼 리스트 길이에 맞춤
        
        # 최신 데이터 리스트를 가져오는 함수
        latestList = getLatestList(dataList, columnList, beforeUpdate)
        
        # 데이터명이 com.samsung.shealth.calories_burned.details.202007140917.csv로 details만 추출하는 경우
        # 식별불가한 상황을 해소하기 위해 조치.
        # calories_burned_details로 컬럼명 지정
        if (len(eachPath.split("\\")[-1].split(".")) > 6):
            tableName = eachPath.split("\\")[-1].split(".")[-4] + "_" + eachPath.split("\\")[-1].split(".")[-3]
        else:
            tableName = eachPath.split("\\")[-1].split(".")[-3]
        
        
        # DB에 데이터를 추가하는 로직
        error = dataToDB(engineInfo, latestList, columnList, tableName)
        if re.search("1054", error) is not None:
            addColumnToDB(error, tableName, config)
            dataToDB(engineInfo, latestList, columnList)
        else:
            pass

# 3. 실행 로직

## 3-1. 전역변수 설정

In [5]:
# 데이터베이스 관련 전역변수. create_engine / mariadb.connect 시 사용
engineInfo = "mysql+mysqldb://root:root@localhost/health"
config = {"user":"root", "password":"root", "host":"localhost", "port":3306, "db":"health"}

# 기본 디렉토리 설정
basedir = "./HealthCare"

## 3-2. 모든 유저의 디렉토리 리스트 가져오기

In [12]:
usersDirList = findTreeDir(basedir)
# print(usersDirList)

## 3-3. 유저별 최신 디렉토리 리스트 가져오기

usersLatestPath = findLatest(usersDirList)
# print(usersLatestPath)

## 3-4. 모든 유저의 최신 데이터를 DB로 적재

In [19]:
for eachLatestPath in usersLatestPath:
    beforeIndex = usersDirList[0].index(usersLatestPath[0]) - 1
    print(beforeIndex)
    beforeDir = usersDirList[0][beforeIndex]
    print(beforeDir)
    beforeUpdate = beforeDir.split("_")[-1]
    print(beforeUpdate)
    
    userDataToDB(eachLatestPath, beforeUpdate)

-1
./문제원형실습/신이/신이(0708)_2020070817
2020070817


TypeError: userDataToDB() missing 2 required positional arguments: 'engineInfo' and 'config'

In [23]:
getLatestList(columnList=dataList, dataList=columnList, beforeUpdate=beforeUpdate)

NameError: name 'dataList' is not defined