# 1. 라이브러리 선언

In [1]:
import csv
import pandas as pd
import os
import re
from sqlalchemy import create_engine
import pymysql
pymysql.install_as_MySQLdb()
import MySQLdb
from datetime import datetime
import mariadb

# 2. 함수정의

## 2-1. csv 파일을 읽어서 list 타입으로 저장

In [2]:
def read_csv_file(path):
    with open(path, 'r', encoding = 'utf-8', newline='') as file:
        healReader = csv.reader(file)
        count = 0
        titleList = []
        dataList = []
        for line in healReader:
#             print(line)
            if count == 1:
                titleList.append(line)
            elif count > 1:
                if len(line) > 0:
                    dataList.append(line)
            count += 1
    
    return titleList, dataList

## 2-2. 월일시분초가 한자리일 때 두자리수로 표현하기 위한 함수. 즉 20201 -> 202001

In [3]:
def zeroFillFunc(inValue):
    outValue = ""
    if len(inValue) == 1:
        outValue = "0" + inValue
    else:
        outValue = inValue
    return outValue

## 2-3. 컬럼명 유형이 com.samsung.shealth.calories_burned.active_calorie인 경우 active_calorie만 추출

In [4]:
def splitColumn(inputList):
    for i in range(len(inputList)):
        if re.search("com.", inputList[i]) is not None:
            inputList[i] = inputList[i].split(".")[-1]
            
    return inputList

## 2-4. 테이블 정제. 부족한 컬럼을 추가하는 함수

In [5]:
def refindTable(column, columnList, latestList):
    columnList.append(column)
    for j in range(len(latestList)):
        latestList[j].append("")
        
    return columnList, latestList

# 3. 각 user 폴더에 존재하는 watchData 추출하여 DB 적재

## 3-1. 읽어올 파일 함수화

### 3-1-1. 캐시 파일 등은 제외하고 디렉토리만 리스트로 추출하는 함수

In [6]:
def findDir(pwd):
    directory = []
    for eachDir in os.listdir(pwd):
        fullDir = os.path.join(pwd, eachDir)
        if os.path.isdir(fullDir):
            directory.append(eachDir)
    
    return directory

### 3-1-2. 입력 받은 디렉토리(pwd)와 그 하위 디렉토리 목록(subDir)을 입력 받아 경로를 merge 시켜 리스트로 반환

In [7]:
def mergeSubDirList(pwd, subDir):
    reDefinedDir = []
    for eachDir in subDir:
        reDefinedDir.append(os.path.join(pwd, eachDir))
    
    return reDefinedDir

### 3-1-3. 대상 경로를 입력해주면 해당 경로의 하위의 하위 디렉토리까지 리스트로 반환

In [8]:
def findTreeDir(pwd):
    # 인풋 파라미터의 디렉토리 내의 디렉토리를 리스트로 만들어 병합
    subDir = findDir(pwd)
    subDirList = mergeSubDirList(pwd, subDir)
    
    # 위 디렉토리 리스트 내의 디렉토리를 다시 한 번 리스트로 만들어 병합
    treeDirList = []
    for each in subDirList:
        subDirList = findDir(each)
        treeDirList.append(mergeSubDirList(each, subDirList))
    
    return treeDirList

### 3-1-4. 최신 디렉토리만 리스트로 반환

In [9]:
def findLatest(categories):
    result = []
    for eachList in categories:
        eachList.sort()
        result.append(eachList.pop())

    return result

### 3-1-5. 해당 디렉토리에 있는 csv 파일만 반환

In [10]:
def findCsv(pwd):
    fileList = os.listdir(pwd)
    csvList = [file for file in fileList if (file.endswith(".csv")) and (file.split("\\")[-1].split(".")[0] == "com")]
    
    return csvList

In [19]:
# 입력 받은 디렉토리 내에 csv 파일을 찾아 전체 디렉토리를 리스트로 반환
def findCsvDir(pwd):
    # 디렉토리 내 csv 파일을 리스트로 반환
    csvList = findCsv(pwd)
    csvPathList = mergeSubDirList(pwd, csvList)

    return csvPathList

# csv 파일을 읽어서 list로 저장
def read_csv_file(path):
    with open(path, 'r', encoding = 'utf-8', newline='') as file:
        healReader = csv.reader(file)
        rows = 0
        titleList = None
        dataList = []
        for line in healReader:
            # print(line)
            if rows == 1:
                titleList = line
            elif rows > 1:
                if len(line) > 0:
                    dataList.append(line)
            rows += 1
    
    return titleList, dataList

# 각 사람의 마지막 csv를 읽어 매트릭스 리스트로 반환
def searchTitleDataToList(pwd):
    # 컬럼명, 데이터 리스트를 뽑아낸다
    titleList = []
    dataList = []
    
    for each in pwd:
        try:
            titleTemp, dataTemp = read_csv_file(each)
            # print(titleList)
            # print(dataList)
        except Exception as e2:
            print(e2)
            print("csv file not open")
        
        titleList.append(titleTemp)
        dataList.append(dataTemp)
    
    return titleList, dataList

## 3-2. 데이터 파일 경로 설정

### 3-2-1. 상위폴더 기본 설정

In [20]:
basedir = "./문제원형실습"
categories = findTreeDir(basedir)
# print(categories)

### 3-2-2. 최신 데이터가 포함된 디렉토리만 가져옴

In [21]:
latestDir = findLatest(categories)
# print(latestDir)

### 3-2-3. 유저별 csv file path 설정

In [13]:
totalCsvPathList = []
for eachLatest in latestDir:
    # 호성의 디렉토리에서 최신 디렉토리에 존재하는 csv 파일만 추출
    csvList = findCsv(eachLatest)
    # csv 파일을 전체 디렉토리와 merge
    csvPathList = mergeSubDirList(eachLatest, csvList)
    for eachPath in csvPathList:
        totalCsvPathList.append(eachPath)

# print(totalCsvPathList)

In [22]:
# 1. 디렉토리 설정
basedir = "./문제원형실습"

# 2. 디렉토리 2차 sub 디렉토리까지 리스트로 구함
categories = findTreeDir(basedir)

# 3.1 각 사람의 마지막 디렉토리를 구함
latestDir = findLatest(categories)

for each in latestDir:
    # 3.2 각 사람의 마지막 csv 파일 경로를 읽어온다
    eachCsvPath = findCsvDir(each)
    
    # 3.3 각 사람의 마지막 디렉토리의 csv 파일을 읽는다
    titleList, dataList = searchTitleDataToList(eachCsvPath)
    
    # 3.4 titleList 컬럼명 정제 : 컬럼명에 com.~~ 이 포함되어 있는 경우
    columnList = splitColumn(titleList)

TypeError: expected string or bytes-like object

In [23]:
    # 최신 데이터 폴더 내에 모든 최신 데이터에 대하여
    for eachData in categories3:
        dataPath = os.path.join(label2Path, eachData) # "./문제원형실습/김동휘/DownloadPersonalData_202007081740\com.samsung.health.caffeine_intake.2020070817.csv"
#         print(dataPath)
        # 파일 형식이 csv인 dataPath에 대해서만
        if (re.search(".csv", dataPath) is not None) and (re.search("(food|breath|reward|hist|recommend)", dataPath) is None)\
            and (dataPath.split("\\")[-1].split(".")[0] == "com"):
                        
#         and (re.search("\w{4}~\$", dataPath) is None):
#             print(dataPath)

            # 컬럼명, 데이터 리스트를 뽑아냄.
            try:
                titleList, dataList = read_csv_file(dataPath)
                print(titleList[0])
                print(dataList[0])
                break
            except Exception as e2:
                print(e2)
                print("csv file not open")
        
            # dataframe의 columns 정의
            columnList = splitColumn(titleList[0]) # 컬럼명에 com.~~ 이 포함되어 있는 경우 split하여 하나의 단어로 컬럼명 지정
                                                    # com.samsung.shealth.calories_burned.active_calorie -> active_calorie만 추출
#             print(columnList)
            
            # 1. 예외 처리 / titleList에 dataList를 맞춤
            for j in range(len(dataList)):
                minusLength = len(dataList[j]) - len(columnList)
                if minusLength > 0:
                    for k in range(minusLength):
                        dataList[j].pop()
                        
            # 2. 최신 데이터만 업데이트
            ## 2-1. 시간을 "2020-06-01 07:08:59" 타입으로 변경
            targetIndex = [] # 시간 데이터가 존재하는 컬럼만 담기 위한 리스트
            for j in range(len(columnList)):                                                                            # 삼성헬스에서만 들어오는 데이터는 컬럼명이 com.~으로 시작
                if (re.search("_time", columnList[j]) is not None) and (re.search("(day)", columnList[j]) is None): # day_time 컬럼의 경우 날짜 형식이 아니므로 제외
                    targetIndex.append(j)
#             print(targetIndex)
            
            latestList = []
            dataListLen = len(dataList)
            for j in range(dataListLen):
                dataDate = ""
                for k in targetIndex:
                    if re.search("\d{4}. \d{2}. \d{2}", dataList[j][k]) is not None: # 시간 형식이 2020. 07. 08. ~인 경우에 대해서만
                        yearMonthDay = dataList[j][k].split(".")
#                         print(yearMonthDay)
#                         print(dataPath)
                        year = yearMonthDay[0]
                        month = yearMonthDay[1].strip()
                        day = yearMonthDay[2].strip()

                        hourMinSec = yearMonthDay[3].split(":")
                        hour = hourMinSec[0].strip()
                        minute = hourMinSec[1]
                        sec = hourMinSec[2]
                        
                        if (re.search("오후", hour) is not None) and (int(hour.split(" ")[1]) != 12):
                            hour = str(int(hour.split(" ")[1]) + 12)
                        elif re.search("(오전|오후 12)", hour) is not None:
                            hour = str(int(hour.split(" ")[1]))
                        else:
                            hour = str(int(hour.strip()))
#     print(hour, j, k)

                        dataList[j][k] = datetime(int(year), int(month), int(day), int(hour), int(minute), int(sec)).strftime('%Y-%m-%d %H:%M:%S')
                        dataDate = year + zeroFillFunc(month) + zeroFillFunc(day) + zeroFillFunc(hour) + zeroFillFunc(minute)
                    elif re.search("\d{4}-\d{2}-\d{2}", dataList[j][k]) is not None:
                        dateInfo = datetime.fromisoformat(dataList[j][k].split(".")[0])
                        dataList[j][k] = dataList[j][k].split(".")[0]
                        dataDate = str(dateInfo.year) + zeroFillFunc(str(dateInfo.month)) + \
                                    zeroFillFunc(str(dateInfo.day)) + zeroFillFunc(str(dateInfo.hour)) + \
                                    zeroFillFunc(str(dateInfo.minute))
        
                if (dataDate != "") and (beforeUpdate is not None):
                    if (int(dataDate) > int(beforeUpdate)) and (int(dataDate) <= int(nowUpdate)):
                        latestList.append(dataList[j])
                else:
                    latestList.append(dataList[j])
            
            # 데이터명이 com.samsung.shealth.calories_burned.details.202007140917.csv로 details만 추출하는 경우
            # 식별불가한 상황을 해소하기 위해 조치.
            # calories_burned_details로 컬럼명 지정
            if (len(dataPath.split("\\")[-1].split(".")) > 6):
                tableName = dataPath.split("\\")[-1].split(".")[-4] + "_" + dataPath.split("\\")[-1].split(".")[-3]
            else:
                tableName = dataPath.split("\\")[-1].split(".")[-3]
            
            
            ## 데이터 정제. 
            ## 1. exercise테이블에 mission_extra_value 컬럼이 존재하나 측정기기별로 수치를 뽑아낼 수 없는 경우 발생
            ## 해당 컬럼에 들어오는 value가 존재하지 않아 제거
#             try:
#                 if tableName == "exercise":
#                     if "mission_extra_value" in columnList:
#                         removeIndex = columnList.index("mission_extra_value")
#                         del columnList[removeIndex]
#                         for j in range(len(latestList)):
#                             del latestList[j][removeIndex]
                            
#             except:
#                 print(dataPath, tableName)
                    
#             ## 2. sleep 테이블에 "efficiency" 컬럼이 존재하나 측정기기별로 수치를 뽑아낼 수 없는 경우 발생
#             ## 중요한 컬럼이라고 보아 efficiency 컬럼이 존재하지 않는 경우 해당 컬럼을 추가
#             try:
#                 if tableName == "sleep":
#                     if not "efficiency" in columnList:
#                         columnList.append("efficiency")
#                         for j in range(len(latestList)):
#                             latestList[j].append("")
#             except:
#                 print(dataPath, tableName)
            
            # 에러를 입력할 변수 지정
            y = ""
            try:
                if len(latestList) > 0:
                    engine = create_engine("mysql+mysqldb://root:root@localhost/health")
#                     engine = create_engine("mysql+pymysql://root:1234@13.125.210.149:3306/health")
                    healthData = pd.DataFrame(latestList, columns=columnList)
                    healthData.to_sql(name="{}".format(tableName), con=engine, if_exists="append", index=False)
            except Exception as e:
                print(e)
                y = str(e)
                print("failed to transfer healthData to DB")
            finally: # 데이터베이스에 있는 기존의 테이블에 컬럼이 존재하지 않는 경우 컬럼 추가 로직!
                if re.search("1054", y) is not None:
                    try:
                        column = "".join(re.findall("\w", y.split(' ')[4]))
                        query = "alter table {0} add column {1} text".format(tableName, column)
                        conn = mariadb.connect(user="root", password="root", host="localhost", port=3306, db="health")
                        cur = conn.cursor()
                        cur.execute(query)
                        conn.close()
                        
                        engine = create_engine("mysql+mysqldb://root:root@localhost/health")

                        print(column)
                        columnList, latestList = refindTable(column, columnList, latestList)
                        print(columnList, latestList)
                        if len(latestList) > 0:
        #                     engine = create_engine("mysql+pymysql://root:1234@13.125.210.149:3306/health")
                            healthData = pd.DataFrame(latestList, columns=columnList)
                            healthData.to_sql(name="{}".format(tableName), con=engine, if_exists="append", index=False)
                    except Exception as e2:
                        print(e2)

NameError: name 'categories3' is not defined