In [1]:
import pandas as pd
import numpy as np
import math

In [2]:
rawdata1 = pd.read_excel("./dataset/tourdata2017_1.xlsx")
rawdata2 = pd.read_excel("./dataset/tourdata2017_2.xlsx")
rawdata3 = pd.read_excel("./dataset/tourdata2017_3.xlsx")

# 분석 데이터 정제

## 1. 불필요한 데이터 및 컬럼 제거

In [3]:
# 컬럼명 통일 (공백제거, 컬럼명 소문자 )

rawdata1.rename(columns=lambda x: x.strip().lower(), inplace=True)
rawdata2.rename(columns=lambda x: x.strip().lower(), inplace=True)
rawdata3.rename(columns=lambda x: x.strip().lower(), inplace=True)

### 1-1. 응답자 특성 데이터

In [4]:
# 나이를 세대별로 구분하기 위해 새로운 컬럼 생성

rawdata1["age_group"] = np.where(rawdata1["age"]>0, (((rawdata1["age"]/10).astype(int))*10) , 0)

In [5]:
# 응답자 20대 추출

rawdata1 = rawdata1[rawdata1.age_group==20]

In [6]:
# 필요한 컬럼만 선택해서 보기
# 분석에 불필요한 컬럼을 제거

rawdata1 = rawdata1.drop(['age_group','sr_type','ara_size', 'school1','school2','occ0','occ2','marry','fac','inc1_1','inc2_1',
                          'wt'], axis = 1)

### 1-2. 단위여행 베이스

In [7]:
# m_id 빈 값 지우기
# m_id 값이 null이면 다른 컬럼의 value도 null이기 때문에 해당 열을 삭제

rawdata2 = rawdata2.dropna(subset=["m_id"])

In [8]:
#국내여행자만 선택해서 보기

rawdata2 = rawdata2[rawdata2["type1"] == 1]

In [9]:
# 여행 주 목적 : 1.여가/위락/휴가 2.건강/치료 3.종교/성지순례 데이터가 존재
#  2.건강/치료 3.종교/성지순례의 경우 데이터가 소수이며 분석 목적과 무관하여 제거

rawdata2 = rawdata2[rawdata2["q3"].astype(int) == 1]

In [10]:
# 총지출비용 컬럼이 null값인 데이터를 삭제

rawdata2 = rawdata2.dropna(subset=["q7"])

In [11]:
# 필요한 컬럼만 선택해서 보기
# 분석에 불필요한 컬럼을 제거

rawdata2 = rawdata2.drop(['m_id','type1','type2','q2_a','q2_a_1','q2_a_2','q2_b','q2_b_1','q2_b_1','q2_b_2','q2_c_1','q2_1_1',
                          'q2_1_2','q2_1_3','q2_1_4','q2_1_5','q3', 'q4_1_a','q4_1_b','q5_1','q5_2_1','q5_2_2','q5_2_3','q5_2_4',
                          'q5_2_5','q5_2_6','q7_1','q7_3_1','q7_3_2','q7_3_3','q7_3_4','q7_3_5','q7_3_6','q7_3_7','q7_3_8','q7_3_9',
                          'q7_3_10','q9_1','q9_1_1','q9_1_2','q9_1_3','q9_1_4','q9_1_5','q9_2','wt'], axis = 1)

### 1-3. 방문지 베이스

In [12]:
# m_id 빈 값 지우기
# m_id 값이 null이면 다른 컬럼의 value도 null이기 때문에 해당 열을 삭제

rawdata3 = rawdata3.dropna(subset=["m_id"])

In [13]:
#국내여행자만 선택해서 보기

rawdata3 = rawdata3[rawdata3["type1"] == 1]

In [14]:
# 필요한 컬럼만 선택해서 보기
# 분석에 불필요한 컬럼을 제거

rawdata3 = rawdata3.drop(['m_id','type1','type2','q6_1_1','q6_1_2','q6_1_3','q6_1_4','q6_1_5','q6_1_6','q6_1_7','q6_1_8',
                          'q6_5_1a','q6_5_2a','q6_5_3a','q6_5_4a','q6_5_5a','q6_5_6a','q6_5_7a','q6_5_8a','q6_5_9a','q6_5_10a',
                          'q6_5_11a','q6_5_12a','q6_5_13a','q7_2','q6_2','wt'], axis = 1)

### 1-4. 1차 join = 단위여행 + 방문지

In [15]:
# 1차 join = 같은 응답자의 단위여행 데이터와, 방문지 데이터를 합친다.
# hid,pid,month가 같으면 해당데이터는 동일인물임

joinKey = ["hid","pid","month"]

In [16]:
firstmerge = pd.merge(rawdata2, rawdata3, left_on=joinKey, right_on=joinKey, how="left")

### 1-5. 2차 join = 응답자 + 1차 join

In [17]:
# 2차 join 데이터 = 같은 응답자의 응답자 정보와 1차 join 데이터를 합친다.
# hid,pid가 같으면 해당데이터는 동일인물임

joinKey2 = ["hid","pid"]

In [18]:
secondmerge = pd.merge(rawdata1, firstmerge, left_on=joinKey2, right_on=joinKey2, how="left")

In [19]:
result00 = secondmerge.reset_index(drop = True)

## 2. 새로운 컬럼 생성

### 2-1. 직업 기준 생성

In [20]:
# 직업을 분류를 명확히하기 위해 대학생,직장인,무직,군인,무응답으로 재설정

jobCodeList = []

for i in range(0,len(result00)):
    jobCode = 123
    job = result00["occ1"][i]
    
    if ((job == 14) | (job == 15)):
        #대학생
        jobCode = 1
    elif job < 10:
        #직장인
        jobCode = 2
    elif job == 16:
        #무직
        jobCode = 3
    elif job == 10:
        #군인
        jobCode = 4
    else:
        jobCode = 999
    jobCodeList.append(jobCode)

In [21]:
# 컬럼이름을 지정후 기존 데이터에 추가

columnName = "job_group"
tempDF = pd.DataFrame(jobCodeList, columns=[columnName])
result01 = pd.concat([result00, tempDF], axis=1)

### 2-2. 만족도 기준 생성

In [22]:
# 항목별 만족도 컬럼이 null값인 데이터를 삭제
# 기존 만족도 데이터는 단편적이며 데이터를 분류하는데 어려움이 있기 때문에 새로운 만족도 기준을 생성

result01 = result01.dropna(subset=["q10_1"]).reset_index(drop = True)

In [23]:
# 항목별 만족도에서 9.경험해보지 못함 -> 0으로 바꿈

result01.loc[:,"q10_1":"q10_12"] = np.where(result01.loc[:,"q10_1":"q10_12"] == 9,0,result01.loc[:,"q10_1":"q10_12"])

In [24]:
# 항복별 만족도의 평균을 구한후 소수점 반올림후 2배하여 새로운 기준을 생성

tempList = []

for i in range(0,len(result01)):
    zeroCount = 0
    for j in result01.loc[i,"q10_1":"q10_12"]:
        if j==0:
            zeroCount += 1
    
    # 항목별 만족도, 전반적 만족도, 재방문의향, 추천의향에 가중치를 설정
    tempList.append(
     (round((math.pow((sum(result01.loc[i,"q10_1":"q10_12"]) / (12-zeroCount)), 2)) * 10) / 10) * 1.2
     + (math.pow((result01.loc[i,"q6_7"]), 2) * 1.6)
     + (math.pow((result01.loc[i,"q6_8"]), 2) * 0.8)
     + (math.pow((result01.loc[i,"q6_9"]), 2) * 0.4))

In [25]:
# 컬럼이름을 지정후 기존 데이터에 추가

colName = "q10_grade"
tempDF = pd.DataFrame(tempList, columns=[colName])
result02 = pd.concat([result01, tempDF], axis=1)

### 2-3. 일별 지출비용 등급

In [26]:
# 지출비용을 이용한 분류를 명확히 하기 위해 지출비용을 5단계로 설정
# 1 : 3만원 이하 
# 2 : 6만원 이하
# 3 : 10만원 이하
# 4 : 20만원 이하
# 5 : 20만원 초과

tempList = []

for i in range(0,len(result02)):
    q7 = result02.loc[i,"q7"]
    day = result02.loc[i,"q2_c_2"]
    temp = q7 / day
    
    if (temp <= 30000):
        grade = 1
    elif (temp <= 60000):
        grade = 2
    elif (temp <= 100000):
        grade = 3
    elif (temp <= 200000):
        grade = 4
    elif (temp > 200000):
        grade = 5
    
    tempList.append(grade)

In [27]:
# 컬럼이름을 지정후 기존 데이터에 추가

colName = "q7_grade"
tempDF = pd.DataFrame(tempList, columns=[colName])
result03 = pd.concat([result02, tempDF], axis=1)

### 2-4. 여행 정보 주요 획득지 컬럼 재정의

In [28]:
#  q4_a,q4_b 두개 컬럼에 value 값이 1~11로 존재하던 정보를 다른 컬럼과 동일하게 재정의
# 해당 value 값의 컬럼을 새로 만들어서 해당 컬럼을 이용여부를 체크
# ex) q4_1(여행사) value : 1 or null
# ex) q4_4(인터넷) value : 4 or null

tempList = [[],[],[],[],[],[],[],[],[],[],[]]

# 데이터의 길이만큼 인덱스로 반복 접근
for i in range(0, len(result03["q4_a"])):
    tempTarget = None
    tempTarget2 = None

    # null 값 체크후 list에 데이터 추가
    if (result03["q4_a"][i].astype(int) != -2147483648):
        tempTarget = result03["q4_a"][i].astype(int)
        tempList[tempTarget - 1].append(tempTarget)
        
   # null 값 체크, q4_a 컬럼과 q4_b 컬럼 데이터의 중복여부 체크후  list에 데이터 추가
    if (result03["q4_b"][i].astype(int) != -2147483648):
        tempTarget2 = result03["q4_b"][i].astype(int)
        if (tempTarget != tempTarget2):
            tempList[tempTarget2 - 1].append(tempTarget2)
        elif (tempTarget == tempTarget2):
            tempTarget2 = None
    
    #  q4_a 컬럼과 q4_b 컬럼 데이터 이외에는 list에 null값 추가
    for j in range(0, 11):
        if ((tempTarget != j+1) & (tempTarget2 != j+1)):
            tempList[j].append(None)

In [29]:
# q4_1. 여행사
# q4_2. 가족/친지
# q4_3. 친구/동료
# q4_4. 인터넷
# q4_5. 관광 안내 서적
# q4_6. 기사 및 방송 프로그램
# q4_7. 광고
# q4_8. 과거 방문경험
# q4_9, 스마트 폰 등 모바일 앱(어플)
# q4_10. 기타
# q4_11. 없음

tempDic = {
    "q4_1" : tempList[0],
    "q4_2" : tempList[1],
    "q4_3" : tempList[2],
    "q4_4" : tempList[3],
    "q4_5" : tempList[4],
    "q4_6" : tempList[5],
    "q4_7" : tempList[6],
    "q4_8" : tempList[7],
    "q4_9" : tempList[8],
    "q4_10" : tempList[9],
    "q4_11" : tempList[10]
}

In [30]:
# 기존 데이터에 추가

dicDF = pd.DataFrame(tempDic)
result04 = pd.concat([result03, dicDF], axis=1)

### 2-5. 여행지 선택 이유 컬럼 재정의

In [31]:
# q6_3_a,q6_3_b,q6_3_c 세개 컬럼에 value 값이 1~15로 존재하던 정보를 다른 컬럼과 동일하게 재정의
# 해당 value 값의 컬럼을 새로 만들어서 해당 컬럼을 이용여부를 체크
# ex) q6_3_1(여행지 지명도) value : 1 or null
# ex) q6_3_12(경험자의 추천) value : 12 or null

tempList = [[],[],[],[],[],[],[],[],[],[],[],[],[],[],[]]

# 데이터의 길이만큼 인덱스로 반복 접근
for i in range(0, len(result04["q6_3_a"])):
    tempTarget = None
    tempTarget2 = None
    tempTarget3 = None

    # null 값 체크후 list에 데이터 추가
    if (result04["q6_3_a"][i] .astype(int) != -2147483648):
        tempTarget = result04["q6_3_a"][i].astype(int)
        tempList[tempTarget - 1].append(tempTarget)
        
    # null 값 체크, q6_3_a 컬럼과 q6_3_b 컬럼 데이터의 중복여부 체크후  list에 데이터 추가
    if (result04["q6_3_b"][i] .astype(int) != -2147483648):
        tempTarget2 = result04["q6_3_b"][i].astype(int)
        if (tempTarget != tempTarget2):
            tempList[tempTarget2 - 1].append(tempTarget2)
        else:
            tempTarget2 = None
            
    # null 값 체크, q6_3_a~c 컬럼 데이터의 중복여부 체크후  list에 데이터 추가
    if (result04["q6_3_c"][i] .astype(int) != -2147483648):
        tempTarget3 = result04["q6_3_c"][i].astype(int)
        if ((tempTarget != tempTarget3) & (tempTarget2 != tempTarget3)):
            tempList[tempTarget3 - 1].append(tempTarget3)
        else:
            tempTarget2 = None
    
    #  q6_3_a~c 컬럼 데이터 이외에는 list에 null값 추가
    for j in range(0, 15):
        if ((tempTarget != j+1) & (tempTarget2 != j+1) & (tempTarget3 != j+1)):
            tempList[j].append(None)

In [32]:
# q6_3_1. 여행지 지명도
# q6_3_2. 볼거리 제공
# q6_3_3. 저렴한 여행경비
# q6_3_4. 이동거리
# q6_3_5. 여행할 수 있는 시간
# q6_3_6. 숙박시설
# q6_3_7. 여행동반자 유형
# q6_3_8. 쇼핑
# q6_3_9. 음식
# q6_3_10. 교통편
# q6_3_11. 체험프로그램 유무
# q6_3_12. 경험자의 추천
# q6_3_13. 관광지 편의시설
# q6_3_14. 교육성
# q6_3_15. 기타

tempDic = {
    "q6_3_1" : tempList[0],
    "q6_3_2" : tempList[1],
    "q6_3_3" : tempList[2],
    "q6_3_4" : tempList[3],
    "q6_3_5" : tempList[4],
    "q6_3_6" : tempList[5],
    "q6_3_7" : tempList[6],
    "q6_3_8" : tempList[7],
    "q6_3_9" : tempList[8],
    "q6_3_10" : tempList[9],
    "q6_3_11" : tempList[10],
    "q6_3_12" : tempList[11],
    "q6_3_13" : tempList[12],
    "q6_3_14" : tempList[13],
    "q6_3_15" : tempList[14]
}

In [33]:
# 기존 데이터에 추가

dicDF = pd.DataFrame(tempDic)
result05 = pd.concat([result04, dicDF], axis=1)

### 2-6. 주요 이동(교통) 수단 컬럼 재정의

In [34]:
#  q6_4 컬럼에 value 값이 1~10로 존재하던 정보를 다른 컬럼과 동일하게 재정의
# 해당 value 값의 컬럼을 새로 만들어서 해당 컬럼을 이용여부를 체크
# ex) q6_4_1(자가용) value : 1 or null
# ex) q6_4_5(지하철) value : 5 or null

tempList = [[],[],[],[],[],[],[],[],[],[]]

# 데이터의 길이만큼 인덱스로 반복 접근
for i in range(0, len(result05["q6_4"])):
    tempTarget = None

    # null 값 체크후 list에 데이터 추가
    if (result05["q6_4"][i] .astype(int) != -2147483648):
        tempTarget = result05["q6_4"][i].astype(int)
        tempList[tempTarget - 1].append(tempTarget)
    
    #  q6_4 컬럼 데이터 이외에는 list에 null값 추가
    for j in range(0, 10):
        if (tempTarget != j+1):
            tempList[j].append(None)

In [35]:
# q6_4_1. 자가용
# q6_4_2.철도
# q6_4_3. 항공기
# q6_4_4. 선박/해상교통
# q6_4_5. 지하철
# q6_4_6. (정기)고속/시외버스
# q6_4_7. (부정기)전세/관광버스
# q6_4_8. 차량대여/렌트
# q6_4_9. 자전거
# q6_4_10. 기타

tempDic = {
    "q6_4_1" : tempList[0],
    "q6_4_2" : tempList[1],
    "q6_4_3" : tempList[2],
    "q6_4_4" : tempList[3],
    "q6_4_5" : tempList[4],
    "q6_4_6" : tempList[5],
    "q6_4_7" : tempList[6],
    "q6_4_8" : tempList[7],
    "q6_4_9" : tempList[8],
    "q6_4_10" : tempList[9]
}

In [36]:
# 기존 데이터에 추가

dicDF = pd.DataFrame(tempDic)
result06 = pd.concat([result05, dicDF], axis=1)

### 2-7. 여행지 컬럼 재정의

In [37]:
# q6_1 컬럼에 value 값이 지역코드로 존재하던 정보를 다른 컬럼과 동일하게 재정의
# 해당 value 값의 컬럼을 새로 만들어서 해당 컬럼을 이용여부를 체크

tempList = [[],[],[],[],[],[],[],[],[],[],[],[],[],[],[],[]]

# 데이터의 길이만큼 인덱스로 반복 접근
for i in range(0, len(result06["q6_1"])):
    tempTarget = None
    tempNumber = 999
    
    # null 값 체크후 list에 데이터 추가
    if (result06["q6_1"][i] .astype(int) != -2147483648):
        tempTarget = result06["q6_1"][i].astype(int)
        
        if (tempTarget == 911):
            tempNumber = 1
        elif (tempTarget == 921):
            tempNumber = 2
        elif (tempTarget == 922):
            tempNumber = 3
        elif (tempTarget == 923):
            tempNumber = 4
        elif (tempTarget == 924):
            tempNumber = 5
        elif (tempTarget == 925):
            tempNumber = 6
        elif (tempTarget == 926):
            tempNumber = 7
        elif (tempTarget == 931):
            tempNumber = 8
        elif (tempTarget == 932):
            tempNumber = 9
        elif (tempTarget == 933):
            tempNumber = 10
        elif (tempTarget == 934):
            tempNumber = 11
        elif (tempTarget == 935):
            tempNumber = 12
        elif (tempTarget == 936):
            tempNumber = 13
        elif (tempTarget == 937):
            tempNumber = 14
        elif (tempTarget == 938):
            tempNumber = 15
        elif (tempTarget == 939):
            tempNumber = 16
        tempList[tempNumber - 1].append(tempTarget)
    
    #  q6_1 컬럼 데이터 이외에는 list에 null값 추가
    for j in range(0, 16):
        if (tempNumber != j+1):
            tempList[j].append(None)

In [38]:
# q060101 911 
# q060102 921
# q060103 922
# q060104 923
# q060105 924
# q060106 925
# q060107 926
# q060108 931
# q060109 932
# q060110 933
# q060111 934
# q060112 935
# q060113 936
# q060114 937
# q060115 938
# q060116 939

tempDic = {
    "q060101" : tempList[0],
    "q060102" : tempList[1],
    "q060103" : tempList[2],
    "q060104" : tempList[3],
    "q060105" : tempList[4],
    "q060106" : tempList[5],
    "q060107" : tempList[6],
    "q060108" : tempList[7],
    "q060109" : tempList[8],
    "q060110" : tempList[9],
    "q060111" : tempList[10],
    "q060112" : tempList[11],
    "q060113" : tempList[12],
    "q060114" : tempList[13],
    "q060115" : tempList[14],
    "q060116" : tempList[15]
}

In [39]:
# 기존 데이터에 추가

dicDF = pd.DataFrame(tempDic)
result07 = pd.concat([result06, dicDF], axis=1)

### 2-8. 분석 데이터 컬럼 재설정

In [40]:
resultData = result07[["age","sex","sido","job_group","month","q1","q2_c_2","q4_1","q4_2","q4_3","q4_4","q4_5","q4_6",
                       "q4_7","q4_8","q4_9","q4_10","q4_11","q5","q060101","q060102","q060103","q060104","q060105","q060106",
                       "q060107","q060108","q060109","q060110","q060111","q060112","q060113","q060114","q060115","q060116",
                       "q6_3_1","q6_3_2","q6_3_3","q6_3_4","q6_3_5","q6_3_6",
                       "q6_3_7","q6_3_8","q6_3_9","q6_3_10","q6_3_11","q6_3_12","q6_3_13","q6_3_14","q6_3_15","q6_4_1","q6_4_2",
                       "q6_4_3","q6_4_4","q6_4_5","q6_4_6","q6_4_7","q6_4_8","q6_4_9","q6_4_10","q6_5_1","q6_5_2","q6_5_3","q6_5_4",
                       "q6_5_5","q6_5_6","q6_5_7","q6_5_8","q6_5_9","q6_5_10","q6_5_11","q6_5_12","q6_5_13","q6_6_1","q6_6_2",
                       "q6_6_3","q6_6_4","q6_6_5","q6_6_6","q6_6_7","q6_6_8","q6_6_9","q6_6_10","q6_6_11","q6_6_12","q6_6_13",
                       "q6_6_14","q6_6_15","q6_6_16","q6_6_17","q6_6_18","q6_6_19","q6_6_20","q6_6_21","q7_grade","q7","q8","q8_1",
                       "q8_2","q8_3","q8_4","q8_5","q8_6","q8_7","q9","q10_grade","q6_7","q6_8","q6_9","q10_1","q10_2","q10_3",
                       "q10_4","q10_5","q10_6","q10_7","q10_8","q10_9","q10_10","q10_11","q10_12"]]

In [41]:
resultData.columns = ["age","sex","sido","jobgroup","month","q010000","q020000","q040100","q040200","q040300","q040400","q040500",
                      "q040600","q040700","q040800","q040900","q041000","q041100","q050000","q060101","q060102","q060103","q060104",
                      "q060105","q060106","q060107","q060108","q060109","q060110","q060111","q060112","q060113","q060114","q060115",
                      "q060116","q060301","q060302","q060303",
                      "q060304","q060305","q060306","q060307","q060308","q060309","q060310","q060311","q060312","q060313","q060314",
                      "q060315","q060401","q060402","q060403","q060404","q060405","q060406","q060407","q060408","q060409","q060410",
                      "q060501","q060502","q060503","q060504","q060505","q060506","q060507","q060508","q060509","q060510","q060511",
                      "q060512","q060513","q060601","q060602","q060603","q060604","q060605","q060606","q060607","q060608","q060609",
                      "q060610","q060611","q060612","q060613","q060614","q060615","q060616","q060617","q060618","q060619","q060620",
                      "q060621","q07grade","q070000","q080000","q080100","q080200","q080300","q080400","q080500","q080600","q080700",
                      "q090000","q10grade","q060700","q060800","q060900","q100100","q100200","q100300","q100400","q100500","q100600",
                      "q100700","q100800","q100900","q101000","q101100","q101200"]

In [42]:
tempList = [[],[]]

for i in range(1, len(resultData) + 1):
    tempList[0].append(i)

In [43]:
tempDic = {
    "idx" : tempList[0]
}

In [44]:
dicDF = pd.DataFrame(tempDic)

In [45]:
resultData = pd.concat([dicDF, resultData], axis=1)

In [45]:
resultData

Unnamed: 0,age,sex,sido,jobgroup,month,q010000,q020000,q040100,q040200,q040300,...,q100300,q100400,q100500,q100600,q100700,q100800,q100900,q101000,q101100,q101200
0,28,2,1,3,4.0,2.0,2.0,,,3.0,...,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0
1,23,2,1,1,4.0,2.0,2.0,,,3.0,...,4.0,0.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0
2,23,2,1,1,8.0,2.0,2.0,,,3.0,...,4.0,0.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0
3,21,1,1,1,3.0,2.0,3.0,,,3.0,...,4.0,4.0,4.0,4.0,4.0,4.0,4.0,0.0,4.0,4.0
4,21,1,1,1,10.0,2.0,2.0,,,3.0,...,5.0,4.0,4.0,0.0,5.0,5.0,5.0,3.0,4.0,4.0
5,21,1,1,1,10.0,2.0,2.0,,,3.0,...,5.0,4.0,4.0,0.0,5.0,5.0,5.0,3.0,4.0,4.0
6,21,1,1,1,10.0,2.0,2.0,,,3.0,...,5.0,0.0,4.0,0.0,5.0,5.0,5.0,0.0,3.0,3.0
7,21,1,1,1,10.0,2.0,2.0,,,3.0,...,5.0,0.0,4.0,0.0,5.0,5.0,5.0,0.0,3.0,3.0
8,22,2,1,1,4.0,2.0,3.0,1.0,,3.0,...,4.0,4.0,3.0,4.0,4.0,3.0,3.0,3.0,4.0,4.0
9,22,2,1,1,6.0,2.0,2.0,,,3.0,...,3.0,3.0,4.0,5.0,4.0,3.0,4.0,3.0,4.0,4.0


In [47]:
resultData.to_csv("./resultData.csv", index=False)

# 데이터베이스 저장

In [46]:
import pymysql
from sqlalchemy import create_engine

In [47]:
engine = create_engine("oracle+cx_oracle://kopo2019:kopo2019@192.168.110.112:1521/orcl")

In [48]:
resultname = "THECUTE"
resultData.to_sql(resultname, engine, if_exists="replace", index=False)



In [49]:
import cx_Oracle

In [50]:
# THECUTE, THECUTE_USER 테이블 idx 자동증가 쿼리

conn = cx_Oracle.connect("kopo2019", "kopo2019", "192.168.110.112:1521/orcl")
cur = conn.cursor()
cur.execute("CREATE SEQUENCE SEQ_IDX INCREMENT BY 1 START WITH 1295")
cur.execute("CREATE SEQUENCE USER_IDX INCREMENT BY 1 START WITH 1")

In [51]:
# THECUTE_USER 테이블 생성

cur.execute("CREATE TABLE THECUTE_USER (IDX NUMBER, ID VARCHAR2(100), PASSWORD VARCHAR2(100), BIRTHDAY VARCHAR2(100), NAME VARCHAR2(100), CONSTRAINTS PK_THECUTE_USER PRIMARY KEY(ID))")

In [52]:
# THECUTE 테이블 ID 컬럼 생성

cur.execute("ALTER TABLE THECUTE ADD (ID VARCHAR2(100))")

In [53]:
# THECUTE 테이블 ID 컬럼 외래키 지정 

cur.execute("ALTER TABLE THECUTE ADD CONSTRAINT FK_THECUTE FOREIGN KEY(ID) REFERENCES THECUTE_USER(ID)")