# 1. 파일 목록 확인

In [259]:
import pandas as pd
import os

In [260]:
file_list = os.listdir("data2")

# 2. 데이터 셋 병합

`1` 데이터 로드

In [261]:
df1 = pd.read_csv("data2/" + file_list[0], encoding = "euc-kr")
df2 = pd.read_csv("data2/" + file_list[1]).set_index("key").reset_index()
df3 = pd.read_csv("data2/" + file_list[2]).set_index("key").reset_index()
df4 = pd.read_csv("data2/" + file_list[3]).set_index("key").reset_index()

`2` 데이터 병합

* 잘못된 key값 수정

In [262]:
df2["key"] = [i[:-2] for i in df2["key"]]
df3["key"] = [i[:-2] for i in df3["key"]]

In [263]:
df2["key"] = [i.replace("_", "-")for i in df2["key"]]
df3["key"]= [i.replace("_", "-")for i in df3["key"]]

In [264]:
total = pd.merge(df1,df2, on = "key", how = "left")

for i in range(3,5) :
    exec(f"temp = df{i}")
    total = pd.merge(total,temp, on = "key", how = "left")

# 3. 불필요한 컬럼삭제

`1` `_x`, `_y` 가 포함된 컬럼은 삭제하자

In [265]:
total = total.loc[:, map(lambda x : ("_x" not in x) & ("_y" not in x) ,total.columns)]

`2` `Unnamed: 0` 컬러 삭제

In [266]:
total.drop("Unnamed: 0", axis = 1, inplace = True)

In [267]:
total.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68543 entries, 0 to 68542
Data columns (total 29 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   key                                       68543 non-null  object 
 1   WORKDAY_DAY_AVRG_LSR_TIME_VALUE           68543 non-null  int64  
 2   WKEND_DAY_AVRG_LSR_TIME_VALUE             68543 non-null  int64  
 3   ONE_WEEK_TOT_LSR_TIME_VALUE               68543 non-null  int64  
 4   LSR_TIME_REST_RCRT_USE_RATE               68543 non-null  float64
 5   LSR_TIME_HOBBY_USE_RATE                   68543 non-null  float64
 6   LSR_TIME_SELF_IMPT_USE_RATE               68543 non-null  float64
 7   LSR_TIME_TWDPSN_RLTN_FLWSP_USE_RATE       68543 non-null  float64
 8   LSR_TIME_ETC_USE_RATE                     68543 non-null  float64
 9   CLTUR_ART_VIEWNG_INTRST_DGREE_VALUE       66462 non-null  object 
 10  CLTUR_ART_ACT_INTRST_DGREE_VALUE  

`3` 컬럼 순서 변경

In [268]:
temp1 = total.iloc[:,[0,23,24,25,26]]
f_col = temp1.columns.tolist()

temp2 = total.loc[:, map(lambda x : x not in f_col, total.columns)]
total = pd.concat([temp1,temp2],axis = 1)

# 5. 중복값 삭제

In [269]:
total = total.drop_duplicates(subset = ["key"])

In [270]:
total.shape

(68517, 29)

In [271]:
len(total["key"].unique())

68517

# 6. 컬럼명 변경

`1` 컬럼명이 너무 지저분하므로 바꿀 필요가 있음

In [272]:
total.info()

<class 'pandas.core.frame.DataFrame'>
Index: 68517 entries, 0 to 68542
Data columns (total 29 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   key                                       68517 non-null  object 
 1   성별구분코드                                    68517 non-null  object 
 2   연령대구분명                                    68517 non-null  object 
 3   답변자거주지역명                                  68517 non-null  object 
 4   가구소득정도명                                   68517 non-null  object 
 5   WORKDAY_DAY_AVRG_LSR_TIME_VALUE           68517 non-null  int64  
 6   WKEND_DAY_AVRG_LSR_TIME_VALUE             68517 non-null  int64  
 7   ONE_WEEK_TOT_LSR_TIME_VALUE               68517 non-null  int64  
 8   LSR_TIME_REST_RCRT_USE_RATE               68517 non-null  float64
 9   LSR_TIME_HOBBY_USE_RATE                   68517 non-null  float64
 10  LSR_TIME_SELF_IMPT_USE_RATE            

In [273]:
total.rename(columns ={"WORKDAY_DAY_AVRG_LSR_TIME_VALUE" : "평일일평균레저시간",
                       "WKEND_DAY_AVRG_LSR_TIME_VALUE" : "주말일평균레저시간",
                       "ONE_WEEK_TOT_LSR_TIME_VALUE" : "1주총레저시간", 
                        "LSR_TIME_REST_RCRT_USE_RATE" :"레저시간휴식오락사용비율",
                        "LSR_TIME_HOBBY_USE_RATE": "레저시간취미사용비율",
                        "LSR_TIME_SELF_IMPT_USE_RATE": "레저시간본인계발사용비율",
                      "LSR_TIME_TWDPSN_RLTN_FLWSP_USE_RATE" : "레저시간대인관계교제사용비율",
                      "LSR_TIME_ETC_USE_RATE" : "레저시간기타사용비율",
                       "CLTUR_ART_VIEWNG_INTRST_DGREE_VALUE" : "문화예술관람관심정도",
                        "CLTUR_ART_ACT_INTRST_DGREE_VALUE" :"문화예술활동관심정도",
                        "SPORTS_VIEWNG_INTRST_DGREE_VALUE" : "스포츠관람관심정도",
                        "SPORTS_ACT_INTRST_DGREE_VALUE" :  "스포츠활동관심정도",
                        "TURSM_TOUR_INTRST_DGREE_VALUE" : "관광여행관심정도",
                         "RCRT_REST_INTRST_DGREE_VALUE" : "오락휴식관심정도",
                         "SELF_IMPT_SELF_MANAGE_INTRST_DGREE_VALUE" : "본인계발본인관리관심정도",
                         "SCT_EXCHG_INTRST_DGREE_VALUE" : "사회교류관심정도", 
                        "LSR_TIME_USE_PURPS_RN1_VALUE" : "레저시간사용목적1순위값",
                        "LSR_TIME_USE_PURPS_RN2_VALUE" : "레저시간사용목적2순위값"},inplace = True)

In [274]:
total.info()

<class 'pandas.core.frame.DataFrame'>
Index: 68517 entries, 0 to 68542
Data columns (total 29 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   key                    68517 non-null  object 
 1   성별구분코드                 68517 non-null  object 
 2   연령대구분명                 68517 non-null  object 
 3   답변자거주지역명               68517 non-null  object 
 4   가구소득정도명                68517 non-null  object 
 5   평일일평균레저시간              68517 non-null  int64  
 6   주말일평균레저시간              68517 non-null  int64  
 7   1주총레저시간                68517 non-null  int64  
 8   레저시간휴식오락사용비율           68517 non-null  float64
 9   레저시간취미사용비율             68517 non-null  float64
 10  레저시간본인계발사용비율           68517 non-null  float64
 11  레저시간대인관계교제사용비율         68517 non-null  float64
 12  레저시간기타사용비율             68517 non-null  float64
 13  문화예술관람관심정도             66436 non-null  object 
 14  문화예술활동관심정도             66436 non-null  object 
 15  스포츠관람관심

In [275]:
d_col = ["SEXDSTN_FLAG_CD", "AGRDE_FLAG_NM", "ANSWRR_OC_AREA_NM", "HSHLD_INCOME_DGREE_NM"]

total.drop(d_col, axis = 1,inplace = True)
total.dropna(inplace = True)

In [276]:
total.to_csv("1차 데이터합본.csv", encoding = "euc-kr", index = False)

In [279]:
total.reset_index(inplace = True, drop = True)

In [280]:
total.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65383 entries, 0 to 65382
Data columns (total 25 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   key             65383 non-null  object 
 1   성별구분코드          65383 non-null  object 
 2   연령대구분명          65383 non-null  object 
 3   답변자거주지역명        65383 non-null  object 
 4   가구소득정도명         65383 non-null  object 
 5   평일일평균레저시간       65383 non-null  int64  
 6   주말일평균레저시간       65383 non-null  int64  
 7   1주총레저시간         65383 non-null  int64  
 8   레저시간휴식오락사용비율    65383 non-null  float64
 9   레저시간취미사용비율      65383 non-null  float64
 10  레저시간본인계발사용비율    65383 non-null  float64
 11  레저시간대인관계교제사용비율  65383 non-null  float64
 12  레저시간기타사용비율      65383 non-null  float64
 13  문화예술관람관심정도      65383 non-null  object 
 14  문화예술활동관심정도      65383 non-null  object 
 15  스포츠관람관심정도       65383 non-null  object 
 16  스포츠활동관심정도       65383 non-null  object 
 17  관광여행관심정도        65383 non-null 