# 야놀자 주중판매가 정제
## 정제는 1~10 순서대로 내려감
- df_주중: 주중판매가 크롤링 데이터
- df_메인: 야놀자에서 제공한 데이터

In [1]:
import pandas as pd

df_주중 = pd.read_csv('야놀자_크롤링/숙소정보.csv')
df_메인 = pd.read_csv('0731_메인프레임.v3.csv')

In [2]:
df_메인.head()

Unnamed: 0,LDGS_CD,LDGS_NM,LDGS_TY_CD,LDGMNT_TY_NM,LDGS_ZIP_NO,LDGS_ROAD_NM_ADDR,LDGS_LA,LDGS_LO,CHIN_TIME,CHOT_TIME,숙소 검색량(전체),상위 시도,하위 시구,지역별_관심도,유튜브_상위20_평균조회수
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,20,서울,영등포구,3.05727,725000
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,20,충북,청주시,2.802088,67961
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,310,서울,강남구,3.05727,725000
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,20,대전,유성구,2.918471,155050
4,23206,부천(상동)MYHOTEL,1,Motel,14542,경기도 부천시 길주로121번길 18-11(상동),37.506612,126.756644,,,20,경기,부천시,2.928911,246000


- 'LDGS_CD' -> '숙소ID' (숙소명 변경)

In [3]:
# df_메인 LDGS_CD 컬럼 명 변경
df_메인.rename(columns={'LDGS_CD': '숙소ID'}, inplace=True)

In [4]:
df_주중

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,23184,4.7,3202,65000
1,23192,4.6,670,예약마감
2,23197,4.2,9275,60000
3,23204,4.7,245,60000
4,23206,후기,없음,예약마감
...,...,...,...,...
26978,1000114540,후기,없음,110000
26979,1000114543,후기,없음,예약마감
26980,1000114558,2.7,38,60000
26981,1000114577,4.9,456,70000


- df_메인에는 있고 df_nol에는 없는 상품ID(숙소ID)

In [5]:
# df_메인에는 있고 df_nol에는 없는 상품ID(숙소ID) 확인 및 행 출력
missing_ids = set(df_메인['숙소ID']) - set(df_주중['숙소ID'])
df_누락 = df_메인[df_메인['숙소ID'].isin(missing_ids)]

- df_주중 : 야놀자 크롤링 돌린데이터에 별점, 리뷰수, 주중판매가 오류인 숙소 재크롤링
- df_누락1 변수로 분리

In [6]:
# 별점 컬럼이 후기이거나 nan 경우, 리뷰수가 없음인 경우, 주중판매가가 예약마감이나 없음인 경우인 행 출력
df_누락1 = df_주중[
    (df_주중['별점'] == '후기') | 
    (df_주중['별점'].isna()) | 
    (df_주중['리뷰수'] == '없음') | 
    (df_주중['주중판매가'] == '예약마감') | 
    (df_주중['주중판매가'] == '없음')
]
df_누락1

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
1,23192,4.6,670,예약마감
4,23206,후기,없음,예약마감
20,23245,4.7,4336,예약마감
22,23271,4.9,3213,예약마감
29,23291,4.6,820,예약마감
...,...,...,...,...
26969,1000114487,,없음,예약마감
26970,1000114491,4.6,264,예약마감
26971,1000114500,4.3,27,예약마감
26978,1000114540,후기,없음,110000


- df_주중_clean : 오류가 없는 행 분리

In [7]:
# 별점 컬럼이 후기이거나 nan 경우, 리뷰수가 없음인 경우, 주중판매가가 예약마감이나 없음인 경우인 행 삭제
df_주중_clean = df_주중[
    ~(
        (df_주중['별점'] == '후기') | 
        (df_주중['별점'].isna()) | 
        (df_주중['리뷰수'] == '없음') | 
        (df_주중['주중판매가'] == '예약마감') | 
        (df_주중['주중판매가'] == '없음')
    )
]
df_주중_clean

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,23184,4.7,3202,65000
2,23197,4.2,9275,60000
3,23204,4.7,245,60000
5,23207,4.8,10124,최대할인가55000
6,23216,4.6,4501,45000
...,...,...,...,...
26976,1000114526,3.3,64,45000
26977,1000114529,4.3,51,115000
26980,1000114558,2.7,38,60000
26981,1000114577,4.9,456,70000


- 메인프레임에만 있는 숙소ID와 누락 값이 있는 df_누락1과 concat

In [8]:
# df_누락['상품ID'] 와 df_누락1['숙소ID'] 합치기
combined_ids = pd.concat([df_누락['숙소ID'], df_누락1['숙소ID']]).drop_duplicates().reset_index(drop=True)
combined_ids

0         10054075
1         10059010
2         10059501
3         10059525
4         10059594
           ...    
9623    1000114487
9624    1000114491
9625    1000114500
9626    1000114540
9627    1000114543
Name: 숙소ID, Length: 9628, dtype: int64

- combined_ids 데이터프레임으로 변환

In [9]:
# combined_ids 데이터프레임으로 변환
df_combined_ids = pd.DataFrame(combined_ids, columns=['숙소ID'])
df_combined_ids

Unnamed: 0,숙소ID
0,10054075
1,10059010
2,10059501
3,10059525
4,10059594
...,...
9623,1000114487
9624,1000114491
9625,1000114500
9626,1000114540


## 2차 정제
- 크롤링 돌린 데이터 로드

In [None]:
df_누락수정 =  pd.read_csv('야놀자_크롤링/누락숙소.csv')
df_누락수정1 =  pd.read_csv('야놀자_크롤링/1차누락숙소.csv')

- 데이터 병합

In [146]:
# df_누락수정와 df_누락수정1 concat
df_누락수정_combined = pd.concat([df_누락수정, df_누락수정1], ignore_index=True)

- 숙소ID 중복인행 출력

In [147]:
# 숙소ID 기준으로 중복인 행 출력
df_누락수정_combined[df_누락수정_combined.duplicated(subset=['숙소ID'], keep=False)].sort_values(by='숙소ID', ascending=False).head()

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
9657,1000111408,5.0,30,예약마감
9628,1000111408,5.0,30,예약마감
9627,1000111194,4.6,4271,예약마감
9656,1000111194,4.6,4271,예약마감
9655,1000111061,,없음,없음


In [148]:
# 숙소ID 기준으로 중복된 행을 하나만 남기고 삭제
# (keep='first'로 첫 번째만 남김)
df_누락수정_combined = df_누락수정_combined.drop_duplicates(subset=['숙소ID'], keep='first')
df_누락수정_combined

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,10054075,,없음,예약마감
1,10059010,5.0,2,280000
2,10059501,4.0,13,예약마감
3,10059525,5.0,2,780000
4,10059594,3.0,2,700000
...,...,...,...,...
9624,1000110527,후기,없음,219000
9625,1000110771,4.8,201,예약마감
9626,1000111061,,없음,없음
9627,1000111194,4.6,4271,예약마감


- df_누락수정_combined : 예약마감 및 없음인 행은 삭제

In [149]:
# df_누락수정_combined 주중판매가 컬럼이 '예약마감'및 없음 인 행 삭제
df_누락수정_combined = df_누락수정_combined[
    ~(
        (df_누락수정_combined['주중판매가'] == '예약마감') | 
        (df_누락수정_combined['주중판매가'] == '없음')
    )
]

In [150]:
# 주중판매가 컬럼이 '예약마감'인 행 출력
df_누락수정_크롤링 = df_누락수정_combined[df_누락수정_combined['주중판매가'] == '예약마감']

## 3차 정제

## 주중판매가 정제

In [151]:
df_2차누락숙소 = pd.read_csv('야놀자_크롤링/2차누락숙소.csv')

In [152]:
df_2차누락숙소

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,10054075,없음,없음,260000
1,10059501,4.0,13,40000
2,10059932,5.0,3,49000
3,10060452,없음,없음,400000
4,10060499,4.4,31,50000
...,...,...,...,...
3497,1000109477,2.0,1,250000
3498,1000109538,없음,37,예약마감
3499,1000110771,4.8,201,40000
3500,1000111194,4.6,4271,예약마감


In [153]:
# df_주중_clean , df_누락수정_combined, df_2차누락숙소 contcat
df_주중최종 = pd.concat([df_주중_clean, df_누락수정_combined, df_2차누락숙소], ignore_index=True)

In [154]:
df_주중최종

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,23184,4.7,3202,65000
1,23197,4.2,9275,60000
2,23204,4.7,245,60000
3,23207,4.8,10124,최대할인가55000
4,23216,4.6,4501,45000
...,...,...,...,...
25158,1000109477,2.0,1,250000
25159,1000109538,없음,37,예약마감
25160,1000110771,4.8,201,40000
25161,1000111194,4.6,4271,예약마감


- 별점, 리뷰수, 주중판매 정제

In [155]:
# 주중판매가 예약마감인 경우 삭제
df_주중최종 = df_주중최종[
    ~(
        (df_주중최종['주중판매가'] == '예약마감') | 
        (df_주중최종['주중판매가'] == '없음')
    )
]


In [156]:
# 별점 컬럼 nan이거나 없음 인 경우 삭제
df_주중최종 = df_주중최종[
    ~(
        (df_주중최종['별점'].isna()) | 
        (df_주중최종['별점'] == '없음') |
        (df_주중최종['별점'] == '후기')
    )
]

In [157]:
df_주중최종 = df_주중최종.drop_duplicates(subset=['숙소ID'], keep='first')

In [158]:
# df_주중최종 숙소 ID 중복 확인
df_주중최종.to_csv('야놀자_크롤링/주중최종숙소정보.csv', index=False)

In [159]:
df_주중최종

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,23184,4.7,3202,65000
1,23197,4.2,9275,60000
2,23204,4.7,245,60000
3,23207,4.8,10124,최대할인가55000
4,23216,4.6,4501,45000
...,...,...,...,...
25141,1000101206,3.0,32,45000
25144,1000109451,4.3,235,38000
25145,1000109477,2.0,1,250000
25147,1000110771,4.8,201,40000


In [160]:
missing_ids_final = sorted(set(df_메인['숙소ID']) - set(df_주중최종['숙소ID']))
df_missing = pd.DataFrame(missing_ids_final, columns=['숙소ID'])
df_missing.to_csv("누락_숙소ID_목록.csv", index=False)
df_missing

Unnamed: 0,숙소ID
0,23206
1,23271
2,23293
3,23312
4,23402
...,...
6151,1000114444
6152,1000114446
6153,1000114487
6154,1000114540


## 3차 주중 누락 정제

In [12]:
import pandas as pd
df_주중누락3차 = pd.read_csv('야놀자_크롤링/3차누락숙소.csv')

In [13]:
df_주중누락3차

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,23206,없음,3407,예약마감
1,23271,4.9,3213,예약마감
2,23293,없음,없음,없음
3,23312,없음,없음,없음
4,23402,4.8,16050,예약마감
...,...,...,...,...
6147,1000114444,없음,1,예약마감
6148,1000114446,없음,없음,예약마감
6149,1000114487,없음,없음,예약마감
6150,1000114540,없음,2,110000


In [14]:
# df_주중누락3차 별점 컬럼이 nan이거나 없음 인 행 삭제
df_주중누락3차 = df_주중누락3차[
    ~(
        (df_주중누락3차['별점'].isna()) | 
        (df_주중누락3차['별점'] == '없음') |
        (df_주중누락3차['별점'] == '후기')
    )
]

In [15]:
# 주중판매가 예약마감인 경우 삭제
df_주중누락3차 = df_주중누락3차[
    ~(
        (df_주중누락3차['주중판매가'] == '예약마감') | 
        (df_주중누락3차['주중판매가'] == '없음')
    )   
]


In [16]:
df_주중누락3차.info()

<class 'pandas.core.frame.DataFrame'>
Index: 47 entries, 12 to 5830
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   숙소ID    47 non-null     int64 
 1   별점      47 non-null     object
 2   리뷰수     47 non-null     object
 3   주중판매가   47 non-null     object
dtypes: int64(1), object(3)
memory usage: 1.8+ KB


## 4차정제

In [10]:
import pandas as pd
df_최종주중_v1 = pd.read_csv('야놀자_크롤링/주중최종숙소정보.csv')

In [17]:
# df_최종주중, df_주중누락3차 병합
df_최종주중_v1 = pd.concat([df_최종주중_v1, df_주중누락3차], ignore_index=True)

- 주중판매가 컬럼 (최대할인가) 삭제

In [18]:
df_최종주중_v1['주중판매가'] = df_최종주중_v1['주중판매가'].astype(str).str.replace('최대할인가', '', regex=False).str.strip()

In [19]:
df_최종주중_v1

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,23184,4.7,3202,65000
1,23197,4.2,9275,60000
2,23204,4.7,245,60000
3,23207,4.8,10124,55000
4,23216,4.6,4501,45000
...,...,...,...,...
20894,1000110449,4.8,395,45000
20895,1000110768,3.0,1,130000
20896,1000110770,4.8,34,105000
20897,1000111075,4.7,914,30000


In [20]:
df_최종주중_v1.to_csv('야놀자_크롤링/0806주중최종숙소정보v1.csv', index=False)


# 주말 및 주중 판매가 병합

In [171]:
import pandas as pd
df_clean_주중 = pd.read_csv('야놀자_크롤링/0806주중최종숙소정보v1.csv')
df_주말 = pd.read_csv('야놀자_크롤링/숙소정보_주말.csv')

- 별점 리뷰수는 삭제

In [172]:
df_주말

Unnamed: 0,숙소ID,별점,리뷰수,주말판매가
0,23184,4.7,3205,최대할인가110000
1,23192,4.6,670,50000
2,23197,4.2,9276,120000
3,23204,4.7,245,90000
4,23206,후기,없음,예약마감
...,...,...,...,...
26997,1000114540,후기,없음,예약마감
26998,1000114543,후기,없음,예약마감
26999,1000114558,2.7,38,80000
27000,1000114577,4.9,456,100000


In [173]:
# df_주말 별점 리뷰수는 삭제
df_주말 = df_주말.drop(columns=['별점', '리뷰수'])

In [174]:
df_주말

Unnamed: 0,숙소ID,주말판매가
0,23184,최대할인가110000
1,23192,50000
2,23197,120000
3,23204,90000
4,23206,예약마감
...,...,...
26997,1000114540,예약마감
26998,1000114543,예약마감
26999,1000114558,80000
27000,1000114577,100000


- 주말판매가 주중 데이터 프레임으로 병함

In [175]:
df_clean_주중

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,23184,4.7,3202,65000
1,23197,4.2,9275,60000
2,23204,4.7,245,60000
3,23207,4.8,10124,55000
4,23216,4.6,4501,45000
...,...,...,...,...
20894,1000110449,4.8,395,45000
20895,1000110768,3.0,1,130000
20896,1000110770,4.8,34,105000
20897,1000111075,4.7,914,30000


In [176]:
# 별점 컬럼이 nan이거나 없음 인 행 출력
df_clean_주중[df_clean_주중['별점'].isna() | (df_clean_주중['별점'] == '없음')]

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가


In [177]:
# 리뷰수 컬럼이 nan이거나 없음 인 행 출력
df_clean_주중[df_clean_주중['리뷰수'].isna() | (df_clean_주중['리뷰수'] == '없음')]

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가


In [178]:
# 주중판매가 컬럼이 예약마감이나 없음 인 행 출력
df_clean_주중[df_clean_주중['주중판매가'].isin(['예약마감', '없음'])]

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가


In [179]:
# 숙소 ID 기준으로 df_주말 주말판매가 컬럼을 df_clean_주중에 병합
df_clean_주중 = df_clean_주중.merge(df_주말[['숙소ID', '주말판매가']], on='숙소ID', how='left')

In [180]:
df_clean_주중

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가,주말판매가
0,23184,4.7,3202,65000,최대할인가110000
1,23197,4.2,9275,60000,120000
2,23204,4.7,245,60000,90000
3,23207,4.8,10124,55000,최대할인가125000
4,23216,4.6,4501,45000,90000
...,...,...,...,...,...
20894,1000110449,4.8,395,45000,예약마감
20895,1000110768,3.0,1,130000,130000
20896,1000110770,4.8,34,105000,예약마감
20897,1000111075,4.7,914,30000,예약마감


In [181]:
df_clean_주중.to_csv('야놀자_크롤링/0807_최종숙소판매가.csv', index=False)

In [182]:
# 주말 판매가 컬럼이 nan이거나 예약마감인행 출력
df_주말_누락 = df_clean_주중[
    (df_clean_주중['주말판매가'].isna()) | 
    (df_clean_주중['주말판매가'] == '예약마감') |
    (df_clean_주중['주말판매가'] == '없음')
]

In [183]:
df_주말_누락.to_csv('야놀자_크롤링/0806주말_누락숙소.csv', index=False)

## 주말 판매가 정제

In [184]:
import pandas as pd
df_판매가 = pd.read_csv('야놀자_크롤링/0807_최종숙소판매가.csv')
df_주말크롤링 = pd.read_csv('야놀자_크롤링/1차주말누락숙소.csv')

In [185]:
df_판매가

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가,주말판매가
0,23184,4.7,3202,65000,최대할인가110000
1,23197,4.2,9275,60000,120000
2,23204,4.7,245,60000,90000
3,23207,4.8,10124,55000,최대할인가125000
4,23216,4.6,4501,45000,90000
...,...,...,...,...,...
20894,1000110449,4.8,395,45000,예약마감
20895,1000110768,3.0,1,130000,130000
20896,1000110770,4.8,34,105000,예약마감
20897,1000111075,4.7,914,30000,예약마감


In [186]:
df_주말크롤링

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가
0,23279,4.5,11,50000
1,23693,4.9,2924,70000
2,24004,4.8,3263,최대할인가57000
3,24102,4.4,4606,66000
4,24452,4.6,4660,최대할인가36000
...,...,...,...,...
4816,1000108078,4.3,570,예약마감
4817,1000109491,3.8,32,125000
4818,1000110449,4.8,397,48000
4819,1000110770,4.8,34,105000


In [187]:
# 컬럼 이름 변경
df_주말크롤링.rename(columns={'주중판매가': '주말판매가'}, inplace=True)

In [188]:
# 별점,리뷰수 삭제
df_주말크롤링 = df_주말크롤링.drop(columns=['별점', '리뷰수'])

In [189]:
# df_주말크롤링을 dict 형태로 변환 (숙소ID → 주말판매가)
주말가격_dict = df_주말크롤링.set_index('숙소ID')['주말판매가'].to_dict()

# df_판매가에서 숙소ID 기준으로 덮어쓰기 (없는 ID는 기존 값 유지)
df_판매가['주말판매가'] = df_판매가.apply(
    lambda row: 주말가격_dict.get(row['숙소ID'], row['주말판매가']),
    axis=1
)


In [190]:
# 예약 마감 인행 출력
df_판매가[df_판매가['주말판매가'].isin(['예약마감', '없음'])].to_csv('야놀자_크롤링/0807예약마감숙소.csv', index=False)

- 2차 정제

In [191]:
df_주말크롤링2차 = pd.read_csv('야놀자_크롤링/2차주말누락숙소.csv')

In [192]:
# df_주말크롤링을 dict 형태로 변환 (숙소ID → 주말판매가)
주말가격_dict1 = df_주말크롤링2차.set_index('숙소ID')['주말판매가'].to_dict()

# df_판매가에서 숙소ID 기준으로 덮어쓰기 (없는 ID는 기존 값 유지)
df_판매가['주말판매가'] = df_판매가.apply(
    lambda row: 주말가격_dict1.get(row['숙소ID'], row['주말판매가']),
    axis=1
)

In [193]:
df_판매가

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가,주말판매가
0,23184,4.7,3202,65000,최대할인가110000
1,23197,4.2,9275,60000,120000
2,23204,4.7,245,60000,90000
3,23207,4.8,10124,55000,최대할인가125000
4,23216,4.6,4501,45000,90000
...,...,...,...,...,...
20894,1000110449,4.8,395,45000,48000
20895,1000110768,3.0,1,130000,130000
20896,1000110770,4.8,34,105000,105000
20897,1000111075,4.7,914,30000,40000


In [194]:
# 주말판매가가 NaN이거나 '예약마감', '없음'인 행 삭제
df_판매가 = df_판매가[
    ~(
        df_판매가['주말판매가'].isna() | 
        df_판매가['주말판매가'].isin(['예약마감', '없음'])
    )
]

In [195]:
df_판매가

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가,주말판매가
0,23184,4.7,3202,65000,최대할인가110000
1,23197,4.2,9275,60000,120000
2,23204,4.7,245,60000,90000
3,23207,4.8,10124,55000,최대할인가125000
4,23216,4.6,4501,45000,90000
...,...,...,...,...,...
20894,1000110449,4.8,395,45000,48000
20895,1000110768,3.0,1,130000,130000
20896,1000110770,4.8,34,105000,105000
20897,1000111075,4.7,914,30000,40000


In [196]:
df_판매가['주말판매가'] = df_판매가['주말판매가'].str.replace('최대할인가', '', regex=False).str.strip()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_판매가['주말판매가'] = df_판매가['주말판매가'].str.replace('최대할인가', '', regex=False).str.strip()


In [197]:
df_판매가

Unnamed: 0,숙소ID,별점,리뷰수,주중판매가,주말판매가
0,23184,4.7,3202,65000,110000
1,23197,4.2,9275,60000,120000
2,23204,4.7,245,60000,90000
3,23207,4.8,10124,55000,125000
4,23216,4.6,4501,45000,90000
...,...,...,...,...,...
20894,1000110449,4.8,395,45000,48000
20895,1000110768,3.0,1,130000,130000
20896,1000110770,4.8,34,105000,105000
20897,1000111075,4.7,914,30000,40000


In [198]:
# 비정상 문자열 마스크 생성 (숫자 아님)
mask_주중 = ~df_판매가['주중판매가'].astype(str).str.replace(',', '').str.replace('.', '').str.isnumeric()

# 데이터프레임으로 추출
df_비정상_주중 = df_판매가[mask_주중].copy()

# 확인
df_비정상_주중.to_csv('야놀자_크롤링/비정상_주중판매가.csv', index=False)


In [199]:
mask_주말 = ~df_판매가['주말판매가'].astype(str).str.replace(',', '').str.replace('.', '').str.isnumeric()

df_비정상_주말 = df_판매가[mask_주말].copy()

df_비정상_주말.to_csv('야놀자_크롤링/비정상_주말판매가.csv', index=False)


- 비정상 판매가 매핑

In [200]:
df_비정상주중 = pd.read_csv('야놀자_크롤링/1비정상_주중판매가.csv')
df_비정상주말 = pd.read_csv('야놀자_크롤링/1비정상_주말판매가.csv')

In [201]:
df_비정상주말

Unnamed: 0,숙소ID,주말판매가
0,23411,75000
1,27653,55000
2,28171,63750
3,1003225,60000
4,1010912,44100
5,1012078,81000
6,3000161,49500
7,3000287,60000
8,3010744,65000
9,3016617,65000


In [202]:
df_비정상주중

Unnamed: 0,숙소ID,주중판매가
0,23411,48000
1,27653,50000
2,28171,36975
3,1003225,50000
4,1010912,36000
5,1012078,45000
6,3000161,29700
7,3000287,38700
8,3010744,65000
9,3016617,40000


In [203]:
# 주말/주중 가격 dict 생성
주말가격_dict = df_비정상주말.set_index('숙소ID')['주말판매가'].to_dict()
주중가격_dict = df_비정상주중.set_index('숙소ID')['주중판매가'].to_dict()

# 덮어쓰기: 숙소ID 기준으로 두 컬럼 모두 업데이트
df_판매가['주말판매가'] = df_판매가.apply(
    lambda row: 주말가격_dict.get(row['숙소ID'], row['주말판매가']),
    axis=1
)

df_판매가['주중판매가'] = df_판매가.apply(
    lambda row: 주중가격_dict.get(row['숙소ID'], row['주중판매가']),
    axis=1
)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_판매가['주말판매가'] = df_판매가.apply(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_판매가['주중판매가'] = df_판매가.apply(


In [204]:
# 주중/주말 판매가를 숫자로 변환 (콤마 제거 및 float 처리)
df_판매가['주중판매가'] = df_판매가['주중판매가'].astype(str).str.replace(',', '').astype(float)
df_판매가['주말판매가'] = df_판매가['주말판매가'].astype(str).str.replace(',', '').astype(float)

# 0으로 나누는 에러 방지 후 비율 계산
df_판매가['판매가비율'] = df_판매가['주말판매가'] / df_판매가['주중판매가']

# (선택) 소수점 둘째자리까지 반올림
df_판매가['판매가비율'] = df_판매가['판매가비율'].round(2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_판매가['주중판매가'] = df_판매가['주중판매가'].astype(str).str.replace(',', '').astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_판매가['주말판매가'] = df_판매가['주말판매가'].astype(str).str.replace(',', '').astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_판매가['판매가비율'] = df_판매가['주말판매가'] / df_판매가[

In [205]:
df_판매가.to_csv('야놀자_크롤링/0807_최종숙소판매가_v2.csv', index=False)

# 메인 데이터 프레임과 매핑


In [21]:
import pandas as pd
df_판매가_v1 = pd.read_csv('야놀자_크롤링/0807_최종숙소판매가_v2.csv')
df_main = pd.read_csv('0805_메인프레임v5.csv')
df_main.head()

Unnamed: 0,LDGS_CD,LDGS_NM,LDGS_TY_CD,LDGMNT_TY_NM,LDGS_ZIP_NO,LDGS_ROAD_NM_ADDR,LDGS_LA,LDGS_LO,CHIN_TIME,CHOT_TIME,숙소 검색량(전체),상위 시도,하위 시구,지역별_관심도,유튜브_상위20_평균조회수,가장 오래된 리뷰,error
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,20,서울,영등포구,3.05727,725000,2017.11.16,
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,20,충북,청주시,2.802088,67961,2017.12.02,
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,310,서울,강남구,3.05727,725000,2017.10.18,
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,20,대전,유성구,2.918471,155050,2017.12.09,
4,23206,부천(상동)MYHOTEL,1,Motel,14542,경기도 부천시 길주로121번길 18-11(상동),37.506612,126.756644,,,20,경기,부천시,2.928911,246000,2020.03.19,


In [22]:
# df_main 컬럼 이름 변경
df_main.rename(columns={'LDGS_CD': '숙소ID'}, inplace=True)

In [24]:
# df_main 과 df_판매가  숙소 ID 기준으로 매핑
df_final = df_main.merge(df_판매가_v1, on='숙소ID', how='left')


In [209]:
# 주중판매가가 NaN인경우 삭제
df_final = df_final.dropna(subset=['주중판매가'])

In [210]:
df_final.to_csv('0807_메인프레임v6.csv', index=False)

- CHIN_TIME	이 NaN인 경우

In [211]:
# CHIN_TIME	이 NaN인 경우 출력
df_final[df_final['CHIN_TIME'].isna()].to_csv('0807체크인아웃누락v1.csv', index=False)

## 체크인, 체크아웃

In [212]:
import pandas as pd
df_체크인아웃 = pd.read_csv('야놀자_체크인아웃_펜션.csv')
df_체크아웃오류 = pd.read_csv('야놀자_체크인아웃_펜션누락.csv')

- 오류 18개 확인

- 펜션 정제

In [213]:
df_체크인아웃

Unnamed: 0,LDGS_CD,체크인,체크아웃
0,3002660,15:00 ~ 22:00까지,12:00 ~ 12:00까지
1,3003230,15:00 ~ 22:00까지,11:00 ~ 11:00까지
2,3003564,16:00 ~ 22:00까지,12:00 ~ 12:00까지
3,3003733,15:00 ~ 22:00까지,11:00 ~ 11:00까지
4,3004038,15:00 ~ 22:00까지,11:00 ~ 11:00까지
...,...,...,...
2231,1000110022,15:00 ~ 22:00까지,11:00 ~ 11:00까지
2232,1000110146,15:00 ~ 22:00까지,10:50 ~ 11:00까지
2233,1000110310,14:00 ~ 22:00까지,11:00 ~ 11:00까지
2234,1000112592,15:00 ~ 22:00까지,11:00 ~ 11:00까지


In [214]:
# 체크인과 체크아웃에서 ~ 앞부분만 남기기
df_체크인아웃['체크인'] = df_체크인아웃['체크인'].str.split('~').str[0].str.strip()
df_체크인아웃['체크아웃'] = df_체크인아웃['체크아웃'].str.split('~').str[0].str.strip()

df_체크인아웃


Unnamed: 0,LDGS_CD,체크인,체크아웃
0,3002660,15:00,12:00
1,3003230,15:00,11:00
2,3003564,16:00,12:00
3,3003733,15:00,11:00
4,3004038,15:00,11:00
...,...,...,...
2231,1000110022,15:00,11:00
2232,1000110146,15:00,10:50
2233,1000110310,14:00,11:00
2234,1000112592,15:00,11:00


In [215]:
df_체크아웃오류

Unnamed: 0,LDGS_CD,체크인,체크아웃
0,10050064,13:00,12:00
1,10053454,정보 없음,정보 없음
2,10056072,정보 없음,정보 없음
3,10056206,15:00,11:00
4,10056691,15:00,11:00
5,10056850,15:00,11:00
6,10056936,15:00,11:00
7,10058197,15:00,11:00
8,10058645,15:00,11:00
9,10058653,15:00,12:00


In [216]:
# LDGS_CD 기준으로 체크인/체크아웃 덮어쓰기
df_체크인아웃.update(
    df_체크인아웃[['LDGS_CD']].merge(
        df_체크아웃오류[['LDGS_CD', '체크인', '체크아웃']],
        on='LDGS_CD',
        how='left'
    )
)

# 결과 확인
df_체크인아웃


Unnamed: 0,LDGS_CD,체크인,체크아웃
0,3002660,15:00,12:00
1,3003230,15:00,11:00
2,3003564,16:00,12:00
3,3003733,15:00,11:00
4,3004038,15:00,11:00
...,...,...,...
2231,1000110022,15:00,11:00
2232,1000110146,15:00,10:50
2233,1000110310,14:00,11:00
2234,1000112592,15:00,11:00


In [217]:
# df_체크인아웃 정보 없음인 행 출력
df_체크인아웃[df_체크인아웃['체크인'] == '정보 없음']

Unnamed: 0,LDGS_CD,체크인,체크아웃
125,10053454,정보 없음,정보 없음
490,10056072,정보 없음,정보 없음


- 모텔 정제

In [218]:
df_모텔체크인 = pd.read_csv('야놀자_체크인아웃_모텔.csv')
df_모텔체크인

Unnamed: 0,LDGS_CD,체크인,체크아웃
0,23227,18:00,12:00
1,23242,14:00,13:00
2,23279,17:00,12:00
3,23315,12:00,14:00
4,23342,17:00,13:00
...,...,...,...
686,1000113000,17:00,12:00
687,1000113251,15:00,11:00
688,1000113255,14:00,11:00
689,1000114246,15:00,11:00


In [219]:
# 정보 없음 출력
df_모텔체크인[df_모텔체크인['체크인'] == '정보 없음']

Unnamed: 0,LDGS_CD,체크인,체크아웃
193,10041576,정보 없음,정보 없음


In [220]:
# 10041576인행 체크인은 16:00 , 체크아웃은 12:00 로 변경
df_모텔체크인.loc[df_모텔체크인['LDGS_CD'] == 10041576, '체크인'] = '16:00'
df_모텔체크인.loc[df_모텔체크인['LDGS_CD'] == 10041576, '체크아웃'] = '12:00'

- 게스트 하우스 정제

In [221]:
df_게하체크인 = pd.read_csv('야놀자_체크인아웃_게스트하우스.csv')

In [222]:
# 정보 없음 출력
df_모텔체크인[df_모텔체크인['체크인'] == '정보 없음']

Unnamed: 0,LDGS_CD,체크인,체크아웃


- 호텔 정제

In [223]:
# 전체행 출력
pd.reset_option('display.max_rows')

In [224]:
df_호텔체크인 = pd.read_csv('야놀자_체크인아웃_호텔.csv')
df_호텔체크인

Unnamed: 0,LDGS_CD,체크인,체크아웃
0,3000905,15:00,11:00
1,3001044,14:00,12:00
2,3001047,16:00,11:00
3,3001091,15:00,12:00
4,3001216,15:00,12:00
...,...,...,...
365,10061164,19:00,10:00
366,10061194,16:00,11:00
367,1000099324,19:00,12:00
368,1000101988,15:00,11:00


In [225]:
# 컬럼명 변경
df_호텔체크인.rename(columns={'LDGS_CD': '숙소ID'}, inplace=True)

In [226]:
# 호텔 정보 없음 출력
df_호텔체크인[df_호텔체크인['체크인'] == '정보 없음'].to_csv('야놀자_체크인아웃_호텔누락.csv', index=False)

In [227]:
df_호텔체크인누락 = pd.read_csv('야놀자_체크인아웃_호텔정보없음.csv')
df_호텔체크인누락

Unnamed: 0,숙소ID,체크인,체크아웃
0,3016545,정보 없음,정보 없음
1,10047743,16:00,12:00
2,10048796,14:00,11:00
3,10048814,15:00,11:00
4,10052562,정보 없음,정보 없음
5,10052726,정보 없음,정보 없음
6,10056996,16:00,11:00
7,10058361,정보 없음,정보 없음
8,10058904,정보 없음,정보 없음
9,10059104,15:00,11:00


In [228]:
# 숙소ID 기준으로 CHIN_TIME, CHOT_TIME 덮어쓰기
df_호텔체크인.update(
    df_호텔체크인[['숙소ID']].merge(
        df_호텔체크인누락[['숙소ID', '체크인', '체크아웃']],
        on='숙소ID',
        how='left'
    )
)

In [229]:
# 정보 없음 출력
df_호텔체크인[df_호텔체크인['체크인'] == '정보 없음']

Unnamed: 0,숙소ID,체크인,체크아웃
10,3016545,정보 없음,정보 없음
29,10052562,정보 없음,정보 없음
30,10052726,정보 없음,정보 없음
195,10058361,정보 없음,정보 없음
222,10058904,정보 없음,정보 없음
340,10060733,정보 없음,정보 없음


In [230]:
# 3016545
df_호텔체크인.loc[df_호텔체크인['숙소ID'] == 3016545, '체크인'] = '15:00'
df_호텔체크인.loc[df_호텔체크인['숙소ID'] == 3016545, '체크아웃'] = '12:00'

# 10052562
df_호텔체크인.loc[df_호텔체크인['숙소ID'] == 10052562, '체크인'] = '13:00'
df_호텔체크인.loc[df_호텔체크인['숙소ID'] == 10052562, '체크아웃'] = '10:00'

# 10052726
df_호텔체크인.loc[df_호텔체크인['숙소ID'] == 10052726, '체크인'] = '15:00'
df_호텔체크인.loc[df_호텔체크인['숙소ID'] == 10052726, '체크아웃'] = '11:00'

# 10058904
df_호텔체크인.loc[df_호텔체크인['숙소ID'] == 10058904, '체크인'] = '16:00'
df_호텔체크인.loc[df_호텔체크인['숙소ID'] == 10058904, '체크아웃'] = '11:00'


In [231]:
# 정보 없음 출력
df_호텔체크인[df_호텔체크인['체크인'] == '정보 없음']

Unnamed: 0,숙소ID,체크인,체크아웃
195,10058361,정보 없음,정보 없음
340,10060733,정보 없음,정보 없음


In [232]:
# 컬럼 명 변경
df_호텔체크인.rename(columns={'숙소ID':'LDGS_CD'}, inplace=True)


In [233]:
# df_체크인아웃, df_모텔체크인, df_게하체크인, df_호텔체크인 병합
df_체크인아웃_최종 = pd.concat([df_체크인아웃, df_모텔체크인, df_게하체크인, df_호텔체크인], ignore_index=True)

In [234]:
# 컬럼명 변경 , CHOT_TIME,CHIN_TIME
df_체크인아웃_최종.rename(columns={'체크아웃': 'CHOT_TIME', '체크인': 'CHIN_TIME','LDGS_CD': '숙소ID' }, inplace=True)


In [235]:
df_체크인아웃_최종

Unnamed: 0,숙소ID,CHIN_TIME,CHOT_TIME
0,3002660,15:00,12:00
1,3003230,15:00,11:00
2,3003564,16:00,12:00
3,3003733,15:00,11:00
4,3004038,15:00,11:00
...,...,...,...
3316,10061164,19:00,10:00
3317,10061194,16:00,11:00
3318,1000099324,19:00,12:00
3319,1000101988,15:00,11:00


## 체크인 데이터 프레임과 메인프레임 병합

In [252]:
import pandas as pd
df_메인프레임1 = pd.read_csv('0807_메인프레임v6.csv')
df_메인프레임1

Unnamed: 0,숙소ID,LDGS_NM,LDGS_TY_CD,LDGMNT_TY_NM,LDGS_ZIP_NO,LDGS_ROAD_NM_ADDR,LDGS_LA,LDGS_LO,CHIN_TIME,CHOT_TIME,...,하위 시구,지역별_관심도,유튜브_상위20_평균조회수,가장 오래된 리뷰,error,별점,리뷰수,주중판매가,주말판매가,판매가비율
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,...,영등포구,3.057270,725000,2017.11.16,,4.7,3202,65000.0,110000.0,1.69
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,청주시,2.802088,67961,2017.12.02,,4.6,670,55000.0,50000.0,0.91
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,...,강남구,3.057270,725000,2017.10.18,,4.2,9275,60000.0,120000.0,2.00
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,...,유성구,2.918471,155050,2017.12.09,,4.7,245,60000.0,90000.0,1.50
4,23207,역삼벤,1,Motel,6220,서울 강남구 언주로87길 41 (역삼동),37.500706,127.039849,23:00,12:00,...,강남구,3.057270,725000,2017.10.23,,4.8,10124,55000.0,125000.0,2.27
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20838,1000114526,전주중노송동파인,1,Motel,55000,전라북도 전주시 완산구 현무3길 54,35.822097,127.150451,16:00,12:00,...,전주시,2.833871,120072,,날짜 형식 오류: 일반실,3.3,64,45000.0,60000.0,1.33
20839,1000114529,거창서핑파크리조트&글램핑,2,Hotel,50103,경상남도 거창군 위천면 거차1길 23-18,35.747967,127.836350,15:00,11:00,...,거창군,2.794718,131945,2021.10.10,,4.3,51,115000.0,140000.0,1.22
20840,1000114558,여수굿썸,1,Motel,59769,전라남도 여수시 돌산읍 강남로 45,34.719781,127.750254,15:00,11:00,...,여수시,2.923691,70700,,날짜 형식 오류: 스탠다드,2.7,38,60000.0,80000.0,1.33
20841,1000114577,순천브라운도트순천역점,1,Motel,57964,전라남도 순천시 팔마로 153,34.944613,127.504991,23:00,11:00,...,순천시,2.923691,70700,2021.10.03,,4.9,456,70000.0,100000.0,1.43


In [253]:
df_체크인아웃_최종

Unnamed: 0,숙소ID,CHIN_TIME,CHOT_TIME
0,3002660,15:00,12:00
1,3003230,15:00,11:00
2,3003564,16:00,12:00
3,3003733,15:00,11:00
4,3004038,15:00,11:00
...,...,...,...
3316,10061164,19:00,10:00
3317,10061194,16:00,11:00
3318,1000099324,19:00,12:00
3319,1000101988,15:00,11:00


In [254]:
# 정보 없음 출력
df_체크인아웃_최종[df_체크인아웃_최종['CHIN_TIME'] == '정보 없음']

Unnamed: 0,숙소ID,CHIN_TIME,CHOT_TIME
125,10053454,정보 없음,정보 없음
490,10056072,정보 없음,정보 없음
2939,10042911,정보 없음,정보 없음
3146,10058361,정보 없음,정보 없음
3291,10060733,정보 없음,정보 없음


- 체크인 시간과 메인프레임 병합

In [255]:
# 숙소ID 기준으로 CHIN_TIME, CHOT_TIME 덮어쓰기
df_메인프레임1.update(
    df_메인프레임1[['숙소ID']].merge(
        df_체크인아웃_최종[['숙소ID', 'CHIN_TIME', 'CHOT_TIME']],
        on='숙소ID',
        how='left'
    )
)

# 결과 확인
df_메인프레임1


Unnamed: 0,숙소ID,LDGS_NM,LDGS_TY_CD,LDGMNT_TY_NM,LDGS_ZIP_NO,LDGS_ROAD_NM_ADDR,LDGS_LA,LDGS_LO,CHIN_TIME,CHOT_TIME,...,하위 시구,지역별_관심도,유튜브_상위20_평균조회수,가장 오래된 리뷰,error,별점,리뷰수,주중판매가,주말판매가,판매가비율
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,...,영등포구,3.057270,725000,2017.11.16,,4.7,3202,65000.0,110000.0,1.69
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,청주시,2.802088,67961,2017.12.02,,4.6,670,55000.0,50000.0,0.91
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,...,강남구,3.057270,725000,2017.10.18,,4.2,9275,60000.0,120000.0,2.00
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,...,유성구,2.918471,155050,2017.12.09,,4.7,245,60000.0,90000.0,1.50
4,23207,역삼벤,1,Motel,6220,서울 강남구 언주로87길 41 (역삼동),37.500706,127.039849,23:00,12:00,...,강남구,3.057270,725000,2017.10.23,,4.8,10124,55000.0,125000.0,2.27
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20838,1000114526,전주중노송동파인,1,Motel,55000,전라북도 전주시 완산구 현무3길 54,35.822097,127.150451,16:00,12:00,...,전주시,2.833871,120072,,날짜 형식 오류: 일반실,3.3,64,45000.0,60000.0,1.33
20839,1000114529,거창서핑파크리조트&글램핑,2,Hotel,50103,경상남도 거창군 위천면 거차1길 23-18,35.747967,127.836350,15:00,11:00,...,거창군,2.794718,131945,2021.10.10,,4.3,51,115000.0,140000.0,1.22
20840,1000114558,여수굿썸,1,Motel,59769,전라남도 여수시 돌산읍 강남로 45,34.719781,127.750254,15:00,11:00,...,여수시,2.923691,70700,,날짜 형식 오류: 스탠다드,2.7,38,60000.0,80000.0,1.33
20841,1000114577,순천브라운도트순천역점,1,Motel,57964,전라남도 순천시 팔마로 153,34.944613,127.504991,23:00,11:00,...,순천시,2.923691,70700,2021.10.03,,4.9,456,70000.0,100000.0,1.43


In [258]:
# 정보 없음 은 삭제
df_메인프레임1 = df_메인프레임1[df_메인프레임1['CHIN_TIME'] != '정보 없음']

In [259]:
df_메인프레임1

Unnamed: 0,숙소ID,LDGS_NM,LDGS_TY_CD,LDGMNT_TY_NM,LDGS_ZIP_NO,LDGS_ROAD_NM_ADDR,LDGS_LA,LDGS_LO,CHIN_TIME,CHOT_TIME,...,하위 시구,지역별_관심도,유튜브_상위20_평균조회수,가장 오래된 리뷰,error,별점,리뷰수,주중판매가,주말판매가,판매가비율
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,...,영등포구,3.057270,725000,2017.11.16,,4.7,3202,65000.0,110000.0,1.69
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,청주시,2.802088,67961,2017.12.02,,4.6,670,55000.0,50000.0,0.91
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,...,강남구,3.057270,725000,2017.10.18,,4.2,9275,60000.0,120000.0,2.00
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,...,유성구,2.918471,155050,2017.12.09,,4.7,245,60000.0,90000.0,1.50
4,23207,역삼벤,1,Motel,6220,서울 강남구 언주로87길 41 (역삼동),37.500706,127.039849,23:00,12:00,...,강남구,3.057270,725000,2017.10.23,,4.8,10124,55000.0,125000.0,2.27
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20838,1000114526,전주중노송동파인,1,Motel,55000,전라북도 전주시 완산구 현무3길 54,35.822097,127.150451,16:00,12:00,...,전주시,2.833871,120072,,날짜 형식 오류: 일반실,3.3,64,45000.0,60000.0,1.33
20839,1000114529,거창서핑파크리조트&글램핑,2,Hotel,50103,경상남도 거창군 위천면 거차1길 23-18,35.747967,127.836350,15:00,11:00,...,거창군,2.794718,131945,2021.10.10,,4.3,51,115000.0,140000.0,1.22
20840,1000114558,여수굿썸,1,Motel,59769,전라남도 여수시 돌산읍 강남로 45,34.719781,127.750254,15:00,11:00,...,여수시,2.923691,70700,,날짜 형식 오류: 스탠다드,2.7,38,60000.0,80000.0,1.33
20841,1000114577,순천브라운도트순천역점,1,Motel,57964,전라남도 순천시 팔마로 153,34.944613,127.504991,23:00,11:00,...,순천시,2.923691,70700,2021.10.03,,4.9,456,70000.0,100000.0,1.43


In [260]:
df_메인프레임1.to_csv('0808_메인프레임v7.csv', index=False)

In [261]:
df_메인프레임1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20838 entries, 0 to 20842
Data columns (total 22 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   숙소ID               20838 non-null  int64  
 1   LDGS_NM            20838 non-null  object 
 2   LDGS_TY_CD         20838 non-null  int64  
 3   LDGMNT_TY_NM       20838 non-null  object 
 4   LDGS_ZIP_NO        20838 non-null  int64  
 5   LDGS_ROAD_NM_ADDR  20838 non-null  object 
 6   LDGS_LA            20838 non-null  float64
 7   LDGS_LO            20838 non-null  float64
 8   CHIN_TIME          20838 non-null  object 
 9   CHOT_TIME          20838 non-null  object 
 10  숙소 검색량(전체)         20838 non-null  object 
 11  상위 시도              20838 non-null  object 
 12  하위 시구              20838 non-null  object 
 13  지역별_관심도            20838 non-null  float64
 14  유튜브_상위20_평균조회수     20838 non-null  int64  
 15  가장 오래된 리뷰          13449 non-null  object 
 16  error              7389 non

# 최초 리뷰 등록일 매핑

In [2]:
import pandas as pd

df_main0811 = pd.read_csv('0808_메인프레임v7.csv')
df_리뷰 = pd.read_csv('0808_메인프레임v8.csv')

In [3]:
df_리뷰.head()

Unnamed: 0,LDGS_CD,LDGS_NM,LDGS_TY_CD,LDGMNT_TY_NM,LDGS_ZIP_NO,LDGS_ROAD_NM_ADDR,LDGS_LA,LDGS_LO,CHIN_TIME,CHOT_TIME,숙소 검색량(전체),상위 시도,하위 시구,지역별_관심도,유튜브_상위20_평균조회수,가장 오래된 리뷰,error
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,20,서울,영등포구,3.05727,725000,2017.11.16,
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,20,충북,청주시,2.802088,67961,2017.12.02,
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,310,서울,강남구,3.05727,725000,2017.10.18,
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,20,대전,유성구,2.918471,155050,2017.12.09,
4,23206,부천(상동)MYHOTEL,1,Motel,14542,경기도 부천시 길주로121번길 18-11(상동),37.506612,126.756644,,,20,경기,부천시,2.928911,246000,2020.03.19,


In [4]:
df_리뷰.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27008 entries, 0 to 27007
Data columns (total 17 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   LDGS_CD            27008 non-null  int64  
 1   LDGS_NM            27008 non-null  object 
 2   LDGS_TY_CD         27008 non-null  int64  
 3   LDGMNT_TY_NM       27008 non-null  object 
 4   LDGS_ZIP_NO        27008 non-null  int64  
 5   LDGS_ROAD_NM_ADDR  27008 non-null  object 
 6   LDGS_LA            27008 non-null  float64
 7   LDGS_LO            27008 non-null  float64
 8   CHIN_TIME          21778 non-null  object 
 9   CHOT_TIME          21778 non-null  object 
 10  숙소 검색량(전체)         27008 non-null  object 
 11  상위 시도              27008 non-null  object 
 12  하위 시구              27008 non-null  object 
 13  지역별_관심도            27008 non-null  float64
 14  유튜브_상위20_평균조회수     27008 non-null  int64  
 15  가장 오래된 리뷰          25288 non-null  object 
 16  error              124

In [5]:
# LDGS_CD, 가장 오래된 리뷰 컬럼만 저장
df_subset = df_리뷰[['LDGS_CD', '가장 오래된 리뷰']]


In [None]:
# LDGS_CD 컬럼명 변경
df_subset = df_subset.rename(columns={'LDGS_CD': '숙소ID'})


In [8]:
df_subset

Unnamed: 0,숙소ID,가장 오래된 리뷰
0,23184,2017.11.16
1,23192,2017.12.02
2,23197,2017.10.18
3,23204,2017.12.09
4,23206,2020.03.19
...,...,...
27003,1000114540,2022.11.01
27004,1000114543,2022.09.27
27005,1000114558,2021.06.07
27006,1000114577,2021.10.03


In [14]:
df_main0811.head()

Unnamed: 0,숙소ID,LDGS_NM,LDGS_TY_CD,LDGMNT_TY_NM,LDGS_ZIP_NO,LDGS_ROAD_NM_ADDR,LDGS_LA,LDGS_LO,CHIN_TIME,CHOT_TIME,...,하위 시구,지역별_관심도,유튜브_상위20_평균조회수,가장 오래된 리뷰,error,별점,리뷰수,주중판매가,주말판매가,판매가비율
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,...,영등포구,3.05727,725000,2017.11.16,,4.7,3202,65000.0,110000.0,1.69
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,청주시,2.802088,67961,2017.12.02,,4.6,670,55000.0,50000.0,0.91
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,...,강남구,3.05727,725000,2017.10.18,,4.2,9275,60000.0,120000.0,2.0
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,...,유성구,2.918471,155050,2017.12.09,,4.7,245,60000.0,90000.0,1.5
4,23207,역삼벤,1,Motel,6220,서울 강남구 언주로87길 41 (역삼동),37.500706,127.039849,23:00,12:00,...,강남구,3.05727,725000,2017.10.23,,4.8,10124,55000.0,125000.0,2.27


- 리뷰 날짜 프레임과 메인프레임 병합

In [12]:
# 병합
df_merged = df_main0811.merge(
    df_subset,
    how='left',
    left_on='숙소ID',
    right_on='숙소ID'
)

# 확인
df_merged.head()


Unnamed: 0,숙소ID,LDGS_NM,LDGS_TY_CD,LDGMNT_TY_NM,LDGS_ZIP_NO,LDGS_ROAD_NM_ADDR,LDGS_LA,LDGS_LO,CHIN_TIME,CHOT_TIME,...,지역별_관심도,유튜브_상위20_평균조회수,가장 오래된 리뷰_x,error,별점,리뷰수,주중판매가,주말판매가,판매가비율,가장 오래된 리뷰_y
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,...,3.05727,725000,2017.11.16,,4.7,3202,65000.0,110000.0,1.69,2017.11.16
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,2.802088,67961,2017.12.02,,4.6,670,55000.0,50000.0,0.91,2017.12.02
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,...,3.05727,725000,2017.10.18,,4.2,9275,60000.0,120000.0,2.0,2017.10.18
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,...,2.918471,155050,2017.12.09,,4.7,245,60000.0,90000.0,1.5,2017.12.09
4,23207,역삼벤,1,Motel,6220,서울 강남구 언주로87길 41 (역삼동),37.500706,127.039849,23:00,12:00,...,3.05727,725000,2017.10.23,,4.8,10124,55000.0,125000.0,2.27,2017.10.23


## 컬럼명 정제

In [13]:
# 가장 오래된 리뷰_x, error 는 삭제
df_merged = df_merged.drop(columns=['가장 오래된 리뷰_x', 'error'])

In [None]:
# df_merged 컬럼명 변경

In [None]:
df_merged = df_merged.rename(columns={
    'LDGS_NM': '숙소명',
    'LDGS_TY_CD': '숙소유형코드',
    'LDGMNT_TY_NM': '숙소운영형태',
    'LDGS_ZIP_NO': '우편번호',
    'LDGS_ROAD_NM_ADDR': '도로명주소',
    'LDGS_LA': '위도',
    'LDGS_LO': '경도',
    'CHIN_TIME': '체크인시간',
    'CHOT_TIME': '체크아웃시간'
})


In [None]:
df_merged = df_merged.rename(columns={'가장 오래된 리뷰_y': '가장 오래된 리뷰'})

In [24]:
df_merged = df_merged.rename(columns={'가장 오래된 리뷰': '최초리뷰날짜'})

In [25]:
df_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20838 entries, 0 to 20837
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   숙소ID            20838 non-null  int64  
 1   숙소명             20838 non-null  object 
 2   숙소유형코드          20838 non-null  int64  
 3   숙소운영형태          20838 non-null  object 
 4   우편번호            20838 non-null  int64  
 5   도로명주소           20838 non-null  object 
 6   위도              20838 non-null  float64
 7   경도              20838 non-null  float64
 8   체크인시간           20838 non-null  object 
 9   체크아웃시간          20838 non-null  object 
 10  숙소 검색량(전체)      20838 non-null  object 
 11  상위 시도           20838 non-null  object 
 12  하위 시구           20838 non-null  object 
 13  지역별_관심도         20838 non-null  float64
 14  유튜브_상위20_평균조회수  20838 non-null  int64  
 15  별점              20838 non-null  float64
 16  리뷰수             20838 non-null  object 
 17  주중판매가           20838 non-null 

In [27]:
new_order = [
    '숙소ID', '숙소명',
    '숙소유형코드', '숙소운영형태',
    '우편번호', '도로명주소', '위도', '경도',
    '체크인시간', '체크아웃시간',
    '숙소 검색량(전체)', '상위 시도', '하위 시구', '지역별_관심도', '유튜브_상위20_평균조회수',
    '별점', '주중판매가', '주말판매가', '판매가비율',
    '리뷰수', '최초리뷰날짜'
]

df_merged = df_merged[new_order]


In [30]:
# 최초리뷰날짜 NaN  값인행만 출력
df_merged[df_merged['최초리뷰날짜'].isna()]

Unnamed: 0,숙소ID,숙소명,숙소유형코드,숙소운영형태,우편번호,도로명주소,위도,경도,체크인시간,체크아웃시간,...,상위 시도,하위 시구,지역별_관심도,유튜브_상위20_평균조회수,별점,주중판매가,주말판매가,판매가비율,리뷰수,최초리뷰날짜
51,23520,수원행궁동르노,1,Motel,16257,경기도 수원시 팔달구 정조로788번길 11-3,37.278727,127.017221,20:00,11:00,...,경기,수원시,2.928911,246000,2.0,37000.0,65000.0,1.76,2,
394,24868,부산사상MU(사상점),1,Motel,46963,부산광역시 사상구 사상로211번길 46,35.164110,128.981205,21:00,13:00,...,부산,사상구,3.121910,673500,5.0,39000.0,78000.0,2.00,8,
865,26275,강남시애틀,1,Motel,6241,서울 강남구 테헤란로2길 37 (역삼동),37.495857,127.029985,23:00,12:00,...,서울,강남구,3.057270,725000,4.8,75000.0,130000.0,1.73,49,
895,26352,천안캘리포니아,1,Motel,31124,충청남도 천안시 동남구 신부2길 34 (캘리포니아모텔),36.818725,127.159925,17:00,14:00,...,충남,천안시,2.918471,101900,5.0,63000.0,103000.0,1.63,1,
1070,26826,보령(대천)발리,1,Motel,33487,충청남도 보령시 해수욕장3길 11-5,36.305521,126.518850,15:00,11:00,...,충남,보령시,2.918471,101900,4.0,42000.0,144000.0,3.43,2,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18152,1000102548,양주마운틴,1,Motel,11519,경기도 양주시 장흥면 권율로309번길 67-19,37.741797,126.953108,17:00,12:00,...,경기,양주시,2.928911,246000,4.9,37000.0,50000.0,1.35,210,
18706,1000105222,종로아미가,1,Motel,3129,서울특별시 종로구 종로31길 46-8(연지동),37.572668,126.999413,15:00,23:00,...,서울,종로구,3.057270,725000,5.0,69000.0,119000.0,1.72,28,
18708,1000105240,광주상무벤틀리비즈니스호텔,1,Motel,61964,광주광역시 서구 상무평화로 124(치평동),35.149047,126.852299,15:00,12:00,...,광주,서구,2.923691,239400,4.8,55000.0,65000.0,1.18,133,
19691,1000110399,종로다나호텔,1,Motel,3192,서울특별시 종로구 수표로18길 10(관수동),37.569163,126.990120,21:00,12:00,...,서울,종로구,3.057270,725000,4.6,99000.0,489000.0,4.94,36,


In [None]:
# 최초리뷰날짜 NaN  값인행만 삭제
df_merged = df_merged.dropna(subset=['최초리뷰날짜'])



In [33]:
df_merged.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20767 entries, 0 to 20837
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   숙소ID            20767 non-null  int64  
 1   숙소명             20767 non-null  object 
 2   숙소유형코드          20767 non-null  int64  
 3   숙소운영형태          20767 non-null  object 
 4   우편번호            20767 non-null  int64  
 5   도로명주소           20767 non-null  object 
 6   위도              20767 non-null  float64
 7   경도              20767 non-null  float64
 8   체크인시간           20767 non-null  object 
 9   체크아웃시간          20767 non-null  object 
 10  숙소 검색량(전체)      20767 non-null  object 
 11  상위 시도           20767 non-null  object 
 12  하위 시구           20767 non-null  object 
 13  지역별_관심도         20767 non-null  float64
 14  유튜브_상위20_평균조회수  20767 non-null  int64  
 15  별점              20767 non-null  float64
 16  주중판매가           20767 non-null  float64
 17  주말판매가           20767 non-null  floa

In [34]:
df_최종프레임0811 = df_merged.copy()

In [36]:
df_최종프레임0811.to_csv('08011_메인프레임v9.csv', index=False)


In [37]:
df_최종프레임0811

Unnamed: 0,숙소ID,숙소명,숙소유형코드,숙소운영형태,우편번호,도로명주소,위도,경도,체크인시간,체크아웃시간,...,상위 시도,하위 시구,지역별_관심도,유튜브_상위20_평균조회수,별점,주중판매가,주말판매가,판매가비율,리뷰수,최초리뷰날짜
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,...,서울,영등포구,3.057270,725000,4.7,65000.0,110000.0,1.69,3202,2017.11.16
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,충북,청주시,2.802088,67961,4.6,55000.0,50000.0,0.91,670,2017.12.02
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,...,서울,강남구,3.057270,725000,4.2,60000.0,120000.0,2.00,9275,2017.10.18
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,...,대전,유성구,2.918471,155050,4.7,60000.0,90000.0,1.50,245,2017.12.09
4,23207,역삼벤,1,Motel,6220,서울 강남구 언주로87길 41 (역삼동),37.500706,127.039849,23:00,12:00,...,서울,강남구,3.057270,725000,4.8,55000.0,125000.0,2.27,10124,2017.10.23
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20833,1000114526,전주중노송동파인,1,Motel,55000,전라북도 전주시 완산구 현무3길 54,35.822097,127.150451,16:00,12:00,...,전북,전주시,2.833871,120072,3.3,45000.0,60000.0,1.33,64,2021.06.18
20834,1000114529,거창서핑파크리조트&글램핑,2,Hotel,50103,경상남도 거창군 위천면 거차1길 23-18,35.747967,127.836350,15:00,11:00,...,경남,거창군,2.794718,131945,4.3,115000.0,140000.0,1.22,51,2021.10.10
20835,1000114558,여수굿썸,1,Motel,59769,전라남도 여수시 돌산읍 강남로 45,34.719781,127.750254,15:00,11:00,...,전남,여수시,2.923691,70700,2.7,60000.0,80000.0,1.33,38,2021.06.07
20836,1000114577,순천브라운도트순천역점,1,Motel,57964,전라남도 순천시 팔마로 153,34.944613,127.504991,23:00,11:00,...,전남,순천시,2.923691,70700,4.9,70000.0,100000.0,1.43,456,2021.10.03


# 별점 정제

In [1]:
import pandas as pd
df_main = pd.read_csv("프로젝트/0811_메인프레임v9.csv")
df_main.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20767 entries, 0 to 20766
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   숙소ID            20767 non-null  int64  
 1   숙소명             20767 non-null  object 
 2   숙소유형코드          20767 non-null  int64  
 3   숙소운영형태          20767 non-null  object 
 4   우편번호            20767 non-null  int64  
 5   도로명주소           20767 non-null  object 
 6   위도              20767 non-null  float64
 7   경도              20767 non-null  float64
 8   체크인시간           20767 non-null  object 
 9   체크아웃시간          20767 non-null  object 
 10  숙소 검색량(전체)      20767 non-null  object 
 11  상위 시도           20767 non-null  object 
 12  하위 시구           20767 non-null  object 
 13  지역별_관심도         20767 non-null  float64
 14  유튜브_상위20_평균조회수  20767 non-null  int64  
 15  별점              20767 non-null  float64
 16  주중판매가           20767 non-null  float64
 17  주말판매가           20767 non-null 

In [2]:
df_main['별점'].value_counts()

별점
5.0      4962
4.8      2909
4.7      2306
4.9      2004
4.6      1733
4.5      1552
4.4       913
4.0       912
4.3       912
4.2       418
3.0       358
4.1       305
3.7       208
1.0       205
3.8       194
3.5       149
3.9       134
2.0       113
3.3       102
3.6        83
3.4        63
3.2        38
2.5        35
2.8        26
2.3        25
2.7        23
3.1        21
1.5        14
2.6        13
2.9         9
2.2         6
1.7         6
1.8         5
2.4         4
1.3         3
1.2         2
262.0       1
2.1         1
Name: count, dtype: int64

In [3]:
# 별점이 262인 데이터 4.8로 변경
df_main.loc[df_main['별점'] == 262.0, '별점'] = 4.8

In [4]:
df_main['별점'].value_counts()

별점
5.0    4962
4.8    2910
4.7    2306
4.9    2004
4.6    1733
4.5    1552
4.4     913
4.3     912
4.0     912
4.2     418
3.0     358
4.1     305
3.7     208
1.0     205
3.8     194
3.5     149
3.9     134
2.0     113
3.3     102
3.6      83
3.4      63
3.2      38
2.5      35
2.8      26
2.3      25
2.7      23
3.1      21
1.5      14
2.6      13
2.9       9
1.7       6
2.2       6
1.8       5
2.4       4
1.3       3
1.2       2
2.1       1
Name: count, dtype: int64

In [5]:
df_main.to_csv("프로젝트/0811_메인프레임v10.csv", index=False)

# 주말 판매가 오류인 행 수정

In [5]:
import pandas as pd
df_주말판매가오류 = pd.read_csv('프로젝트/0814_메인프레임v12.csv')

In [6]:
df_주말판매가오류.describe()

Unnamed: 0,숙소ID,숙소유형코드,우편번호,위도,경도,지역별_관심도,지역별_유튜브Top20_평균조회수,별점,주중판매가,주말판매가,판매가비율
count,20766.0,20766.0,20766.0,20766.0,20766.0,20766.0,20766.0,20766.0,20766.0,20766.0,20766.0
mean,192453200.0,2.073004,35315.456082,36.302376,127.710135,2.947838,369213.2,4.549894,112102.0,172563.2,1.616272
std,387971700.0,0.967453,17591.409452,1.323664,0.987622,0.168887,382752.3,0.616131,111133.4,163146.7,0.657363
min,23184.0,1.0,0.0,33.209238,124.708279,2.700599,49660.0,1.0,8000.0,8000.0,0.2
25%,3009493.0,1.0,23059.0,35.205084,126.883883,2.802088,131945.0,4.4,50000.0,70000.0,1.2
50%,10045150.0,2.0,33489.0,36.450288,127.503004,2.928911,246000.0,4.7,75000.0,120000.0,1.5
75%,10058260.0,3.0,52402.0,37.515297,128.622748,3.062183,403615.0,4.9,130000.0,210000.0,1.9
max,1000115000.0,4.0,63643.0,38.53782,130.912016,3.277752,1606000.0,5.0,2000000.0,2100000.0,12.5


In [11]:
df_주말판매가오류[df_주말판매가오류['판매가비율'] < 1]

Unnamed: 0,숙소ID,숙소명,숙소유형코드,숙소운영형태,우편번호,도로명주소,위도,경도,체크인시간,체크아웃시간,...,상위 시도,하위 시구,지역별_관심도,지역별_유튜브Top20_평균조회수,별점,주중판매가,주말판매가,판매가비율,리뷰수,최초리뷰날짜
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,충북,청주시,2.802088,67961,4.6,55000,50000,0.9,670,2017.12.02
24,23279,홍천WHouse,1,Motel,25117,강원도 홍천군 홍천읍 설악로 1471,37.680725,127.864806,17:00,12:00,...,강원,홍천군,3.277752,403615,4.0,60000,50000,0.8,9,2024.09.15
339,24703,안동윈(WIN)호텔,1,Motel,36657,경상북도 안동시 옥명길 28,36.564481,128.702504,17:00,12:00,...,경북,안동시,2.700599,321600,4.7,100000,80000,0.8,487,2023.12.26
389,24853,창원상남동뷰티크호텔궁(宮),1,Motel,51496,경상남도 창원시 성산구 마디미로44번길 7,35.220915,128.682474,17:00,12:00,...,경남,창원시,2.794718,131945,4.7,45000,42500,0.9,3844,2024.12.25
450,25073,부산초읍루,1,Motel,47124,부산광역시 부산진구 성지로153번길 9,35.181472,129.048054,18:00,12:00,...,부산,부산진구,3.121910,673500,4.6,40000,35000,0.9,504,2018.01.20
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20577,1000113721,제주월정가옥펜션,3,Pension,63358,제주시 구좌읍 월정중길 39 (월정리)월정가옥,33.558572,126.792632,16:00,10:00,...,제주,구좌읍,3.062183,1606000,4.6,160000,130000,0.8,62,2021.06.02
20670,1000114028,제주벨룸리조트,2,Hotel,63580,제주특별자치도 서귀포시 516로277번길 45,33.279360,126.581433,15:00,11:00,...,제주,서귀포시,3.062183,1606000,4.2,340000,270000,0.8,62,2022.06.14
20672,1000114042,여수48시간풀빌라,3,Pension,59782,전라남도 여수시 화정면 백야등대길 22 2층,34.609997,127.651306,15:00,11:00,...,전남,여수시,2.923691,70700,5.0,776000,310000,0.4,9,2024.08.03
20716,1000114223,태안(안면도)구름펜션,3,Pension,32166,충청남도 태안군 안면읍 꽃지1길 142,36.499765,126.342443,15:00,11:00,...,충남,태안군,2.918471,101900,5.0,130000,120000,0.9,32,2021.07.01


In [10]:
# 판매가비율 1 보다 작은 행출력
df_주말판매가오류[df_주말판매가오류['판매가비율'] < 1].to_csv('0814_판매가비율1미만.csv', index=False)

## 판매비율 문제 및 주말 판매가오류 수정

In [12]:
df_판매비율오류 = pd.read_csv("프로젝트/0814야놀자_주말판매가크롤링.csv")

In [13]:
df_판매비율오류

Unnamed: 0,숙소ID,주말판매가
0,1016034,"130,000원"
1,3000435,"80,000원"
2,3000742,"216,810원"
3,3000750,"415,000원"
4,3000769,"338,580원"
...,...,...
221,1000113721,"160,000원"
222,1000114028,"340,000원"
223,1000114042,"1,000,000원"
224,1000114223,"360,000원"


In [16]:
# 주말 판매가 정보없음 출력
df_판매비율오류[df_판매비율오류["주말판매가"] == '정보 없음']

Unnamed: 0,숙소ID,주말판매가
65,3017757,정보 없음


In [22]:
# 3017757  가격 변경
df_판매비율오류.loc[df_판매비율오류["숙소ID"] == 3017757, "주말판매가"] = '135,000원'

In [23]:
# 주말판매가 컬럼  , 과 원은 제거
df_판매비율오류["주말판매가"] = df_판매비율오류["주말판매가"].str.replace("원", "").str.replace(",", "").astype(int)

In [25]:
df_판매비율오류.to_csv("프로젝트/0814야놀자_주말판매가크롤링_v2.csv", index=False)

# 리뷰 감성 점수 매핑 및 파생변수 생성

In [11]:
import pandas as pd
df_v10 = pd.read_csv('프로젝트/0811_메인프레임v10.csv')
df_감성별점 = pd.read_csv('프로젝트/숙소별_감성별점_평균.csv')

In [12]:
df_감성별점.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19510 entries, 0 to 19509
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   숙소ID    19510 non-null  int64  
 1   감성별점    19510 non-null  float64
dtypes: float64(1), int64(1)
memory usage: 305.0 KB


In [13]:
# df_감성별점 과 df_v10  숙소ID 기준으로 감성별점 컬럼 병합  만약 숙소ID가 일치하지 않으면 NaN으로 채우기
df_감성별점추가 = df_v10.merge(df_감성별점[['숙소ID', '감성별점']], on='숙소ID', how='left')


In [14]:
df_감성별점추가.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20767 entries, 0 to 20766
Data columns (total 22 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   숙소ID            20767 non-null  int64  
 1   숙소명             20767 non-null  object 
 2   숙소유형코드          20767 non-null  int64  
 3   숙소운영형태          20767 non-null  object 
 4   우편번호            20767 non-null  int64  
 5   도로명주소           20767 non-null  object 
 6   위도              20767 non-null  float64
 7   경도              20767 non-null  float64
 8   체크인시간           20767 non-null  object 
 9   체크아웃시간          20767 non-null  object 
 10  숙소 검색량(전체)      20767 non-null  object 
 11  상위 시도           20767 non-null  object 
 12  하위 시구           20767 non-null  object 
 13  지역별_관심도         20767 non-null  float64
 14  유튜브_상위20_평균조회수  20767 non-null  int64  
 15  별점              20767 non-null  float64
 16  주중판매가           20767 non-null  float64
 17  주말판매가           20767 non-null 

In [15]:
df_감성별점추가.head()

Unnamed: 0,숙소ID,숙소명,숙소유형코드,숙소운영형태,우편번호,도로명주소,위도,경도,체크인시간,체크아웃시간,...,하위 시구,지역별_관심도,유튜브_상위20_평균조회수,별점,주중판매가,주말판매가,판매가비율,리뷰수,최초리뷰날짜,감성별점
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,...,영등포구,3.05727,725000,4.7,65000.0,110000.0,1.69,3202,2017.11.16,3.100239
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,청주시,2.802088,67961,4.6,55000.0,50000.0,0.91,670,2017.12.02,3.751613
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,...,강남구,3.05727,725000,4.2,60000.0,120000.0,2.0,9275,2017.10.18,2.858
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,...,유성구,2.918471,155050,4.7,60000.0,90000.0,1.5,245,2017.12.09,4.112426
4,23207,역삼벤,1,Motel,6220,서울 강남구 언주로87길 41 (역삼동),37.500706,127.039849,23:00,12:00,...,강남구,3.05727,725000,4.8,55000.0,125000.0,2.27,10124,2017.10.23,2.97996


In [16]:
# 종합평균점수를 소수점 첫째 자리까지  반올림
df_감성별점추가['종합평균점수'] = (
    (df_감성별점추가['별점'] + df_감성별점추가['감성별점']) / 2
).round(1)

# 확인
df_감성별점추가[['별점', '감성별점', '종합평균점수']].head()

Unnamed: 0,별점,감성별점,종합평균점수
0,4.7,3.100239,3.9
1,4.6,3.751613,4.2
2,4.2,2.858,3.5
3,4.7,4.112426,4.4
4,4.8,2.97996,3.9


In [17]:
# 감성별점 소수점 첫째 자리까지 반올림
df_감성별점추가['감성별점'] = df_감성별점추가['감성별점'].round(1)

# 확인
df_감성별점추가[['감성별점']].head()


Unnamed: 0,감성별점
0,3.1
1,3.8
2,2.9
3,4.1
4,3.0


In [19]:
df_감성별점추가.head()

Unnamed: 0,숙소ID,숙소명,숙소유형코드,숙소운영형태,우편번호,도로명주소,위도,경도,체크인시간,체크아웃시간,...,지역별_관심도,유튜브_상위20_평균조회수,별점,주중판매가,주말판매가,판매가비율,리뷰수,최초리뷰날짜,감성별점,종합평균점수
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,...,3.05727,725000,4.7,65000.0,110000.0,1.69,3202,2017.11.16,3.1,3.9
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,2.802088,67961,4.6,55000.0,50000.0,0.91,670,2017.12.02,3.8,4.2
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,...,3.05727,725000,4.2,60000.0,120000.0,2.0,9275,2017.10.18,2.9,3.5
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,...,2.918471,155050,4.7,60000.0,90000.0,1.5,245,2017.12.09,4.1,4.4
4,23207,역삼벤,1,Motel,6220,서울 강남구 언주로87길 41 (역삼동),37.500706,127.039849,23:00,12:00,...,3.05727,725000,4.8,55000.0,125000.0,2.27,10124,2017.10.23,3.0,3.9


In [20]:
# 컬럼명 변경
df_감성별점추가.rename(columns={'최초리뷰날짜': '최초리뷰일자'}, inplace=True)

# 날짜 컬럼을 datetime 형식으로 변환
df_감성별점추가['최초리뷰일자'] = pd.to_datetime(df_감성별점추가['최초리뷰일자'])

# 연, 월 컬럼 생성
df_감성별점추가['리뷰연도'] = df_감성별점추가['최초리뷰일자'].dt.year
df_감성별점추가['리뷰월'] = df_감성별점추가['최초리뷰일자'].dt.month


In [21]:
df_감성별점추가

Unnamed: 0,숙소ID,숙소명,숙소유형코드,숙소운영형태,우편번호,도로명주소,위도,경도,체크인시간,체크아웃시간,...,별점,주중판매가,주말판매가,판매가비율,리뷰수,최초리뷰일자,감성별점,종합평균점수,리뷰연도,리뷰월
0,23184,영등포라이프스타일FHOTEL,1,Motel,7306,서울 영등포구 경인로108길 8 (영등포동1가),37.517182,126.911217,23:00,12:00,...,4.7,65000.0,110000.0,1.69,3202,2017-11-16,3.1,3.9,2017,11
1,23192,청주오창M+,1,Motel,28118,충청북도 청주시 청원구 오창읍 양청송대길 9-12,36.713884,127.439228,18:00,12:00,...,4.6,55000.0,50000.0,0.91,670,2017-12-02,3.8,4.2,2017,12
2,23197,강남렉시,1,Motel,6235,서울특별시 강남구 테헤란로16길 11,37.498792,127.033956,23:00,13:00,...,4.2,60000.0,120000.0,2.00,9275,2017-10-18,2.9,3.5,2017,10
3,23204,대전유성시나브로,1,Motel,34185,대전광역시 유성구 온천북로59번길 9,36.356873,127.349172,17:00,13:00,...,4.7,60000.0,90000.0,1.50,245,2017-12-09,4.1,4.4,2017,12
4,23207,역삼벤,1,Motel,6220,서울 강남구 언주로87길 41 (역삼동),37.500706,127.039849,23:00,12:00,...,4.8,55000.0,125000.0,2.27,10124,2017-10-23,3.0,3.9,2017,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20762,1000114526,전주중노송동파인,1,Motel,55000,전라북도 전주시 완산구 현무3길 54,35.822097,127.150451,16:00,12:00,...,3.3,45000.0,60000.0,1.33,64,2021-06-18,4.4,3.9,2021,6
20763,1000114529,거창서핑파크리조트&글램핑,2,Hotel,50103,경상남도 거창군 위천면 거차1길 23-18,35.747967,127.836350,15:00,11:00,...,4.3,115000.0,140000.0,1.22,51,2021-10-10,3.5,3.9,2021,10
20764,1000114558,여수굿썸,1,Motel,59769,전라남도 여수시 돌산읍 강남로 45,34.719781,127.750254,15:00,11:00,...,2.7,60000.0,80000.0,1.33,38,2021-06-07,4.2,3.5,2021,6
20765,1000114577,순천브라운도트순천역점,1,Motel,57964,전라남도 순천시 팔마로 153,34.944613,127.504991,23:00,11:00,...,4.9,70000.0,100000.0,1.43,456,2021-10-03,4.2,4.6,2021,10


In [22]:
# 컬럼명 변경
df_감성별점추가.rename(columns={
    '리뷰연도': '최초리뷰연도',
    '리뷰월': '최초리뷰월'
}, inplace=True)


In [24]:
df_감성별점추가.to_csv('프로젝트/0811_메인프레임v10_감성별점추가.csv', index=False)

# 야놀자 이미지url 정제 및 매핑

In [None]:
import pandas as pd

df_이미지 = pd.read_csv('YN_LDGS_PROPRERTY_PHOTO_URL_202412.csv')
df_main = pd.read_csv('프로젝트/0812_메인프레임v11.csv')

In [None]:
df_이미지

In [None]:
# LDGS_CD, GSRM_IMAGE_URL 컬럼명 변경
df_이미지.rename(columns={'LDGS_CD': '숙소ID', 'GSRM_IMAGE_URL': '이미지URL'}, inplace=True)

In [None]:
# 이미지URL 중복 확인
duplicate_image = df_이미지[df_이미지.duplicated(['이미지URL'], keep=False)]

In [None]:
duplicate_image

In [None]:
import pandas as pd

# 1) 기본 정리: 결측/공백 제거, (숙소ID, 이미지URL) 중복 제거
df1 = (
    df_이미지.copy()
      .dropna(subset=['숙소ID', '이미지URL'])
)
df1['이미지URL'] = df1['이미지URL'].astype(str).str.strip()
df1 = df1.drop_duplicates(subset=['숙소ID', '이미지URL'])

# 2) 날짜 파싱 (있으면 최신 우선)
if 'IMAGE_RNEWL_DE' in df1.columns:
    df1['IMAGE_RNEWL_DE'] = pd.to_datetime(df1['IMAGE_RNEWL_DE'], errors='coerce')
else:
    df1['IMAGE_RNEWL_DE'] = pd.NaT

# 3) 숙소ID별 최신순 정렬 후 최대 3개 선택
df_top3 = (
    df1.sort_values(['숙소ID', 'IMAGE_RNEWL_DE'], ascending=[True, False])
       .groupby('숙소ID', as_index=False)
       .head(3)
       .reset_index(drop=True)
)

# 4) 필요한 컬럼만 남기기
df_이미지_top3_long = df_top3[['숙소ID', '이미지URL']]

# 결과 예시
print(df_이미지_top3_long.head())


In [None]:
df_이미지_top3_long

In [None]:
df_main.head()

In [None]:
# df_main과 df_이미지_top3_long 모두 '숙소ID'가 같은 타입(str/int)인지 확인
df_main['숙소ID'] = df_main['숙소ID'].astype(str)
df_이미지_top3_long['숙소ID'] = df_이미지_top3_long['숙소ID'].astype(str)

# df_main에 있는 숙소ID만 필터링
df_이미지_top3_long = df_이미지_top3_long[
    df_이미지_top3_long['숙소ID'].isin(df_main['숙소ID'])
].reset_index(drop=True)


In [None]:
df_이미지_top3_long.to_csv('이미지URL_최신3개.csv', index=False)