In [6]:
# id: Airbnb의 숙소에 대한 고유 식별자
# listing_url: 숙소의 Airbnb 링크
# scrape_id: Inside Airbnb의 "Scrape"에 속한 부분
# last_scraped: UTC 기준. 숙소 정보를 "스크랩한" 날짜와 시간
# source: "neighbourhood search" 또는 "previous scrape" 중 하나. "neighbourhood search"는 도시에서 숙소를 검색하여 찾은 경우를 의미하며, "previous scrape"는 최근 65일 이내에 수행된 다른 스크랩에서 해당 숙소를 확인하고 Airbnb 사이트에서 여전히 이용 가능한 것으로 확인한 경우를 의미
# name: 숙소의 이름
# description: 숙소에 대한 상세한 설명
# neighborhood_overview: 호스트가 작성한 동네에 대한 설명
# picture_url: 숙소의 Airbnb 호스팅 이미지에 대한 URL
# host_id: 호스트/사용자에 대한 Airbnb의 고유 식별자
# host_url: 호스트의 Airbnb 페이지
# host_name: 호스트의 이름. 일반적으로 성함만 표시됩니다.
# host_since: 호스트/사용자가 생성된 날짜입니다. Airbnb 손님이 호스트로 활동하는 경우, 이는 손님으로 등록한 날짜일 수도 있습니다.
# host_location: 호스트가 자체 보고한 위치
# host_about: 호스트에 대한 설명
# host_response_time: 호스트의 응답 시간
# host_response_rate: 호스트의 응답률
# host_acceptance_rate: 호스트가 예약 요청을 수락하는 비율
# host_is_superhost: 호스트가 슈퍼호스트인지 여부
# host_thumbnail_url: 호스트의 섬네일 이미지 URL
# host_picture_url: 호스트의 프로필 사진 URL
# host_neighbourhood: 호스트의 동네
# host_listings_count: 호스트가 보유한 숙소의 수 (Airbnb의 계산에 따름)
# host_total_listings_count: 호스트가 보유한 숙소의 수 (Airbnb의 계산에 따름)
# host_verifications: 호스트가 수행한 인증 방법
# host_has_profile_pic: 호스트가 프로필 사진을 가지고 있는지 여부
# host_identity_verified: 호스트의 신원 인증 여부
# neighbourhood: 동네
# neighbourhood_cleansed: 위도와 경도에 대한 지오코딩을 사용하여 정의된 동네
# neighbourhood_group_cleansed: 위도와 경도에 대한 지오코딩을 사용하여 정의된 동네 그룹
# latitude: 위도 (세계 측지 시스템 WGS84에 기반)
# longitude: 경도 (세계 측지 시스템 WGS84에 기반)
# property_type: 선택한 숙소 유형. 호텔과 B&B는 호스트가 이 필드에 해당하는 대로 설명합니다.
# room_type: "[Entire home/apt|Private room|Shared room|Hotel]

# 모든 숙소는 다음 세 가지 방 유형으로 그룹화됩니다:

# 전체 숙소
# 개인실
# 공용 공간
# 전체 숙소
# 전체 숙소는 자신만의 공간을 찾고 있는 경우 가장 적합합니다. 전체 숙소를 예약하면 침실, 욕실, 주방 및 별도의 전용 출입구가 포함됩니다. 호스트는 숙소에 머무를 지 여부를 설명에 명시해야 하며 (예: "호스트는 집의 1층을 점유합니다"), 숙소에 대한 자세한 정보를 제공해야 합니다.

# 개인실
# 개인실은 약간의 개인 공간을 선호하면서도 현지인과 연결을 중요시하는 경우에 적합합니다. 개인실을 예약하면 자신만의 개인 공간이 제공되며 다른 사람과 일부 공간을 공유할 수도 있습니다. 개인실로 이동할 때 다른 호스트나 게스트가 차지한 실내 공간을 통과해야 할 수도 있습니다.

# 공용 공간
# 공용 공간은 다른 사람들과 공유하는 공간에서 머무는 경우에 적합합니다. 공용 공간을 예약하면 다른 사람들과 공유하는 공간에서 잠을 잘 수 있으며, 전체 공간을 다른 사람들과 함께 사용. 공용 공간은 새로운 친구를 사귀고 예산을 고려하는 유연한 여행자들 사이에서 인기가 있음
# accommodates: 숙소의 최대 수용 인원
# bathrooms: 숙소 내의 욕실 수
# bathrooms_text: 숙소 내의 욕실 수. Airbnb 웹 사이트에서는 욕실 필드가 숫자에서 텍스트로 변화되었습니다. 이전 스크랩의 경우, bathrooms가 사용 됨
# bedrooms: 숙소의 침실 수
# beds: 침대 수
# amenities: 편의 시설
# price: 현지 통화로 매일 가격
# minimum_nights: 숙소에 대한 최소 숙박 기간 (달력 규칙이 다를 수 있음)
# maximum_nights: 숙소에 대한 최대 숙박 기간 (달력 규칙이 다를 수 있음)
# minimum_minimum_nights: 달력을 통해 확인한 가장 작은 최소 숙박 기간 (365일 내에서 확인)
# maximum_minimum_nights: 달력을 통해 확인한 가장 큰 최소 숙박 기간 (365일 내에서 확인) 
#                                                   calendar_updated: 달력 업데이트 정보
# has_availability: [t=true; f=false]. 호스트가 예약 요청을 수락하지 않고도 손님이 자동으로 숙소를 예약할 수 있는지 여부. 상업적인 숙소를 나타내는 지표
# availability_30: 달력에 따라 x일 이후의 숙소 예약 가능 여부. 숙소가 손님에 의해 예약되었거나 호스트에 의해 차단된 경우 숙소가 이용 불가능
# availability_60: 달력에 따라 x일 이후의 숙소 예약 가능 여부. 숙소가 손님에 의해 예약되었거나 호스트에 의해 차단된 경우 숙소가 이용 불가능
# availability_90: 달력에 따라 x일 이후의 숙소 예약 가능 여부. 숙소가 손님에 의해 예약되었거나 호스트에 의해 차단된 경우 숙소가 이용 불가능
# availability_365: 달력에 따라 x일 이후의 숙소 예약 가능 여부. 숙소가 손님에 의해 예약되었거나 호스트에 의해 차단된 경우 숙소가 이용 불가능
# calendar_last_scraped: 달력이 마지막으로 스크랩된 날짜
# number_of_reviews: 숙소의 리뷰 수
# number_of_reviews_ltm: 숙소의 리뷰 수 (지난 12개월 동안)
# number_of_reviews_l30d: 숙소의 리뷰 수 (지난 30일 동안)
# first_review: 첫 번째/가장 오래된 리뷰의 날짜
# last_review: 마지막/최신 리뷰의 날짜
# review_scores_rating: 리뷰 평점
# review_scores_accuracy: 리뷰 정확성 평점
# review_scores_cleanliness: 리뷰 청결도 평점
# review_scores_checkin: 리뷰 체크인 평점
# review_scores_communication: 리뷰 의사소통 평점
# review_scores_location: 리뷰 위치 평점
# review_scores_value: 리뷰 가치 평점
# license: 라이선스/허가/등록 번호
# instant_bookable: [t=true; f=false]. 호스트가 예약 요청을 수락하지 않고도 손님이 자동으로 숙소를 예약할 수 있는지 여부. 상업적인 숙소를 나타내는 지표
# calculated_host_listings_count: 현재 스크랩에서 호스트가 보유한 숙소의 수 (도시/지역 기준)
# calculated_host_listings_count_entire_homes: 현재 스크랩에서 호스트가 보유한 전체 주택/아파트 숙소의 수 (도시/지역 기준)
# calculated_host_listings_count_private_rooms: 현재 스크랩에서 호스트가 보유한 개인실 숙소의 수 (도시/지역 기준)
# calculated_host_listings_count_shared_rooms: 현재 스크랩에서 호스트가 보유한 공용 공간 숙소의 수 (도시/지역 기준)
# reviews_per_month: 숙소의 수명 동안 받은 리뷰 수


In [2]:
import os 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

In [52]:
df_airbnb= pd.read_csv('listing.csv')
df_airbnb.fillna('-', inplace=True)
df_airbnb
df_airbnb.info()

# 일단 null 값 제외하고 가져옴. 
df_listing = df_airbnb[['id', 'name', 'host_id', 'neighbourhood', 'district', 'latitude', 'longitude', 'room_type', 'price', 'minimum_nights', 'number_of_reviews', 'calculated_host_listings_count', 'availability_365', 'number_of_reviews_ltm']]
df_listing.head(2)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11177 entries, 0 to 11176
Data columns (total 19 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              11177 non-null  float64
 1   name                            11177 non-null  object 
 2   host_id                         11177 non-null  int64  
 3   host_name                       11177 non-null  object 
 4   neighbourhood_group             11177 non-null  object 
 5   neighbourhood                   11177 non-null  object 
 6   district                        11177 non-null  object 
 7   latitude                        11177 non-null  float64
 8   longitude                       11177 non-null  float64
 9   room_type                       11177 non-null  object 
 10  price                           11177 non-null  int64  
 11  minimum_nights                  11177 non-null  int64  
 12  number_of_reviews               

Unnamed: 0,id,name,host_id,neighbourhood,district,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,calculated_host_listings_count,availability_365,number_of_reviews_ltm
0,197677.0,Rental unit in Sumida · ★4.78 · 1 bedroom · 2 ...,964081,Sumida Ku,___ (Hong Kong Sen),35.71707,139.82608,Entire home/apt,11000,3,173,1,24,8
1,776070.0,Home in Kita-ku · ★4.98 · 1 bedroom · 1 bed · ...,801494,Kita Ku,____ (Toki Sen),35.73844,139.76917,Private room,7208,3,243,1,67,15


In [68]:
df_listing[df_listing['id'].duplicated()]

Unnamed: 0,id,name,host_id,neighbourhood,district,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,calculated_host_listings_count,availability_365,number_of_reviews_ltm
7826,5.850010e+17,Rental unit in Sumida City · ★4.50 · 1 bedroom...,31147720,Sumida Ku,___ (Hong Kong Sen),35.693310,139.812590,Private room,4300,1,12,13,14,12
7887,6.263020e+17,Rental unit in Shinjuku City · ★4.53 · 1 bedro...,247326938,Shinjuku Ku,_______ (Los Angeles Sen),35.706960,139.693210,Entire home/apt,12143,1,66,61,84,62
7921,6.402730e+17,Rental unit in Sumida City · ★5.0 · 1 bedroom ...,429330346,Sumida Ku,___ (Hong Kong Sen),35.709243,139.804020,Entire home/apt,11343,1,5,6,176,5
7945,6.430720e+17,Hotel in Arakawa City · ★4.96 · 1 bedroom · 1 ...,222463528,Arakawa Ku,_____ (Yodo-bashi Sen),35.729372,139.773416,Private room,13508,2,28,5,166,28
8073,6.581870e+17,Rental unit in Minato City · ★4.67 · 1 bedroom...,462816590,Minato Ku,_______ (San Francisco Sen),35.628970,139.732370,Entire home/apt,15443,1,9,31,0,9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11008,9.148640e+17,Rental unit in Toshima City · ★New · 1 bedroom...,520275878,Toshima Ku,___ (Tokyo Sen),35.738396,139.730846,Private room,7406,1,0,1,177,0
11109,9.176600e+17,Home in Suginami City · ★New · 3 bedrooms · 1 ...,199825323,Suginami Ku,____ (Chicago Sen),35.698012,139.606103,Entire home/apt,16000,3,0,6,42,0
11161,9.224000e+17,Rental unit in Shinjuku City · ★New · 1 bedroo...,517818337,Shinjuku Ku,_______ (Los Angeles Sen),35.702184,139.703207,Entire home/apt,9799,1,0,11,172,0
11165,9.224010e+17,Rental unit in Shinjuku City · ★New · 1 bedroo...,517818337,Shinjuku Ku,_______ (Los Angeles Sen),35.702434,139.703302,Entire home/apt,9799,1,0,11,172,0


In [51]:
df_listing['id'].nunique()

11073

In [37]:
listing_gz = pd.read_csv('listings.csv.gz', compression='gzip', header=0, sep=',', quotechar='"')
listing_gz.fillna('-', inplace=True)

In [49]:
listing_gz.columns

Index(['id', 'listing_url', 'scrape_id', 'last_scraped', 'source', 'name',
       'description', 'neighborhood_overview', 'picture_url', 'host_id',
       'host_url', 'host_name', 'host_since', 'host_location', 'host_about',
       'host_response_time', 'host_response_rate', 'host_acceptance_rate',
       'host_is_superhost', 'host_thumbnail_url', 'host_picture_url',
       'host_neighbourhood', 'host_listings_count',
       'host_total_listings_count', 'host_verifications',
       'host_has_profile_pic', 'host_identity_verified', 'neighbourhood',
       'neighbourhood_cleansed', 'neighbourhood_group_cleansed', 'latitude',
       'longitude', 'property_type', 'room_type', 'accommodates', 'bathrooms',
       'bathrooms_text', 'bedrooms', 'beds', 'amenities', 'price',
       'minimum_nights', 'maximum_nights', 'minimum_minimum_nights',
       'maximum_minimum_nights', 'minimum_maximum_nights',
       'maximum_maximum_nights', 'minimum_nights_avg_ntm',
       'maximum_nights_avg_ntm', 'ca

In [50]:
listing_gz['id'].nunique()

11177

In [41]:
listings = listing_gz.merge(df_listing, on='host_id', how='inner')
listings.head(2)



Unnamed: 0,id_x,listing_url,scrape_id,last_scraped,source,name_x,description,neighborhood_overview,picture_url,host_id,...,district,latitude_y,longitude_y,room_type_y,price_y,minimum_nights_y,number_of_reviews_y,calculated_host_listings_count_y,availability_365_y,number_of_reviews_ltm_y
0,197677,https://www.airbnb.com/rooms/197677,20230629055629,2023-06-29,city scrape,Rental unit in Sumida · ★4.78 · 1 bedroom · 2 ...,<b>The space</b><br />We are happy to welcome ...,-,https://a0.muscache.com/pictures/38437056/d27f...,964081,...,___ (Hong Kong Sen),35.71707,139.82608,Entire home/apt,11000,3,173,1,24,8
1,776070,https://www.airbnb.com/rooms/776070,20230629055629,2023-06-29,city scrape,Home in Kita-ku · ★4.98 · 1 bedroom · 1 bed · ...,We have been in airbnb since 2011 and it has g...,We love Nishinippori because is nearer to Toky...,https://a0.muscache.com/pictures/efd9f039-dbd2...,801494,...,____ (Toki Sen),35.73844,139.76917,Private room,7208,3,243,1,67,15


In [44]:
listings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 152801 entries, 0 to 152800
Data columns (total 88 columns):
 #   Column                                        Non-Null Count   Dtype  
---  ------                                        --------------   -----  
 0   id_x                                          152801 non-null  int64  
 1   listing_url                                   152801 non-null  object 
 2   scrape_id                                     152801 non-null  int64  
 3   last_scraped                                  152801 non-null  object 
 4   source                                        152801 non-null  object 
 5   name_x                                        152801 non-null  object 
 6   description                                   152801 non-null  object 
 7   neighborhood_overview                         152801 non-null  object 
 8   picture_url                                   152801 non-null  object 
 9   host_id                                       15

In [12]:
neighbourhoods = pd.read_csv('neighbourhoods.csv')
neighbourhoods.head(2)

Unnamed: 0,neighbourhood_group,neighbourhood
0,,Adachi Ku
1,,Akiruno Shi


In [59]:
df_reviews = pd.read_csv('reviews.csv')
df_reviews['listing_id'].nunique() # 9925
df_reviews

Unnamed: 0,listing_id,date
0,197677,2011-09-21
1,197677,2011-10-14
2,197677,2011-11-21
3,197677,2011-11-30
4,197677,2012-01-09
...,...,...
407707,915528151021700798,2023-06-26
407708,918757671248742571,2023-06-27
407709,913660262216995906,2023-06-21
407710,914001948186290663,2023-06-25


In [56]:
reviews_gz = pd.read_csv('reviews.csv.gz', compression='gzip', header=0, sep=',', quotechar='"')
reviews_gz.head(2)
reviews_gz['listing_id'].nunique()

9925

In [62]:
reviews = reviews_gz.merge(df_reviews, on='listing_id')
reviews.isnull().sum()

listing_id          0
id                  0
date_x              0
reviewer_id         0
reviewer_name      59
comments         6411
date_y              0
dtype: int64

In [66]:
reviews.duplicated()

0           False
1           False
2           False
3           False
4           False
            ...  
52562987    False
52562988    False
52562989    False
52562990    False
52562991    False
Length: 52562992, dtype: bool