# SKN 19기 mini-project 5팀(팀명: 여권어디있지) EDA

In [25]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')


# pandas 출력 옵션
pd.set_option('display.float_format', '{:.2f}'.format)

In [26]:
# 한글 폰트 사용을 위한 설정
import matplotlib.font_manager as fm
import matplotlib

font_path = 'C:\\Windows\\Fonts\\gulim.ttc'
font = fm.FontProperties(fname=font_path).get_name()
matplotlib.rc('font', family=font)

In [27]:
# 결측치를 평균값 vs 중위값
pick_method = 'mean' # mean or median

In [28]:
# 데이터 로드
df_listings = pd.read_csv('./data/listings.csv.gz', compression='gzip')

In [29]:
# 전체 컬럼
all_columns = {
    'id': '각 숙소의 고유 식별자',
    'listing_url': '숙소의 웹페이지 URL',
    'scrape_id': '데이터 스크래핑 작업의 고유 식별자',
    'last_scraped': '숙소 정보가 마지막으로 스크래핑된 날짜',
    'source': '숙소 정보의 출처',
    'name': '숙소의 이름',
    'description': '숙소에 대한 상세 설명',
    'neighborhood_overview': '숙소 주변 지역에 대한 설명',
    'picture_url': '숙소 대표 사진의 URL',
    'host_id': '호스트의 고유 식별자',
    'host_url': '호스트의 웹페이지 URL',
    'host_name': '호스트의 이름',
    'host_since': '호스트가 에어비앤비에 가입한 날짜',
    'host_location': '호스트의 위치',
    'host_about': '호스트에 대한 자기소개',
    'host_response_time': '호스트의 평균 응답 시간',
    'host_response_rate': '호스트의 응답률',
    'host_acceptance_rate': '호스트의 예약 수락률',
    'host_is_superhost': '호스트가 슈퍼호스트인지 여부',
    'host_thumbnail_url': '호스트 프로필 썸네일 이미지의 URL',
    'host_picture_url': '호스트 프로필 사진의 URL',
    'host_neighbourhood': '호스트가 거주하는 지역',
    'host_listings_count': '해당 호스트가 보유한 전체 숙소 수',
    'host_total_listings_count': '해당 호스트가 소유하거나 관리하는 전체 숙소 수',
    'host_verifications': '호스트의 인증 정보 목록',
    'host_has_profile_pic': '호스트가 프로필 사진을 가지고 있는지 여부',
    'host_identity_verified': '호스트 신원이 인증되었는지 여부',
    'neighbourhood': '숙소가 위치한 지역의 이름',
    'neighbourhood_cleansed': '정제된 숙소 지역 이름',
    'neighbourhood_group_cleansed': '정제된 숙소 지역 그룹 이름',
    'latitude': '숙소의 위도',
    'longitude': '숙소의 경도',
    'property_type': '숙소의 종류',
    'room_type': '숙소의 방 유형',
    'accommodates': '숙소가 수용 가능한 최대 인원 수',
    'bathrooms': '숙소의 욕실 개수',
    'bathrooms_text': '숙소의 욕실 개수를 설명하는 텍스트',
    'bedrooms': '숙소의 침실 개수',
    'beds': '숙소의 침대 개수',
    'amenities': '숙소에 제공되는 편의 시설 목록',
    'price': '숙소의 1박당 가격',
    'minimum_nights': '최소 숙박 가능 일수',
    'maximum_nights': '최대 숙박 가능 일수',
    'minimum_minimum_nights': '호스트가 설정한 최소 숙박 일수 중 가장 낮은 값',
    'maximum_minimum_nights': '호스트가 설정한 최소 숙박 일수 중 가장 높은 값',
    'minimum_maximum_nights': '호스트가 설정한 최대 숙박 일수 중 가장 낮은 값',
    'maximum_maximum_nights': '호스트가 설정한 최대 숙박 일수 중 가장 높은 값',
    'minimum_nights_avg_ntm': '최소 숙박 일수의 평균값',
    'maximum_nights_avg_ntm': '최대 숙박 일수의 평균값',
    'calendar_updated': '달력이 마지막으로 업데이트된 시점',
    'has_availability': '숙소 예약 가능 여부',
    'availability_30': '향후 30일 동안의 숙소 예약 가능 일수',
    'availability_60': '향후 60일 동안의 숙소 예약 가능 일수',
    'availability_90': '향후 90일 동안의 숙소 예약 가능 일수',
    'availability_365': '향후 365일 동안의 숙소 예약 가능 일수',
    'calendar_last_scraped': '달력 정보가 마지막으로 스크래핑된 날짜',
    'number_of_reviews': '총 리뷰 개수',
    'number_of_reviews_ltm': '지난 12개월 동안의 리뷰 개수',
    'number_of_reviews_l30d': '지난 30일 동안의 리뷰 개수',
    'availability_eoy': '연말까지의 예약 가능 일수',
    'number_of_reviews_ly': '지난 1년 동안의 리뷰 개수',
    'estimated_occupancy_l365d': '지난 365일 동안의 예상 점유율',
    'estimated_revenue_l365d': '지난 365일 동안의 예상 수입',
    'first_review': '첫 번째 리뷰가 작성된 날짜',
    'last_review': '마지막 리뷰가 작성된 날짜',
    'review_scores_rating': '총 리뷰 점수(별점)의 평균값',
    'review_scores_accuracy': '정확도 리뷰 점수',
    'review_scores_cleanliness': '청결도 리뷰 점수',
    'review_scores_checkin': '체크인 경험 리뷰 점수',
    'review_scores_communication': '소통 리뷰 점수',
    'review_scores_location': '위치 리뷰 점수',
    'review_scores_value': '가격 대비 가치 리뷰 점수',
    'license': '숙소의 라이선스 정보',
    'instant_bookable': '즉시 예약이 가능한 숙소인지 여부',
    'calculated_host_listings_count': '호스트가 등록한 숙소 개수',
    'calculated_host_listings_count_entire_homes': '호스트가 등록한 \'전체 숙소/아파트\' 유형의 개수',
    'calculated_host_listings_count_private_rooms': '호스트가 등록한 \'개인실\' 유형의 개수',
    'calculated_host_listings_count_shared_rooms': '호스트가 등록한 \'공용 공간\' 유형의 개수',
    'reviews_per_month': '월별 평균 리뷰 개수'
}

# 드롭 컬럼, host_id는 분석에 쓰임 분석 후 드롭 예정
drop_list = [
'id',	                                        # 각 숙소의 고유 식별자
'listing_url',	                                # 숙소의 웹페이지 URL
'scrape_id',	                                # 데이터 스크래핑 작업의 고유 식별자
'last_scraped',	                                # 숙소 정보가 마지막으로 스크래핑된 날짜
'source',	                                    # 숙소 정보의 출처
'name',	                                        # 숙소의 이름
'description',	                                # 숙소에 대한 상세 설명
'neighborhood_overview',	                    # 숙소 주변 지역에 대한 설명
'picture_url',	                                # 숙소 대표 사진의 URL
# 'host_id',	                                    # 호스트의 고유 식별자
'host_url',	                                    # 호스트의 웹페이지 URL
'host_name',	                                # 호스트의 이름
'host_since',	                                # 호스트가 에어비앤비에 가입한 날짜
'host_location',	                            # 호스트의 위치
'host_about',	                                # 호스트에 대한 자기소개
'host_response_time',	                        # 호스트의 평균 응답 시간
'host_response_rate',	                        # 호스트의 응답률
'host_acceptance_rate',	                        # 호스트의 예약 수락률
'host_is_superhost',	                        # 호스트가 슈퍼호스트인지 여부
'host_thumbnail_url',	                        # 호스트 프로필 썸네일 이미지의 URL
'host_picture_url',	                            # 호스트 프로필 사진의 URL
'host_neighbourhood',	                        # 호스트가 거주하는 지역
'host_listings_count',	                        # 해당 호스트가 보유한 전체 숙소 수
'host_total_listings_count',	                # 해당 호스트가 소유하거나 관리하는 전체 숙소 수
'host_verifications',	                        # 호스트의 인증 정보 목록
'host_has_profile_pic',	                        # 호스트가 프로필 사진을 가지고 있는지 여부
'host_identity_verified',	                    # 호스트 신원이 인증되었는지 여부
'neighbourhood',	                            # 숙소가 위치한 지역의 이름
'neighbourhood_group_cleansed',	                # 정제된 숙소 지역 그룹 이름
'bathrooms_text',	                            # 숙소의 욕실 개수를 설명하는 텍스트
'minimum_nights',	                            # 최소 숙박 가능 일수
'maximum_nights',	                            # 최대 숙박 가능 일수
'minimum_minimum_nights',	                    # 호스트가 설정한 최소 숙박 일수 중 가장 낮은 값
'maximum_minimum_nights',	                    # 호스트가 설정한 최소 숙박 일수 중 가장 높은 값
'minimum_maximum_nights',	                    # 호스트가 설정한 최대 숙박 일수 중 가장 낮은 값
'maximum_maximum_nights',	                    # 호스트가 설정한 최대 숙박 일수 중 가장 높은 값
'minimum_nights_avg_ntm',	                    # 최소 숙박 일수의 평균값
'maximum_nights_avg_ntm',	                    # 최대 숙박 일수의 평균값
'calendar_updated',	                            # 달력이 마지막으로 업데이트된 시점
'has_availability',	                            # 숙소 예약 가능 여부
'availability_30',	                            # 향후 30일 동안의 숙소 예약 가능 일수
'availability_60',	                            # 향후 60일 동안의 숙소 예약 가능 일수
'availability_90',	                            # 향후 90일 동안의 숙소 예약 가능 일수
'availability_365',	                            # 향후 365일 동안의 숙소 예약 가능 일수
'calendar_last_scraped',	                    # 달력 정보가 마지막으로 스크래핑된 날짜
'availability_eoy',	                            # 연말까지의 예약 가능 일수
'estimated_occupancy_l365d',	                # 지난 365일 동안의 예상 점유율
'estimated_revenue_l365d',	                    # 지난 365일 동안의 예상 수입
'license',	                                    # 숙소의 라이선스 정보
'instant_bookable',	                            # 즉시 예약이 가능한 숙소인지 여부
'calculated_host_listings_count',	            # 호스트가 등록한 숙소 개수
'calculated_host_listings_count_entire_homes',	# 호스트가 등록한 '전체 숙소/아파트' 유형의 개수
'calculated_host_listings_count_private_rooms',	# 호스트가 등록한 '개인실' 유형의 개수
'calculated_host_listings_count_shared_rooms',	# 호스트가 등록한 '공용 공간' 유형의 개수
'reviews_per_month'	                            # 월별 평균 리뷰 개수
]


In [30]:

# 불필요 컬럼 드롭 처리
df_listings = df_listings.drop(drop_list, axis=1)


In [31]:
def print_len_now(text=""):
    print(text,'행 개수:', len(df_listings))

##### price
주제(숙소 조건에 따른 숙소 가격 예측)을 위해선 숫자 데이터 결측치 및 이상치가 먼저 처리되야 한다고 판단

In [32]:
# price 문자형 -> float 변경

# 추적용 price_text 컬럼 생성
df_listings['price_text'] = df_listings['price']

# 'price_float' 컬럼에서 '$'와 ',' 제거
df_listings['price'] = df_listings['price'].str.replace('$', '', regex=False).str.replace(',', '', regex=False)

# 컬럼 타입 변경
df_listings['price'] = df_listings['price'].astype(float)

price의 결측치를 특성 그룹별 평균값으로 대체

In [33]:
# isna_cnt1 = df_listings['price'].isna().sum()
# print('결측치',isna_cnt1, '개 ')

def fillna_groupby_mean_price(groupby_columns):
    """
    호출 예:
    groupby_columns = [
        ['room_type', 'property_type', 'accommodates', 'neighbourhood_cleansed'],
        ['room_type', 'property_type', 'accommodates'],
        ['room_type', 'accommodates'],
        ['room_type', 'property_type']
    ]
    fillna_groupby_mean_price(groupby_columns)
    """
    def get_na_cnt():
        # 'price' 열의 결측치 개수를 반환하는 내부 함수
        return df_listings['price'].isna().sum()

    print('최초 결측치', get_na_cnt(), '개 ')

    for gc in groupby_columns:
        # 각 그룹핑 컬럼을 기준으로 그룹별 평균값으로 결측치를 채움
        df_listings['price'] = df_listings['price'].fillna(
            df_listings.groupby(gc)['price'].transform('mean')
        )
        print(f"'{gc}' 컬럼으로 처리 후 결측치 {get_na_cnt()} 개")

groupby_columns = [
    ['room_type', 'property_type', 'accommodates', 'neighbourhood_cleansed'],
    ['room_type', 'property_type', 'accommodates'],
    ['room_type', 'accommodates'],
    ['room_type', 'property_type']
]

# fillna_groupby_mean_price(groupby_columns)

In [34]:
# price 이상치 탐색 - 상세


def drop_price_over(df:pd.DataFrame ,target_price:int):
    """
    target_price(해당 금액) 이상 행 드롭해서 반환
    """
    return df.drop(df[df['price'] > target_price].index, axis=0)



def drop_price_above(df: pd.DataFrame, percent: float | int, price_col='price'):
    """
    주어진 DataFrame에서 특정 열의 가격이 상위 `percent`에 해당하는 값을 초과하는 행을 제거합니다.

    Args:
        df (pd.DataFrame): 처리할 원본 DataFrame.
        percent (float): 제거할 상위 백분위(예: 95는 상위 5%를 제거).
        price_col (str, optional): 가격 데이터가 있는 열의 이름. 기본값은 'price'.

    Returns:
        pd.DataFrame: 상위 `percent`에 해당하는 가격을 초과하는 행이 제거된 DataFrame.
    """
    percent = percent / 100
    rangex = df[price_col].quantile(percent)
    return df[df[price_col] < rangex]


In [35]:
# 상위 1% 제거

print_len_now('이상치 제거 전')
df_listings = drop_price_above(df_listings, 99)
print_len_now('이상치 제거 후')

이상치 제거 전 행 개수: 25297
이상치 제거 후 행 개수: 23013


In [36]:
# len(df_listings[(df_listings['bedrooms'] > 15)]), len(df_listings[(df_listings['bathrooms'] > 15)]), len(df_listings[(df_listings['beds'] > 25)])





In [37]:
# df_listings[
#     ~(
#     (df_listings['bathrooms'] <= 15) &
#     (df_listings['bedrooms'] <= 15) &
#     (df_listings['beds'] <= 25)
#     )
# ]

In [38]:
# # 전체 행 출력을 위한 pandas 옵션 설정
# pd.set_option('display.max_rows', None)  # 모든 행 출력

# print(df_listings[
#     (
#     (df_listings['bathrooms'] <= 15) &
#     (df_listings['bedrooms'] <= 15) &
#     (df_listings['beds'] <= 25)
#     )
# ])

# # 출력 후 기본값으로 복원 (선택사항)
# pd.reset_option('display.max_rows')

In [39]:
# 개수가 적어 유의미하지 않은 value를 이상값으로 처리
# bathrooms 컬럼의 value가 15 초과면 제거
# bedrooms 컬럼의 value가 15 초과면 제거
# bed 컬럼의 value가 25 초과면 제거


# 이상치 관련 상의 필요

print_len_now('이상치 제거 전')


df_listings = df_listings[
    (df_listings['bathrooms'] <= 15) &
    (df_listings['bedrooms'] <= 15) &
    (df_listings['beds'] <= 25)
]


print_len_now('이상치 제거 후')
print('-' * 50)
print(df_listings['price'].describe().round(2))


이상치 제거 전 행 개수: 23013
이상치 제거 후 행 개수: 22983
--------------------------------------------------
count   22983.00
mean    17675.84
std     12627.35
min      1700.00
25%      9429.00
50%     13903.00
75%     21536.50
max     99999.00
Name: price, dtype: float64


In [40]:
# review_scores_rating 제외 평점 관련 칼럼 모두 제거

drop_scores_list = [
    'review_scores_accuracy',
    'review_scores_cleanliness',
    'review_scores_checkin',
    'review_scores_communication',
    'review_scores_location',
    'review_scores_value'
]
df_listings = df_listings.drop(drop_scores_list, axis=1)

In [41]:
# 'latitude' 위도, 'longitude' 경도 컬럼은 제거
drop_list = ['longitude', 'latitude']

df_listings = df_listings.drop(drop_list, axis=1)

In [42]:
plot_columns =[
    # 'number_of_reviews',
    'number_of_reviews_ltm',
    'number_of_reviews_l30d',
    'number_of_reviews_ly',
    # 'first_review',
    'last_review'
]

df_listings = df_listings.drop(plot_columns, axis=1)

In [43]:
drop_scores_list = [
    'host_id',
    'price_text'
]
df_listings = df_listings.drop(drop_scores_list, axis=1)

In [44]:
import ast # 리스트형 문자열 파싱용 라이브러리
amenities_ser = df_listings['amenities'].apply(ast.literal_eval)

In [45]:
amenity_keywords = {
    "self_checkin": ["Self check-in"],
    "instant_book": ["Instant book", "immediate booking"],
    "kitchen": [
        "kitchen", "refrigerator", "fridge", "stove", "oven", "microwave", "freezer",
        "induction", "gas stove", "electric stove", "dishwasher", 
        "single oven", "double oven", "bistro",
        "kitchenette", "outdoor kitchen"
    ],
    "hair_dryer": ["Hair dryer", "hair dryers", "ドライヤー"],  # "dryer" 제거
    "free_parking": [
        "Free parking", "parking", "garage", "carport", "driveway parking",
        "residential garage", "street parking"
    ],
    "wifi": ["Wifi", "Fast wifi", "internet"],
    "private_bathroom": ["private bathroom", "bedroom bathroom", "en-suite"],
    "bbq_grill": [
        "BBQ grill", "Barbecue", "Private BBQ", "Shared BBQ", "charcoal", 
        "electric", "gas", "barbecue utensils"
    ],
    "washer": ["Washer", "washing machine", "laundromat", "Free washer", "Paid washer"],
    "pets_allowed": ["Pets allowed"],
    "clothes_dryer": [
        "Dryer", "Free dryer", "Paid dryer",
        "Dryer – In building", "Dryer – In unit",
        "Free dryer – In building", "Free dryer – In unit", 
        "Paid dryer – In building", "Paid dryer – In unit",
        "clothes dryer", "laundry dryer"
    ],
    "heating": [
        "Heating", "heater", "Central heating", "Radiant heating", 
        "Portable heater", "heated"
    ],
    "air_conditioning": [
        "AC", "Air conditioning", "Central air conditioning", "Portable air conditioning",
        "split type ductless system", "air conditioner", "cooling"
    ],
    "workspace": ["Dedicated workspace", "workspace", "work space"],
    "iron": ["Iron", "ironing"],
    "pool": [
        "Pool", "swimming", "Private pool", "Shared pool", "indoor pool", 
        "outdoor pool", "pool toys", "Pool view", "pool table"
    ],
    "bathtub": ["Bathtub", "Hot tub", "Private hot tub", "Shared hot tub"],
    "ev_charger": ["EV charger", "electric vehicle", "electric car"],
    "crib": [
        "Crib", "baby bed", "Pack 'n play", "Travel crib", "baby bath",
        "changing table", "baby monitor", "babysitter", "high chair"
    ],
    "king_bed": ["king size", "king bed"],
    "gym": [
        "Gym", "fitness", "exercise equipment", "workout", "stationary bike",
        "treadmill", "yoga mat", "free weights", "elliptical", "workout bench"
    ],
    "breakfast": ["Breakfast", "morning meal"],
    "fireplace": [
        "Indoor fireplace", "fireplace", "electric", "gas", "wood-burning",
        "ethanol", "fireplace guards"
    ],
    "smoking_allowed": ["Smoking allowed"],
    "waterfront": [
        "Waterfront", "beach", "lake", "river", "Beach access", "Lake access",
        "Beach view", "Lake view", "Marina view", "Sea view", "Canal view"
    ],
    "smoke_alarm": ["Smoke alarm", "fire alarm"],
    "carbon_monoxide_alarm": ["Carbon monoxide alarm"],
    # "other": [
    #     "TV", "HDTV", "Netflix", "Amazon Prime", "Disney+", "Hulu", "DVD player",
    #     "sound system", "Bluetooth", "Game console", "Nintendo", "PS4", "Xbox",
    #     "shampoo", "conditioner", "body soap", "clothing storage", "closet",
    #     "wardrobe", "dresser", "hangers", "bed linens", "housekeeping",
    #     "long term stays", "mountain view", "valley view", "resort view",
    #     "ping pong", "climbing wall", "kayak", "skate ramp", "children's books",
    #     "children's toys", "movie theater", "fire pit", "outdoor shower",
    #     "trash compactor", "table corner guards", "keypad", "hot water",
    #     "toaster", "coffee maker", "Nespresso"
    # ]
}

In [46]:
amenities_ser2 = amenities_ser.copy()


def classify_amenities(amenities_list):
    new_list = []

    # Series 객체의 반복 가능 값 반복
    for amnt in amenities_list:
        is_changed = False

        for key,value in amenity_keywords.items():
            for key_word in value:
                if key_word.lower() in amnt.lower():
                    new_list.append(key)
                    is_changed = True
                    break
        
        if not is_changed:
            new_list.append('기타')
        
    return list(set(new_list))

def has_amenity(amenity_list, target):
    return 1 if target in amenity_list else 0


amenities_ser2 = amenities_ser2.apply(classify_amenities)

# Amenities 정리
for k in amenity_keywords.keys():
    df_listings['amnt_'+ k] = amenities_ser2.apply(lambda x: has_amenity(x, k))

df_listings = df_listings.drop('amenities', axis=1)

In [47]:
df_listings.to_csv(f'./data/listings_cleaned_1st.csv', index=False)