In [None]:
import numpy as np
import pandas as pd

# 제주지역_매출액상위_요식업가맹점

In [None]:
df = pd.read_csv("./data/raw_data/JEJU_MCT_DATA.csv", encoding = 'cp949')
df

In [None]:
df['MCT_TYPE'].unique()

In [None]:
df.nunique()

In [None]:
# 소수점 4자리로 출력되도록 설정
pd.options.display.float_format = '{:.6f}'.format

# 연속형(continuous) 피처만 선택 (숫자형 컬럼)
continuous_df = df.select_dtypes(include=['float64'])

# min, max, mean 계산
min_values = continuous_df.min()
max_values = continuous_df.max()
mean_values = continuous_df.mean()

# range 계산 (max - min)
range_values = max_values - min_values

# 결과를 하나의 데이터프레임으로 결합
summary_df = pd.DataFrame({
    'min': min_values,
    'max': max_values,
    'mean': mean_values,
    'range': range_values
})

print(summary_df)

In [None]:
# NaN값 유무
df.isna().sum().sum()

In [None]:
# 각 컬럼별 최빈값과 해당 값의 빈도수 구하기
mode_count = {}
for col in df.columns:
    mode_value = df[col].mode()[0]  # 최빈값 구하기
    mode_frequency = df[col].value_counts()[mode_value]  # 최빈값의 빈도수 구하기
    mode_count[col] = (mode_value, mode_frequency)

# 결과 출력
for col, (mode_value, frequency) in mode_count.items():
    print(f"Column '{col}': 최빈값 = {mode_value}, 빈도수 = {frequency}")

In [None]:
# 각 컬럼별 최소빈값과 빈도수 구하기
min_count = {}
for col in df.columns:
    value_counts = df[col].value_counts()
    min_value = value_counts.idxmin()  # 최소빈값
    min_frequency = value_counts.min()  # 해당 값의 빈도수
    min_count[col] = (min_value, min_frequency)

# 결과 출력
for col, (min_value, frequency) in min_count.items():
    print(f"Column '{col}': 최소빈값 = {min_value}, 빈도수 = {frequency}")

# 비짓제주 월별 데이터

In [None]:
import pandas as pd

# 첫 번째 파일을 기준으로 병합을 시작
df_month_merged = pd.read_csv(f"./data/raw_data/제주_관광_데이터/제주 관광수요 예측 데이터_비짓제주 월별 데이터/JT_MT_ACCTO_TRRSRT_SCCNT_LIST_202301.csv", encoding='utf-8')[['CL_CD','CL_NM','AREA_NM','ADDR','BASE_YEAR','JAN_VIEWS_CO']]

# 나머지 2월부터 12월까지의 파일을 불러와 필요한 열만 병합
month_columns = ['FEB_VIEWS_CO', 'MAR_VIEWS_CO', 'APR_VIEWS_CO', 'MAY_VIEWS_CO', 'JUN_VIEWS_CO', 
                 'JULY_VIEWS_CO', 'AUG_VIEWS_CO', 'SEP_VIEWS_CO', 'OCT_VIEWS_CO', 'NOV_VIEWS_CO', 'DEC_VIEWS_CO']

for month, col in zip(range(2, 13), month_columns):
    df_temp = pd.read_csv(f"./data/raw_data/제주_관광_데이터/제주 관광수요 예측 데이터_비짓제주 월별 데이터/JT_MT_ACCTO_TRRSRT_SCCNT_LIST_2023{str(month).zfill(2)}.csv", encoding='utf-8')[['CL_CD','CL_NM','AREA_NM','ADDR','BASE_YEAR', col]]
    df_month_merged = pd.merge(df_month_merged, df_temp, on=['CL_CD','CL_NM','AREA_NM','ADDR','BASE_YEAR'], how='outer')

# 결과 확인
print(df_month_merged.head())


In [None]:
df_month_merged.to_csv('./data/preprocessed_data/JT_MT_ACCTO_TRRSRT_SCCNT_LIST_ALL_MONTH.csv')


In [None]:
df_month_merged[df_month_merged['CL_NM'] == '음식점']

In [None]:
df_month_merged.nunique()

In [None]:
df_month_merged.shape

In [None]:
# 소수점 4자리로 출력되도록 설정
pd.options.display.float_format = '{:.6f}'.format

# 연속형(continuous) 피처만 선택 (숫자형 컬럼)
continuous_df = df_month_merged.select_dtypes(include=['float64', 'int64'])

# min, max, mean 계산
min_values = continuous_df.min()
max_values = continuous_df.max()
mean_values = continuous_df.mean()

# range 계산 (max - min)
range_values = max_values - min_values

# 결과를 하나의 데이터프레임으로 결합
summary_df = pd.DataFrame({
    'min': min_values,
    'max': max_values,
    'mean': mean_values,
    'range': range_values
})

print(summary_df)

In [None]:
# 각 컬럼별 최빈값과 해당 값의 빈도수 구하기
mode_count = {}
for col in df_month_merged.columns:
    mode_value = df_month_merged[col].mode()[0]  # 최빈값 구하기
    mode_frequency = df_month_merged[col].value_counts()[mode_value]  # 최빈값의 빈도수 구하기
    mode_count[col] = (mode_value, mode_frequency)

# 결과 출력
for col, (mode_value, frequency) in mode_count.items():
    print(f"Column '{col}': 최빈값 = {mode_value}, 빈도수 = {frequency}")

In [None]:
# 각 컬럼별 최소빈값과 빈도수 구하기
min_count = {}
for col in df_month_merged.columns:
    value_counts = df_month_merged[col].value_counts()
    min_value = value_counts.idxmin()  # 최소빈값
    min_frequency = value_counts.min()  # 해당 값의 빈도수
    min_count[col] = (min_value, min_frequency)

# 결과 출력
for col, (min_value, frequency) in min_count.items():
    print(f"Column '{col}': 최소빈값 = {min_value}, 빈도수 = {frequency}")

In [None]:
# 같은 업장이 왜 여러 행에 존재할까?
df_month_merged[df_month_merged['AREA_NM'] == '제주빅볼랜드']

# 비짓제주 요일별 데이터

In [None]:
import pandas as pd

# 첫 번째 파일을 기준으로 병합을 시작
df_day_merged = pd.read_csv(f"./data/raw_data/제주_관광_데이터/제주 관광수요 예측 데이터_비짓제주 요일별 데이터/JT_WKDAY_ACCTO_TRRSRT_SCCNT_LIST_202301.csv", encoding='utf-8')

for month in range(2, 13):
    df_day_temp = pd.read_csv(f"./data/raw_data/제주_관광_데이터/제주 관광수요 예측 데이터_비짓제주 요일별 데이터/JT_WKDAY_ACCTO_TRRSRT_SCCNT_LIST_2023{str(month).zfill(2)}.csv", encoding='utf-8')
    df_day_merged = pd.concat([df_day_merged, df_day_temp])
    
df_day_merged.head()

In [None]:
df_day_merged.shape

In [None]:
df_day_merged.nunique()

In [None]:
pivot_df = df_day_merged.pivot_table(
    index=['CL_CD', 'CL_NM', 'AREA_NM', 'ADDR', 'BASE_YEAR'],
    columns='BASE_MT',
    values=['ALL_TOTAL_CO', 'MON_VIEWS_CO', 'TUES_VIEWS_CO', 'WED_VIEWS_CO', 'THUR_VIEWS_CO', 'FRI_VIEWS_CO', 'SAT_VIEWS_CO', 'SUN_VIEWS_CO'],
    aggfunc='mean'  # 평균을 사용할 수 있습니다. 필요에 따라 'sum', 'max' 등 다른 함수로 변경 가능합니다.
)

# 피벗 결과를 확인
pivot_df


In [None]:
pivot_df.to_csv('./data/preprocessed_data/JT_WKDAY_ACCTO_TRRSRT_SCCNT_LIST_ALL.csv')

In [None]:
# 소수점 4자리로 출력되도록 설정
pd.options.display.float_format = '{:.6f}'.format

# 연속형(continuous) 피처만 선택 (숫자형 컬럼)
continuous_df = pivot_df.select_dtypes(include=['float64', 'int64'])

# min, max, mean 계산
min_values = continuous_df.min()
max_values = continuous_df.max()
mean_values = continuous_df.mean()

# range 계산 (max - min)
range_values = max_values - min_values

# 결과를 하나의 데이터프레임으로 결합
summary_df = pd.DataFrame({
    'min': min_values,
    'max': max_values,
    'mean': mean_values,
    'range': range_values
})

print(summary_df)

In [None]:
summary_df.loc[('ALL_TOTAL_CO')]

# 제주 관광지 평점리뷰 감정분석 데이터

# 제주 관광지 평점리뷰 형태소 데이터