In [None]:
import easydict
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 설정 객체 생성
args = easydict.EasyDict()

# path 정보 (수정됨)
args.default_path = 'data/'  ## 데이터 파일 경로
args.hotel_data_csv = args.default_path + 'hotel_bookings.csv'  # 실제 파일명

# 결과 저장 경로
args.results_path = 'results/'
args.save_results = args.results_path + "model_results.json"

# 데이터 분석을 위한 변수들
args.random_state = 42
args.results = []

# 한글 폰트 설정 (시각화용)
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['axes.unicode_minus'] = False

print("설정 완료!")
print(f"데이터 파일 경로: {args.hotel_data_csv}")
args.results

ModuleNotFoundError: No module named 'easydict'

: 

In [None]:
# 데이터 불러오기
try:
    df = pd.read_csv(args.hotel_data_csv)
    print("✅ 데이터 로드 성공!")
    print(f"데이터 크기: {df.shape}")
    print(f"행 개수: {df.shape[0]:,}")
    print(f"열 개수: {df.shape[1]}")
except FileNotFoundError:
    print("❌ 파일을 찾을 수 없습니다. 경로를 확인해주세요.")
except Exception as e:
    print(f"❌ 데이터 로드 중 오류 발생: {e}")
    
# 데이터 첫 5행 확인
df.head()


In [None]:
# 기본 정보 확인
print("=== 데이터 기본 정보 ===")
print("\n📊 데이터 타입:")
print(df.dtypes)

print("\n📈 기본 통계:")
df.describe()


=== 데이터 기본 정보 ===

📊 데이터 타입:


NameError: name 'df' is not defined

In [None]:
# 결측치 확인
print("=== 결측치 분석 ===")
missing_info = pd.DataFrame({
    '결측치_개수': df.isnull().sum(),
    '결측치_비율(%)': (df.isnull().sum() / len(df)) * 100
}).sort_values('결측치_개수', ascending=False)

print("결측치가 있는 컬럼:")
print(missing_info[missing_info['결측치_개수'] > 0])

# 결측치 시각화
if missing_info['결측치_개수'].sum() > 0:
    plt.figure(figsize=(12, 6))
    missing_cols = missing_info[missing_info['결측치_개수'] > 0]
    plt.bar(missing_cols.index, missing_cols['결측치_비율(%)'])
    plt.title('컬럼별 결측치 비율')
    plt.ylabel('결측치 비율 (%)')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()
else:
    print("✅ 결측치가 없습니다!")


In [None]:
# 타겟 변수 분석 (예약 취소 여부)
print("=== 타겟 변수 분석: is_canceled ===")

# 타겟 변수 분포
target_counts = df['is_canceled'].value_counts()
target_percentage = df['is_canceled'].value_counts(normalize=True) * 100

print("예약 취소 여부 분포:")
for i, (count, pct) in enumerate(zip(target_counts, target_percentage)):
    status = "취소" if target_counts.index[i] == 1 else "유지"
    print(f"{status}: {count:,}건 ({pct:.1f}%)")

# 시각화
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

# 막대 그래프
target_counts.plot(kind='bar', ax=ax1, color=['skyblue', 'salmon'])
ax1.set_title('예약 취소 여부 분포')
ax1.set_xlabel('예약 상태 (0: 유지, 1: 취소)')
ax1.set_ylabel('건수')
ax1.tick_params(axis='x', rotation=0)

# 파이 차트
ax2.pie(target_counts.values, labels=['유지', '취소'], autopct='%1.1f%%', 
        colors=['skyblue', 'salmon'], startangle=90)
ax2.set_title('예약 취소 비율')

plt.tight_layout()
plt.show()
