In [None]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 불러오기
file_path = "../data/data.csv"
# 파일 경로 입력

df = pd.read_csv(file_path)  
# CSV 파일 읽기

# 데이터 확인 (상위 5개 행 출력)
df.head()

In [None]:
# 데이터프레임의 상위 5개 행 출력
df.info()

In [None]:
# 특정 세 자치구(예: 강남구, 종로구, 서초구) 데이터 필터링
df_filtered = df[df['자치구별(2)'].isin(['강남구', '종로구', '서초구'])]  
# 원하는 자치구만 선택

# 필요한 컬럼 선택 (2023년 1월~12월)
df_filtered = df_filtered[['자치구별(2)', '2023.1', '2023.2', '2023.3', '2023.4', '2023.5', '2023.6', 
                           '2023.7', '2023.8', '2023.9', '2023.10', '2023.11', '2023.12']]

df_filtered.columns = ['자치구', 'car_1', 'car_2', 'car_3', 'car_4', 'car_5', 'car_6', 
                       'car_7', 'car_8', 'car_9', 'car_10', 'car_11', 'car_12']

# 데이터 타입 변환 (문자 → 숫자)
df_filtered.iloc[:, 1:] = df_filtered.iloc[:, 1:].apply(pd.to_numeric, errors='coerce')  
# 숫자로 변환 (문자열이 있으면 NaN 처리)

# 데이터 변형: 자치구 데이터를 개별적인 관측값으로 변환
data_list = []
for idx, row in df_filtered.iterrows():
    for col in df_filtered.columns[1:]:
        data_list.append([row['자치구'], row[col]])

df_long = pd.DataFrame(data_list, columns=['자치구', '승용차 이용 비율'])


In [None]:
df_long

In [None]:
plt.figure(figsize=(12, 6))  
# 그래프 크기 설정

sns.histplot(data=df_long, x='승용차 이용 비율', hue='자치구', kde=True, bins=10, element='step', common_norm=False)  
# 히스토그램 및 KDE 그래프

plt.title('Distribution of passenger car use rates in Gangnam-gu, Jongno-gu, and Seocho-gu')  
plt.xlabel('Passenger car usage rate (%)')  
plt.ylabel('Frequency')  
plt.legend()  
plt.show()

In [None]:
# 정규성 검정 (Shapiro-Wilk test)
for region in ['강남구', '종로구', '서초구']:  
    # 검정할 자치구 리스트 입력
    stat, p = stats.______(df_long[df_long['자치구'] == region]['승용차 이용 비율'].dropna())  
    # 정규성 검정 수행
    print(f"Shapiro-Wilk test ({region}): p-value = {p:.4f}")
    if p >= 0.05:
        print(f" → {region}의 데이터는 정규성을 만족합니다.")
    else:
        print(f" → {region}의 데이터는 정규성을 만족하지 않습니다.")