In [1]:
# Todo 리스트
# - 데이터의 구조 파악
#   - 데이터 크기, 특징(칼럼)개수, 데이터 형식 확인
# - 기술 통계 분석
#   - 연속형 데이터인 각 특성(칼럼)별 대표값, 분산도를 확인해보세요.
#   - 범주형 데이터별로 구분해서 한번 더 확인해보세요. (groupby, pivot_table 활용)
#       - 대표값(얼마나 모여있는가?) : 최빈치, 중앙치, 평균
#       - 분산도(얼마나 퍼져있는가?) : 범위, 사분편차, 분산, 표준편차
# - 데이터 시각화

In [6]:
import pandas as pd
import os

directory = "./cleaned_data/"

# ▶ 분석할 파일 목록 설정 (파일 경로는 실제 위치에 맞게 수정)
file_paths = {
    "dust_1701Q": directory + "dust_1701Q_dust.csv",
    "dust_1702Q": directory + "dust_1702Q_dust.csv",
    "dust_1703Q": directory + "dust_1703Q_dust.csv",
    "dust_1704Q": directory + "dust_1704Q_dust.csv",
    "dust_1801Q": directory + "dust_1801Q_dust.csv",
    "dust_1802Q": directory + "dust_1802Q_dust.csv",
    "dust_1803Q": directory + "dust_1803Q_dust.csv",
    "sales_POS": directory + "sales_20190509_mask_POS.csv",
    "weather_2017": directory + "weather_SURFACE_air_pollution_2017.csv",
    "weather_2018": directory + "weather_SURFACE_air_pollution_2018.csv"
}

# ▶ 데이터 구조를 저장할 리스트
structure_info = []

# ▶ 각 파일에 대해 구조 확인
for name, path in file_paths.items():
    try:
        df = pd.read_csv(path)
        info = {
            "파일명": name,
            "데이터 크기": df.shape,
            "칼럼 개수": len(df.columns),
            "칼럼 목록": df.columns.tolist(),
            "데이터 타입": df.dtypes.astype(str).to_dict()
        }
    except Exception as e:
        info = {
            "파일명": name,
            "데이터 크기": "불러오기 실패",
            "칼럼 개수": "N/A",
            "칼럼 목록": [],
            "데이터 타입": f"에러: {e}"
        }
    structure_info.append(info)

# ▶ 요약 정보 출력
summary_df = pd.DataFrame(structure_info)
print(summary_df)

            파일명        데이터 크기  칼럼 개수  \
0    dust_1701Q  (160089, 10)     10   
1    dust_1702Q  (185120, 10)     10   
2    dust_1703Q  (176422, 10)     10   
3    dust_1704Q  (203026, 10)     10   
4    dust_1801Q  (229135, 10)     10   
5    dust_1802Q  (261437, 10)     10   
6    dust_1803Q  (273181, 10)     10   
7     sales_POS   (54536, 13)     13   
8  weather_2017    (7248, 23)     23   
9  weather_2018    (7406, 23)     23   

                                               칼럼 목록  \
0  [측정소명, 측정일시, SO2, CO, O3, NO2, PM10, PM25, PM1...   
1  [측정소명, 측정일시, SO2, CO, O3, NO2, PM10, PM25, PM1...   
2  [측정소명, 측정일시, SO2, CO, O3, NO2, PM10, PM25, PM1...   
3  [측정소명, 측정일시, SO2, CO, O3, NO2, PM10, PM25, PM1...   
4  [측정소명, 측정일시, SO2, CO, O3, NO2, PM10, PM25, PM1...   
5  [측정소명, 측정일시, SO2, CO, O3, NO2, PM10, PM25, PM1...   
6  [측정소명, 측정일시, SO2, CO, O3, NO2, PM10, PM25, PM1...   
7  [Calendar Day일 2, POS Category Code, 품목명, Manu...   
8  [일시, 기온(°C), 강수량(mm), 풍속(m/s), 습도(%), 증기압(hPa)...   