**지하철 혼잡도 정보 데이터의 0값 (운행하지 않은 것) 을 제거하는 코드입니다.**

In [3]:
import pandas as pd

# 1. 파일 불러오기
file_path = '/Users/mac/Desktop/myPycode/청년 AI 스쿨 프로젝트/서울교통공사_지하철혼잡도정보_20231231.csv'  # ← 여기에 실제 파일경로 입력
encodings = ['utf-8-sig', 'cp949', 'euc-kr']
for enc in encodings:
    try:
        df = pd.read_csv(file_path, encoding=enc)
        print(f"✅ Loaded with encoding: {enc}")
        break
    except Exception as e:
        continue

# 2. 시간대 혼잡도 열만 선택 (5시30분 ~ 00시30분 사이)
# 문자열이 숫자처럼 보이는 경우도 있으므로 float로 변환 시도
time_columns = df.columns[6:]  # 앞의 메타데이터 6개 열 제외한 모든 열

# 3. 각 열을 숫자로 변환 (에러 무시하고 숫자 아닌 건 NaN 처리)
df[time_columns] = df[time_columns].apply(pd.to_numeric, errors='coerce')

# 4. 혼잡도 합이 0 (또는 NaN 제외하고 0인 경우)인 행 찾기
zero_congestion_mask = (df[time_columns].fillna(0).sum(axis=1) == 0)

# 5. 결과 출력
print(f"🚨 혼잡도 총합이 0인 행 개수: {zero_congestion_mask.sum()}개")

# 6. 0인 행 제거
df_cleaned = df[~zero_congestion_mask]

# 7. 저장
df_cleaned.to_csv("cleaned_혼잡도_0제거.csv", index=False, encoding='utf-8-sig')
print("✅ 제거 및 저장 완료 → cleaned_혼잡도_0제거.csv")


✅ Loaded with encoding: cp949
🚨 혼잡도 총합이 0인 행 개수: 38개
✅ 제거 및 저장 완료 → cleaned_혼잡도_0제거.csv
