In [1]:
import pandas as pd

# CSV 파일 경로
csv_path = '서울특별시_primary추가.csv'

# 데이터 불러오기
df = pd.read_csv(csv_path)

# 데이터 미리보기
df.head()

# 전체 행 개수와 primarykey 유니크 개수
print("전체 행 개수:", len(df))
print("primarykey 유니크 값 개수:", df['primarykey'].nunique())

# 중복 primarykey 행 출력
dups = df[df.duplicated(['primarykey'], keep=False)]
print("중복 primarykey 행:")
print(dups)

# 결측치 확인
print("결측치 개수:")
print(df.isnull().sum())

# 컬럼별 데이터 타입 확인
print("컬럼별 데이터 타입:")
print(df.dtypes)

전체 행 개수: 127898
primarykey 유니크 값 개수: 127898
중복 primarykey 행:
Empty DataFrame
Columns: [City, District, Dong, Complex Name, Date of Occurrence, Gas Bill, Electricity Bill, Water Bill, Usable Floor Area, NOG, Gas Bill/NOG, Electricity Bill/NOG, Water Bill/NOG, primarykey]
Index: []
결측치 개수:
City                    23419
District                23419
Dong                    23419
Complex Name            23419
Date of Occurrence      23419
Gas Bill                23419
Electricity Bill        23419
Water Bill              23419
Usable Floor Area       23704
NOG                     23699
Gas Bill/NOG            23699
Electricity Bill/NOG    23699
Water Bill/NOG          23699
primarykey                  0
dtype: int64
컬럼별 데이터 타입:
City                     object
District                 object
Dong                     object
Complex Name             object
Date of Occurrence      float64
Gas Bill                 object
Electricity Bill        float64
Water Bill              float64
Usable Flo

  df = pd.read_csv(csv_path)


In [2]:
import pandas as pd
import numpy as np

# 파일 경로
csv_path = '서울특별시_primary추가.csv'
output_path = '서울특별시_primary추가_cleaned.csv'

# 데이터 불러오기
df = pd.read_csv(csv_path, dtype=str)  # 모든 컬럼을 일단 문자열로 불러옴

# 숫자 컬럼 리스트 (컬럼명은 실제 파일에 맞게 수정)
numeric_cols = [
    "Date of Occurrence",
    "Gas Bill",
    "Electricity Bill",
    "Water Bill",
    "Usable Floor Area",
    "NOG",
    "Gas Bill/NOG",
    "Electricity Bill/NOG",
    "Water Bill/NOG"
]

# 각 숫자 컬럼에 대해 쉼표 제거, #N/A를 NaN으로 변환, float으로 변환
for col in numeric_cols:
    df[col] = (
        df[col]
        .str.replace(',', '', regex=False)   # 쉼표 제거
        .replace('#N/A', np.nan)             # #N/A를 NaN으로
        .astype(float)                       # float으로 변환
    )

# Date of Occurrence 컬럼을 항상 6자리 문자열로 변환 (소수점 제거)
df["Date of Occurrence"] = (
    df["Date of Occurrence"]
    .astype(str)
    .str.replace('.0', '', regex=False)
    .str.zfill(6)
)

# 저장
df.to_csv(output_path, index=False)