In [5]:
import pandas as pd
import re


In [6]:
file_path = "기아_해외공장판매실적_전처리.CSV"

In [7]:
df = pd.read_csv(file_path)

In [8]:
# 3. 정규화 함수 정의
def normalize_column(col):
    # 매치 패턴 예: '2016년1월', '2016년 01월', '2016 01', '2016.01'
    match = re.match(r"(\d{4})[년\s\-\.]?\s*(\d{1,2})[월]?", str(col))
    if match:
        year, month = match.groups()
        return f"{year}-{int(month):02d}"
    return col  # 매칭 안되면 원래 이름 유지

In [9]:
# 4. 컬럼명 정규화 적용
df.columns = [normalize_column(col) for col in df.columns]

# 5. 결과 덮어쓰기 저장
df.to_csv(file_path, index=False)

# 6. 미리보기
df.head()

Unnamed: 0,지역명,공장코드,Unnamed: 2,2016-01,2016-02,2016-03,2016-04,2016-05,2016-06,2016-07,...,2024-07,2024-08,2024-09,2024-10,2024-11,2024-12,2025-01,2025-02,Unnamed: 113,Unnamed: 114
0,미국,KMMG,Optima / K5,11094.0,13180.0,11514.0,9933.0,7197.0,9006.0,7170.0,...,,,,,,,,,,
1,미국,KMMG,Sorento,9473.0,10521.0,11105.0,12080.0,13903.0,14049.0,11552.0,...,8249.0,9380.0,9237.0,10520.0,7972.0,4718.0,8300.0,8135.0,,
2,미국,KMMG,Telluride,,,,,,,,...,9851.0,12190.0,11302.0,12300.0,10118.0,8192.0,10350.0,11060.0,,
3,미국,KMMG,New Santa Fe,5800.0,12140.0,10143.0,8092.0,11600.0,12927.0,6883.0,...,,,,,,,,,,
4,미국,KMMG,Pegas,,,,,,,,...,,,,,,,,,,


In [10]:
# 4. 컬럼명 변경: Unnamed: 2 → 차종
df.rename(columns={"Unnamed: 2": "차종"}, inplace=True)

# 5. 열 제거: Unnamed: 113, Unnamed: 114
df.drop(columns=["Unnamed: 113", "Unnamed: 114"], errors="ignore", inplace=True)

# 6. 컬럼 전체 정규화
df.columns = [normalize_column(col) for col in df.columns]

# 7. 덮어쓰기 저장
df.to_csv(file_path, index=False)

# 8. 확인
df.head()

Unnamed: 0,지역명,공장코드,차종,2016-01,2016-02,2016-03,2016-04,2016-05,2016-06,2016-07,...,2024-05,2024-06,2024-07,2024-08,2024-09,2024-10,2024-11,2024-12,2025-01,2025-02
0,미국,KMMG,Optima / K5,11094.0,13180.0,11514.0,9933.0,7197.0,9006.0,7170.0,...,,,,,,,,,,
1,미국,KMMG,Sorento,9473.0,10521.0,11105.0,12080.0,13903.0,14049.0,11552.0,...,10449.0,8650.0,8249.0,9380.0,9237.0,10520.0,7972.0,4718.0,8300.0,8135.0
2,미국,KMMG,Telluride,,,,,,,,...,11401.0,10050.0,9851.0,12190.0,11302.0,12300.0,10118.0,8192.0,10350.0,11060.0
3,미국,KMMG,New Santa Fe,5800.0,12140.0,10143.0,8092.0,11600.0,12927.0,6883.0,...,,,,,,,,,,
4,미국,KMMG,Pegas,,,,,,,,...,,,,,,,,,,


In [11]:
df.isna().sum()

지역명         0
공장코드        0
차종          0
2016-01    32
2016-02    33
           ..
2024-10    24
2024-11    25
2024-12    25
2025-01    23
2025-02    22
Length: 113, dtype: int64

In [12]:
import pandas as pd

# 파일 경로
file_path = "현대_해외공장판매실적_전처리.CSV"

# CSV 파일 불러오기
df = pd.read_csv(file_path)

# 컬럼명 변경: '공장명(국가)' → '지역명'
df.rename(columns={"공장명(국가)": "지역명"}, inplace=True)

# 결과 저장 (덮어쓰기)
df.to_csv(file_path, index=False)

# 미리보기
df.head()


Unnamed: 0,지역명,차종,거래 구분,2016-01,2016-02,2016-03,2016-04,2016-05,2016-06,2016-07,...,2024-05,2024-06,2024-07,2024-08,2024-09,2024-10,2024-11,2024-12,2025-01,2025-02
0,인도,Eon,내수,5431,5539,5460,5417,3634,3600,3792,...,2328,2328,2328,2328,2328,2328,2328,2328,2328,2328
1,인도,Santro (AH2),내수,1198,1198,1198,1198,1198,1198,1198,...,1198,1198,1198,1198,1198,1198,1198,1198,1198,1198
2,인도,i10,내수,1455,2128,1980,1700,1854,1100,1335,...,831,831,831,831,831,831,831,831,831,831
3,인도,i10 (BA 5DR),내수,1047,1047,1047,1047,1047,1047,1047,...,1047,1047,1047,1047,1047,1047,1047,1047,1047,1047
4,인도,i10(BA 4DR),내수,801,801,801,801,801,801,801,...,801,801,801,801,801,801,801,801,801,801


In [16]:


# 파일 불러오기
kia_prod = pd.read_csv("기아_해외공장판매실적_전처리.CSV")

# 'Unnamed' 포함된 컬럼 제거
kia_prod_clean = kia_prod.loc[:, ~kia_prod.columns.str.contains("Unnamed")]

# 저장
kia_prod_clean.to_csv("기아_해외공장판매실적_전처리.CSV", index=False)


In [18]:


# 파일 불러오기
kia_sales = pd.read_csv("기아_차종별판매실적_전처리.CSV")

# '차종 구분' → '차종'으로 컬럼명 변경
kia_sales = kia_sales.rename(columns={"차종 구분": "차종"})

# 월별 컬럼명 변경: "2016년01" → "2016-01"
kia_sales.columns = [col.replace("년", "-").replace("월", "") if "년" in col else col for col in kia_sales.columns]

# 월별 컬럼에 있는 문자열 처리 후 숫자형 변환
for col in kia_sales.columns:
    if "-" in col:
        kia_sales[col] = (
            kia_sales[col]
            .astype(str)                           # 문자열로 변환
            .str.replace(",", "", regex=False)     # 쉼표 제거
            .str.strip()                           # 앞뒤 공백 제거
            .replace("-", pd.NA)                   # '-'는 NaN으로 처리
        )
        kia_sales[col] = pd.to_numeric(kia_sales[col], errors="coerce")  # 안전하게 float 변환

# 저장
kia_sales.to_csv("기아_차종별판매실적_전처리.CSV", index=False)


In [19]:
# 파일 불러오기
kia_sales = pd.read_csv("기아_지역별수출실적_전처리.CSV")

# '차종 구분' → '차종'으로 컬럼명 변경
kia_sales = kia_sales.rename(columns={"차종 구분": "차종"})

# 월별 컬럼명 변경: "2016년01" → "2016-01"
kia_sales.columns = [col.replace("년", "-").replace("월", "") if "년" in col else col for col in kia_sales.columns]

# 월별 컬럼에 있는 문자열 처리 후 숫자형 변환
for col in kia_sales.columns:
    if "-" in col:
        kia_sales[col] = (
            kia_sales[col]
            .astype(str)                           # 문자열로 변환
            .str.replace(",", "", regex=False)     # 쉼표 제거
            .str.strip()                           # 앞뒤 공백 제거
            .replace("-", pd.NA)                   # '-'는 NaN으로 처리
        )
        kia_sales[col] = pd.to_numeric(kia_sales[col], errors="coerce")  # 안전하게 float 변환

# 저장
kia_sales.to_csv("기아_지역별수출실적_전처리.CSV", index=False)