In [None]:
import pandas as pd

# 구글 드라이브 연동 (처음 한 번만 실행)
from google.colab import drive
drive.mount('/content/drive')

# ✅ 변수 설정용 함수
def load_csv(name, path, encoding='utf-8'):
    try:
        df = pd.read_csv(path, encoding=encoding)
    except UnicodeDecodeError:
        df = pd.read_csv(path, encoding='cp949')  # 한글 깨짐 대비
    print(f"[{name}] shape: {df.shape}")
    return df

# ✅ 파일 경로들 (파일명만 수정하면 됨)
base_dir = "/content/drive/MyDrive/SeD1st/1st Dataton/JDG/"

구독연장여부 = load_csv("구독연장여부", base_dir + "K.서비스별_구독연장여부21-23.csv")
이용경험여부 = load_csv("이용경험여부", base_dir + "K.서비스별_이용경험여부21-23.csv")
유료이용경험 = load_csv("유료이용경험", base_dir + "K.유료서비스_이용경험여부_21-23.csv")
스마트폰대수 = load_csv("스마트폰대수", base_dir + "K.인당스마트폰_이용대수_21-23.csv")
콘텐츠시청경험 = load_csv("콘텐츠시청경험", base_dir + "K.콘텐츠_시청경험_22-23.csv")


Mounted at /content/drive
[구독연장여부] shape: (11, 47)
[이용경험여부] shape: (11, 46)
[유료이용경험] shape: (11, 44)
[스마트폰대수] shape: (11, 20)
[콘텐츠시청경험] shape: (11, 8)


In [None]:
# 모든 변수 리스트
dfs = {
    "구독연장여부": 구독연장여부,
    "이용경험여부": 이용경험여부,
    "유료이용경험": 유료이용경험,
    "스마트폰대수": 스마트폰대수,
    "콘텐츠시청경험": 콘텐츠시청경험
}

# 각 변수별 .columns 와 .head() 출력
for name, df in dfs.items():
    print(f"\n===== 📌 [{name}] columns =====")
    print(df.columns.tolist())
    print(f"\n===== 🔍 [{name}] head =====")
    print(df.head())



===== 📌 [구독연장여부] columns =====
['구분별(1)', '구분별(2)', '2023', '2023.1', '2023.2', '2023.3', '2023.4', '2023.5', '2023.6', '2023.7', '2023.8', '2023.9', '2023.10', '2023.11', '2023.12', '2023.13', '2023.14', '2022', '2022.1', '2022.2', '2022.3', '2022.4', '2022.5', '2022.6', '2022.7', '2022.8', '2022.9', '2022.10', '2022.11', '2022.12', '2022.13', '2022.14', '2022.15', '2021', '2021.1', '2021.2', '2021.3', '2021.4', '2021.5', '2021.6', '2021.7', '2021.8', '2021.9', '2021.10', '2021.11', '2021.12', '2021.13']

===== 🔍 [구독연장여부] head =====
   구분별(1)  구분별(2)       2023   2023.1  2023.2        2023.3  2023.4  \
0  구분별(1)  구분별(2)  사례수 (가구원)  웨이브 (%)  티빙 (%)  U+모바일 TV (%)  왓챠 (%)   
1      전체      소계      29222      2.1     2.7           0.2     0.9   
2     지역별      서울       5389      3.2     2.9           0.1     1.2   
3     지역별      부산       1871      0.7     2.2           0.1     0.5   
4     지역별      대구       1329      0.6     1.2           0.3     0.2   

      2023.5   2023.6    2023.7 

In [None]:
# 지역별이 아닌 행만 남기기
구독연장여부 = 구독연장여부[구독연장여부["구분별(1)"] != "지역별"]
이용경험여부 = 이용경험여부[이용경험여부["구분별(1)"] != "지역별"]
유료이용경험 = 유료이용경험[유료이용경험["구분별(1)"] != "지역별"]
스마트폰대수 = 스마트폰대수[스마트폰대수["구분별(1)"] != "지역별"]
콘텐츠시청경험 = 콘텐츠시청경험[콘텐츠시청경험["구분별(1)"] != "지역별"]


In [None]:
# 데이터프레임 사전
dfs = {
    "구독연장여부": 구독연장여부,
    "이용경험여부": 이용경험여부,
    "유료이용경험": 유료이용경험,
    "스마트폰대수": 스마트폰대수,
    "콘텐츠시청경험": 콘텐츠시청경험
}

# 컬럼과 헤드 출력
for name, df in dfs.items():
    print(f"\n===== 📌 [{name}] columns =====")
    print(df.columns.tolist())
    print(f"\n===== 🔍 [{name}] head =====")
    print(df.head())



===== 📌 [구독연장여부] columns =====
['구분별(1)', '구분별(2)', '2023', '2023.1', '2023.2', '2023.3', '2023.4', '2023.5', '2023.6', '2023.7', '2023.8', '2023.9', '2023.10', '2023.11', '2023.12', '2023.13', '2023.14', '2022', '2022.1', '2022.2', '2022.3', '2022.4', '2022.5', '2022.6', '2022.7', '2022.8', '2022.9', '2022.10', '2022.11', '2022.12', '2022.13', '2022.14', '2022.15', '2021', '2021.1', '2021.2', '2021.3', '2021.4', '2021.5', '2021.6', '2021.7', '2021.8', '2021.9', '2021.10', '2021.11', '2021.12', '2021.13']

===== 🔍 [구독연장여부] head =====
    구분별(1)  구분별(2)       2023   2023.1  2023.2        2023.3  2023.4  \
0   구분별(1)  구분별(2)  사례수 (가구원)  웨이브 (%)  티빙 (%)  U+모바일 TV (%)  왓챠 (%)   
1       전체      소계      29222      2.1     2.7           0.2     0.9   
19      성별      남자      14554      2.0     2.6           0.1     0.9   
20      성별      여자      14668      2.2     2.7           0.2     0.8   
21     연령별  13~19세       1980      2.3     2.7           0.0     0.3   

       2023.5   2023.6    

In [None]:
# ~ → - 연령대 명칭 통일 (구독연장여부, 이용경험여부, 유료이용경험)
for name in ["구독연장여부", "이용경험여부", "유료이용경험"]:
    if "구분별(2)" in dfs[name].columns:
        dfs[name]["구분별(2)"] = dfs[name]["구분별(2)"].astype(str).str.replace("~", "-", regex=False)


In [None]:
for name in ["구독연장여부", "이용경험여부", "유료이용경험"]:
    print(f"\n[{name}] 정제 후 확인")
    print(dfs[name].head())



[구독연장여부] 정제 후 확인
    구분별(1)  구분별(2)       2023   2023.1  2023.2        2023.3  2023.4  \
0   구분별(1)  구분별(2)  사례수 (가구원)  웨이브 (%)  티빙 (%)  U+모바일 TV (%)  왓챠 (%)   
1       전체      소계      29222      2.1     2.7           0.2     0.9   
19      성별      남자      14554      2.0     2.6           0.1     0.9   
20      성별      여자      14668      2.2     2.7           0.2     0.8   
21     연령별  13-19세       1980      2.3     2.7           0.0     0.3   

       2023.5   2023.6    2023.7  ...        2021.4     2021.5  2021.6  \
0   카카오TV (%)  유튜브 (%)  넷플릭스 (%)  ...  U+모바일 TV (%)  네이버TV (%)  왓챠 (%)   
1         0.1      6.9      17.8  ...           0.1        0.2     0.9   
19        0.1      8.0      18.7  ...           0.1        0.2     1.0   
20        0.1      5.8      16.9  ...           0.1        0.1     0.8   
21        0.1      5.2      13.4  ...           0.0        0.1     0.5   

       2021.7   2021.8    2021.9      2021.10 2021.11         2021.12  \
0   카카오TV (%)  유튜브 (%)  넷플릭스 (%

In [None]:
import re

# 열 이름 정제 함수
def clean_column_names(columns):
    return [re.sub(r'(\d{4})\.\d+', r'\1', col) for col in columns]

# 모든 DataFrame에 열 이름 정제 적용
for name, df in dfs.items():
    df.columns = clean_column_names(df.columns)
    dfs[name] = df  # 정제된 DataFrame 다시 저장

# 정제 결과 확인
for name, df in dfs.items():
    print(f"\n===== 🔍 [{name}] head (정제 후) =====")
    print(df.head())



===== 🔍 [구독연장여부] head (정제 후) =====
   구분별(1)  구분별(2)       2023     2023    2023          2023    2023  \
0  구분별(1)  구분별(2)  사례수 (가구원)  웨이브 (%)  티빙 (%)  U+모바일 TV (%)  왓챠 (%)   
1      전체      소계      29222      2.1     2.7           0.2     0.9   
2      성별      남자      14554      2.0     2.6           0.1     0.9   
3      성별      여자      14668      2.2     2.7           0.2     0.8   
4     연령별  13-19세       1980      2.3     2.7           0.0     0.3   

        2023     2023      2023  ...          2021       2021    2021  \
0  카카오TV (%)  유튜브 (%)  넷플릭스 (%)  ...  U+모바일 TV (%)  네이버TV (%)  왓챠 (%)   
1        0.1      6.9      17.8  ...           0.1        0.2     0.9   
2        0.1      8.0      18.7  ...           0.1        0.2     1.0   
3        0.1      5.8      16.9  ...           0.1        0.1     0.8   
4        0.1      5.2      13.4  ...           0.0        0.1     0.5   

        2021     2021      2021         2021    2021            2021  \
0  카카오TV (%)  유튜브 (%)  넷플릭

In [None]:
dfs = {
    "구독연장여부": 구독연장여부,
    "이용경험여부": 이용경험여부,
    "유료이용경험": 유료이용경험,
    "스마트폰대수": 스마트폰대수,
    "콘텐츠시청경험": 콘텐츠시청경험
}

for name, df in dfs.items():
    print(f"\n===== 🔍 [{name}] head =====")
    print(df.head())



===== 🔍 [구독연장여부] head =====
   구분별(1)  구분별(2)       2023     2023    2023          2023    2023  \
0  구분별(1)  구분별(2)  사례수 (가구원)  웨이브 (%)  티빙 (%)  U+모바일 TV (%)  왓챠 (%)   
1      전체      소계      29222      2.1     2.7           0.2     0.9   
2      성별      남자      14554      2.0     2.6           0.1     0.9   
3      성별      여자      14668      2.2     2.7           0.2     0.8   
4     연령별  13-19세       1980      2.3     2.7           0.0     0.3   

        2023     2023      2023  ...          2021       2021    2021  \
0  카카오TV (%)  유튜브 (%)  넷플릭스 (%)  ...  U+모바일 TV (%)  네이버TV (%)  왓챠 (%)   
1        0.1      6.9      17.8  ...           0.1        0.2     0.9   
2        0.1      8.0      18.7  ...           0.1        0.2     1.0   
3        0.1      5.8      16.9  ...           0.1        0.1     0.8   
4        0.1      5.2      13.4  ...           0.0        0.1     0.5   

        2021     2021      2021         2021    2021            2021  \
0  카카오TV (%)  유튜브 (%)  넷플릭스 (%)  

In [None]:
import os

base_path = "/content/drive/MyDrive/SeD1st/1st Dataton/JDG/"

dfs_and_files = {
    "구독연장여부": "K.서비스별_구독연장여부21-23.csv",
    "이용경험여부": "K.서비스별_이용경험여부21-23.csv",
    "유료이용경험": "K.유료서비스_이용경험여부_21-23.csv",
    "스마트폰대수": "K.인당스마트폰_이용대수_21-23.csv",
    "콘텐츠시청경험": "K.콘텐츠_시청경험_22-23.csv"
}

for key, filename in dfs_and_files.items():
    filepath = os.path.join(base_path, filename)
    dfs[key].to_csv(filepath, index=False, encoding='utf-8-sig')


In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive
