In [1]:
# 기본 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False

# 경고 뜨지 않게
import warnings
warnings.filterwarnings('ignore')

In [2]:
# 6개 parquet 파일 경로 리스트 
file_list = [
    'open/train/6.채널정보/201807_train_채널정보.parquet',
    'open/train/6.채널정보/201808_train_채널정보.parquet',
    'open/train/6.채널정보/201809_train_채널정보.parquet',
    'open/train/6.채널정보/201810_train_채널정보.parquet',
    'open/train/6.채널정보/201811_train_채널정보.parquet',
    'open/train/6.채널정보/201812_train_채널정보.parquet',
]

# 빈 데이터프레임 리스트 생성
dfs = []

# 각 파일을 읽어서 dfs 리스트에 추가
for file in file_list:
    df = pd.read_parquet(file)
    dfs.append(df)

# 데이터프레임 합치기 (행 기준으로 아래로 붙이기)
merged_df = pd.concat(dfs, ignore_index=True)

In [3]:
# 합친 데이터 확인
print(merged_df.shape)
print(merged_df.head())

(2400000, 105)
     기준년월            ID 인입횟수_ARS_R6M 이용메뉴건수_ARS_R6M  인입일수_ARS_R6M  \
0  201807  TRAIN_000000       10회 이상         10회 이상             8   
1  201807  TRAIN_000001        1회 이상          1회 이상             0   
2  201807  TRAIN_000002        1회 이상          1회 이상             1   
3  201807  TRAIN_000003       10회 이상         10회 이상            10   
4  201807  TRAIN_000004        1회 이상          1회 이상             0   

   인입월수_ARS_R6M  인입후경과월_ARS  인입횟수_ARS_B0M  이용메뉴건수_ARS_B0M  인입일수_ARS_B0M  ...  \
0             6           0             2               6             2  ...   
1             0           0             0               0             0  ...   
2             1           0             2               5             1  ...   
3             6           0             2               6             2  ...   
4             0           0             0               0             0  ...   

  당사PAY_방문횟수_R6M 당사PAY_방문월수_R6M  당사멤버쉽_방문횟수_B0M  당사멤버쉽_방문횟수_R6M  \
0              0      

In [4]:
# 필요하면 하나로 합친 데이터 저장
merged_df.to_parquet('open/train/6.채널정보/2018_train_채널정보.parquet')

In [5]:
df = pd.read_parquet ('open/train/6.채널정보/2018_train_채널정보.parquet')
df

Unnamed: 0,기준년월,ID,인입횟수_ARS_R6M,이용메뉴건수_ARS_R6M,인입일수_ARS_R6M,인입월수_ARS_R6M,인입후경과월_ARS,인입횟수_ARS_B0M,이용메뉴건수_ARS_B0M,인입일수_ARS_B0M,...,당사PAY_방문횟수_R6M,당사PAY_방문월수_R6M,당사멤버쉽_방문횟수_B0M,당사멤버쉽_방문횟수_R6M,당사멤버쉽_방문월수_R6M,OS구분코드,홈페이지_금융건수_R6M,홈페이지_선결제건수_R6M,홈페이지_금융건수_R3M,홈페이지_선결제건수_R3M
0,201807,TRAIN_000000,10회 이상,10회 이상,8,6,0,2,6,2,...,0,0,22,221,6,Android,0,0,0,0
1,201807,TRAIN_000001,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,0,,0,0,0,0
2,201807,TRAIN_000002,1회 이상,1회 이상,1,1,0,2,5,1,...,0,0,0,0,0,Android,11,6,5,5
3,201807,TRAIN_000003,10회 이상,10회 이상,10,6,0,2,6,2,...,0,0,23,219,6,Android,0,0,0,0
4,201807,TRAIN_000004,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,0,Android,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2399995,201812,TRAIN_399995,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,0,,0,0,0,0
2399996,201812,TRAIN_399996,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,1,,0,0,0,0
2399997,201812,TRAIN_399997,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,0,,0,0,0,0
2399998,201812,TRAIN_399998,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,0,,0,0,0,0


In [6]:
# 결측치가 있는 컬럼만 추출
missing_info = {
    col: merged_df[col].isnull().sum()
    for col in merged_df.columns
    if merged_df[col].isnull().sum() > 0
}

missing_df = pd.DataFrame(list(missing_info.items()), columns=['Column', 'Missing_Count'])
print(missing_df)

   Column  Missing_Count
0  OS구분코드        1633566


In [7]:
# 체크할 결측치 대체값 리스트
missing_values = [-99, -1]

# 결과 저장용 리스트
results = []

for col in merged_df.columns:
    for val in missing_values:
        count = (merged_df[col] == val).sum()
        if count > 0:
            results.append({'column': col, 'missing_value': val, 'count': count})

# 결과를 데이터프레임으로 변환
missing_summary = pd.DataFrame(results)

# 출력 옵션 설정 (행/열 제한 해제)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)  # 한 줄 출력 너비 늘리기
pd.set_option('display.colheader_justify', 'left')  # 컬럼명 왼쪽 정렬

# 결과 출력
print(missing_summary)

Empty DataFrame
Columns: []
Index: []


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2400000 entries, 0 to 2399999
Columns: 105 entries, 기준년월 to 홈페이지_선결제건수_R3M
dtypes: int64(98), object(7)
memory usage: 1.9+ GB


In [9]:
10/0

ZeroDivisionError: division by zero