In [1]:
import pandas as pd
import gc
import numpy as np

In [13]:
# 데이터프레임을 넣고 column별 특성 및 결측값, 고유값들을 확인하는 함수를 작성해본다.
# 필수는 아니지만 전체적인 흐름을 파악하기 쉬워진다.

def resumetable(df, n):
    print(f'데이터셋 크기: {df.shape}')                                # 데이터프레임의 전체 크기(행, 열) 출력

    summary = pd.DataFrame(df.dtypes, columns=['데이터 타입'])         # 각 피처의 데이터 타입을 가져와 데이터프레임으로 생성
    summary = summary.reset_index()                                    # 인덱스를 초기화하여 컬럼으로 변환
    summary = summary.rename(columns={'index':'피처'})                 # 'index' 컬럼명을 '피처'로 변경

    summary['결측값 개수'] = df.isnull().sum().values                 # 각 피처의 결측값(null) 개수 계산
    summary['고유값 개수'] = df.nunique().values                      # 각 피처의 고유값 개수 계산
    
    for i in range(n):
        summary[f"{i+1}번째 값"] = df.iloc[i].values
    
    return summary                                                     # 요약 테이블 반환

In [14]:
# parquet 파일 데이터를 읽어온다.
df1 = pd.read_parquet('open/train/1.회원정보/201812_train_회원정보.parquet')

In [15]:
with pd.option_context('display.max_rows', None):
    display(resumetable(df1, 5))

데이터셋 크기: (400000, 78)


Unnamed: 0,피처,데이터 타입,결측값 개수,고유값 개수,1번째 값,2번째 값,3번째 값,4번째 값,5번째 값
0,기준년월,int64,0,1,201812,201812,201812,201812,201812
1,ID,object,0,400000,TRAIN_000000,TRAIN_000001,TRAIN_000002,TRAIN_000003,TRAIN_000004
2,남녀구분코드,int64,0,2,2,1,1,2,2
3,연령,object,0,6,40대,30대,30대,40대,40대
4,Segment,object,0,5,D,E,C,D,E
5,회원여부_이용가능,int64,0,2,1,1,1,1,1
6,회원여부_이용가능_CA,int64,0,2,1,1,1,1,1
7,회원여부_이용가능_카드론,int64,0,2,0,1,0,0,1
8,소지여부_신용,int64,0,2,1,1,1,1,1
9,소지카드수_유효_신용,int64,0,5,1,1,1,2,1


In [5]:
# # 메모리에서 삭제하는 방법. 이 변수를 더 쓸 수 없음.
# del df1
# gc.collect()

### test 파일과의 컬럼 차이
- 4번 컬럼(5번째 컬럼)이던 segment만 빠지고 나머지 컬럼은 동일
- 데이터셋 크기는 40000 : 10000, 컬럼 수는 각각 78/77개

In [6]:
df1.drop(['Segment'], axis=1, inplace=True)
df1

Unnamed: 0,기준년월,ID,남녀구분코드,연령,회원여부_이용가능,회원여부_이용가능_CA,회원여부_이용가능_카드론,소지여부_신용,소지카드수_유효_신용,소지카드수_이용가능_신용,...,할인금액_제휴연회비_B0M,청구금액_기본연회비_B0M,청구금액_제휴연회비_B0M,상품관련면제카드수_B0M,임직원면제카드수_B0M,우수회원면제카드수_B0M,기타면제카드수_B0M,카드신청건수,Life_Stage,최종카드발급경과월
0,201812,TRAIN_000000,2,40대,1,1,0,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀성장(2),27
1,201812,TRAIN_000001,1,30대,1,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀성장(1),23
2,201812,TRAIN_000002,1,30대,1,1,0,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀출산기,25
3,201812,TRAIN_000003,2,40대,1,1,0,1,2,2,...,0,0,0,0개,0개,0개,0개,1,자녀성장(2),22
4,201812,TRAIN_000004,2,40대,1,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀성장(1),20
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
399995,201812,TRAIN_399995,2,70대이상,1,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,0,노년생활,39
399996,201812,TRAIN_399996,2,50대,1,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀성장(2),24
399997,201812,TRAIN_399997,1,30대,1,1,0,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀출산기,18
399998,201812,TRAIN_399998,1,40대,1,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀성장(1),27


In [7]:
def column_stats(df):
    stats = pd.DataFrame({
        '최솟값': df.min(numeric_only=True),
        '최댓값': df.max(numeric_only=True),
        '최빈값': df.mode().iloc[0]  # 여러 개면 첫 번째만
    })
    return stats

In [8]:
# with pd.option_context('display.max_rows', None):
#     display(column_stats(df1))

In [9]:
df3 = resumetable(df1,3)
# df3

데이터셋 크기: (400000, 77)


In [10]:
df4 = column_stats(df1)
df4 = df4.reset_index().rename(columns={'index':'피처'})
# df4

In [11]:
merged = pd.merge(df3, df4, how='left', on='피처')
# merged

In [12]:
merged.to_csv('201812_train_회원정보.csv', index=False, encoding='utf-8-sig')