In [3]:
# 기본 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False

# 경고 뜨지 않게
import warnings
warnings.filterwarnings('ignore')

#저장라이브러리
import pickle

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 표준화
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

# LabelEncoder
from sklearn.preprocessing import LabelEncoder

# 데이터를 학습용과 검증용으로 나눈다.
from sklearn.model_selection import train_test_split

import os


# 딥러닝
import tensorflow as tf

# 딥러닝 모델 구조를 정의하는 것
from tensorflow.keras.models import Sequential
# 층구조를 정의하는 것
from tensorflow.keras.layers import Dense
# 활성화 함수를 정의하는 것
from tensorflow.keras.layers import Activation
# Convolutional Layer 
# 합성곱을 수행하는 레이어
# Convolutionla Layer 를 사용하는 신경망을 CNN이라고 부른다.
# 커널에 설정되어 있는 가중치 값에 따라서 특정 부분의 값을 낮추고 특정 부분의 값을 키워서
# 특성이 잘 드러나게 하는 역할을 수행한다.
from tensorflow.keras.layers import Conv2D
from tensorflow.keras.layers import Conv1D
# MaxPooling
# Convolutional Layer를 통과한 데이터에서 큰 부분만 취하는 역할을 수행한다.
# 필요한 특성을 나타내는 부분을 취하고 나머지는 버리는 효과를 얻게 된다.
from tensorflow.keras.layers import MaxPool2D
from tensorflow.keras.layers import MaxPool1D
# 다차원의 데이터를 1차원 데이터로 변환시켜준다.
# 선형회귀 레이어로 가기전에 두어야 한다.
from tensorflow.keras.layers import Flatten
# Dropout : 데이터 하나가 들어오면 레이어의 모든 노드가 그 데이터를 학습하게 된다.
# 그렇기 때문에 모든 가중치 값이 데이터에 영향을 받아서 변경된다.
# 만약 각 노드들이 특정 패턴의 데이터만 학습하고자 한다면 학습시 일부 노드들을 비활성화 시켜서
# 학습에 참여시키지 않게 할 수 있다.
# 전체 데이터에 대해 모든 노드들이 과접합을 되는 것을 예방한다.
from tensorflow.keras.layers import Dropout
# Embedding : 주어진 단어 데이터를 통해 단어 벡터를 생성하는 레이어
# 생성한 벡터 공간의 차원을 매개변수로 받는다.
# 주어진 문장 데이터의 단어 개수가 공간의 차원을 넘어서면 출현 빈도수가 높은 단어들로만
# 구성하여 공간 벡터를 구성한다.
from tensorflow.keras.layers import Embedding
# LSTM : RNN 용 Layer
# 이전에 입력된 데이터와 함께 묶어서 학습할 데이터를 생성하는 방식으로 동작하는 레이어
# 순환신경망. 문장 데이터, 주식시세, 시계열 데이터 등의 데이터 패턴을 보고 다음 데이터를
# 예측하는데 사용한다.
# LSTM은 Long Term Memory와 Short Term Memory를 두어 데이터의 패턴이 좀더 다양하게 생성될 수 
# 있도록 하는 특징을 가지고 있다.
from tensorflow.keras.layers import LSTM

# GAN
# GAN에서 사용하는 활성화 함수
from tensorflow.keras.layers import LeakyReLU
# 레이어를 통과한 데이터를 다시 표준화하여 학습 효율성을 높히게 한다.
from tensorflow.keras.layers import BatchNormalization
# 레이어를 통과한 데이터의 차원을 변경하기위 사용한다.
from tensorflow.keras.layers import Reshape
# 데이터 업샘플링 - Convolutional Layer가 데이터의 크기를 줄이므로 늘리는 것이 필요하다
from tensorflow.keras.layers import UpSampling2D
# 입력층
from tensorflow.keras.layers import Input
# 딥러닝 모델, GAN은 생성자 신경망과 판별자 신경망을 같이 써야 하기 때문에
# 이 둘을 하나의 신경망으로 합치기 위해 사용한다.
from tensorflow.keras.models import Model

# 다중 분류를 위한 원핫 인코딩
from tensorflow.keras.utils import to_categorical

# 저장된 학습 모델 복원
from tensorflow.keras.models import load_model

# epoch마다 모델을 저장하는 함수
from tensorflow.keras.callbacks import ModelCheckpoint
# 조기 중단
from tensorflow.keras.callbacks import EarlyStopping

# 경사하강법
from tensorflow.keras.optimizers import Adam

# 문자열을 잘라낸다.
from tensorflow.keras.preprocessing.text import Tokenizer
# 모든 문장 데이터의 단어 데이터 수를 동일하게 맞춰준다.
from tensorflow.keras.preprocessing.sequence import pad_sequences
# 문자열을 단어 사전으로 만들어준다.
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전이 학습을 위한 사전 학습 모델
from tensorflow.keras.applications import VGG16

# 이미지 데이터를 불러올 때 나눠서 읽어오거나 읽어올때 이미지 데이터를 가공하면서
# 가져울 수 있는 도구
from tensorflow.keras.preprocessing.image import ImageDataGenerator

# 출력한 것을 청소하는 함수
from IPython.display import clear_output
# 시간 관련
import time

gpus = tf.config.experimental.list_physical_devices('GPU')
# gpu가 있다면..
if len(gpus) > 0 :
    try :
        for gpu in gpus :
            tf.config.experimental.set_memory_growth(gpu, True)
    except RuntimeError as e :
        print(e)

### 원하는 컬럼을 넣고 돌리면 상관계수가 나온오게 하는 코드.

In [71]:
# 1. 비교할 컬럼 리스트
columns_to_compare = [
    '홈페이지_금융건수_R6M',
    '홈페이지_선결제건수_R6M',
    '홈페이지_금융건수_R3M',
    '홈페이지_선결제건수_R3M',
    '당사멤버쉽_방문횟수_B0M',
    '당사멤버쉽_방문횟수_R6M',
    '당사멤버쉽_방문월수_R6M',
    'OS구분코드'
]

# 2. 파일 불러오기 (Segment는 '1.회원정보'에서, 잔액은 '5.잔액정보'에서)
df_member = pd.read_parquet(
    'open/train/1.회원정보',
    columns=['ID', 'Segment']
)

df_balance = pd.read_parquet(
    'open/train/6.채널정보',
    columns=['ID'] + columns_to_compare
)

# 3. Segment 문자 → 숫자 인코딩
le = LabelEncoder()
df_member['Segment_code'] = le.fit_transform(df_member['Segment'])

# 4. 병합
df = pd.merge(df_member[['ID', 'Segment_code']], df_balance, on='ID')

# 5. 상관계수 계산
for col in columns_to_compare:
    if col in df.columns:
        if pd.api.types.is_numeric_dtype(df[col]):
            subset = df[['Segment_code', col]].dropna()
            if subset[col].nunique() > 1:
                corr = subset.corr().iloc[0, 1]
                print(f"{col} 와 Segment 상관계수: {corr:.3f}")
            else:
                print(f"{col} 컬럼은 상수이므로 상관계수 계산 불가")
        else:
            print(f"{col} 컬럼은 문자열이므로 상관계수 계산 불가")
    else:
        print(f"{col} 컬럼이 데이터에 없습니다.")

홈페이지_금융건수_R6M 와 Segment 상관계수: -0.169
홈페이지_선결제건수_R6M 와 Segment 상관계수: -0.151
홈페이지_금융건수_R3M 와 Segment 상관계수: -0.160
홈페이지_선결제건수_R3M 와 Segment 상관계수: -0.149
당사멤버쉽_방문횟수_B0M 와 Segment 상관계수: -0.090
당사멤버쉽_방문횟수_R6M 와 Segment 상관계수: -0.098
당사멤버쉽_방문월수_R6M 와 Segment 상관계수: -0.133
OS구분코드 컬럼은 문자열이므로 상관계수 계산 불가


In [75]:
# 1. 비교할 컬럼 리스트
columns_to_compare = [
    '이용금액대'
]

# 2. 데이터 로딩 (필요 컬럼만)
df_member = pd.read_parquet(
    'open/train/1.회원정보',
    columns=['ID', 'Segment']
)

df_sales = pd.read_parquet(
    'open/train/5.잔액정보',
    columns=['ID'] + columns_to_compare
)

# 3. Segment 인코딩
le = LabelEncoder()
df_member['Segment_code'] = le.fit_transform(df_member['Segment'])

# 4. 병합
df = pd.merge(df_member[['ID', 'Segment_code']], df_sales, on='ID')

# 5. '이용금액대' 매핑 (순서형 수치로)
amount_mapping = {
    '05.10만원-': 1,
    '04.10만원+': 2,
    '03.30만원+': 3,
    '02.50만원+': 4,
    '01.100만원+': 5,
    '09.미사용': np.nan  # 미사용은 상관계수 분석에서 제외
}
df['이용금액대_코드'] = df['이용금액대'].map(amount_mapping)

# 6. 상관계수 계산
for col in columns_to_compare:
    target_col = '이용금액대_코드' if col == '이용금액대' else col

    if target_col in df.columns:
        if pd.api.types.is_numeric_dtype(df[target_col]):
            subset = df[['Segment_code', target_col]].dropna()
            if subset[target_col].nunique() > 1:
                corr = subset.corr().iloc[0, 1]
                print(f"{col} 와 Segment 상관계수: {corr:.3f}")
            else:
                print(f"{col} 컬럼은 값이 모두 같아서 상관계수 계산 불가")
        else:
            print(f"{col} 컬럼은 숫자형이 아니라 상관계수 계산 불가 (문자형)")
    else:
        print(f"{col} 컬럼이 데이터에 없습니다.")

이용금액대 와 Segment 상관계수: -0.484


### 컬럼 내부 분류기준이 정확하지 않을 때 명칭을 조사한다.

In [73]:
df_amount_range = pd.read_parquet(
    'open/train/3.승인매출정보',
    columns=['ID', '이용금액대']  # ID도 같이 가져오면 나중에 병합 편함
)

# 고유값 확인
print(df_amount_range['이용금액대'].unique())

['01.100만원+' '03.30만원+' '09.미사용' '04.10만원+' '02.50만원+' '05.10만원-']
