## 1. 핀테크 컨시어지 정보
- **데이터**  
  고객의 신용·보험·연금·통신료 납부 이력 등 프로파일링 데이터

### 1.1 신용점수 등급 예측 모델링
- **입력 변수**  
  - 평균 보험 가입 기간 · 납부 보험료  
  - 통신 요금 납부 패턴  
  - 연금 가입 유형 · 가입 기간  
- **목표 변수**  
  - `신용점수_등급`  
- **활용**  
  - 신용평가 자동화  
  - 대출 한도 산정 보조  

### 1.2 납부 불이행 리스크 분석
- 통신료·연금 미납 금액, 보험 납부 이력 결함(납부 중단 등)을 종합  
- 잠재적 연체 고위험군 (High-risk cohort) 식별  

### 1.3 지역(시도)별 금융 복지 지표
- **비교 지표**  
  - 시도명별 평균 보험 납부액  
  - 연금 가입률  
  - 통신료 납부액  
- **활용**  
  - 공공·민간 지원 정책 타깃팅  

---

## 2. 핀테크 카드내역 정보
- **데이터**  
  월별 카드 사용 내역 (금액, 업종, 결제 방법)

### 2.1 월별·업종별 소비 트렌드 분석
- 대·소 카테고리별 월간 매출 합계 변화 추이  
- 프로모션·신상품 출시 효과 측정  

### 2.2 고객 RFM 세분화
- **Recency** (최종 사용 시점)  
- **Frequency** (거래 빈도)  
- **Monetary** (총 이용 금액)  
- → VIP · 충성 · 휴면 · 이탈 고객 군집화  

### 2.3 결제방법 선호도 분석
- 일시불 vs 할부 비중  
- 연령대·카드사별 비교  

### 2.4 할부 전환율 예측 모델
- 머신러닝 기반 예측  

---

## 3. 핀테크 여수신내역 정보
- **데이터**  
  대출 · 예·적금 등 여수신 상품 이용 내역

### 3.1 대출 리스크 평가
- **피처**  
  평균 연봉 · 고용 형태 · 주거 · 차량 소유 여부 · 대출 목적  
- **목표**  
  상환 정보(정상 vs 연체) 예측 모델링  

### 3.2 상품별 한도·금리 최적화 제안
- 고객 프로파일별 평균 금리·한도 분포 분석  
- 개인별 목표 한도·금리 패키지 추천  

### 3.3 개인회생 케이스 분석
- 개인회생 여부와 상환 정보, 심사 실행 결과 간 관계 탐색  
- 재기를 돕는 맞춤형 대출 구조 설계  

---

## 4. 데이터 결합 시나리오

| 결합 대상                    | 분석 주제                                 | 기대 효과                                                        |
| ---------------------------- | ----------------------------------------- | ---------------------------------------------------------------- |
| 컨시어지 + 카드내역          | 프로파일 기반 소비추천 시스템             | 고객 신용·보험·통신 프로파일에 맞춘 업종·상품 제안              |
| 카드내역 + 여수신내역        | CRS(신용 회전율) 분석 및 관리             | 카드·대출 이용 현황 상관관계 파악 → 교차 판매·리스크 관리       |
| 컨시어지 + 여수신내역        | 연체 예측 모델링 강화                     | 통신·연금 미납 이력 + 대출 상환정보 결합으로 연체 리스크 정확도 향상 |
| 컨시어지 + 카드 + 여수신내역 | 고객 라이프타임 밸류(LTV) 예측 & 세그멘테이션 | 프로파일·소비·대출 전 영역 데이터를 활용한 고객 가치 스코어링, VIP 고객 유지 및 이탈 방지 |


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import platform
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# 운영체제에 따라 폰트 설정
if platform.system() == 'Windows':
    plt.rcParams['font.family'] = 'Malgun Gothic'  # 윈도우 기본 한글 폰트
elif platform.system() == 'Darwin':  # macOS
    plt.rcParams['font.family'] = 'AppleGothic'
else:
    plt.rcParams['font.family'] = 'NanumGothic'  # 리눅스용 나눔폰트 설치 필요

# 마이너스 깨짐 방지
plt.rcParams['axes.unicode_minus'] = False

In [7]:
df_conc = pd.read_csv('data/concierge.csv', encoding='utf-8-sig')
df_loan = pd.read_csv('data/loan.csv', encoding='utf-8-sig')

df_conc.shape, df_loan.shape

((1000, 12), (1000, 14))

In [27]:
df.columns

Index(['모집년도', '전형구분', '전형유형', '지원학과(부)', '출신고교계열', '학생부_평균등급', '학생부_국어등급',
       '학생부_영어등급', '학생부_수학등급', '수능_백분위', '고교소재국가', '최종합격여부'],
      dtype='object')

In [9]:
# 1) 신용점수 등급 예측 모델링
df = df_conc.copy()

# 범주형 변수 인코딩
le_ins = LabelEncoder()
df['보험가입유형_enc'] = le_ins.fit_transform(df['보험가입유형'])
le_tel = LabelEncoder()
df['통신납부유형_enc'] = le_tel.fit_transform(df['통신요금납부유형'])
le_pen = LabelEncoder()
df['연금가입유형_enc'] = le_pen.fit_transform(df['연금가입유형'])

# 피처, 타깃 설정
features = [
    '평균보험가입기간', '평균납부보험료', '평균통신요금납부금액',
    '연금가입기간', '국민연금미납금액',
    '보험가입유형_enc', '통신납부유형_enc', '연금가입유형_enc'
]
X = df[features]
y = df['신용점수_등급'].astype(int)

# 학습/평가 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 모델 학습 및 예측
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print("=== 신용점수 등급 예측 성능 ===")
print(classification_report(y_test, y_pred))

=== 신용점수 등급 예측 성능 ===
              precision    recall  f1-score   support

           1       0.00      0.00      0.00        25
           2       0.10      0.08      0.09        37
           3       0.44      0.62      0.52        88
           4       0.11      0.13      0.12        30
           5       0.00      0.00      0.00        20

    accuracy                           0.31       200
   macro avg       0.13      0.17      0.14       200
weighted avg       0.23      0.31      0.26       200



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [11]:

# 2) 납부 불이행 리스크 분석 (High-risk cohort 식별)
risk = df.copy()
risk['고위험여부'] = np.where(
    (risk['통신요금납부유형'] != '정상') |
    (risk['국민연금미납금액'] > 50000) |
    (risk['평균납부보험료'] < 80000),
    1, 0
)
high_risk_rate = risk['고위험여부'].mean()
print(f"\n고위험(High-risk) 군 비율: {high_risk_rate:.2%}")



고위험(High-risk) 군 비율: 85.40%


In [13]:
# 3) 컨시어지 + 여수신내역 결합 후 연체 예측 모델링 강화
# 키 컬럼: ['고객ID','기준년월','시도명']
df_merge = pd.merge(
    df_conc, df_loan,
    on=['고객ID','기준년월','시도명'],
    how='inner'
)

# 타깃 연체여부 생성
df_merge['연체여부'] = df_merge['상환정보'].map({'정상': 0, '연체': 1})

# 선택 피처
features2 = [
    '평균통신요금납부금액', '국민연금미납금액',
    '평균보험가입기간', '평균납부보험료', '연금가입기간'
]
X2 = df_merge[features2]
y2 = df_merge['연체여부']

# 학습/평가 분할
X2_train, X2_test, y2_train, y2_test = train_test_split(
    X2, y2, test_size=0.2, random_state=42
)

# 모델 학습 및 예측
clf2 = RandomForestClassifier(n_estimators=100, random_state=42)
clf2.fit(X2_train, y2_train)
y2_pred = clf2.predict(X2_test)

print("\n=== 연체 예측 모델 성능 (컨시어지+여수신 통합) ===")
print(classification_report(y2_test, y2_pred))


=== 연체 예측 모델 성능 (컨시어지+여수신 통합) ===
              precision    recall  f1-score   support

           0       1.00      0.50      0.67         2
           1       0.00      0.00      0.00         0

    accuracy                           0.50         2
   macro avg       0.50      0.25      0.33         2
weighted avg       1.00      0.50      0.67         2



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
