# 2024 NH 투자증권 빅데이터 경진대회

#### 최성현

## 1. 데이터 불러오기

### 필수 라이브러리

In [243]:
import os
from pprint import pprint

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
plt.rcParams['font.family'] ='Malgun Gothic'
plt.rcParams['axes.unicode_minus'] =False

import seaborn as sns

# Columns 리스트 전부 출력
pd.set_option('display.max_seq_items', None)
# row 생략 없이 출력
pd.set_option('display.max_rows', None)
# col 생략 없이 출력
pd.set_option('display.max_columns', None)

pd.set_option('display.max_colwidth', None)

np.set_printoptions(threshold=np.inf, linewidth=np.inf)

### 데이터 읽어오기

In [263]:
ROOT_DIR = "data_sunghyun"
RANDOM_STATE = 110

# Load data
cus_tp_ifo = pd.read_csv(os.path.join(ROOT_DIR, "NH_CONTEST_NHDATA_CUS_TP_IFO.csv"))
ifw_ofw_ifo = pd.read_csv(os.path.join(ROOT_DIR, "NH_CONTEST_NHDATA_IFW_OFW_IFO.csv"))
stk_dd_ifo = pd.read_csv(os.path.join(ROOT_DIR, "NH_CONTEST_NHDATA_STK_DD_IFO.csv"))

##### NH_CONTEST_NHDATA_CUS_TP_IFO.csv : 05월 28일 ~ 08월 27일 NH데이터 기반 고객 보유 정보.

###### BSE_DT: 기준일자
###### TCK_IEM_CD: 티커종목코드
###### CUS_CGR_LLF_CD: 고객구성대분류코드 (1:투자실력, 2:연령대, 3:자산규모)
###### CUS_CGR_MLF_CD: 고객구성중분류코드 (11:투자고수, 12:일반투자자, 21:0~29세, 22:30~39세, 23:40~49세, 24:50~59세, 25:60세~, 31:3천만원미만, 32:3천만원~1억, 33:1억원이상~10억미만, 34:10억원이상)
###### CUS_CGR_ACT_CNT_RT: 고객구성계좌수비율
###### CUS_CGR_IVS_RT: 고객구성투자비율

##### NH_CONTEST_NHDATA_IFW_OFW_IFO.csv : 05월 28일 ~ 08월 27일 유입/유출 종목 데이터, 해외종목의 유입/유출으로 한정, 최대 TOP5까지 제공

###### BSE_DT: 기준일자
###### TCK_IEM_CD: 티커종목코드
###### IFW_OFW_DIT_CD: 유입/유출구분코드 (1:유입, 2:유출)
###### IFW_OFW_TCK_CD: 유입/유출티커코드
###### IFW_OFW_AMT_WHT_RT: 유입/유출금액비중
###### IFW_OFW_RNK: 유입/유출랭크

##### NH_CONTEST_NHDATA_STK_DD_IFO.csv : 05월 28일 ~ 08월 27일까지 NH데이터 기반 주식 일별 정보.

###### BSE_DT: BSE_DT 
###### TCK_IEM_CD: 티커종목코드
###### TOT_HLD_ACT_CNT: 총보유계좌수
###### TOT_HLD_QTY: 총보유수량
###### TCO_AVG_HLD_QTY: 당사평균보유수량
###### TCO_AVG_HLD_WHT_RT: 당사평균보유비중비율
###### TCO_AVG_EAL_PLS: 당사평균평가손익
###### TCO_AVG_PHS_UIT_PR: 당사평균매입단가
###### TCO_AVG_PFT_RT: 당사평균수익율
###### TCO_AVG_HLD_TE_DD_CNT: 당사평균보유기간일수

###### DIST_HNK_PCT10_NMV: 분포상위10퍼센트수치
###### DIST_HNK_PCT30_NMV: 분포상위30퍼센트수치
###### DIST_HNK_PCT50_NMV: 분포상위50퍼센트수치
###### DIST_HNK_PCT70_NMV: 분포상위70퍼센트수치
###### DIST_HNK_PCT90_NMV: 분포상위90퍼센트수치

###### BSE_END_PR: 기준종가
###### LSS_IVO_RT: 손실투자자비율
###### PFT_IVO_RT: 수익투자자비율
###### IFW_ACT_CNT: 신규매수계좌수
###### OFW_ACT_CNT: 전량매도계좌수
###### VW_TGT_CNT: 종목조회건수
###### RGS_TGT_CNT: 관심종목등록건수

In [264]:
# NH_CONTEST_NHDATA_CUS_TP_IFO.csv 기본 데이터 정보 확인
print("[NH_CONTEST_NHDATA_CUS_TP_IFO.csv 기본 데이터 정보 확인]")
cus_tp_ifo.info(verbose=True, show_counts=True)
print("\n")

[NH_CONTEST_NHDATA_CUS_TP_IFO.csv 기본 데이터 정보 확인]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1195000 entries, 0 to 1194999
Data columns (total 6 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   bse_dt              1195000 non-null  int64  
 1   tck_iem_cd          1195000 non-null  object 
 2   cus_cgr_llf_cd      1195000 non-null  int64  
 3   cus_cgr_mlf_cd      1195000 non-null  int64  
 4   cus_cgr_act_cnt_rt  1195000 non-null  float64
 5   cus_cgr_ivs_rt      1195000 non-null  float64
dtypes: float64(2), int64(3), object(1)
memory usage: 54.7+ MB




In [265]:
# NH_CONTEST_NHDATA_IFW_OFW_IFO.csv 기본 데이터 정보 확인
print("[NH_CONTEST_NHDATA_IFW_OFW_IFO.csv 기본 데이터 정보 확인]")
ifw_ofw_ifo.info(verbose=True, show_counts=True)
print("\n")

[NH_CONTEST_NHDATA_IFW_OFW_IFO.csv 기본 데이터 정보 확인]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73656 entries, 0 to 73655
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   bse_dt              73656 non-null  int64  
 1   tck_iem_cd          73656 non-null  object 
 2   ifw_ofw_dit_cd      73656 non-null  int64  
 3   ifw_ofw_tck_cd      73656 non-null  object 
 4   ifw_ofw_amt_wht_rt  73656 non-null  float64
 5   ifw_ofw_rnk         73656 non-null  int64  
dtypes: float64(1), int64(3), object(2)
memory usage: 3.4+ MB




In [266]:
# NH_CONTEST_NHDATA_STK_DD_IFO.csv 기본 데이터 정보 확인
print("[NH_CONTEST_NHDATA_STK_DD_IFO.csv 기본 데이터 정보 확인]")
stk_dd_ifo.info(verbose=True, show_counts=True)
print("\n")

[NH_CONTEST_NHDATA_STK_DD_IFO.csv 기본 데이터 정보 확인]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 81638 entries, 0 to 81637
Data columns (total 22 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   bse_dt                 81638 non-null  int64  
 1   tck_iem_cd             81638 non-null  object 
 2   tot_hld_act_cnt        81638 non-null  int64  
 3   tot_hld_qty            81638 non-null  int64  
 4   tco_avg_hld_qty        81638 non-null  float64
 5   tco_avg_hld_wht_rt     81638 non-null  float64
 6   tco_avg_eal_pls        81638 non-null  float64
 7   tco_avg_phs_uit_pr     81638 non-null  float64
 8   tco_avg_pft_rt         81638 non-null  float64
 9   tco_avg_hld_te_dd_cnt  81638 non-null  float64
 10  dist_hnk_pct10_nmv     81638 non-null  float64
 11  dist_hnk_pct30_nmv     81638 non-null  float64
 12  dist_hnk_pct50_nmv     81638 non-null  float64
 13  dist_hnk_pct70_nmv     81638 non-null  float64
 14  dist_h

In [267]:
# bse_dt 열을 datetime 형식으로 변환
cus_tp_ifo['bse_dt'] = pd.to_datetime(cus_tp_ifo['bse_dt'], format='%Y%m%d')
ifw_ofw_ifo['bse_dt'] = pd.to_datetime(ifw_ofw_ifo['bse_dt'], format='%Y%m%d')
stk_dd_ifo['bse_dt'] = pd.to_datetime(stk_dd_ifo['bse_dt'], format='%Y%m%d')

### 1. ETF별 대분류, 중분류 고객 수 변화 (날짜별) 시각화

In [None]:
# 용량 초과로 인해 출력결과 삭제

# 중분류 코드 매핑 딕셔너리
mlf_code_mapping = {
    11: '투자고수', 
    12: '일반투자자', 
    21: '0~29세', 
    22: '30~39세', 
    23: '40~49세', 
    24: '50~59세', 
    25: '60세~', 
    31: '3천만원미만', 
    32: '3천만원~1억원미만', 
    33: '1억원이상~10억원미만', 
    34: '10억원이상'
}

# 매핑 적용
cus_tp_ifo['cus_cgr_mlf_cd'] = cus_tp_ifo['cus_cgr_mlf_cd'].map(mlf_code_mapping)

# ETF 티커 목록을 추출 (고유한 ETF 티커만 추출)
etf_tickers = cus_tp_ifo['tck_iem_cd'].unique()

# 티커별로 데이터를 분석하고 시각화
for ticker in etf_tickers:
    # 해당 티커에 대한 데이터 필터링
    ticker_data = cus_tp_ifo[cus_tp_ifo['tck_iem_cd'] == ticker]
    
    # 고객구성계좌수비율과 고객구성투자비율을 날짜별로 집계
    act_cnt_rt = ticker_data.groupby(['bse_dt', 'cus_cgr_mlf_cd'])['cus_cgr_act_cnt_rt'].mean().unstack(fill_value=0)
    ivs_rt = ticker_data.groupby(['bse_dt', 'cus_cgr_mlf_cd'])['cus_cgr_ivs_rt'].mean().unstack(fill_value=0)

    # 그래프 크기 설정
    plt.figure(figsize=(20, 10)) 

    # 첫 번째 서브플롯: 고객구성계좌수비율
    plt.subplot(2, 1, 1)  # 2행 1열의 첫 번째
    act_cnt_rt.plot(kind='line', marker='o', ax=plt.gca())
    plt.title(f'{ticker} - 날짜별 고객구성계좌수비율 변화')
    plt.xlabel('날짜')
    plt.ylabel('고객구성계좌수비율')
    plt.xticks(rotation=45)
    plt.legend(title='중분류 코드', bbox_to_anchor=(1.05, 1), loc='upper left')

    # 두 번째 서브플롯: 고객구성투자비율
    plt.subplot(2, 1, 2)  # 2행 1열의 두 번째
    ivs_rt.plot(kind='line', marker='o', ax=plt.gca())
    plt.title(f'{ticker} - 날짜별 고객구성투자비율 변화')
    plt.xlabel('날짜')
    plt.ylabel('고객구성투자비율')
    plt.xticks(rotation=45)
    plt.legend(title='중분류 코드', bbox_to_anchor=(1.05, 1), loc='upper left')

    plt.tight_layout()  # 레이아웃 조정
    plt.show()  # 그래프 출력


### 2. 유입/유출 데이터 분석

In [135]:
# 날짜 형식 변환
ifw_ofw_ifo['bse_dt'] = pd.to_datetime(ifw_ofw_ifo['bse_dt'])

# 유입/유출 구분 코드를 설명으로 변환
ifw_ofw_ifo['ifw_ofw_dit_cd'] = ifw_ofw_ifo['ifw_ofw_dit_cd'].replace({1: '유입', 2: '유출'})

# 유입/유출금액비중과 유입/유출랭크를 날짜별로 분석
ticker_analysis = ifw_ofw_ifo.groupby(['bse_dt', 'tck_iem_cd', 'ifw_ofw_dit_cd']).agg(
    total_amt_wht_rt=('ifw_ofw_amt_wht_rt', 'sum'),
    avg_rnk=('ifw_ofw_rnk', 'mean')
).reset_index()

# 각 날짜별로 상위 10개의 티커를 선택
top_10_by_date = ticker_analysis.groupby('bse_dt').apply(lambda x: x.nlargest(10, 'total_amt_wht_rt')).reset_index(drop=True)

# 결과 확인
print(top_10_by_date)

  top_10_by_date = ticker_analysis.groupby('bse_dt').apply(lambda x: x.nlargest(500, 'total_amt_wht_rt')).reset_index(drop=True)


          bse_dt    tck_iem_cd ifw_ofw_dit_cd  total_amt_wht_rt  avg_rnk
0     2024-05-28  YINN                     유출            100.01      2.0
1     2024-05-28  NXT                      유출            100.01      2.5
2     2024-05-28  QCLN                     유입            100.00      1.0
3     2024-05-28  OPFI                     유출            100.00      2.0
4     2024-05-28  ORCL                     유입            100.00      1.0
5     2024-05-28  OTEX                     유출            100.00      1.0
6     2024-05-28  PFE                      유출            100.00      1.5
7     2024-05-28  PG                       유입            100.00      1.0
8     2024-05-28  PG                       유출            100.00      1.0
9     2024-05-28  PH                       유출            100.00      2.0
10    2024-05-28  PLUG                     유입            100.00      1.5
11    2024-05-28  PTON                     유출            100.00      1.5
12    2024-05-28  PYPY                     유입      

### 3. 투자 성향별 추천 ETF 분석

In [120]:
# 투자 성향별로 상위 10개의 인기 있는 ETF 분석
top_n = 10

# 고객 성향별로 상위 N개의 ETF를 추출하는 함수
def recommend_top_n_etfs(group, n=top_n):
    return group['tck_iem_cd'].value_counts().nlargest(n).index.tolist()

# 고객 성향 대분류별로 상위 N개의 ETF 추천
popular_etfs_by_customer = cus_tp_ifo.groupby('cus_cgr_llf_cd').apply(recommend_top_n_etfs)

# 결과 출력
print("투자 성향별 상위 10개의 추천 ETF:")
print(popular_etfs_by_customer)


투자 성향별 상위 10개의 추천 ETF:
cus_cgr_llf_cd
1    [AAL         , TLRY        , SPOT        , SPY         , SPYD        , SQ          , SRE         , STEM        , STNG        , SWK         ]
2    [AAL         , WTRG        , WM          , WEN         , WELL        , WBD         , W           , VYGR        , VUZI        , VTYX        ]
3    [AAL         , TDG         , SPY         , SPYD        , SQ          , SRE         , STAA        , STEM        , STNG        , STRL        ]
dtype: object


  popular_etfs_by_customer = cus_tp_ifo.groupby('cus_cgr_llf_cd').apply(recommend_top_n_etfs)


### 4. 날짜별 총보유계좌수, 총보유수량 상위 10위 ETF 및 주식 분류

In [121]:
# 1) 날짜별로 총보유계좌수, 총보유수량 상위 10위 종목
top_10_by_date = stk_dd_ifo.groupby('bse_dt').apply(
    lambda x: x[['bse_dt', 'tck_iem_cd', 'tot_hld_act_cnt', 'tot_hld_qty']].sort_values(
        by=['tot_hld_act_cnt', 'tot_hld_qty'], ascending=False).head(10)
)

print("날짜별 총보유계좌수 및 총보유수량 상위 10위 종목:")
print(top_10_by_date)

날짜별 총보유계좌수 및 총보유수량 상위 10위 종목:
                     bse_dt    tck_iem_cd  tot_hld_act_cnt  tot_hld_qty
bse_dt                                                                 
2024-05-28 77459 2024-05-28  TSLA                    94968      4250338
           223   2024-05-28  AAPL                    87232      1507675
           25833 2024-05-28  MSFT                    38008       547321
           27918 2024-05-28  NVDA                    35453       576106
           38195 2024-05-28  TQQQ                    31200      4110900
           61524 2024-05-28  IONQ                    27092      9579436
           63410 2024-05-28  LCID                    26702      6729461
           35308 2024-05-28  SOXL                    23093      4045695
           16491 2024-05-28  GOOGL                   22374       864286
           73675 2024-05-28  SBUX                    22176       313571
2024-05-29 77417 2024-05-29  TSLA                    95023      4248393
           228   2024-05-29  AAPL 

  top_10_by_date = stk_dd_ifo.groupby('bse_dt').apply(


### 5. 날짜별 당사평균 보유비중비율, 평가손익, 수익률 분석

In [122]:
# 2) 날짜별로 당사평균 보유비중비율, 평가손익, 수익률 분석
avg_by_date = stk_dd_ifo.groupby('bse_dt').apply(
    lambda x: x[['bse_dt', 'tck_iem_cd', 'tco_avg_hld_wht_rt', 'tco_avg_eal_pls', 'tco_avg_pft_rt', 'tco_avg_phs_uit_pr', 'tco_avg_hld_te_dd_cnt']].sort_values(
        by='tco_avg_pft_rt', ascending=False).head(10)
)

print("날짜별 당사평균수익률 상위 10위 종목:")
print(avg_by_date)


날짜별 당사평균수익률 상위 10위 종목:
                     bse_dt    tck_iem_cd  tco_avg_hld_wht_rt  \
bse_dt                                                          
2024-05-28 38263 2024-05-28  TRGP                        6.62   
           9117  2024-05-28  CORZ                       10.71   
           69463 2024-05-28  OVV                        18.11   
           1046  2024-05-28  ADMA                       23.58   
           76804 2024-05-28  TK                         16.37   
           27918 2024-05-28  NVDA                       30.79   
           74594 2024-05-28  SLQT                       25.66   
           77079 2024-05-28  TNK                         8.42   
           10348 2024-05-28  CVNA                       15.09   
           76036 2024-05-28  SVRA                       21.74   
2024-05-29 38273 2024-05-29  TRGP                        6.65   
           9093  2024-05-29  CORZ                       10.79   
           69468 2024-05-29  OVV                        18.23   
  

  avg_by_date = stk_dd_ifo.groupby('bse_dt').apply(


### 6. 날짜별 손실투자자비율, 수익투자자비율 분석

In [123]:
# 3) 날짜별 손실투자자비율, 수익투자자비율 분석
loss_profit_by_date = stk_dd_ifo.groupby('bse_dt').apply(
    lambda x: x[['bse_dt', 'tck_iem_cd', 'lss_ivo_rt', 'pft_ivo_rt']].assign(
        diff_loss_profit=lambda y: y['pft_ivo_rt'] - y['lss_ivo_rt']
    ).sort_values(by='diff_loss_profit', ascending=False).head(10)
)

print("날짜별 수익투자자비율이 높은 종목 상위 10위:")
print(loss_profit_by_date)

날짜별 수익투자자비율이 높은 종목 상위 10위:
                     bse_dt    tck_iem_cd  lss_ivo_rt  pft_ivo_rt  \
bse_dt                                                              
2024-05-28 28459 2024-05-28  NYT                  0.0         1.0   
           42241 2024-05-28  WELL                 0.0         1.0   
           31283 2024-05-28  PSTG                 0.0         1.0   
           62105 2024-05-28  JCI                  0.0         1.0   
           79288 2024-05-28  VLTO                 0.0         1.0   
           57130 2024-05-28  FLR                  0.0         1.0   
           79413 2024-05-28  VRTX                 0.0         1.0   
           29930 2024-05-28  PBA                  0.0         1.0   
           29840 2024-05-28  PAYS                 0.0         1.0   
           29282 2024-05-28  OTIS                 0.0         1.0   
2024-05-29 37838 2024-05-29  TMDX                 0.0         1.0   
           59639 2024-05-29  GSL                  0.0         1.0   
       

  loss_profit_by_date = stk_dd_ifo.groupby('bse_dt').apply(


### 7. 날짜별 신규매수계좌수, 종목조회건수, 관심종목등록건수 분석

In [124]:
# 4) 날짜별 신규매수계좌수, 종목조회건수, 관심종목등록건수 분석
account_view_by_date = stk_dd_ifo.groupby('bse_dt').apply(
    lambda x: x[['bse_dt', 'tck_iem_cd', 'ifw_act_cnt', 'vw_tgt_cnt', 'rgs_tgt_cnt']].sort_values(
        by='ifw_act_cnt', ascending=False).head(10)
)

print("날짜별 신규매수계좌수 상위 10위 종목:")
print(account_view_by_date)

날짜별 신규매수계좌수 상위 10위 종목:
                     bse_dt    tck_iem_cd  ifw_act_cnt  vw_tgt_cnt  \
bse_dt                                                               
2024-05-28 27918 2024-05-28  NVDA                  256       92918   
           35308 2024-05-28  SOXL                  118       26264   
           68524 2024-05-28  O                      98        6070   
           77459 2024-05-28  TSLA                   71       46660   
           38195 2024-05-28  TQQQ                   69       10215   
           12414 2024-05-28  DPST                   64         503   
           28025 2024-05-28  NVDL                   58        9161   
           223   2024-05-28  AAPL                   54       21647   
           73675 2024-05-28  SBUX                   48        5633   
           73763 2024-05-28  SCHD                   43        4649   
2024-05-29 27927 2024-05-29  NVDA                  787      134887   
           77417 2024-05-29  TSLA                  323       48379 

  account_view_by_date = stk_dd_ifo.groupby('bse_dt').apply(


### 8. 날짜별 전량매도계좌수와 손실/수익투자자비율 분석

In [125]:
# 5) 날짜별 전량매도계좌수와 손실/수익투자자비율의 상관관계
sell_loss_profit_by_date = stk_dd_ifo.groupby('bse_dt').apply(
    lambda x: x[['bse_dt', 'tck_iem_cd', 'ofw_act_cnt', 'lss_ivo_rt', 'pft_ivo_rt']].sort_values(
        by='ofw_act_cnt', ascending=False).head(10)
)

print("날짜별 전량매도계좌수 상위 10위 종목:")
print(sell_loss_profit_by_date)

날짜별 전량매도계좌수 상위 10위 종목:
                     bse_dt    tck_iem_cd  ofw_act_cnt  lss_ivo_rt  pft_ivo_rt
bse_dt                                                                        
2024-05-28 35308 2024-05-28  SOXL                  555      0.0794      0.9195
           27918 2024-05-28  NVDA                  346      0.0000      0.9991
           77459 2024-05-28  TSLA                  241      0.6486      0.3511
           223   2024-05-28  AAPL                  229      0.0000      1.0000
           38195 2024-05-28  TQQQ                  161      0.0499      0.9498
           25833 2024-05-28  MSFT                  115      0.0000      1.0000
           73675 2024-05-28  SBUX                  114      0.6184      0.3816
           28025 2024-05-28  NVDL                  114      0.0510      0.9366
           74869 2024-05-28  SMR                   106      0.1672      0.8301
           2573  2024-05-28  AMD                   100      0.2474      0.7523
2024-05-29 35314 2024-05-29  

  sell_loss_profit_by_date = stk_dd_ifo.groupby('bse_dt').apply(
