In [1]:
import pandas as pd
from ydata_profiling import ProfileReport

import matplotlib.pyplot as plt
import seaborn as sns

plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

pd.set_option('display.max_rows', 100)
pd.set_option('display.max_colwidth', 40)

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:

def data_summary(df):
    """
    주어진 DataFrame에서 각 열의 요약 통계를 계산하고 결과를 새로운 DataFrame으로 반환한다.

    Parameters:
        df (DataFrame): 분석할 데이터를 포함한 pandas DataFrame.

    Returns:
        DataFrame: 각 열의 데이터 타입, 개수, 고유값 개수, 결측치 개수, 결측치 비율, 고유값을 포함한 요약 정보.
    """
    obs = df.shape[0]
    types = df.dtypes
    counts = df.apply(lambda x: x.count())
    uniques = df.apply(lambda x: [x.unique()]).T.squeeze()
    nulls = df.apply(lambda x: x.isnull().sum())
    distincts = df.apply(lambda x: x.unique().shape[0])
    missing_ratio = (df.isnull().sum() / obs)*100
    
    print("Data shape: ", df.shape)

    cols = ['Types', 'Counts', 'Distincts', 'Nulls', 'Missing_ratio', 'Uniques']
    structure = pd.concat([types, counts, distincts, nulls, missing_ratio, uniques], axis=1, sort=True)

    structure.columns = cols

    print("================================================")
    print("Data types: ")
    print(structure['Types'].value_counts())
    print("================================================")
    print("\n\n")

    return structure

In [3]:
data = pd.read_excel('보험데이터_체증형_통합.xlsx')

In [4]:

data_summary(data)

Data shape:  (71, 11)
Data types: 
Types
object     7
int64      3
float64    1
Name: count, dtype: int64





Unnamed: 0,Types,Counts,Distincts,Nulls,Missing_ratio,Uniques
그룹,object,20,7,51,71.830986,"[nan, f, b, c, d, e, a]"
기본 보험료,int64,71,59,0,0.0,"[7305, 393, 17265, 2374, 7695, 396, ..."
납입기간/보험기간,object,71,5,0,0.0,"[20년납 100세만기, 20년납\n100세만기, 20년갱신 10..."
보장금액,int64,71,23,0,0.0,"[150000, 30000, 10000, 100000000, 20..."
보장단위,object,71,4,0,0.0,"[1일, 발생시, 최초 1회, 연간 1회]"
보험 보장 대상,object,71,71,0,0.0,"[(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원 제외),..."
상세 설명,object,71,71,0,0.0,[상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여...
유형1,object,71,6,0,0.0,"[입원, 생활, 수술, 진단, 간병/사망, 장해/장애]"
유형2,object,71,14,0,0.0,"[간병인1, 간병인2, 일상배상, 로봇수술, 질병, 골절, 갑상선..."
총 보험료,int64,71,59,0,0.0,"[7305, 393, 25297, 3438, 7695, 396, ..."


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   유형1        71 non-null     object 
 1   유형2        71 non-null     object 
 2   보험 보장 대상   71 non-null     object 
 3   상세 설명      71 non-null     object 
 4   보장단위       71 non-null     object 
 5   보장금액       71 non-null     int64  
 6   총 보험료      71 non-null     int64  
 7   기본 보험료     71 non-null     int64  
 8   할증 보험료     17 non-null     float64
 9   납입기간/보험기간  71 non-null     object 
 10  그룹         20 non-null     object 
dtypes: float64(1), int64(3), object(7)
memory usage: 6.2+ KB


In [6]:
data.head()

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,납입기간/보험기간,그룹
0,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원 제외),상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 ...,1일,150000,7305,7305,,20년납 100세만기,
1,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원),"상해사고로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관...",1일,30000,393,393,,20년납 100세만기,
2,입원,간병인1,(체증형)질병 입원 간병인 사용일당(1일이상)(요양병원 제외),보험기간 중 질병으로 병·의원(요양병원 제외) 등에 1일이상 계속...,1일,150000,25297,17265,8032.0,20년납 100세만기,
3,입원,간병인1,(체증형)질병 입원 간병인 사용일당(1일이상)(요양병원),보험기간 중 질병으로 요양병원에 1일이상 계속 입원하여 치료를 받...,1일,10000,3438,2374,1064.0,20년납 100세만기,
4,입원,간병인2,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양...",상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 ...,1일,150000,7695,7695,,20년납\n100세만기,


In [7]:
# help(ProfileReport)

In [8]:
# profile = ProfileReport(data, title="Profiling Report")
# profile

## 데이터 전처리

In [9]:

def split_data(x):
    """납입기간과 보험기간을 분리"""
    if ' ' in x:
        period = x.split(' ')[0]
        guarantee = x.split(' ')[1]
    elif '\n' in x:
        period = x.split('\n')[0]
        guarantee = x.split('\n')[1]

    return [period, guarantee]

In [10]:
data[['납입기간', '보험기간']] = data['납입기간/보험기간'].apply(lambda x: pd.Series(split_data(x)))

In [11]:
data.drop('납입기간/보험기간', inplace=True, axis=1)
data.sample(10)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,그룹,납입기간,보험기간
5,입원,간병인2,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양병원)","상해사고로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관...",1일,30000,396,396,,,20년납,100세만기
4,입원,간병인2,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양...",상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 ...,1일,150000,7695,7695,,,20년납,100세만기
65,수술,질병,질병 8종 수술비(시술포함),보험기간 중 질병의 치료를 직접적인 목적으로 약관에서 정한 8종 ...,연간 1회,15000000,5056,3410,1646.0,e,20년납,100세만기
29,수술,상해,상해 1종 수술비(시술포함),보험기간 중 상해의 치료를 직접적인 목적으로 약관에서 정한 1종 ...,연간 1회,300000,546,546,,b,20년납,100세만기
62,수술,질병,질병 5종 수술비(시술포함),보험기간 중 질병의 치료를 직접적인 목적으로 약관에서 정한 5종 ...,연간 1회,3000000,5058,3411,1647.0,e,20년납,100세만기
57,진단,화상,중대 화상·부식 진단비,상해사고로 신체 표면적으로 최소 20%이상의 3도 화상 또는 부식...,최초 1회,10000000,51,51,,,20년납,100세만기
59,수술,질병,질병 2종 수술비(시술포함),보험기간 중 질병의 치료를 직접적인 목적으로 약관에서 정한 2종 ...,연간 1회,300000,3646,2453,1193.0,d,20년납,100세만기
0,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원 제외),상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 ...,1일,150000,7305,7305,,,20년납,100세만기
10,수술,로봇수술,[갱신형] 특정암 다빈치로봇 수술비,"보장개시일 이후 특정암(갑상선암, 전립선암)으로 진단 확정되고 그...",최초 1회,10000000,200,200,,,10년갱신,100세만기
70,진단,화상,화상 진단비,상해사고로 심재성 2도 이상에 해당하는 화상으로 진단 확정된 경우...,발생시,100000,76,76,,,20년납,100세만기


In [12]:
data['보험기간'].value_counts()

보험기간
100세만기    70
20년만기      1
Name: count, dtype: int64

In [13]:
data[data['보험기간']=='20년만기']

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,그룹,납입기간,보험기간
44,진단,암,유사암진단 납입지원,"이 특별약관의 보험기간 중 「기타피부암」,「갑상선암」,「대장점막내...",발생시,66000,488,488,,,20년납,20년만기


In [14]:
# ['보험기간', '갱신']으로 나누기
data[['납입기간(년)', '갱신']] = data['납입기간'].str.split('년', expand=True)
data.drop('납입기간', inplace=True, axis=True)
data.sample(10)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,그룹,보험기간,납입기간(년),갱신
42,진단,암,암(기타피부암 및 갑상선암 제외) 치료비 지원,보장개시일 이후 암으로 진단 확정된 경우 가입금액 지급(최초 1회...,최초 1회,100000,115,115,,,100세만기,20,납
36,수술,상해,상해 8종 수술비(시술포함),보험기간 중 상해의 치료를 직접적인 목적으로 약관에서 정한 8종 ...,연간 1회,25000000,266,266,,c,100세만기,20,납
69,수술,화상,화상 수술비,상해사고로 심재성 2도 이상에 해당하는 화상으로 진단 확정 후 그...,발생시,300000,11,11,,,100세만기,20,납
40,장해/장애,상해,상해 후유장해(3~100%),상해사고로 후유장해가 발생한 경우 가입금액 한도로 지급,발생시,20000000,1000,1000,,,100세만기,20,납
11,생활,일상배상,[공제][갱신형] 가족 일상생활중 배상책임Ⅱ,"※ 1사고당 자기부담금 : 대인 없음, 대물누수사고 50만원, 대...",발생시,500000,0,0,,,100세만기,20,갱신
0,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원 제외),상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 ...,1일,150000,7305,7305,,,100세만기,20,납
45,진단,응급의료,응급의료 아나필락시스 진단비(연간1회한),보험기간 중 응급실에 내원하여 약관에서 정한 아나필락시스(anap...,연간 1회,2000000,200,200,,,100세만기,20,납
67,수술,심근경색,혈전용해치료비(급성심근경색증),"보험기간 중 약관에서 정한 급성심근경색증으로 진단 확정되고, 그 ...",최초 1회,10000000,445,445,,a,100세만기,20,납
38,간병/사망,상해,상해 사망,상해사고로 사망한 경우 가입금액 지급,발생시,50000000,2550,2550,,,100세만기,20,납
6,입원,간병인2,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양...",보험기간 중 질병으로 병·의원(요양병원 제외) 등에 1일이상 계속...,1일,150000,26733,18240,8493.0,,100세만기,20,납


In [15]:
data[data['갱신']!='납']

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,그룹,보험기간,납입기간(년),갱신
8,생활,일상배상,[갱신형] 가족 일상생활중 배상책임Ⅱ,본인 및 약관에 정한 가족의 일상생활 및 보험증권에 기재된 주택의...,발생시,100000000,1154,1154,,,100세만기,20,갱신
9,수술,로봇수술,[갱신형] 암(특정암 제외) 다빈치로봇 수술비,보장개시일 이후 암(특정암 제외)으로 진단 확정되고 그 암(특정암...,최초 1회,20000000,1120,1120,,,100세만기,10,갱신
10,수술,로봇수술,[갱신형] 특정암 다빈치로봇 수술비,"보장개시일 이후 특정암(갑상선암, 전립선암)으로 진단 확정되고 그...",최초 1회,10000000,200,200,,,100세만기,10,갱신
11,생활,일상배상,[공제][갱신형] 가족 일상생활중 배상책임Ⅱ,"※ 1사고당 자기부담금 : 대인 없음, 대물누수사고 50만원, 대...",발생시,500000,0,0,,,100세만기,20,갱신


In [16]:
data.rename(columns={'납/갱':'납입/갱신'}, inplace=True)

In [17]:
# 항목별 전체 납입액 구하기
data.rename(columns={'총 보험료':'월 보험료'}, inplace=True)

In [18]:
123 * 20 * 12

29520

In [20]:
data['만기 보험료'] = data['월 보험료'] * data['납입기간(년)'].astype('int') * 12
data.head(10)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,월 보험료,기본 보험료,할증 보험료,그룹,보험기간,납입기간(년),갱신,만기 보험료
0,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원 제외),상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 ...,1일,150000,7305,7305,,,100세만기,20,납,1753200
1,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원),"상해사고로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관...",1일,30000,393,393,,,100세만기,20,납,94320
2,입원,간병인1,(체증형)질병 입원 간병인 사용일당(1일이상)(요양병원 제외),보험기간 중 질병으로 병·의원(요양병원 제외) 등에 1일이상 계속...,1일,150000,25297,17265,8032.0,,100세만기,20,납,6071280
3,입원,간병인1,(체증형)질병 입원 간병인 사용일당(1일이상)(요양병원),보험기간 중 질병으로 요양병원에 1일이상 계속 입원하여 치료를 받...,1일,10000,3438,2374,1064.0,,100세만기,20,납,825120
4,입원,간병인2,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양...",상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 ...,1일,150000,7695,7695,,,100세만기,20,납,1846800
5,입원,간병인2,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양병원)","상해사고로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관...",1일,30000,396,396,,,100세만기,20,납,95040
6,입원,간병인2,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양...",보험기간 중 질병으로 병·의원(요양병원 제외) 등에 1일이상 계속...,1일,150000,26733,18240,8493.0,,100세만기,20,납,6415920
7,입원,간병인2,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양병원)",보험기간 중 질병으로 요양병원에 1일이상 계속 입원하여 치료를 받...,1일,30000,10338,7131,3207.0,,100세만기,20,납,2481120
8,생활,일상배상,[갱신형] 가족 일상생활중 배상책임Ⅱ,본인 및 약관에 정한 가족의 일상생활 및 보험증권에 기재된 주택의...,발생시,100000000,1154,1154,,,100세만기,20,갱신,276960
9,수술,로봇수술,[갱신형] 암(특정암 제외) 다빈치로봇 수술비,보장개시일 이후 암(특정암 제외)으로 진단 확정되고 그 암(특정암...,최초 1회,20000000,1120,1120,,,100세만기,10,갱신,134400


In [21]:
# 보장 받는 것에 비해 얼마나 많이 낼까?
data['보장 대비 납입율'] = data['만기 보험료'] / data['보장금액']

In [22]:
# 전처리 후 data summary
data_summary(data)

Data shape:  (71, 15)
Data types: 
Types
object     9
int64      4
float64    2
Name: count, dtype: int64





Unnamed: 0,Types,Counts,Distincts,Nulls,Missing_ratio,Uniques
갱신,object,71,2,0,0.0,"[납, 갱신]"
그룹,object,20,7,51,71.830986,"[nan, f, b, c, d, e, a]"
기본 보험료,int64,71,59,0,0.0,"[7305, 393, 17265, 2374, 7695, 396, ..."
납입기간(년),object,71,2,0,0.0,"[20, 10]"
만기 보험료,int64,71,60,0,0.0,"[1753200, 94320, 6071280, 825120, 18..."
보장 대비 납입율,float64,71,65,0,0.0,"[11.688, 3.144, 40.4752, 82.512, 12...."
보장금액,int64,71,23,0,0.0,"[150000, 30000, 10000, 100000000, 20..."
보장단위,object,71,4,0,0.0,"[1일, 발생시, 최초 1회, 연간 1회]"
보험 보장 대상,object,71,71,0,0.0,"[(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원 제외),..."
보험기간,object,71,2,0,0.0,"[100세만기, 20년만기]"


## 유형별 분석

In [23]:
data['유형1'].value_counts()

유형1
수술       33
진단       24
입원       10
생활        2
간병/사망     1
장해/장애     1
Name: count, dtype: int64

In [24]:
display(data['유형2'].value_counts())

유형2
질병      16
암       15
상해      14
간병인1     4
간병인2     4
골절       4
화상       3
일상배상     2
로봇수술     2
갑상선      2
심근경색     2
응급의료     1
인공관절     1
간호간병     1
Name: count, dtype: int64

In [25]:
# 만기 보험료 순 항목
pd.set_option('display.max_colwidth', 50)
sorted_total = data.sort_values('만기 보험료', ascending=False)


In [26]:
sorted_total[sorted_total['보험 보장 대상'].str.endswith('(요양병원)')][['보험 보장 대상', '보장금액', '월 보험료', '만기 보험료']]

Unnamed: 0,보험 보장 대상,보장금액,월 보험료,만기 보험료
7,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양병원)",30000,10338,2481120
3,(체증형)질병 입원 간병인 사용일당(1일이상)(요양병원),10000,3438,825120
5,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양병원)",30000,396,95040
1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원),30000,393,94320


In [39]:
# 보장 대비 납입율 
data[data['보장단위']=='발생시'].sort_values('보장 대비 납입율', ascending=False)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,월 보험료,기본 보험료,할증 보험료,그룹,보험기간,납입기간(년),갱신,만기 보험료,보장 대비 납입율
17,수술,질병,111대질병 수술비(62대생활질병),보험기간 중 약관에 정한 62대 생활질병으로 진단 확정되고 그 치료를 직접 적인 목...,발생시,200000,3419,2322,1097.0,,100세만기,20,납,820560,4.1
23,진단,골절,골절 진단비,상해사고로 약관에 정한 골절로 진단 확정된 경우 가입금액 지급,발생시,100000,898,898,,,100세만기,20,납,215520,2.16
44,진단,암,유사암진단 납입지원,"이 특별약관의 보험기간 중 「기타피부암」,「갑상선암」,「대장점막내암」,「제자 리암」...",발생시,66000,488,488,,,20년만기,20,납,117120,1.77
24,진단,골절,"골절 진단비(치아파절(깨짐, 부러짐) 제외)","상해사고로 약관에 정한 골절(치아파절(깨짐, 부러짐) 제외)로 진단 확정된 경우 가...",발생시,200000,1140,1140,,,100세만기,20,납,273600,1.37
37,수술,상해,상해 골절 수술비,상해사고로 약관에 정한 골절로 수술받은 경우 가입금액 지급,발생시,200000,372,372,,,100세만기,20,납,89280,0.45
27,진단,골절,깁스 치료비(부목치료 제외),보험기간 중 상해 또는 질병으로 약관에 정한 깁스치료를 받은 경우 가입금 액 지급\...,발생시,100000,123,123,,,100세만기,20,납,29520,0.3
70,진단,화상,화상 진단비,상해사고로 심재성 2도 이상에 해당하는 화상으로 진단 확정된 경우 가입금 액 지급,발생시,100000,76,76,,,100세만기,20,납,18240,0.18
13,수술,질병,111대질병 수술비(22대주요질병),보험기간 중 약관에 정한 22대 주요질병으로 진단 확정되고 그 치료를 직접 적인 목...,발생시,1000000,704,482,222.0,,100세만기,20,납,168960,0.17
14,수술,질병,111대질병 수술비(3대주요질병),"보험기간 중 약관에 정한 갑상선질환, 고혈압 및 당뇨병으로 진단 확정되고 그 치료를...",발생시,500000,275,188,87.0,,100세만기,20,납,66000,0.13
15,수술,질병,111대질병 수술비(5대주요기관관혈),"보험기간 중 약관에 정한 뇌질환, 심질환, 간·췌장질환 및 폐질환으로 진단 확정되고...",발생시,20000000,7320,7320,,,100세만기,20,납,1756800,0.09


In [36]:
pd.options.display.float_format = '{:.2f}'.format
display(data.groupby('보장단위')[['보장금액', '월 보험료', '만기 보험료']].mean())
display(data.groupby('보장단위')[['보장금액', '월 보험료', '만기 보험료']].std())

Unnamed: 0_level_0,보장금액,월 보험료,만기 보험료
보장단위,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1일,84000.0,8582.5,2059800.0
발생시,10782421.05,1147.47,275393.68
연간 1회,6593548.39,2165.13,519630.97
최초 1회,5981818.18,341.91,67658.18


Unnamed: 0_level_0,보장금액,월 보험료,만기 보험료
보장단위,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1일,59665.74,9786.38,2348730.36
발생시,24937759.06,1773.67,425680.96
연간 1회,6012566.59,2982.72,715853.7
최초 1회,6462788.59,338.5,58135.95


In [38]:
data[data['보장단위']=='최초 1회'].sort_values('보장 대비 납입율', ascending=False)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,월 보험료,기본 보험료,할증 보험료,그룹,보험기간,납입기간(년),갱신,만기 보험료,보장 대비 납입율
28,진단,상해,보험료 납입면제대상Ⅱ,"보장개시일 이후 상해사고로 80%이상 후유장해가 발생하거나 약관에서 정 한 암, 뇌...",최초 1회,100000,168,168,,,100세만기,20,납,40320,0.4
42,진단,암,암(기타피부암 및 갑상선암 제외) 치료비 지원,보장개시일 이후 암으로 진단 확정된 경우 가입금액 지급(최초 1회한)\n※ 암의 보...,최초 1회,100000,115,115,,,100세만기,20,납,27600,0.28
46,수술,인공관절,인공관절치환 수술비,보험기간 중 상해 또는 질병으로 약관에 정한 인공관절치환 수술을 받은 경우 가입금액...,최초 1회,2500000,775,775,,,100세만기,20,납,186000,0.07
21,진단,갑상선,갑상선기능저하증 진단비,보험기간 중 약관에서 정한 「갑상선기능저하증」으로 진단 확정된 경우 가입 금액 지급...,최초 1회,1000000,170,170,,,100세만기,20,납,40800,0.04
22,진단,갑상선,갑상선기능항진증 치료비,보험기간 중 약관에서 정한 「갑상선기능항진증」으로 진단 확정되고 「갑상선 기능항진증...,최초 1회,2000000,260,260,,,100세만기,20,납,62400,0.03
26,진단,암,기타피부암 및 갑상선암 치료비 지원,보장개시일 이후 기타피부암 또는 갑상선암으로 진단 확정된 경우 가입금액 지급(최초 ...,최초 1회,100000,12,12,,,100세만기,20,납,2880,0.03
67,수술,심근경색,혈전용해치료비(급성심근경색증),"보험기간 중 약관에서 정한 급성심근경색증으로 진단 확정되고, 그 치료를 직접적인 목...",최초 1회,10000000,445,445,,a,100세만기,20,납,106800,0.01
68,수술,심근경색,혈전용해치료비(뇌경색증),"보험기간 중 약관에서 정한 뇌경색증으로 진단 확정되고, 그 치료를 직접적 인 목적으...",최초 1회,10000000,445,445,,a,100세만기,20,납,106800,0.01
9,수술,로봇수술,[갱신형] 암(특정암 제외) 다빈치로봇 수술비,보장개시일 이후 암(특정암 제외)으로 진단 확정되고 그 암(특정암 제외)의 직접적인...,최초 1회,20000000,1120,1120,,,100세만기,10,갱신,134400,0.01
10,수술,로봇수술,[갱신형] 특정암 다빈치로봇 수술비,"보장개시일 이후 특정암(갑상선암, 전립선암)으로 진단 확정되고 그 특정암 의 직접적...",최초 1회,10000000,200,200,,,100세만기,10,갱신,24000,0.0


## Text Summarization

In [16]:
import pandas as pd

import ast
import re
import traceback

from ChatGPT_API import request_openai

In [2]:
data = pd.read_excel('preprocessed_data.xlsx')
# data.head()

In [3]:
# 배치 프로세싱을 어떻게 진행할 것인가. 하나의 qeury에 여러 메시지를 담아야하고, 그 결과를 분리해서 받을 수 있어야 한다. 
# 그렇다면 문장 요약에서 내가 얻고 싶은 정보는 무엇일까? 
# 1. 어떤 병을 대상으로 한 보험인지. 사실 이거면 된다. 보장 내용은 내가 수작업으로 했으니까. 

In [3]:
N_BATCH = 5

In [4]:
data_list = data['상세 설명'].to_list()

# 예시 데이터, '상세 설명' 키에 여러 상세 내용이 리스트로 저장되어 있다고 가정
temp = {
    '상세 설명': [f'{i}' for i in data_list]  # 1부터 71까지의 상세 내용 예시
}

# 문서 내용을 담을 빈 문자열 초기화
contents = []

doc_index = 0
# 10개씩 상세 설명을 문서 내용에 포맷팅하여 추가
for i in range(0, len(data_list), N_BATCH):
    
    content = ''

    chunk = temp['상세 설명'][i:i+N_BATCH]
    for detail in chunk:
        content += f"""
        index: {doc_index}
        <문서 내용>
        {detail}

        """
        doc_index += 1
    
    contents.append(content)

    

In [5]:
gpt_responses = []

for ducument_content in contents:
    result = request_openai(ducument_content)
    gpt_responses.append(result)

In [6]:
for i in gpt_responses:
    print(i)


```
{
    'index': [0, 1, 2, 3, 4],
    '보험 발생(질병)': ['간병인', '간병인', '간병인', '간병인', '간병인'],
    '보장 횟수': ['1일당', '1일당', '1일당', '1일당', '1일당']
}
```
'''
{'index': [5, 6, 7, 8, 9], '보험 발생(질병)': ['간병인', '간병인', '간병인', '대인, 대물의 손해', '암(특정암 제외)'], '보장 횟수': ['가입후 20년 미만 시', '1일당', '가입후 20년 미만 시', '1사고당', '최초 1회한']}
'''
'''
{'index': [10, 11, 12, 13, 14], '보험 발생(질병)': ['갑상선암, 전립선암', '사고', '19대 생활질병', '22대 주요질병', '갑상선질환, 고혈압 및 당뇨병'], '보장 횟수': ['최초 1회', '1사고당', '수술당 1회', '수술당 1회', '수술당 1회']}
'''
'''
{'index': [15, 16, 17, 18, 19], '보험 발생(질병)': ['뇌질환, 심질환, 간·췌장질환 및 폐질환', '뇌질환, 심질환, 간·췌장질환 및 폐질환', '62대 생활질병', '요실금', '선천성이상 질병'], '보장 횟수': ['수술당 1회', '수술당 1회', '수술당 1회', '연간 1회한', '연간 1회한']}
'''
```
{
    'index': [20, 21, 22, 23, 24], 
    '보험 발생(질병)': ['5대골절 수술', '갑상선기능저하증', '갑상선기능항진증', '골절', '골절(치아파절)'],
    '보장 횟수': ['수술받은 경우', '최초 1회', '최초 1회', '진단 확정된 경우', '진단 확정된 경우']
}
```

'''
{'index': [25, 26, 27, 28, 29], '보험 발생(질병)': ['기타피부암, 갑상선암', '기타피부암, 갑상선암', '깁스치료', '암, 뇌졸중, 급성심근경색증, 중대 화상·부식, 뇌·내장손상

In [29]:
gpt_answers = []


for response in gpt_responses:
    try:
        response = response.replace('`', '')
        response = response.replace('\n', '')
        response = response.replace('=', '')
        response = response.replace('python', '')
        response = response.replace("'''", '')
        response = "'''" + response + "'''"


        response = ast.literal_eval(response)
        response = ast.literal_eval(response)
        
        gpt_answers.append(response)
    except (SyntaxError, ValueError) as e:
        print(traceback.print_exc())
        break

In [50]:
result_df=pd.DataFrame(columns=['index', '보험 발생(질병)', '보장 횟수'])

for answers in gpt_answers:
    try:
        temp_df = pd.DataFrame(answers)
        result_df = pd.concat([result_df, temp_df], join='inner')
    except ValueError as e:
        print(traceback.print_exc())
        print(answers)
        break


In [46]:
pd.set_option('display.max_rows', 400)

In [56]:
result_df = result_df.drop('index', axis=1).reset_index(drop=True)

In [58]:
data = data.join(result_df)

In [59]:
pd.

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,월 보험료,기본 보험료,할증 보험료,그룹,보험기간,납입기간(년),갱신,만기 보험료,보장 대비 납입율,보험 발생(질병),보장 횟수
0,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원 제외),"상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 치료를 받 으며, ...",1일,150000,7305,7305,,,100세만기,20,납,1753200,11.688,간병인,1일당
1,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원),"상해사고로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관에 정한 간병인을 ...",1일,30000,393,393,,,100세만기,20,납,94320,3.144,간병인,1일당
2,입원,간병인1,(체증형)질병 입원 간병인 사용일당(1일이상)(요양병원 제외),보험기간 중 질병으로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 치료를 ...,1일,150000,25297,17265,8032.0,,100세만기,20,납,6071280,40.4752,간병인,1일당
3,입원,간병인1,(체증형)질병 입원 간병인 사용일당(1일이상)(요양병원),"보험기간 중 질병으로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관에 정한...",1일,10000,3438,2374,1064.0,,100세만기,20,납,825120,82.512,간병인,1일당
4,입원,간병인2,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양병원 제외)","상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 치료를 받 으며, ...",1일,150000,7695,7695,,,100세만기,20,납,1846800,12.312,간병인,1일당
5,입원,간병인2,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양병원)","상해사고로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관에 정한 간병인을 ...",1일,30000,396,396,,,100세만기,20,납,95040,3.168,간병인,가입후 20년 미만 시
6,입원,간병인2,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양병원 제외)",보험기간 중 질병으로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 치료를 ...,1일,150000,26733,18240,8493.0,,100세만기,20,납,6415920,42.7728,간병인,1일당
7,입원,간병인2,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양병원)","보험기간 중 질병으로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관에 정한...",1일,30000,10338,7131,3207.0,,100세만기,20,납,2481120,82.704,간병인,가입후 20년 미만 시
8,생활,일상배상,[갱신형] 가족 일상생활중 배상책임Ⅱ,"본인 및 약관에 정한 가족의 일상생활 및 보험증권에 기재된 주택의 소유, 사용 또는...",발생시,100000000,1154,1154,,,100세만기,20,갱신,276960,0.00277,"대인, 대물의 손해",1사고당
9,수술,로봇수술,[갱신형] 암(특정암 제외) 다빈치로봇 수술비,보장개시일 이후 암(특정암 제외)으로 진단 확정되고 그 암(특정암 제외)의 직접적인...,최초 1회,20000000,1120,1120,,,100세만기,10,갱신,134400,0.00672,암(특정암 제외),최초 1회한


In [61]:
data.to_excel('preprocessed_data_txt-sum.xlsx', index=False)