In [3]:
import pandas as pd
from ydata_profiling import ProfileReport

import matplotlib.pyplot as plt
import seaborn as sns

plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

pd.set_option('display.max_rows', 100)
pd.set_option('display.max_colwidth', 40)

In [4]:

def data_summary(df):
    """
    주어진 DataFrame에서 각 열의 요약 통계를 계산하고 결과를 새로운 DataFrame으로 반환한다.

    Parameters:
        df (DataFrame): 분석할 데이터를 포함한 pandas DataFrame.

    Returns:
        DataFrame: 각 열의 데이터 타입, 개수, 고유값 개수, 결측치 개수, 결측치 비율, 고유값을 포함한 요약 정보.
    """
    obs = df.shape[0]
    types = df.dtypes
    counts = df.apply(lambda x: x.count())
    uniques = df.apply(lambda x: [x.unique()]).T.squeeze()
    nulls = df.apply(lambda x: x.isnull().sum())
    distincts = df.apply(lambda x: x.unique().shape[0])
    missing_ratio = (df.isnull().sum() / obs)*100
    
    print("Data shape: ", df.shape)

    cols = ['Types', 'Counts', 'Distincts', 'Nulls', 'Missing_ratio', 'Uniques']
    structure = pd.concat([types, counts, distincts, nulls, missing_ratio, uniques], axis=1, sort=True)

    structure.columns = cols

    print("================================================")
    print("Data types: ")
    print(structure['Types'].value_counts())
    print("================================================")
    print("\n\n")

    return structure

In [5]:
data = pd.read_excel('보험데이터_체증형_통합.xlsx')

In [6]:

data_summary(data)

Data shape:  (71, 11)
Data types: 
Types
object     7
int64      3
float64    1
Name: count, dtype: int64





Unnamed: 0,Types,Counts,Distincts,Nulls,Missing_ratio,Uniques
그룹,object,20,7,51,71.830986,"[nan, f, b, c, d, e, a]"
기본 보험료,int64,71,59,0,0.0,"[7305, 393, 17265, 2374, 7695, 396, ..."
납입기간/보험기간,object,71,5,0,0.0,"[20년납 100세만기, 20년납\n100세만기, 20년갱신 10..."
보장금액,int64,71,23,0,0.0,"[150000, 30000, 10000, 100000000, 20..."
보장단위,object,71,4,0,0.0,"[1일, 발생시, 최초 1회, 연간 1회]"
보험 보장 대상,object,71,71,0,0.0,"[(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원 제외),..."
상세 설명,object,71,71,0,0.0,[상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여...
유형1,object,71,6,0,0.0,"[입원, 생활, 수술, 진단, 간병/사망, 장해/장애]"
유형2,object,71,14,0,0.0,"[간병인1, 간병인2, 일상배상, 로봇수술, 질병, 골절, 갑상선..."
총 보험료,int64,71,59,0,0.0,"[7305, 393, 25297, 3438, 7695, 396, ..."


In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   유형1        71 non-null     object 
 1   유형2        71 non-null     object 
 2   보험 보장 대상   71 non-null     object 
 3   상세 설명      71 non-null     object 
 4   보장단위       71 non-null     object 
 5   보장금액       71 non-null     int64  
 6   총 보험료      71 non-null     int64  
 7   기본 보험료     71 non-null     int64  
 8   할증 보험료     17 non-null     float64
 9   납입기간/보험기간  71 non-null     object 
 10  그룹         20 non-null     object 
dtypes: float64(1), int64(3), object(7)
memory usage: 6.2+ KB


In [8]:
data.sample(10)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,납입기간/보험기간,그룹
45,진단,응급의료,응급의료 아나필락시스 진단비(연간1회한),보험기간 중 응급실에 내원하여 약관에서 정한 아나필락시스(anap...,연간 1회,2000000,200,200,,20년납 100세만기,
19,수술,질병,4대특정질병 치료·수술비(선천이상),보험기간 중 약관에 정한 선천성이상 질병의 치료를 직접적인 목적으...,연간 1회,200000,124,124,,20년납 100세만기,f
21,진단,갑상선,갑상선기능저하증 진단비,보험기간 중 약관에서 정한 「갑상선기능저하증」으로 진단 확정된 경...,최초 1회,1000000,170,170,,20년납 100세만기,
27,진단,골절,깁스 치료비(부목치료 제외),보험기간 중 상해 또는 질병으로 약관에 정한 깁스치료를 받은 경우...,발생시,100000,123,123,,20년납 100세만기,
63,수술,질병,질병 6종 수술비(시술포함),보험기간 중 질병의 치료를 직접적인 목적으로 약관에서 정한 6종 ...,연간 1회,6000000,5056,3410,1646.0,20년납 100세만기,e
55,진단,암,"종합병원 암 특정치료지원금(연간 8천만원 이상, 진단 후 5년)","보장개시일 이후 암, 기타피부암 또는 갑상선암으로 진단 확정되고 ...",연간 1회,10000000,473,473,,20년납 100세만기,
49,진단,암,"종합병원 암 특정치료지원금(연간 2천만원 이상, 진단 후 5년)","보장개시일 이후 암, 기타피부암 또는 갑상선암으로 진단 확정되고 ...",연간 1회,10000000,2390,2390,,20년납 100세만기,
26,진단,암,기타피부암 및 갑상선암 치료비 지원,보장개시일 이후 기타피부암 또는 갑상선암으로 진단 확정된 경우 가...,최초 1회,100000,12,12,,20년납 100세만기,
33,수술,상해,상해 5종 수술비(시술포함),보험기간 중 상해의 치료를 직접적인 목적으로 약관에서 정한 5종 ...,연간 1회,5000000,267,267,,20년납 100세만기,c
28,진단,상해,보험료 납입면제대상Ⅱ,보장개시일 이후 상해사고로 80%이상 후유장해가 발생하거나 약관에...,최초 1회,100000,168,168,,20년납 100세만기,


In [9]:
# help(ProfileReport)

In [10]:
# profile = ProfileReport(data, title="Profiling Report")
# profile

## 데이터 전처리

In [11]:

def split_data(x):
    """납입기간과 보험기간을 분리"""
    if ' ' in x:
        period = x.split(' ')[0]
        guarantee = x.split(' ')[1]
    elif '\n' in x:
        period = x.split('\n')[0]
        guarantee = x.split('\n')[1]

    return [period, guarantee]

In [12]:
data[['납입기간', '보장기간']] = data['납입기간/보험기간'].apply(lambda x: pd.Series(split_data(x)))

In [13]:
data.drop('납입기간/보험기간', inplace=True, axis=1)
data.sample(10)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,그룹,납입기간,보장기간
6,입원,간병인2,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양...",보험기간 중 질병으로 병·의원(요양병원 제외) 등에 1일이상 계속...,1일,150000,26733,18240,8493.0,,20년납,100세만기
68,수술,심근경색,혈전용해치료비(뇌경색증),"보험기간 중 약관에서 정한 뇌경색증으로 진단 확정되고, 그 치료를...",최초 1회,10000000,445,445,,a,20년납,100세만기
8,생활,일상배상,[갱신형] 가족 일상생활중 배상책임Ⅱ,본인 및 약관에 정한 가족의 일상생활 및 보험증권에 기재된 주택의...,발생시,100000000,1154,1154,,,20년갱신,100세만기
48,진단,암,"종합병원 암 특정치료지원금(연간 1천만원 이상, 진단 후 5년)","보장개시일 이후 암, 기타피부암 또는 갑상선암으로 진단 확정되고 ...",연간 1회,10000000,5449,5449,,,20년납,100세만기
11,생활,일상배상,[공제][갱신형] 가족 일상생활중 배상책임Ⅱ,"※ 1사고당 자기부담금 : 대인 없음, 대물누수사고 50만원, 대...",발생시,500000,0,0,,,20년갱신,100세만기
10,수술,로봇수술,[갱신형] 특정암 다빈치로봇 수술비,"보장개시일 이후 특정암(갑상선암, 전립선암)으로 진단 확정되고 그...",최초 1회,10000000,200,200,,,10년갱신,100세만기
50,진단,암,"종합병원 암 특정치료지원금(연간 3천만원 이상, 진단 후 5년)","보장개시일 이후 암, 기타피부암 또는 갑상선암으로 진단 확정되고 ...",연간 1회,10000000,1581,1581,,,20년납,100세만기
25,진단,암,"기타피부암 및 갑상선암 진단후 암특정치료비(진단후5년, 연간1회한)",보장개시일 이후 기타피부암 또는 갑상선암으로 진단 확정되고 「기타...,연간 1회,1000000,130,130,,,20년납,100세만기
34,수술,상해,상해 6종 수술비(시술포함),보험기간 중 상해의 치료를 직접적인 목적으로 약관에서 정한 6종 ...,연간 1회,10000000,266,266,,c,20년납,100세만기
36,수술,상해,상해 8종 수술비(시술포함),보험기간 중 상해의 치료를 직접적인 목적으로 약관에서 정한 8종 ...,연간 1회,25000000,266,266,,c,20년납,100세만기


In [16]:
data[data['보장기간']=='20년만기']

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,그룹,납입기간,보장기간
44,진단,암,유사암진단 납입지원,"이 특별약관의 보험기간 중 「기타피부암」,「갑상선암」,「대장점막내...",발생시,66000,488,488,,,20년납,20년만기


In [17]:
# ['보험기간', '갱신']으로 나누기
data[['납입기간(년)', '갱신여부']] = data['납입기간'].str.split('년', expand=True)
data.drop('납입기간', inplace=True, axis=1)
data.sample(10)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,그룹,보장기간,납입기간(년),갱신여부
66,입원,간호간병,질병 입원 간호·간병통합서비스 사용일당(1일이상),보험기간 중 질병으로 병원(요양병원 제외)에 1일이상 계속 입원하...,1일,70000,3425,2331,1094.0,,100세만기,20,납
28,진단,상해,보험료 납입면제대상Ⅱ,보장개시일 이후 상해사고로 80%이상 후유장해가 발생하거나 약관에...,최초 1회,100000,168,168,,,100세만기,20,납
25,진단,암,"기타피부암 및 갑상선암 진단후 암특정치료비(진단후5년, 연간1회한)",보장개시일 이후 기타피부암 또는 갑상선암으로 진단 확정되고 「기타...,연간 1회,1000000,130,130,,,100세만기,20,납
23,진단,골절,골절 진단비,상해사고로 약관에 정한 골절로 진단 확정된 경우 가입금액 지급,발생시,100000,898,898,,,100세만기,20,납
57,진단,화상,중대 화상·부식 진단비,상해사고로 신체 표면적으로 최소 20%이상의 3도 화상 또는 부식...,최초 1회,10000000,51,51,,,100세만기,20,납
63,수술,질병,질병 6종 수술비(시술포함),보험기간 중 질병의 치료를 직접적인 목적으로 약관에서 정한 6종 ...,연간 1회,6000000,5056,3410,1646.0,e,100세만기,20,납
39,입원,상해,상해 입원 간호·간병통합서비스 사용일당(1일이상),상해사고로 병원(요양병원 제외)에 1일이상 계속 입원하여 치료를 ...,1일,70000,805,805,,,100세만기,20,납
32,수술,상해,상해 4종 수술비(시술포함),보험기간 중 상해의 치료를 직접적인 목적으로 약관에서 정한 4종 ...,연간 1회,450000,546,546,,b,100세만기,20,납
30,수술,상해,상해 2종 수술비(시술포함),보험기간 중 상해의 치료를 직접적인 목적으로 약관에서 정한 2종 ...,연간 1회,300000,546,546,,b,100세만기,20,납
13,수술,질병,111대질병 수술비(22대주요질병),보험기간 중 약관에 정한 22대 주요질병으로 진단 확정되고 그 치...,발생시,1000000,704,482,222.0,,100세만기,20,납


In [18]:
data[data['갱신여부']!='납']

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,총 보험료,기본 보험료,할증 보험료,그룹,보장기간,납입기간(년),갱신여부
8,생활,일상배상,[갱신형] 가족 일상생활중 배상책임Ⅱ,본인 및 약관에 정한 가족의 일상생활 및 보험증권에 기재된 주택의...,발생시,100000000,1154,1154,,,100세만기,20,갱신
9,수술,로봇수술,[갱신형] 암(특정암 제외) 다빈치로봇 수술비,보장개시일 이후 암(특정암 제외)으로 진단 확정되고 그 암(특정암...,최초 1회,20000000,1120,1120,,,100세만기,10,갱신
10,수술,로봇수술,[갱신형] 특정암 다빈치로봇 수술비,"보장개시일 이후 특정암(갑상선암, 전립선암)으로 진단 확정되고 그...",최초 1회,10000000,200,200,,,100세만기,10,갱신
11,생활,일상배상,[공제][갱신형] 가족 일상생활중 배상책임Ⅱ,"※ 1사고당 자기부담금 : 대인 없음, 대물누수사고 50만원, 대...",발생시,500000,0,0,,,100세만기,20,갱신


In [19]:
# 항목별 전체 납입액 구하기
data.rename(columns={'총 보험료':'월 보험료'}, inplace=True)

In [20]:
data['총 보험료'] = data['월 보험료'] * data['납입기간(년)'].astype('int') * 12
data.head(10)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장단위,보장금액,월 보험료,기본 보험료,할증 보험료,그룹,보장기간,납입기간(년),갱신여부,총 보험료
0,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원 제외),상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 ...,1일,150000,7305,7305,,,100세만기,20,납,1753200
1,입원,간병인1,(체증형)상해 입원 간병인 사용일당(1일이상)(요양병원),"상해사고로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관...",1일,30000,393,393,,,100세만기,20,납,94320
2,입원,간병인1,(체증형)질병 입원 간병인 사용일당(1일이상)(요양병원 제외),보험기간 중 질병으로 병·의원(요양병원 제외) 등에 1일이상 계속...,1일,150000,25297,17265,8032.0,,100세만기,20,납,6071280
3,입원,간병인1,(체증형)질병 입원 간병인 사용일당(1일이상)(요양병원),보험기간 중 질병으로 요양병원에 1일이상 계속 입원하여 치료를 받...,1일,10000,3438,2374,1064.0,,100세만기,20,납,825120
4,입원,간병인2,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양...",상해사고로 병·의원(요양병원 제외) 등에 1일이상 계속 입원하여 ...,1일,150000,7695,7695,,,100세만기,20,납,1846800
5,입원,간병인2,"(체증형,20년후2배)상해 입원 간병인 사용일당(1 일이상)(요양병원)","상해사고로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관...",1일,30000,396,396,,,100세만기,20,납,95040
6,입원,간병인2,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양...",보험기간 중 질병으로 병·의원(요양병원 제외) 등에 1일이상 계속...,1일,150000,26733,18240,8493.0,,100세만기,20,납,6415920
7,입원,간병인2,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양병원)",보험기간 중 질병으로 요양병원에 1일이상 계속 입원하여 치료를 받...,1일,30000,10338,7131,3207.0,,100세만기,20,납,2481120
8,생활,일상배상,[갱신형] 가족 일상생활중 배상책임Ⅱ,본인 및 약관에 정한 가족의 일상생활 및 보험증권에 기재된 주택의...,발생시,100000000,1154,1154,,,100세만기,20,갱신,276960
9,수술,로봇수술,[갱신형] 암(특정암 제외) 다빈치로봇 수술비,보장개시일 이후 암(특정암 제외)으로 진단 확정되고 그 암(특정암...,최초 1회,20000000,1120,1120,,,100세만기,10,갱신,134400


In [21]:
# 보장 받는 것에 비해 얼마나 많이 낼까?
data['보장 대비 납입율'] = data['총 보험료'] / data['보장금액']

In [22]:
data.to_excel('preprocessed_data.xlsx')

## Text Summarization

In [10]:
from importlib import reload

import pandas as pd

import ast
import re
import traceback

import ChatGPT_API

In [2]:
data = pd.read_excel('preprocessed_data.xlsx')
# data.head()

In [3]:
# 배치 프로세싱을 어떻게 진행할 것인가. 하나의 qeury에 여러 메시지를 담아야하고, 그 결과를 분리해서 받을 수 있어야 한다. 
# 그렇다면 문장 요약에서 내가 얻고 싶은 정보는 무엇일까? 
# 1. 어떤 병을 대상으로 한 보험인지. 사실 이거면 된다. 보장 내용은 내가 수작업으로 했으니까. 

In [3]:
N_BATCH = 5

In [5]:
data_list = data['상세 설명'].to_list()

# 예시 데이터, '상세 설명' 키에 여러 상세 내용이 리스트로 저장되어 있다고 가정
temp = {
    '상세 설명': [f'{i}' for i in data_list],  # 1부터 71까지의 상세 내용 예시
}

# 문서 내용을 담을 빈 문자열 초기화
contents = []

doc_index = 0
# 10개씩 상세 설명을 문서 내용에 포맷팅하여 추가
for i in range(0, len(data_list), N_BATCH):
    
    content = ''

    chunk = temp['상세 설명'][i:i+N_BATCH]
    for detail in chunk:
        content += f"""
        index: {doc_index}
        <문서 내용>
        {detail}

        """
        doc_index += 1
    
    contents.append(content)

    

In [11]:
reload(ChatGPT_API)
request_openai = ChatGPT_API.request_openai

gpt_responses = []

for ducument_content in contents:
    result = request_openai(ducument_content)
    gpt_responses.append(result)

In [12]:
for i in gpt_responses:
    print(i)

```
{
    'index': [0, 1, 2, 3, 4],
    '보험 발생(질병)': ['복·의원(요양병원 제외) 1일 이상 입원', '요양병원 1일 이상 입원', '질병 1일 이상 입원', '질병 요양병원 1일 이상 입원', '복·의원(요양병원 제외) 1일 이상 입원'],
    '보장 횟수': ['1일 일당', '1일 일당', '1일 일당', '1일 일당', '1일 일당'],
    '내용 요약': [
        '상해로 1일 이상 병·의원(요양병원 제외) 입원 시 간병인 사용에 따라 일당 지급, 7만원 미만 50%, 7만원 이상 100% 할증 지급, 최대 180일.',
        '상해로 1일 이상 요양병원 입원시 간병인 사용에 따라 일당 지급, 20년마다 10%씩 정액 할증, 최대 180일.',
        '질병으로 1일 이상 입원시 간병인 사용에 따라 일당 지급, 7만원 미만 50%, 7만원 이상 100% 할증 지급, 최대 180일.',
        '질병으로 요양병원 1일 이상 입원시 간병인 사용에 따라 일당 지급, 20년마다 10%씩 정액 할증, 최대 180일.',
        '상해로 1일 이상 병·의원(요양병원 제외) 입원 시 간병인 사용에 따라 일당 지급, 20년 미만 50%, 20년 이상 100%, 7만원 이상 200%, 최대 180일.'
    ]
}
```
```
{
    'index': [5, 6, 7, 8, 9],
    '보험 발생(질병)': ['간병인(요양병원)', '간병인(요양병원)', '간병인(요양병원)', '사고', '암(특정암 제외)'],
    '보장 횟수': ['가입후 20년 미만 100%, 가입후 20년 이상 200%', '가입후 20년 미만 50%, 가입후 20년 이상 100%', '가입후 20년 미만 100%, 가입후 20년 이상 200%', '1사고당', '최초 1회'],
    '내용 요약': [
        '상해로 1일 이상 요양병원 입원시 간병인 사용에 따라 일당 지급. 20년 

In [14]:
gpt_answers = []


for response in gpt_responses:
    try:
        response = response.replace('`', '')
        response = response.replace('\n', '')
        response = response.replace('=', '')
        response = response.replace('python', '')
        response = response.replace("'''", '')
        response = "'''" + response + "'''"


        response = ast.literal_eval(response)
        response = ast.literal_eval(response)
        
        gpt_answers.append(response)
    except (SyntaxError, ValueError) as e:
        print(traceback.print_exc())
        break

In [15]:
gpt_answers[0].keys()

dict_keys(['index', '보험 발생(질병)', '보장 횟수', '내용 요약'])

In [16]:
result_df=pd.DataFrame(columns=['index', '보험 발생(질병)', '보장 횟수', '내용 요약'])

for answers in gpt_answers:
    try:
        temp_df = pd.DataFrame(answers)
        result_df = pd.concat([result_df, temp_df], join='inner')
    except ValueError as e:
        print(traceback.print_exc())
        print(answers)
        break


In [17]:
result_df.head()

Unnamed: 0,index,보험 발생(질병),보장 횟수,내용 요약
0,0,복·의원(요양병원 제외) 1일 이상 입원,1일 일당,"상해로 1일 이상 병·의원(요양병원 제외) 입원 시 간병인 사용에 따라 일당 지급,..."
1,1,요양병원 1일 이상 입원,1일 일당,"상해로 1일 이상 요양병원 입원시 간병인 사용에 따라 일당 지급, 20년마다 10%..."
2,2,질병 1일 이상 입원,1일 일당,"질병으로 1일 이상 입원시 간병인 사용에 따라 일당 지급, 7만원 미만 50%, 7..."
3,3,질병 요양병원 1일 이상 입원,1일 일당,"질병으로 요양병원 1일 이상 입원시 간병인 사용에 따라 일당 지급, 20년마다 10..."
4,4,복·의원(요양병원 제외) 1일 이상 입원,1일 일당,"상해로 1일 이상 병·의원(요양병원 제외) 입원 시 간병인 사용에 따라 일당 지급,..."


In [18]:
result_df = result_df.drop('index', axis=1).reset_index(drop=True)

In [19]:
data = data.join(result_df)

In [29]:
data.drop('Unnamed: 0', axis=1, inplace=True)

In [31]:
data.drop('보장단위', axis=1, inplace=True)

In [32]:
data.sample(20)

Unnamed: 0,유형1,유형2,보험 보장 대상,상세 설명,보장금액,월 보험료,기본 보험료,할증 보험료,그룹,보장기간,납입기간(년),갱신여부,총 보험료,보장 대비 납입율,보험 발생(질병),보장 횟수,내용 요약
7,입원,간병인2,"(체증형,20년후2배)질병 입원 간병인 사용일당(1 일이상)(요양병원)","보험기간 중 질병으로 요양병원에 1일이상 계속 입원하여 치료를 받으며, 약관에 정한 간병인을 사용한 경우 가입후 20년 미만 시 가입금액의 100% 를 지급, 가입후 20년...",30000,10338,7131,3207.0,,100세만기,20,납,2481120,82.704,간병인(요양병원),"가입후 20년 미만 100%, 가입후 20년 이상 200%","질병으로 요양병원에 1일이상 계속 입원시 간병인 사용에 따라 일당 지급. 20년 미만 100%, 20년 이상 200% 할증 지급, 최대 180일."
52,진단,암,"종합병원 암 특정치료지원금(연간 5천만원 이상, 진단 후 5년)","보장개시일 이후 암, 기타피부암 또는 갑상선암으로 진단 확정되고 「암 보험 금 지급기간」이내에 「종합병원」에서 「암 특정치료」를 받아 발생한 「연간 암 특정치료비 총액」이 ...",10000000,808,808,,,100세만기,20,납,193920,0.019392,"암, 기타피부암 또는 갑상선암",연간 1회한,암 특정치료를 받아 연간 암 특정치료비 총액이 5천만원 이상인 경우 가입금액 지급
38,간병/사망,상해,상해 사망,상해사고로 사망한 경우 가입금액 지급,50000000,2550,2550,,,100세만기,20,납,612000,0.01224,사망,한번,상해로 사망한 경우 가입금액 지급
23,진단,골절,골절 진단비,상해사고로 약관에 정한 골절로 진단 확정된 경우 가입금액 지급,100000,898,898,,,100세만기,20,납,215520,2.1552,골절,,골절 진단 시 가입금액 지급
10,수술,로봇수술,[갱신형] 특정암 다빈치로봇 수술비,"보장개시일 이후 특정암(갑상선암, 전립선암)으로 진단 확정되고 그 특정암 의 직접적인 치료를 목적으로 다빈치 로봇수술을 받은 경우 가입금액 지급( 최초 1회한)\n※ 특정암...",10000000,200,200,,,100세만기,10,갱신,24000,0.0024,"갑상선암, 전립선암",최초 1회,"특정암 진단 후 다빈치 수술 시 가입금액 지급, 보장개시 90일 후, 초기 감액 있음."
64,수술,질병,질병 7종 수술비(시술포함),보험기간 중 질병의 치료를 직접적인 목적으로 약관에서 정한 7종 수술 및 시술을 받은 경우 가입금액 지급(수술시술코드당 연간1회한)\n※ 1회의 입원당 1회의 「수술 및 시...,9000000,5056,3410,1646.0,e,100세만기,20,납,1213440,0.134827,7종 수술 및 시술,수술시술코드당 연간1회한,질병 치료 위해 7종 수술 및 시술 시 가입금액 지급. 1회의 입원 또는 통원당 1회 보장
41,수술,상해,아킬레스힘줄손상 수술비,상해사고로 약관에 정한 아킬레스힘줄손상으로 진단확정되어 수술을 받은 경우 가입금액 지급,1000000,60,60,,,100세만기,20,납,14400,0.0144,아킬레스힘줄손상,수술받은 경우,상해사고로 아킬레스힘줄손상 수술 받은 경우 가입금액 지급
35,수술,상해,상해 7종 수술비(시술포함),보험기간 중 상해의 치료를 직접적인 목적으로 약관에서 정한 7종 수술 및 시술을 받은 경우 가입금액 지급(수술시술코드당 연간1회한)\n※ 1회의 입원당 1회의 「수술 및 시...,15000000,266,266,,c,100세만기,20,납,63840,0.004256,7종 수술 및 시술,수술시술코드당 연간1회,7종 수술 및 시술 시 가입금액 지급 (1회의 입원 또는 1회의 통원에 한하여 보장)
37,수술,상해,상해 골절 수술비,상해사고로 약관에 정한 골절로 수술받은 경우 가입금액 지급,200000,372,372,,,100세만기,20,납,89280,0.4464,골절,수술받은 경우,골절 수술 시 가입금액 지급
9,수술,로봇수술,[갱신형] 암(특정암 제외) 다빈치로봇 수술비,보장개시일 이후 암(특정암 제외)으로 진단 확정되고 그 암(특정암 제외)의 직접적인 치료를 목적으로 다빈치 로봇수술을 받은 경우 가입금액 지급(최 초 1회한)\n※ 암(특정...,20000000,1120,1120,,,100세만기,10,갱신,134400,0.00672,암(특정암 제외),최초 1회,"암(특정암 제외) 진단 후 다빈치 수술 시 가입금액 지급, 보장개시일 90일 후, 최초 180일 내 25% 감액, 1년 내 50% 감액. 특정암: 갑상선암, 전립선암"


In [33]:
data.to_excel('preprocessed_data_txt-sum.xlsx', index=False)

In [34]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   유형1        71 non-null     object 
 1   유형2        71 non-null     object 
 2   보험 보장 대상   71 non-null     object 
 3   상세 설명      71 non-null     object 
 4   보장금액       71 non-null     int64  
 5   월 보험료      71 non-null     int64  
 6   기본 보험료     71 non-null     int64  
 7   할증 보험료     17 non-null     float64
 8   그룹         20 non-null     object 
 9   보장기간       71 non-null     object 
 10  납입기간(년)    71 non-null     int64  
 11  갱신여부       71 non-null     object 
 12  총 보험료      71 non-null     int64  
 13  보장 대비 납입율  71 non-null     float64
 14  보험 발생(질병)  71 non-null     object 
 15  보장 횟수      71 non-null     object 
 16  내용 요약      71 non-null     object 
dtypes: float64(2), int64(5), object(10)
memory usage: 9.6+ KB


In [35]:
data.shape

(71, 17)