# 요약 LLM

In [20]:
import os
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import pandas as pd

# 모델 및 토크나이저 로드
model_name = 'eenzeenee/t5-base-korean-summarization'
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 예제 데이터프레임 (이미 데이터프레임이 있다고 가정)
df = pd.read_csv('/Users/admin/softeer/project/issue.csv')  # 실제 데이터 경로로 변경

def summarize_defect(description):
    prefix = "summarize: "
    inputs = tokenizer([prefix + description], max_length=512, truncation=True, return_tensors="pt")
    output = model.generate(**inputs, num_beams=3, do_sample=True, min_length=10, max_length=64)
    decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
    # 간단히 마침표로 문장 분리
    sentences = decoded_output.strip().split('. ')
    return sentences[0] if sentences else decoded_output.strip()

# '결함내용' 컬럼의 각 텍스트를 요약
df['요약된 결함내용'] = df['결함내용'].apply(summarize_defect)

# 요약된 결과 출력
print(df[['결함내용', '요약된 결함내용']].head())


                                                결함내용  \
0  계기반의 소프트웨어 오류로 인하여 계기반의 뒷면 안개등 식별표시가 법적 요구 사항을...   
1  생산 공정 오류로 인해 12V 및 48V 접지선의 연결 볼트가 제대로 조여지지 않았...   
2  운전석 전방 에어백 인플레이터 하우징의 용접 불량으로 극히 드문 경우, 인플레이터 ...   
3  최초 차량판매 당시에는 TAKATA 에어백이 적용되지 않은 스티어링 휠로 출고되었으...   
4  파워트레인 컨트롤 유닛(CPC)의 코딩 값 중 자기진단 장치(OBD) 관련 항목이 ...   

                                            요약된 결함내용  
0  계기반의 소프트웨어 오류로 계기반의 뒷면 안개등 식별표시가 법적 요구 사항을 만족하...  
1  생산 공정 오류로 인해 12V 및 48V 접지선의 연결 볼트가 제대로 조여지지 않았...  
2  운전석 전방 에어백 인플레이터 하우징의 용접 불량으로 극히 드문 경우 인플레이터 하...  
3  최초 차량판매 당시에는 TAKATA 에어백이 적용되지 않은 스티어링 휠로 출고되었으...  
4  일부 파워트레인 컨트롤 유닛의 오류가 발생할 경우 시스템 응답은 정상적으로 작동하나...  


In [36]:
import pandas as pd
df = pd.read_csv('/Users/admin/softeer/project/결함/issue.csv') 
df[['결함내용', '장치분류']]
df['요약된 결함내용'] = df['결함내용'].apply(summarize_defect)
df

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,제작(수입)사,차명,생산기간,시정기간,대상수량,장치분류,결함내용,시정방법,기타문의,Title,Ministry,Date,Subject,요약내용
0,0,0,메르세데스벤츠코리아(주),"A 220 Hatch , A 250 , A 220 Sedan",2018-06-21 ~ 2020-03-10,2024-08-09 ~,"1,069 대",승차 및 실내장치,계기반의 소프트웨어 오류로 인하여 계기반의 뒷면 안개등 식별표시가 법적 요구 사항을...,계기판 소프트웨어 업데이트,벤츠코리아 대표번호 080-001-1886,[벤츠] A 220 Hatch 등 3차종 - 뒷면 안개등 표시 관련 리콜,국토교통부,2024-08-09,[벤츠] A 220 Hatch 등 3차종 - 뒷면 안개등 표시 관련 리콜,계기반의 소프트웨어 오류로 인해 계기반의 뒷면 안개등 식별표시가 법적 요구 사항을 ...
1,1,1,메르세데스벤츠코리아(주),C 300 4MATIC,2023-05-12 ~ 2023-12-02,2024-08-09 ~,2 대,전기장치,생산 공정 오류로 인해 12V 및 48V 접지선의 연결 볼트가 제대로 조여지지 않았...,12V 및 48V 접지 연결 볼트 점검 및 필요 시 재장착,벤츠코리아 대표번호 080-001-1886,[벤츠] C 300 4MATIC - 12V 및 48V 접지 연결 볼트 관련 리콜,국토교통부,2024-08-09,[벤츠] C 300 4MATIC - 12V 및 48V 접지 연결 볼트 관련 리콜,생산 공정 오류로 인해 12V 및 48V 접지선의 연결 볼트가 제대로 조여지지 않았...
2,2,2,비엠더블유코리아(주),"BMW X5 xDrive35d, BMW M550d xDrive, BMW 640i",2014-02-11 ~ 2014-04-15,2024-08-08 ~,3 대,실내안전장치,"운전석 전방 에어백 인플레이터 하우징의 용접 불량으로 극히 드문 경우, 인플레이터 ...",운전석 전방 에어백 모듈을 교체함,비엠더블유 대표번호 080-269-5181,[비엠더블유] BMW X5 xDrive35d 등 3차종 - 운전석 전방 에어백 모듈...,국토교통부,2024-08-08,[비엠더블유] BMW X5 xDrive35d 등 3차종 - 운전석 전방 에어백 모듈...,운전석 전방 에어백 인플레이터 하우징의 용접 불량으로 극히 드문 경우 인플레이터 하...
3,3,3,비엠더블유코리아(주),BMW 1 Series Sport 등 71차종,2004-03-17 ~ 2017-11-08,2024-08-08 ~,"113,197 대",실내안전장치,최초 차량판매 당시에는 TAKATA 에어백이 적용되지 않은 스티어링 휠로 출고되었으...,스티어링 휠을 점검하고 필요 시 운전석 전방 에어백 모듈을 교체함(신속한 리콜 점검...,비엠더블유 대표번호 080-269-5181,[비엠더블유] BMW 1 Series Sport 등 71차종 - 운전석 전방 에어백...,국토교통부,2024-08-08,[비엠더블유] BMW 1 Series Sport 등 71차종 - 운전석 전방 에어백...,최초 차량판매 당시에는 TAKATA 에어백이 적용되지 않은 스티어링 휠로 출고되었으...
4,4,4,메르세데스벤츠코리아(주),E 450 4MATIC 등 21차종,2022-02-14 ~ 2024-03-02,2024-08-05 ~,"12,918 대",동력전달장치,파워트레인 컨트롤 유닛(CPC)의 코딩 값 중 자기진단 장치(OBD) 관련 항목이 ...,파워트레인 컨트롤 유닛 SCN코딩 업데이트,벤츠코리아 대표번호 080-001-1886,[벤츠] E 450 4MATIC 등 21차종 - 파워트레인 컨트롤 유닛 관련 리콜,환경부,2024-08-05,[벤츠] E 450 4MATIC 등 21차종 - 파워트레인 컨트롤 유닛 관련 리콜,일부 파워트레인 컨트롤 유닛의 오류가 발생할 경우 시스템 응답은 정상적으로 작동하나...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3255,3566,3566,케이지모빌리티 주식회사(KG Mobility Corp.),뉴체어맨,2004-02-09 ~ 2004-06-25,2004-07-15 ~ 2006-01-14,"2,965 대",차체/차대,"ㅇ 제작사 : 쌍용자동차(주)ㅇ 결함대상자동차 및 대수 : 뉴체어맨 2,965대ㅇ ...",무상수리,쌍용자동차 고객센터 : 080-500-5582,쌍용 뉴체어맨 제작결함시정,국토교통부,2004-07-15,쌍용 뉴체어맨 제작결함시정,측면에어백 작동여부를 감지하는 센서의 방향이 틀어져 측면에어백이 오작동할 수 있는 ...
3256,3567,3567,혼다코리아(주),실버윙,2003-03-05 ~ 2004-06-05,2004-07-14 ~ 2006-01-13,65 대,연료장치,ㅇ 수입사 : (주)혼다코리아ㅇ 결함대상자동차 및 대수 : 실버윙(FJS600) 6...,무상수리,"혼다코리아 서비스센터 02-3416-3412, 080-322-3300",혼다 실버윙 제작결함시정,국토교통부,2004-07-14,혼다 실버윙 제작결함시정,실버윙 65대 결함내용 메인 스탠드 브라켓 체결너트의 유격발생으로 주행중 진동으로 ...
3257,3568,3568,혼다코리아(주),어코드,2003-11-10 ~ 2004-06-22,2004-07-13 ~ 2006-01-12,342 대,실내안전장치,"ㅇ 수입사 : (주)혼다코리아ㅇ 결함대상자동차 및 대수 : 어코드 V6 236대, ...",무상수리,혼다코리아 서비스센터 02-515-7706,혼다 어코드 제작결함시정,국토교통부,2004-07-13,혼다 어코드 제작결함시정,연료펌프 본체에 장착되어 연료압력을 조절해 주는 장치가 주행충격 등으로 본체와 이완...
3258,3569,3569,기아주식회사,"세피아, 슈마, 스포티지",1998-06-01 ~ 2000-05-31,2004-07-12 ~ 2006-01-11,"43,488 대",등화장치,"ㅇ 제작사 : 기아자동차(주)ㅇ 결함대상자동차 및 대수 : 세피아 18,217대, ...",무상수리,기아자동차 고객센터 080-200-2000,"기아 세피아, 슈마, 스포티지 제작결함시정",국토교통부,2004-07-12,"기아 세피아, 슈마, 스포티지 제작결함시정",안전벨트를 버클에 체결시 안전벨트가 버클에서 분리되는 결함 대상자동차 및 대수 총 ...


In [2]:
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration

# Load Model and Tokenizer
tokenizer = PreTrainedTokenizerFast.from_pretrained("EbanLee/kobart-summary-v3")
model = BartForConditionalGeneration.from_pretrained("EbanLee/kobart-summary-v3")

# Encoding
input_text = """기아의 글로벌 베스트셀링 SUV '스포티지' 일부 모델에서 브레이크 부스터 결함이 발견되어 약 10만 대가 미국에서 리콜된다. 

현지시간으로 13일, 일부 외신에 따르면 미국 고속도로교통안전국(NHTSA)은 기아 2023년형 스포티지 9만 8944대에서 브레이크 부스터 다이어프램 배열이 잘못 조정되어 내부 진공 누출이 발생하고 이 경우 파워 브레이크 어시스트가 손상될 가능성이 확인됐다고 밝혔다. 

차량 파워 브레이크 어시스트가 손상될 경우 제동 성능이 떨어져 충돌 위험성이 증가할 수있다. 

NHTSA 또한 운전자가 감속을 위해 평소보다 더 많은 힘을 브레이크 페달에 적용해야 할 수 있으며 이 경우 더 큰 위험은 말할 것도 없고 제동 거리를 증가시킬 수 있다고 경고했다. 

기아는 지난 1월, 품질 정보 보고서를 제출하며 처음으로 문제를 인식한 것으로 알려졌다. 또 현재까지 73명이 해당 문제로 인한 불편 사항을 접수하고 부상 및 사망 사고는 보고되지 않은 것으로 알려졌다."""
# 요약 후 
# 기아의 글로벌 베스트셀링 SUV '스포티지' 일부 모델에서 브레이크 부스터 결함이 발견되어 약 10만 대가 미국에서 리콜된다. 
# 미국 고속도로교통안전국(NHTSA)은 기아 2023년형 스포티지 9만 8944대에서 내부 진공 누출이 발생하고 파워 브레이크 어시스트가 손상될 가능성이 확인됐다고 밝혔다.



inputs = tokenizer(input_text, return_tensors="pt", padding="max_length", truncation=True, max_length=1026)

# Generate Summary Text Ids
summary_text_ids = model.generate(
input_ids=inputs['input_ids'],
attention_mask=inputs['attention_mask'],
bos_token_id=model.config.bos_token_id,
eos_token_id=model.config.eos_token_id,
length_penalty=1.0,
max_length=300,
min_length=12,
num_beams=6,
repetition_penalty=1.5,
no_repeat_ngram_size=15,
)

# Decoding Text Ids
print(tokenizer.decode(summary_text_ids[0], skip_special_tokens=True))

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


기아의 글로벌 베스트셀링 SUV '스포티지' 일부 모델에서 브레이크 부스터 결함이 발견되어 약 10만 대가 미국에서 리콜된다. 미국 고속도로교통안전국(NHTSA)은 기아 2023년형 스포티지 9만 8944대에서 내부 진공 누출이 발생하고 파워 브레이크 어시스트가 손상될 가능성이 확인됐다고 밝혔다.
