In [None]:
!pip install transformers

In [6]:
question = "수원 화성은 언제 완성되었는가?"
context = """수원 화성은 조선시대 화성유수부 시가지를 둘러싼 성곽이다.
1789년(정조 13) 수원을 필달산 동쪽 아래로 옮기고,
1794년(정조 18) 축성을 시작해 1796년에 완성했다."""
context = context.strip().replace("\n", "")

In [3]:
from transformers import ElectraTokenizer, ElectraForQuestionAnswering, pipeline

tokenizer = ElectraTokenizer.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")
model = ElectraForQuestionAnswering.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")
question_answer = pipeline("question-answering", tokenizer=tokenizer, model=model)
answer = question_answer({
    "question":question,
    "context":context
})
print(answer)

{'score': 0.9942862391471863, 'start': 85, 'end': 91, 'answer': '1796년에'}


In [4]:
import torch

inputs = tokenizer(question, context, return_tensors="pt")
outputs = model(**inputs)
answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
# argmax를 이용해 context에서 응답의 시작일 확률이 가장 높은 토큰의 위치를 반환
answer_start = torch.argmax(answer_start_scores)
# argmax를 이용해 context에서 응답의 끝일 확률이 가장 높은 토큰의 위치를 반환
answer_end = torch.argmax(answer_end_scores) + 1
print("start:", answer_start, "end:", answer_end)
# 토큰화 결과로부터 input_ids만 추출
input_ids = inputs["input_ids"].tolist()[0]
# input_ids에서 응답에 해당하는 id를 가져와 토큰으로 변환항고 다시 문자열로 변환
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print("질의:", question)
print("응답:", answer)

start: tensor(58) end: tensor(61)
질의: 수원 화성은 언제 완성되었는가?
응답: 1796년


In [11]:
from transformers import ElectraTokenizer, ElectraForQuestionAnswering, pipeline
import torch

question = input()
context = """
운전만해의 목표는 교통사고 발생률을 감소시킨다.
이 앱의 목표는 교통사고 발생률을 감소시킨다.
이 어플의 목표는 교통사고 발생률을 감소시킨다.

운전만해는 기능은 TTS, STT, 노상주차 위치 서비스이다.
이 앱의 기능은 TTS, STT, 노상주차 위치 서비스이다.
이 어플의기능은 TTS, STT, 노상주차 위치 서비스이다.

TTS는 텍스트 음성 변환이다.

STT는 음성 텍스트 변환이다.

운전만해는 인공지능사관학교에서 탄생했다.
이 앱은 인공지능사관학교에서 탄생했다.
이 어플은 인공지능사관학교에서 탄생했다.

운전만해는 Vuides팀이 만들었다.
이 애플리케이션은 Vuides팀이 만들었다.
이 앱은 Vuides팀이 만들었다.
이 어플은 Vuides팀이 만들었다.

운전만해는 문자읽기, 질의응답, 노상주차 위치 서비스를 제공한다.
이 앱은 문자읽기, 질의응답, 노상주차 위치 서비스를 제공한다.
이 어플은 문자읽기, 질의응답, 노상주차 위치 서비스를 제공한다.

질의 응답은 CDQA방식이다.

노상주차 위치 서비스의 구현은 공공데이터 포털을 통해 제작되었다.
공공데이터는 '광주광역시의 공영 및 민영 주차장 현황'의 데이터를 이용하였다.

운전만해의 기대효과는 교통사고 발생률 감소이다.
이 앱의 기대효과는 교통사고 발생률 감소이다.
이 어플의 기대효과는 교통사고 발생률 감소이다.

운전만해의 활용분야는 보험료 할인 및 벌금 면제 등이 있다.
이 앱의 활용분야는 보험료 할인 및 벌금 면제 등이 있다.
이 어플의 활용분야는 보험료 할인 및 벌금 면제 등이 있다.
"""
context = context.strip().replace("\n", "")

tokenizer = ElectraTokenizer.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")
model = ElectraForQuestionAnswering.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")
question_answer = pipeline("question-answering", tokenizer=tokenizer, model=model)
answer = question_answer({
    "question":question,
    "context":context
})
print(answer)

inputs = tokenizer(question, context, return_tensors="pt")
outputs = model(**inputs)
answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
# argmax를 이용해 context에서 응답의 시작일 확률이 가장 높은 토큰의 위치를 반환
answer_start = torch.argmax(answer_start_scores)
# argmax를 이용해 context에서 응답의 끝일 확률이 가장 높은 토큰의 위치를 반환
answer_end = torch.argmax(answer_end_scores) + 1
print("start:", answer_start, "end:", answer_end)
# 토큰화 결과로부터 input_ids만 추출
input_ids = inputs["input_ids"].tolist()[0]
# input_ids에서 응답에 해당하는 id를 가져와 토큰으로 변환항고 다시 문자열로 변환
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print("질의:", question)
print("응답:", answer)

운전만해의 기능은 뭐가 있어?
{'score': 0.9487451314926147, 'start': 87, 'end': 112, 'answer': 'TTS, STT, 노상주차 위치 서비스이다.이'}
start: tensor(65) end: tensor(76)
질의: 운전만해의 기능은 뭐가 있어?
응답: TTS , STT , 노상주차 위치 서비스


In [None]:
from transformers import ElectraTokenizer, ElectraForQuestionAnswering, pipeline
import torch

question = input()
context = """
운전만해의 목표는 교통사고 발생률을 감소시킨다.
이 앱의 목표는 교통사고 발생률을 감소시킨다.
이 어플의 목표는 교통사고 발생률을 감소시킨다.

운전만해는 기능은 TTS, STT, 노상주차 위치 서비스이다.
이 앱의 기능은 TTS, STT, 노상주차 위치 서비스이다.
이 어플의기능은 TTS, STT, 노상주차 위치 서비스이다.

TTS는 텍스트 음성 변환이다.

STT는 음성 텍스트 변환이다.

운전만해는 인공지능사관학교에서 탄생했다.
이 앱은 인공지능사관학교에서 탄생했다.
이 어플은 인공지능사관학교에서 탄생했다.

운전만해는 Vuides팀이 만들었다.
이 애플리케이션은 Vuides팀이 만들었다.
이 앱은 Vuides팀이 만들었다.
이 어플은 Vuides팀이 만들었다.

운전만해는 문자읽기, 질의응답, 노상주차 위치 서비스를 제공한다.
이 앱은 문자읽기, 질의응답, 노상주차 위치 서비스를 제공한다.
이 어플은 문자읽기, 질의응답, 노상주차 위치 서비스를 제공한다.

질의 응답은 CDQA방식이다.

노상주차 위치 서비스의 구현은 공공데이터 포털을 통해 제작되었다.
공공데이터는 '광주광역시의 공영 및 민영 주차장 현황'의 데이터를 이용하였다.

운전만해의 기대효과는 교통사고 발생률 감소이다.
이 앱의 기대효과는 교통사고 발생률 감소이다.
이 어플의 기대효과는 교통사고 발생률 감소이다.

운전만해의 활용분야는 보험료 할인 및 벌금 면제 등이 있다.
이 앱의 활용분야는 보험료 할인 및 벌금 면제 등이 있다.
이 어플의 활용분야는 보험료 할인 및 벌금 면제 등이 있다.
"""
context = context.strip().replace("\n", "")

tokenizer = ElectraTokenizer.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")
model = ElectraForQuestionAnswering.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")
question_answer = pipeline("question-answering", tokenizer=tokenizer, model=model)
answer = question_answer({
    "question":question,
    "context":context
})
print(answer)

inputs = tokenizer(question, context, return_tensors="pt")
outputs = model(**inputs)
answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
# argmax를 이용해 context에서 응답의 시작일 확률이 가장 높은 토큰의 위치를 반환
answer_start = torch.argmax(answer_start_scores)
# argmax를 이용해 context에서 응답의 끝일 확률이 가장 높은 토큰의 위치를 반환
answer_end = torch.argmax(answer_end_scores) + 1
print("start:", answer_start, "end:", answer_end)
# 토큰화 결과로부터 input_ids만 추출
input_ids = inputs["input_ids"].tolist()[0]
# input_ids에서 응답에 해당하는 id를 가져와 토큰으로 변환항고 다시 문자열로 변환
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print("응답:", answer)

In [10]:
from transformers import ElectraTokenizer, ElectraForQuestionAnswering, pipeline
import torch

# 한국어 Electra 모델과 토크나이저 불러오기
model_name = "monologg/koelectra-base-v3-finetuned-korquad"
tokenizer = ElectraTokenizer.from_pretrained(model_name)
model = ElectraForQuestionAnswering.from_pretrained(model_name)

# Question-answering 파이프라인 생성
question_answer = pipeline("question-answering", tokenizer=tokenizer, model=model)

# 예시 질문과 맥락
question = input()

context = """
    날씨라는 호출로 현재 날씨 정보를 가져오는 것을 2로 한다.
    
    카카오톡이라는 호출로 친구에게 카카오톡 메시지를 전송하는 것을 3로 한다. 
    
    주차장의 호출로 노상주차 알림 서비스를 제공하는 것을 4로 한다.
    
    시간이라는 호출로 현재 시간을 알려주는 것을 5로 한다.
    
    온도라는 호출로 현재 온도에 대해서 알려주는 것을 6로 한다.
    
    습도라는 호출로 현재 습도에 대해서 알려주는 것을 7로 한다."""

# 답 가져오기
answer = question_answer({
    "question": question,
    "context": context
})

print(answer)

inputs = tokenizer(question, context, return_tensors="pt")
outputs = model(**inputs)
answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
# argmax를 이용해 context에서 응답의 시작일 확률이 가장 높은 토큰의 위치를 반환
answer_start = torch.argmax(answer_start_scores)
# argmax를 이용해 context에서 응답의 끝일 확률이 가장 높은 토큰의 위치를 반환
answer_end = torch.argmax(answer_end_scores) + 1
print("start:", answer_start, "end:", answer_end)
# 토큰화 결과로부터 input_ids만 추출
input_ids = inputs["input_ids"].tolist()[0]
# input_ids에서 응답에 해당하는 id를 가져와 토큰으로 변환항고 다시 문자열로 변환
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print("질의:", question)
print("응답:", answer)


user = "권준오"

if '1' in answer:
    answer = f""
elif '2' in answer:
    answer = f"운전만해에서 날씨 정보을 가져오는 방법에 대해서 설명하겠습니다. 먼저 브이즈를 호출한 뒤 '날씨'라고 말하면 현재 날씨에 대한 정보를 '{user}'님께 알려줍니다."
elif '3' in answer:
    answer = f"운전만해에서 친구에게 카카오톡 메시지를 보내는 방법에 대해서 설명하겠습니다. 먼저 브이즈를 호출한 뒤, 메시지를 보낼 특정 사용자의 이름을 부릅니다. 그 후 상대방에게 보낼 메시지 내용을 말하면 상대방에게 텍스트로 발신됩니다."
elif '4' in answer:
    answer = f"운전만해에서 노상주차 알림 서비스를 제공하는 방법에 대해서 설명하겠습니다. 먼저 브이즈를 호출한 뒤 '주차장'이라고 말하면 현재 위치에서 가장 근처인 노상 주차장의 정보를 '{user}'님께 알려줍니다."
elif '5' in answer:
    answer = f"운전만해에서 현재 시간을 알려주는 방법에 대해서 설명하겠습니다. 먼저 브이즈를 호출한 뒤 '시간'이라고 말하면 현재 시간에 대한 정보를 '{user}'님께 알려줍니다."
elif '6' in answer:
    answer = f"운전만해에서 현재 온도를 알려주는 방법에 대해서 설명하겠습니다. 먼저 브이즈를 호출한 뒤 '온도'라고 말하면 현재 온도 정보를 '{user}'님께 알려줍니다."
elif '7' in answer:
    answer = f"운전만해에서 현재 습도를 알려주는 방법에 대해서 설명하겠습니다. 먼저 브이즈를 호출한 뒤 '습도'라고 말하면 현재 습도 정보를 '{user}'님께 알려줍니다."
elif '8' in answer:
    answer = f""
elif '9' in answer:
    answer = f""
elif '10' in answer:
    answer = f""

print("최적 답변:", answer)

운전만해에서 온도를 알려주는 기능에 대해서 아려주]
{'score': 0.9999783039093018, 'start': 215, 'end': 217, 'answer': '6로'}
start: tensor(104) end: tensor(105)
질의: 운전만해에서 온도를 알려주는 기능에 대해서 아려주]
응답: 6
최적 답변: 운전만해에서 현재 온도를 알려주는 방법에 대해서 설명하겠습니다. 먼저 브이즈를 호출한 뒤 '온도'라고 말하면 현재 온도 정보를 '권준오'님께 알려줍니다.


In [1]:
from transformers import ElectraTokenizer, ElectraForQuestionAnswering
import torch

# 한국어 Electra 모델과 토크나이저 불러오기
model_name = "monologg/koelectra-base-v3-finetuned-korquad"
tokenizer = ElectraTokenizer.from_pretrained(model_name)
model = ElectraForQuestionAnswering.from_pretrained(model_name)

# 예시 질문과 맥락
question = input()
context = """
    날씨라는 호출로 현재 날씨 정보를 가져오는 것을 2로 한다.
    카카오톡이라는 호출로 친구에게 카카오톡 메시지를 전송하는 것을 3로 한다. 
    주차장의 호출로 노상주차 알림 서비스를 제공하는 것을 4로 한다.
    시간이라는 호출로 현재 시간을 알려주는 것을 5로 한다.
    온도라는 호출로 현재 온도에 대해서 알려주는 것을 6로 한다.
    습도라는 호출로 현재 습도에 대해서 알려주는 것을 7로 한다."""

# 직접 모델 사용
inputs = tokenizer(question, context, return_tensors="pt")
outputs = model(**inputs)
answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits

# argmax를 이용해 context에서 응답의 시작일 확률이 가장 높은 토큰의 위치를 반환
answer_start = torch.argmax(answer_start_scores)
# argmax를 이용해 context에서 응답의 끝일 확률이 가장 높은 토큰의 위치를 반환
answer_end = torch.argmax(answer_end_scores) + 1

# 토큰화 결과로부터 input_ids만 추출
input_ids = inputs["input_ids"].tolist()[0]

# input_ids에서 응답에 해당하는 id를 가져와 토큰으로 변환하고 다시 문자열로 변환
answer_tokens = tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end])
answer = tokenizer.convert_tokens_to_string(answer_tokens)

# 스코어 출력
print("질문:", question)
print("응답:", answer)
print("시작 위치 스코어:", float(torch.max(answer_start_scores)))
print("끝 위치 스코어:", float(torch.max(answer_end_scores)))

습도는 어떻게 알 수 있어?
질문: 습도는 어떻게 알 수 있어?
응답: 7
시작 위치 스코어: 6.810416221618652
끝 위치 스코어: 4.795325756072998


In [4]:
pip install datasets

Collecting datasets
  Downloading datasets-2.15.0-py3-none-any.whl (521 kB)
     -------------------------------------- 521.2/521.2 kB 2.2 MB/s eta 0:00:00
Collecting multiprocess
  Downloading multiprocess-0.70.15-py310-none-any.whl (134 kB)
     -------------------------------------- 134.8/134.8 kB 2.7 MB/s eta 0:00:00
Collecting xxhash
  Downloading xxhash-3.4.1-cp310-cp310-win_amd64.whl (29 kB)
Collecting huggingface-hub>=0.18.0
  Using cached huggingface_hub-0.19.4-py3-none-any.whl (311 kB)
Collecting pyarrow-hotfix
  Downloading pyarrow_hotfix-0.6-py3-none-any.whl (7.9 kB)
Collecting pyarrow>=8.0.0
  Downloading pyarrow-14.0.1-cp310-cp310-win_amd64.whl (24.6 MB)
     ---------------------------------------- 24.6/24.6 MB 2.9 MB/s eta 0:00:00
Collecting dill<0.3.8,>=0.3.0
  Downloading dill-0.3.7-py3-none-any.whl (115 kB)
     -------------------------------------- 115.3/115.3 kB 6.6 MB/s eta 0:00:00
Installing collected packages: xxhash, pyarrow-hotfix, pyarrow, dill, multiprocess

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tokenizers 0.14.1 requires huggingface_hub<0.18,>=0.16.4, but you have huggingface-hub 0.19.4 which is incompatible.


In [8]:
import torch
from torch.utils.data import DataLoader
from transformers import ElectraForQuestionAnswering, ElectraTokenizer, AdamW
from transformers.data.processors.squad import SquadV1Processor, squad_convert_examples_to_features
from tqdm import tqdm
from datasets import load_dataset

# 모델 및 토크나이저 로딩
model_name = "monologg/koelectra-base-v3-finetuned-korquad"
tokenizer = ElectraTokenizer.from_pretrained(model_name)
model = ElectraForQuestionAnswering.from_pretrained(model_name)


# Squad 데이터셋 다운로드
squad_dataset = load_dataset("squad")

# 훈련 데이터셋 가져오기
train_examples = squad_dataset["train"]
# Squad 데이터셋 로딩
squad_processor = SquadV1Processor()
train_examples = train_examples

# 데이터셋 전처리
train_features = squad_convert_examples_to_features(
    examples=train_examples,
    tokenizer=tokenizer,
    max_seq_length=384,
    doc_stride=128,
    max_query_length=64,
    is_training=True,
    return_dataset="pt"
)

# DataLoader 설정
batch_size = 8
train_dataloader = DataLoader(train_features, batch_size=batch_size, shuffle=True)

# GPU 사용 여부 확인
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 하이퍼파라미터 설정
learning_rate = 2e-5
num_epochs = 3
optimizer = AdamW(model.parameters(), lr=learning_rate)

# 학습 루프
for epoch in range(num_epochs):
    model.train()
    total_loss = 0

    # DataLoader에서 미니배치 순회
    for batch in tqdm(train_dataloader, desc=f"Epoch {epoch + 1}"):
        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        start_positions = batch["start_positions"].to(device)
        end_positions = batch["end_positions"].to(device)

        # Forward pass 및 손실 계산
        outputs = model(input_ids, attention_mask=attention_mask, start_positions=start_positions, end_positions=end_positions)
        loss = outputs.loss

        # Backward pass 및 가중치 업데이트
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

    average_loss = total_loss / len(train_dataloader)
    print(f"Epoch {epoch + 1}, Average Loss: {average_loss}")

# 학습된 모델 저장
model.save_pretrained("custom_model")
tokenizer.save_pretrained("custom_model")


convert squad examples to features:   0%|                                                    | 0/87599 [00:00<?, ?it/s]


AttributeError: 'dict' object has no attribute 'is_impossible'

In [11]:
from datasets import load_dataset

# KorQuAD 데이터셋 로딩
dataset = load_dataset("squad/ko")

# 훈련 데이터셋 가져오기
train_dataset = dataset["train"]

# 데이터셋 샘플 출력
print(train_dataset[0])

FileNotFoundError: Couldn't find a dataset script at C:\Users\gjaischool1\Desktop\project\vuide\squad\ko\ko.py or any data file in the same directory. Couldn't find 'squad/ko' on the Hugging Face Hub either: FileNotFoundError: Dataset 'squad/ko' doesn't exist on the Hub. If the repo is private or gated, make sure to log in with `huggingface-cli login`.

In [12]:
pip install zipfile36


Collecting zipfile36
  Downloading zipfile36-0.1.3-py3-none-any.whl (20 kB)
Installing collected packages: zipfile36
Successfully installed zipfile36-0.1.3
Note: you may need to restart the kernel to use updated packages.


In [None]:
import requests
from io import BytesIO
import zipfile
import os

# GitHub에서 다운로드할 ZIP 파일들의 URL 리스트
zip_urls = [
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_00.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_01.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_02.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_03.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_04.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_05.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_06.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_07.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_08.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_09.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_10.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_11.zip",
    "https://github.com/korquad/korquad.github.io/raw/master/dataset/KorQuAD_2.1/train/KorQuAD_2.1_train_12.zip"
]

# 압축 해제된 파일들이 저장될 디렉토리 생성
output_dir = "KorQuAD_2.1_train"
os.makedirs(output_dir, exist_ok=True)

# ZIP 파일 다운로드 및 압축 해제
for zip_url in zip_urls:
    response = requests.get(zip_url)
    with zipfile.ZipFile(BytesIO(response.content)) as z:
        z.extractall(output_dir)

print("ZIP 파일들을 다운로드하고 압축 해제했습니다.")