In [1]:
# !pip install -q -U google-generativeai

# Generating Question via Google GEMINI  
아래 링크에서 사용법 참조  
https://ai.google.dev/gemini-api/docs/get-started/python?hl=ko

In [5]:
GOOGLE_API_KEY = ""

In [3]:
import pathlib
import textwrap

import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown


def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
# from google.colab import userdata
# Or use `os.getenv('GOOGLE_API_KEY')` to fetch an environment variable.
# GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')

genai.configure(api_key=GOOGLE_API_KEY)

## Possible GEMINI Models

In [7]:
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision


In [8]:
# Text Prompt 전용
model = genai.GenerativeModel('gemini-pro')

## Eng Text Generation Example

In [9]:
%%time
response = model.generate_content("What is the meaning of life?")

CPU times: user 7.88 ms, sys: 460 µs, total: 8.34 ms
Wall time: 5.18 s


In [10]:
to_markdown(response.text)

> The meaning of life is a deep philosophical question that has been pondered by humans for centuries. There is no one definitive answer, and the meaning of life can vary from person to person. Some people believe that the meaning of life is to find happiness, while others believe that it is to fulfill a purpose or to make a difference in the world. Ultimately, the meaning of life is something that each individual must discover for themselves.
> 
> Here are some possible answers to the question "What is the meaning of life?":
> 
> * To find happiness
> * To fulfill a purpose
> * To make a difference in the world
> * To experience all that life has to offer
> * To learn and grow as a person
> * To connect with others
> * To love and be loved
> * To live a life of integrity
> * To find peace and acceptance
> * To be grateful for the gift of life
> 
> The meaning of life is not always clear, and it can change over time. What is meaningful to one person may not be meaningful to another. It is important to find your own meaning in life, and to live a life that is true to yourself.

## Kor Text Generation Example 

In [13]:
%%time

document = """고체가 액체로 변하는 것의 예시는 얼음이 물로 변하는 것입니다. 얼음은 온도가 상승하면 녹아서 물이 되는 과정을 거칩니다. 이는 물질의 분자들이 열에 의해 움직임이 증가하고 결국 고체의 구조가 불안정해지기 때문입니다. 얼음은 고체 상태에서는 분자들이 규칙적으로 배열되어 있어서 형태가 고정되어 있습니다. 그러나 온도가 상승하면 분자들의 움직임이 활발해지고 결국 분자들이 서로 떨어져 물질의 형태가 변하게 됩니다. 이러한 현상을 우리는 녹이라고 부릅니다. 따라서 얼음이 물로 변하는 것은 고체가 액체로 변하는 대표적인 예시입니다.
    """

query = f"""{document}
    
    위 문서에서 질문 5개 만들어줘.
    """

query

CPU times: user 0 ns, sys: 7 µs, total: 7 µs
Wall time: 6.91 µs


'고체가 액체로 변하는 것의 예시는 얼음이 물로 변하는 것입니다. 얼음은 온도가 상승하면 녹아서 물이 되는 과정을 거칩니다. 이는 물질의 분자들이 열에 의해 움직임이 증가하고 결국 고체의 구조가 불안정해지기 때문입니다. 얼음은 고체 상태에서는 분자들이 규칙적으로 배열되어 있어서 형태가 고정되어 있습니다. 그러나 온도가 상승하면 분자들의 움직임이 활발해지고 결국 분자들이 서로 떨어져 물질의 형태가 변하게 됩니다. 이러한 현상을 우리는 녹이라고 부릅니다. 따라서 얼음이 물로 변하는 것은 고체가 액체로 변하는 대표적인 예시입니다.\n    \n    \n    위 문서에서 질문 5개 만들어줘.\n    '

In [14]:
response = model.generate_content(query)

In [15]:
to_markdown(response.text)

> 1. 고체가 액체로 변하는 것의 가장 일반적인 예는 무엇입니까?
> 2. 고체가 액체로 변하는 과정에서 분자에 어떤 일이 일어납니까?
> 3. 얼음이 물로 변하는 과정을 녹이라고 부르는 이유는 무엇입니까?
> 4. 얼음의 고체 상태에서는 분자들이 어떻게 배열되어 있습니까?
> 5. 얼음이 물로 변하는 과정에서 열이 어떤 역할을 합니까?

In [17]:
type(response.text)

str

In [18]:
response.text

'1. 고체가 액체로 변하는 것의 가장 일반적인 예는 무엇입니까?\n2. 고체가 액체로 변하는 과정에서 분자에 어떤 일이 일어납니까?\n3. 얼음이 물로 변하는 과정을 녹이라고 부르는 이유는 무엇입니까?\n4. 얼음의 고체 상태에서는 분자들이 어떻게 배열되어 있습니까?\n5. 얼음이 물로 변하는 과정에서 열이 어떤 역할을 합니까?'

In [20]:
q_list = response.text.split('\n')
q_list

['1. 고체가 액체로 변하는 것의 가장 일반적인 예는 무엇입니까?',
 '2. 고체가 액체로 변하는 과정에서 분자에 어떤 일이 일어납니까?',
 '3. 얼음이 물로 변하는 과정을 녹이라고 부르는 이유는 무엇입니까?',
 '4. 얼음의 고체 상태에서는 분자들이 어떻게 배열되어 있습니까?',
 '5. 얼음이 물로 변하는 과정에서 열이 어떤 역할을 합니까?']

# Generating Questions with Gemini  
df의 index 0번 부터 1067번까지 (총 1068개)  
14번까지는 생성했으므로 제외  

In [21]:
import os
import re
import jsonlines
import pandas as pd

"""
docids = []
srcs = []
contents = []

with jsonlines.open(os.path.join(os.getcwd(),"../data/documents.jsonl")) as f:
    for line in f.iter():
        docid= line['docid']
        src = line['src']
        content = line['content']
        docids.append(docid)
        srcs.append(src)
        contents.append(content)  

df = pd.DataFrame({'docid': docids,
                   'src': srcs,
                   'content': contents})

df
"""
df = pd.read_csv(os.path.join("../data/data.csv"))
df

Unnamed: 0,docid,src,content
0,42508ee0-c543-4338-878e-d98c6babee66,ko_mmlu__nutrition__test,건강한 사람이 에너지 균형을 평형 상태로 유지하는 것은 중요합니다. 에너지 균형은 ...
1,4a437e7f-16c1-4c62-96b9-f173d44f4339,ko_mmlu__conceptual_physics__test,"수소, 산소, 질소 가스의 혼합물에서 평균 속도가 가장 빠른 분자는 수소입니다. 수..."
2,d3c68be5-9cb1-4d6e-ba18-5f81cf89affb,ko_ai2_arc__ARC_Challenge__test,종이와 플라스틱은 재활용 가능한 자원입니다. 중학교 과학 수업에서 우리는 종이와 플...
3,910107a6-2a42-41a2-b337-fbf22d6440fe,ko_ai2_arc__ARC_Challenge__test,마이애미파랑나비는 남부 플로리다에서 멸종 위기에 처한 종입니다. 이 나비의 개체수 ...
4,74f22819-1a8e-4646-8a9d-13323de8cdb8,ko_ai2_arc__ARC_Challenge__validation,"비버는 나무를 베고, 덤불과 관목을 모아 강과 개울에 댐을 만드는 것으로 알려져 있..."
...,...,...,...
4267,ae28101b-a42e-45b7-b24b-4ea0f1fb2d50,ko_ai2_arc__ARC_Challenge__train,비뇨기계와 순환계는 혈액이 신장을 통과하면서 폐기물과 물이 제거될 때 관여하는 두 ...
4268,eb727a4f-29c7-4d0c-b364-0e67de1776e9,ko_ai2_arc__ARC_Challenge__train,로봇은 현대 산업에서 많은 역할을 수행할 수 있습니다. 그러나 로봇 사용의 중대한 ...
4269,0c8c0086-c377-4201-81fa-25159e5435a7,ko_mmlu__human_sexuality__test,"월경은 여성의 생리주기에 따라 발생하는 현상으로, 에스트로겐과 프로게스테론 수치의 ..."
4270,06da6a19-ec78-404e-9640-9fc33f63c6a2,ko_ai2_arc__ARC_Challenge__train,식물이 내뿜는 가스는 산소입니다. 식물은 광합성 과정을 통해 태양 에너지를 이용하여...


In [31]:
docids = df['docid'].to_list()
docids[0:5]

['42508ee0-c543-4338-878e-d98c6babee66',
 '4a437e7f-16c1-4c62-96b9-f173d44f4339',
 'd3c68be5-9cb1-4d6e-ba18-5f81cf89affb',
 '910107a6-2a42-41a2-b337-fbf22d6440fe',
 '74f22819-1a8e-4646-8a9d-13323de8cdb8']

In [37]:
documents = df['content'].to_list()
documents[14:20]

['고체가 액체로 변하는 것의 예시는 얼음이 물로 변하는 것입니다. 얼음은 온도가 상승하면 녹아서 물이 되는 과정을 거칩니다. 이는 물질의 분자들이 열에 의해 움직임이 증가하고 결국 고체의 구조가 불안정해지기 때문입니다. 얼음은 고체 상태에서는 분자들이 규칙적으로 배열되어 있어서 형태가 고정되어 있습니다. 그러나 온도가 상승하면 분자들의 움직임이 활발해지고 결국 분자들이 서로 떨어져 물질의 형태가 변하게 됩니다. 이러한 현상을 우리는 녹이라고 부릅니다. 따라서 얼음이 물로 변하는 것은 고체가 액체로 변하는 대표적인 예시입니다.',
 '한 실험을 밀폐 용기를 이용해 실시합니다. 이 실험에서는 용기의 초기 온도가 화씨 70도이고 초기 기압이 20psi인 것으로 시작합니다. 용기를 가열하면 온도가 상승하고, 이에 따라 용기 내 압력도 균등하게 상승합니다. 그러나 용기가 다시 화씨 70도로 냉각된다면, 공기 압력은 초기 기압인 20psi로 돌아갈 것입니다. 이는 가열과 냉각 과정에서 공기 분자의 운동이 변화하고, 압력이 변화하는 원리에 기인합니다. 따라서, 용기가 화씨 70도로 냉각되면 공기 압력은 20psi로 돌아갈 것입니다.',
 '쌍떡잎식물의 줄기는 중심에 목수조직을 가지고 있습니다. 이 목수조직은 유조직으로 구성되어 있습니다. 유조직은 쌍떡잎식물의 줄기를 강하고 단단하게 유지하는 역할을 합니다. 이러한 유조직은 줄기의 성장과 발달에 중요한 역할을 합니다. 따라서, 쌍떡잎식물의 줄기는 유조직을 포함한 목수조직으로 구성되어 있습니다.',
 '원소가 베타 입자를 방출할 때, 그 원소의 원자 번호는 1만큼 증가한다. 이는 원소의 핵 구조에서 일어나는 현상으로, 원소의 원자 번호가 베타 입자 방출 전과 후에 비교하여 1만큼 증가함을 의미한다. 이러한 현상은 원소의 방사능 붕괴 과정 중 하나로 알려져 있다. 원소의 원자 번호는 원소의 핵 내에 있는 양성자의 수를 나타내는데, 베타 입자 방출은 핵 내의 중성자가 양성자로 변화하는 과정이다. 이로 인해 원소의 원자 번호가 1

In [None]:
end_idx = 1068
docids = docids[15:end_idx]
documents = documents[15:end_idx]
documents[0:5]

['한 실험을 밀폐 용기를 이용해 실시합니다. 이 실험에서는 용기의 초기 온도가 화씨 70도이고 초기 기압이 20psi인 것으로 시작합니다. 용기를 가열하면 온도가 상승하고, 이에 따라 용기 내 압력도 균등하게 상승합니다. 그러나 용기가 다시 화씨 70도로 냉각된다면, 공기 압력은 초기 기압인 20psi로 돌아갈 것입니다. 이는 가열과 냉각 과정에서 공기 분자의 운동이 변화하고, 압력이 변화하는 원리에 기인합니다. 따라서, 용기가 화씨 70도로 냉각되면 공기 압력은 20psi로 돌아갈 것입니다.',
 '쌍떡잎식물의 줄기는 중심에 목수조직을 가지고 있습니다. 이 목수조직은 유조직으로 구성되어 있습니다. 유조직은 쌍떡잎식물의 줄기를 강하고 단단하게 유지하는 역할을 합니다. 이러한 유조직은 줄기의 성장과 발달에 중요한 역할을 합니다. 따라서, 쌍떡잎식물의 줄기는 유조직을 포함한 목수조직으로 구성되어 있습니다.',
 '원소가 베타 입자를 방출할 때, 그 원소의 원자 번호는 1만큼 증가한다. 이는 원소의 핵 구조에서 일어나는 현상으로, 원소의 원자 번호가 베타 입자 방출 전과 후에 비교하여 1만큼 증가함을 의미한다. 이러한 현상은 원소의 방사능 붕괴 과정 중 하나로 알려져 있다. 원소의 원자 번호는 원소의 핵 내에 있는 양성자의 수를 나타내는데, 베타 입자 방출은 핵 내의 중성자가 양성자로 변화하는 과정이다. 이로 인해 원소의 원자 번호가 1만큼 증가하게 되는 것이다. 이러한 현상은 원소의 화학적 특성과 원자량 등에 영향을 미치며, 원소의 식별과 연구에 중요한 역할을 한다.',
 '환경에 가장 적은 피해를 주는 발전소를 건설하기 위해 한 공학자는 태양 전기 발전소를 선택했습니다. 태양 전기 발전소는 태양 에너지를 이용하여 전기를 생산하는 시스템입니다. 이러한 발전소는 화석 연료를 사용하지 않으며, 이산화탄소 배출량이 거의 없어 환경에 미치는 영향이 매우 적습니다. 또한, 태양 전기 발전소는 지속 가능한 에너지원으로 인정받고 있으며, 태양 에너지는 무한히 공급될 수 있는

In [40]:
import time

doc_ids = []
q1_list = []
q2_list = []
q3_list = []
q4_list = []
q5_list = []

for idx, document in enumerate(documents):

    query = f"""{document}
            위 문서에서 질문 5개 만들어줘.
            """
    response = model.generate_content(query)        
    q_list = response.text.split('\n')
    """
    앞의 3자리 숫자를 지워서 번호 삭제
    '1. 고체가 액체로 변하는 것의 가장 일반적인 예는 무엇입니까?'
    대신 
    '고체가 액체로 변하는 것의 가장 일반적인 예는 무엇입니까?'
    을 저장하기 위함이다.
    """
    q1_list.append(q_list[0][3:])
    q2_list.append(q_list[1][3:])
    q3_list.append(q_list[2][3:])
    q4_list.append(q_list[3][3:])
    q5_list.append(q_list[4][3:])
    doc_ids.append(docids[idx])
    time.sleep(5)

    # 매 100 iteration 마다 1분 멈춤
    if idx % 100 == 99:
        time.sleep(60)
    

# 데이터 확인 후 jsonl로 저장  
jsonl로 변환하면서 확인.  
100개씩 확인  

https://mookstudy.tistory.com/9  

In [None]:
dq = pd.read_csv('generated_questions_1068_final.csv')

In [None]:
for idx, row in dq.iloc[0:100].iterrows():
    print('='*50)
    print(row['content'])
    print('-'*50)
    print(row['q1'])
    print(row['q2'])
    print(row['q3'])
    print(row['q4'])
    print(row['q5'])


In [None]:
# jsonl로의 저장 예시
import json
from collections import OrderedDict

my_data = OrderedDict()

with open("../data/generated_questions_1068.jsonl", "w", encoding="utf-8") as f:
    for idx, row in dq.iterrows():
        my_data['docid'] = row['docid']
        my_data['src'] = row['src']
        my_data['content'] = row['content']
        my_data['q1'] = row['q1']
        my_data['q2'] = row['q2']
        my_data['q3'] = row['q3']
        my_data['q4'] = row['q4']
        my_data['q5'] = row['q5']
        json.dump(my_data, f, ensure_ascii=False) # ensure_ascii로 한글이 깨지지 않게 저장
        f.write("\n") # json을 쓰는 것과 같지만, 여러 줄을 써주는 것이므로 "\n"을 붙여준다.
        