In [12]:
!pip install -q -U google-generativeai

# Generating Question via Google GEMINI  
아래 링크에서 사용법 참조  
https://ai.google.dev/gemini-api/docs/get-started/python?hl=ko

In [1]:
import os
GOOGLE_API_KEY = os.getenv('GOOGLE_API_KEY')

In [2]:
import pathlib
import textwrap

import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown


def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

In [3]:
# from google.colab import userdata
# Or use `os.getenv('GOOGLE_API_KEY')` to fetch an environment variable.
# GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')

genai.configure(api_key=GOOGLE_API_KEY)

## Possible GEMINI Models

In [8]:
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

AttributeError: to_dict

In [6]:
# Text Prompt 전용
model = genai.GenerativeModel('gemini-pro')

## Eng Text Generation Example

In [7]:
%%time
response = model.generate_content("What is the meaning of life?")

CPU times: user 6.48 ms, sys: 0 ns, total: 6.48 ms
Wall time: 5.42 s


In [17]:
response.parts[0].text

"The meaning of life is a philosophical question that has been asked by humans for centuries. There is no one definitive answer, as the meaning of life is ultimately subjective and personal. However, some common themes that emerge when people reflect on this question include:\n\n* **Finding purpose and fulfillment:** Many people find meaning in life by pursuing their passions, making a positive contribution to the world, or connecting with others.\n* **Experiencing joy and happiness:** Life is short, so it's important to make the most of it by seeking out things that bring us joy and happiness.\n* **Growing and learning:** Life is a constant learning experience, and we can find meaning in it by challenging ourselves, expanding our knowledge, and developing our skills.\n* **Making a difference:** We all have the potential to make a difference in the world, no matter how small. By helping others, advocating for our beliefs, or simply being a kind and compassionate person, we can make a p

In [18]:
to_markdown(response.parts[0].text)

> The meaning of life is a philosophical question that has been asked by humans for centuries. There is no one definitive answer, as the meaning of life is ultimately subjective and personal. However, some common themes that emerge when people reflect on this question include:
> 
> * **Finding purpose and fulfillment:** Many people find meaning in life by pursuing their passions, making a positive contribution to the world, or connecting with others.
> * **Experiencing joy and happiness:** Life is short, so it's important to make the most of it by seeking out things that bring us joy and happiness.
> * **Growing and learning:** Life is a constant learning experience, and we can find meaning in it by challenging ourselves, expanding our knowledge, and developing our skills.
> * **Making a difference:** We all have the potential to make a difference in the world, no matter how small. By helping others, advocating for our beliefs, or simply being a kind and compassionate person, we can make a positive impact on the lives of those around us.
> 
> Ultimately, the meaning of life is what you make it. It is a personal journey that is unique to each individual. By reflecting on your values, passions, and goals, you can find your own unique path to meaning and fulfillment.

## Kor Text Generation Example 

In [19]:
%%time

document = """고체가 액체로 변하는 것의 예시는 얼음이 물로 변하는 것입니다. 얼음은 온도가 상승하면 녹아서 물이 되는 과정을 거칩니다. 이는 물질의 분자들이 열에 의해 움직임이 증가하고 결국 고체의 구조가 불안정해지기 때문입니다. 얼음은 고체 상태에서는 분자들이 규칙적으로 배열되어 있어서 형태가 고정되어 있습니다. 그러나 온도가 상승하면 분자들의 움직임이 활발해지고 결국 분자들이 서로 떨어져 물질의 형태가 변하게 됩니다. 이러한 현상을 우리는 녹이라고 부릅니다. 따라서 얼음이 물로 변하는 것은 고체가 액체로 변하는 대표적인 예시입니다.
    """

query = f"""{document}
    
    위 문서에서 질문 5개 만들어줘.
    """

query

CPU times: user 22 µs, sys: 0 ns, total: 22 µs
Wall time: 32.2 µs


'고체가 액체로 변하는 것의 예시는 얼음이 물로 변하는 것입니다. 얼음은 온도가 상승하면 녹아서 물이 되는 과정을 거칩니다. 이는 물질의 분자들이 열에 의해 움직임이 증가하고 결국 고체의 구조가 불안정해지기 때문입니다. 얼음은 고체 상태에서는 분자들이 규칙적으로 배열되어 있어서 형태가 고정되어 있습니다. 그러나 온도가 상승하면 분자들의 움직임이 활발해지고 결국 분자들이 서로 떨어져 물질의 형태가 변하게 됩니다. 이러한 현상을 우리는 녹이라고 부릅니다. 따라서 얼음이 물로 변하는 것은 고체가 액체로 변하는 대표적인 예시입니다.\n    \n    \n    위 문서에서 질문 5개 만들어줘.\n    '

In [20]:
response = model.generate_content(query)

In [21]:
to_markdown(response.parts[0].text)

> 1. 고체가 액체로 변하는 것을 나타내는 한 가지 예시는 무엇입니까?
> 2. 고체가 녹는 과정에서 물질의 분자들에게 무슨 일이 일어납니까?
> 3. 얼음이 고체 상태일 때 분자들은 어떻게 배열되어 있습니까?
> 4. 얼음이 녹는 과정에서 발생하는 현상을 무엇이라고 부릅니까?
> 5. 고체가 액체로 변하는 과정에서 형태에 어떤 변화가 일어납니까?

In [None]:
type(response.text)

In [None]:
response.text

In [None]:
q_list = response.text.split('\n')
q_list

# Generating Questions with Gemini  
df의 index 0번 부터 1067번까지 (총 1068개)  
14번까지는 생성했으므로 제외  

In [None]:
import os
import re
import jsonlines
import pandas as pd

"""
docids = []
srcs = []
contents = []

with jsonlines.open(os.path.join(os.getcwd(),"../data/documents.jsonl")) as f:
    for line in f.iter():
        docid= line['docid']
        src = line['src']
        content = line['content']
        docids.append(docid)
        srcs.append(src)
        contents.append(content)  

df = pd.DataFrame({'docid': docids,
                   'src': srcs,
                   'content': contents})

df
"""
df = pd.read_csv(os.path.join("../data/data.csv"))
df

In [None]:
docids = df['docid'].to_list()
docids[0:5]

In [None]:
documents = df['content'].to_list()
documents[14:20]

In [None]:
end_idx = 1068
docids = docids[15:end_idx]
documents = documents[15:end_idx]
documents[0:5]

In [None]:
import time

doc_ids = []
q1_list = []
q2_list = []
q3_list = []
q4_list = []
q5_list = []

exceptions = []

for idx, document in enumerate(documents):

    query = f"""{document}
    
            위 문서에서 질문 5개 만들어줘.
            """
    response = model.generate_content(query)        
    try:
        q_list = response.text.split('\n')
        """
        앞의 3자리 숫자를 지워서 번호 삭제
        '1. 고체가 액체로 변하는 것의 가장 일반적인 예는 무엇입니까?'
        대신 
        '고체가 액체로 변하는 것의 가장 일반적인 예는 무엇입니까?'
        을 저장하기 위함이다.
        """
        q1_list.append(q_list[0][3:])
        q2_list.append(q_list[1][3:])
        q3_list.append(q_list[2][3:])
        q4_list.append(q_list[3][3:])
        q5_list.append(q_list[4][3:])
        doc_ids.append(docids[idx])
        time.sleep(5)
    except:
        # 질문 생성이 안 되는 케이스는 따로 저장
        print("No Generation Case:",docids[idx])
        exceptions.append(docids[idx])

    # 매 100 iteration 마다 1분 멈춤
    if idx % 100 == 99:
        time.sleep(60)
    

# 데이터 확인 후 jsonl로 저장  
jsonl로 변환하면서 확인.  
100개씩 확인  

https://mookstudy.tistory.com/9  

In [None]:
dq = pd.read_csv('generated_questions_1068_final.csv')

In [None]:
for idx, row in dq.iloc[0:100].iterrows():
    print('='*50)
    print(row['content'])
    print('-'*50)
    print(row['q1'])
    print(row['q2'])
    print(row['q3'])
    print(row['q4'])
    print(row['q5'])


In [None]:
# jsonl로의 저장 예시
import json
from collections import OrderedDict

my_data = OrderedDict()

with open("../data/generated_questions_1068.jsonl", "w", encoding="utf-8") as f:
    for idx, row in dq.iterrows():
        my_data['docid'] = row['docid']
        my_data['src'] = row['src']
        my_data['content'] = row['content']
        my_data['q1'] = row['q1']
        my_data['q2'] = row['q2']
        my_data['q3'] = row['q3']
        my_data['q4'] = row['q4']
        my_data['q5'] = row['q5']
        json.dump(my_data, f, ensure_ascii=False) # ensure_ascii로 한글이 깨지지 않게 저장
        f.write("\n") # json을 쓰는 것과 같지만, 여러 줄을 써주는 것이므로 "\n"을 붙여준다.
        