In [None]:
import google.generativeai as genai
from google.colab import userdata

gemini_api_secret_name = 'gemini-pro'  # @param {type: "string"}

try:
  GOOGLE_API_KEY=userdata.get(gemini_api_secret_name)
  genai.configure(api_key=GOOGLE_API_KEY)
except userdata.SecretNotFoundError as e:
   print(f'Secret not found\n\nThis expects you to create a secret named {gemini_api_secret_name} in Colab\n\nVisit https://makersuite.google.com/app/apikey to create an API key\n\nStore that in the secrets section on the left side of the notebook (key icon)\n\nName the secret {gemini_api_secret_name}')
   raise e
except userdata.NotebookAccessError as e:
  print(f'You need to grant this notebook access to the {gemini_api_secret_name} secret in order for the notebook to access Gemini on your behalf.')
  raise e
except Exception as e:
  # unknown error
  print(f"There was an unknown error. Ensure you have a secret {gemini_api_secret_name} stored in Colab and it's a valid key from https://makersuite.google.com/app/apikey")
  raise e

## rephase phần nội dung nhờ Gemini 1.0

In [None]:

model = genai.GenerativeModel('gemini-pro')
chat = model.start_chat(history=[])

In [None]:
def get_answer_gemini(prompt, text, model = genai.GenerativeModel('gemini-pro')):
  chat = model.start_chat(history=[])
  inputs = prompt + text
  response = chat.send_message(inputs)
  return response.text

In [None]:
def count_words(sentence):
    words = sentence.split()
    word_count = len(words)
    return word_count

In [None]:
prompt2 = "Được cung cấp một đoạn văn bản dưới đây, hãy viết lại đoạn văn, với nội dung giữ nguyên và độ dài gần tương đương."

In [None]:
example = "Vết ố thực sự hình thành do mồ hôi phản ứng với nhôm trong hầu hết các sản phẩm khử mùi và ngăn mồ hôi. Protein trong mồ hôi kết hợp với nhôm và hình thành nên vết ố vàng. Tom s of Maine là sản phẩm khử mùi không chứa nhôm mà bạn có thể thử. Dùng nhiều sản phẩm khử mùi hoặc chống mồ hôi có thể gây ra vết ố vàng tệ hơn dưới cánh tay áo. Bạn nên giảm lượng dùng. Chất khử mùi chỉ bám thêm vào vải và hình thành nhiều vết ố hơn. Trước khi mặc và sau khi giặt, bạn nên lộn trái áo. Rắc phấn em bé lên vùng áo dưới cánh tay và là ủi áo. Cách này thường ngăn ố hiệu quả cho vải sợi và sợi pha. Để ngăn ngừa ố vàng và ảnh hưởng đến vẻ đẹp của áo sơ mi, bạn có thể mặc thêm áo lót để ngăn mồ hôi thấm vào áo. Bạn nên giặt sạch áo bị ố ngay sau khi mặc và xử lý trước bằng sản phẩm chống ố, như OxiClean hoặc Spray and Wash. Vết ố mới thường dễ dàng xử lý hơn vết ố cũ. Bằng cách xử lý liên tục, bạn có thể giúp áo luôn sạch sẽ và ngăn không cho vết ố hình thành trên vải."

In [None]:
x = get_answer_gemini(prompt2, example)
x

"Vết vàng dưới cánh áo hình thành do phản ứng giữa mồ hôi và nhôm có trong hầu hết các sản phẩm khử mùi và ngăn mồ hôi. Protein trong mồ hôi kết hợp với nhôm tạo thành vết ố vàng. Một giải pháp thay thế không chứa nhôm là sản phẩm khử mùi Tom's of Maine. Sử dụng quá nhiều khử mùi hoặc thuốc chống mồ hôi có thể làm vết ố tệ hơn, vì vậy nên sử dụng chúng ở mức độ vừa phải. Quá nhiều khử mùi tích tụ trên vải, dẫn đến nhiều vết ố hơn. Lộn trái áo sau khi giặt và trước khi mặc để ngăn ngừa vết ố. Rắc phấn em bé lên vùng dưới cánh tay và là ủi áo cũng giúp ngăn ố vải sợi và vải pha. Để bảo vệ áo sơ mi, hãy mặc thêm áo lót để mồ hôi không thấm ra áo. Xử lý áo bị ố ngay lập tức với các chất tẩy rửa chuyên dụng như OxiClean hoặc Spray and Wash. Vết ố mới dễ xử lý hơn vết cũ, vì vậy việc giặt và xử lý thường xuyên sẽ giúp áo sạch và ngăn ngừa vết ố."

In [None]:
example

'Vết ố thực sự hình thành do mồ hôi phản ứng với nhôm trong hầu hết các sản phẩm khử mùi và ngăn mồ hôi. Protein trong mồ hôi kết hợp với nhôm và hình thành nên vết ố vàng. Tom s of Maine là sản phẩm khử mùi không chứa nhôm mà bạn có thể thử. Dùng nhiều sản phẩm khử mùi hoặc chống mồ hôi có thể gây ra vết ố vàng tệ hơn dưới cánh tay áo. Bạn nên giảm lượng dùng. Chất khử mùi chỉ bám thêm vào vải và hình thành nhiều vết ố hơn. Trước khi mặc và sau khi giặt, bạn nên lộn trái áo. Rắc phấn em bé lên vùng áo dưới cánh tay và là ủi áo. Cách này thường ngăn ố hiệu quả cho vải sợi và sợi pha. Để ngăn ngừa ố vàng và ảnh hưởng đến vẻ đẹp của áo sơ mi, bạn có thể mặc thêm áo lót để ngăn mồ hôi thấm vào áo. Bạn nên giặt sạch áo bị ố ngay sau khi mặc và xử lý trước bằng sản phẩm chống ố, như OxiClean hoặc Spray and Wash. Vết ố mới thường dễ dàng xử lý hơn vết ố cũ. Bằng cách xử lý liên tục, bạn có thể giúp áo luôn sạch sẽ và ngăn không cho vết ố hình thành trên vải.'

In [None]:
count_words(x)

203

In [None]:
# import os
# import json
# import time

# source_dir = "/content/drive/MyDrive/data_summarize/re_label"
# output_dir = "/content/drive/MyDrive/data_summarize/aug_rephase"

# # Range of file numbers to process
# start = 9001
# end = 9200

# for file_name in os.listdir(source_dir):
#     if file_name.endswith(".txt"):
#         number = int(file_name.split("_")[2].split(".")[0])
#         if start <= number <= end:
#             file_path = os.path.join(source_dir, file_name)

#             with open(file_path, 'r', encoding='utf-8') as file:
#                 print(file_path)
#                 data = json.load(file)

#             try:

#                 time.sleep(5)

#                 new_input = get_answer_gemini(prompt2, data["inputs"])
#                 new_file_path = os.path.join(output_dir, f"rf_{file_name}")
#                 with open(new_file_path, 'w', encoding='utf-8') as new_file:
#                     json.dump({"inputs": new_input, "labels": data["labels"]}, new_file, ensure_ascii=False)
#             except Exception as e:
#                 print(f"Error: {e}")
#                 print(f"Skipping file: {file_name}")
#                 continue

/content/drive/MyDrive/data_summarize/re_label/re_document_9001.txt
Error: finish_reason: SAFETY
index: 0
safety_ratings {
  category: HARM_CATEGORY_SEXUALLY_EXPLICIT
  probability: MEDIUM
}
safety_ratings {
  category: HARM_CATEGORY_HATE_SPEECH
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_HARASSMENT
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_DANGEROUS_CONTENT
  probability: NEGLIGIBLE
}

Skipping file: re_document_9001.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9002.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9003.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9004.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9005.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9006.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9007.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9008.txt
/content/drive/MyDrive/data_summarize/re_l

ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 6615.80ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 2053.99ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 2284.51ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 2106.19ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 6157.29ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1067.12ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1597.22ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Din

Error: HTTPConnectionPool(host='localhost', port=39847): Read timed out. (read timeout=5.915542125701904)
Skipping file: re_document_9159.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9162.txt


ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 8889.59ms


/content/drive/MyDrive/data_summarize/re_label/re_document_9163.txt


ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1599.61ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 6518.79ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1349.36ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1346.06ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 5654.68ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 6486.62ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 7553.00ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Din

Error: HTTPConnectionPool(host='localhost', port=39847): Read timed out. (read timeout=5.156631946563721)
Skipping file: re_document_9163.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9164.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9165.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9166.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9167.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9168.txt
/content/drive/MyDrive/data_summarize/re_label/re_document_9169.txt
Error: finish_reason: SAFETY
index: 0
safety_ratings {
  category: HARM_CATEGORY_SEXUALLY_EXPLICIT
  probability: MEDIUM
}
safety_ratings {
  category: HARM_CATEGORY_HATE_SPEECH
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_HARASSMENT
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_DANGEROUS_CONTENT
  probability: NEGLIGIBLE
}

Skipping file: re_document_9169.txt
/content/drive/MyDrive/data_summariz