In [1]:
import pandas as pd

# Load the CSV file into a DataFrame
df = pd.read_csv('/kaggle/input/tomtatmonhoc/paraphrased_tomtat.csv')

# Create `df_dup` containing rows with duplicate `tenmh` values, including the original rows
df_dup = df[df.duplicated(subset='tenmh', keep=False)]

# Create `df_clean` containing only rows without duplicate `tenmh` values
df_clean = df[~df.duplicated(subset='tenmh', keep=False)]

# Now `df_dup` has the duplicates and `df_clean` has unique rows
# Sort `df_dup` by the `tenmh` column
df_dup = df_dup.sort_values(by='tenmh').reset_index(drop=True)

# Display or work with the sorted `df_dup`
df_dup.drop(["Unnamed: 0", "Paraphrased_Text"], axis=1, inplace=True)
df_dup.head()

# Assuming df_dup is already defined as shown in your example
# Concatenate rows with the same `tenmh`, merging `tomtat` values

df_dup_concat = df_dup.groupby(['mamh', 'tenmh'], as_index=False).agg({
    'tomtat': '. '.join   # Concatenate all `tomtat` texts into one
})

# Display or work with the resulting DataFrame
df_dup_concat

Unnamed: 0,mamh,tenmh,tomtat
0,ACCT3603,Hệ thống thông tin kế toán,"Trình bày các kiến thức về công tác kế toán, c..."
1,ACCT5123,Hoạch định nguồn lực doanh nghiệp,Cung cấp cho sinh viên các kiến thức về một hệ...
2,CE103,Vi xử lý-vi điều khiển,▪ Môn học sẽ cung cấp các kiến thức về khái ni...
3,CE105,Xử lý tín hiệu số,- Các phương pháp chính để thiết kế các bộ lọc...
4,CE118,Thiết kế luận lý số,- Chương I: Mạch tuần tự. - Chương II: Các thà...
...,...,...,...
132,SE505,Khóa luận tốt nghiệp,"Để tốt nghiệp, sinh viên cần phải hoặc hoàn th..."
133,SPCH2713,Kỹ năng giao tiếp,Tăng cường cho sinh viên các kỹ năng trong môi...
134,SPCH3724,Kỹ năng giao tiếp,Tăng cường cho sinh viên các kỹ năng giao tiếp...
135,SS002,Đường lối cách mạng của Đảng CS Việt Nam,Nội dung chủ yếu của môn học là cung cấp cho s...


In [2]:
df_dup_concat['tomtat'][0]

'Trình bày các kiến thức về công tác kế toán, chu trình nghiệp vụ kế toán, tố chức và xây dựng hệ thống thông tin kế toán, thiết kế và tin học hóa công tác kế toán.'

In [3]:
# # Điền các ô NaN với giá trị ở dòng gần nhất phía trên
# df.fillna(method='ffill', inplace=True)

In [4]:
import google.generativeai as genai
import re

genai.configure(api_key="AIzaSyCCT-lr6bmQ6iK9DfZhPlYLg2u49pLglSY")
model = genai.GenerativeModel("gemini-1.5-flash")

In [5]:
# Tạo danh sách với các phần tử giống như text_to_paraphrase
list_texts_to_paraphrase = [
    f"Tên môn học: {df_dup_concat.iloc[i, -2]}; Tóm tắt: {df_dup_concat.iloc[i, -1]}"
    for i in range(len(df_dup_concat))
]

In [6]:
import time
from tqdm import tqdm

done = False
def paraphrase_texts(texts):
    result = []
    for text in tqdm(texts, desc="processing"):
        while True:
            try:
                response = model.generate_content(f"""Đây là đoạn giới thiệu về môn học: {text}. Hãy nêu ngắn gọn cho tôi 
                                      môn đó học những gì và sinh viên sẽ được gì khi học môn đó. Cả 2 tiêu chí ghi trên 1 dòng và mỗi tiêu chí cách nhau bởi tên của tên chí đó (Môn học, Ứng dụng). Nói ngắn gọn cả 2 tiêu chí.""")
                # Check for valid text in response
                if hasattr(response, 'text'):
                    result.append(response.text)
                else:
                    print("Response does not contain text attribute.")
                    result.append("None")
                break  # Thoát vòng lặp nếu không có lỗi
            except Exception as e:
                if "429 Resource has been exhausted" in str(e):
                    print("Lỗi quota, chờ 60 giây trước khi thử lại...")
                    time.sleep(30)  # Tạm ngừng 60 giây trước khi thử lại
                else:
                    raise e  # Đưa lỗi ra ngoài nếu không phải lỗi quota
    done = True
    return result, done

result, done = paraphrase_texts(list_texts_to_paraphrase)
result = [text[:-2] for text in result if text]  # Loại bỏ None nếu có
result = [text.replace("**", "") for text in result]
df_dup_concat['Paraphrased_Text'] = result

processing:  11%|█         | 15/137 [00:38<05:05,  2.50s/it]

Lỗi quota, chờ 60 giây trước khi thử lại...


processing:  24%|██▍       | 33/137 [01:53<04:20,  2.51s/it]

Lỗi quota, chờ 60 giây trước khi thử lại...


processing:  47%|████▋     | 64/137 [03:40<02:47,  2.29s/it]

Lỗi quota, chờ 60 giây trước khi thử lại...


processing:  59%|█████▉    | 81/137 [04:50<02:14,  2.39s/it]

Lỗi quota, chờ 60 giây trước khi thử lại...


processing:  75%|███████▌  | 103/137 [06:14<01:25,  2.51s/it]

Response does not contain text attribute.


processing:  83%|████████▎ | 114/137 [06:41<00:58,  2.54s/it]

Lỗi quota, chờ 60 giây trước khi thử lại...


processing:  94%|█████████▍| 129/137 [07:48<00:20,  2.56s/it]

Lỗi quota, chờ 60 giây trước khi thử lại...


processing: 100%|██████████| 137/137 [08:37<00:00,  3.78s/it]


In [15]:
result, done = paraphrase_texts([list_texts_to_paraphrase[102]])
result = [text[:-2] for text in result if text]  # Loại bỏ None nếu có
result = [text.replace("**", "") for text in result]

processing: 100%|██████████| 1/1 [00:02<00:00,  2.65s/it]


In [16]:
result

['Môn học: Học về tấn công mạng, khai thác lỗ hổng, kỹ thuật tấn công, xây dựng BotNet. Ứng dụng: Nâng cao kỹ năng bảo mật, phát triển kỹ năng tấn công và phòng thủ, chuẩn bị cho nghề nghiệp trong lĩnh vực an ninh mạng.']

In [7]:
df_clean.drop("Unnamed: 0", axis=1, inplace=True)

# Concatenate df_clean and df_dup_concat
df_final = pd.concat([df_clean, df_dup_concat], ignore_index=True)

# Display or work with the resulting DataFrame
df_final

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_clean.drop("Unnamed: 0", axis=1, inplace=True)


Unnamed: 0,mamh,tenmh,tomtat,Paraphrased_Text
0,CE005,Giới thiệu ngành Kỹ Thuật Máy tính,Hiều biết rõ về ngành học và định hướng nghề n...,Môn học: Giới thiệu về ngành Kỹ thuật Máy tính...
1,CE201,Đồ án 1,Cung cấp các kỹ năng thiết kế các mạch điện-đi...,"Môn học: Thiết kế mạch điện tử cơ bản, phát tr..."
2,CE206,Đồ án 2,Cung cấp các kỹ năng thiết kế hệ thống các mạc...,"Môn học: Thiết kế mạch điện-điện tử, vi mạch,..."
3,CE212,Điều khiển tự động,"Môn học giới thiệu đến SV các mô hình vật lý, ...","Môn học: Mô hình hóa, phân tích, thiết kế và đ..."
4,CE213,ThiẾT kế hệ thống số với HDL,Giới thiệu các khái niệm tổng quan về thiết kế...,"Môn học: Thiết kế mạch logic, VHDL&Verilog, ph..."
...,...,...,...,...
396,SE505,Khóa luận tốt nghiệp,"Để tốt nghiệp, sinh viên cần phải hoặc hoàn th...",Môn học: Hoàn thành dự án phần mềm chuyên ngàn...
397,SPCH2713,Kỹ năng giao tiếp,Tăng cường cho sinh viên các kỹ năng trong môi...,"Môn học: Kỹ năng giao tiếp, thuyết trình, báo..."
398,SPCH3724,Kỹ năng giao tiếp,Tăng cường cho sinh viên các kỹ năng giao tiếp...,"Môn học: Lập kế hoạch, chuẩn bị và đánh giá cá..."
399,SS002,Đường lối cách mạng của Đảng CS Việt Nam,Nội dung chủ yếu của môn học là cung cấp cho s...,Môn học: Lịch sử thành lập Đảng Cộng sản Việt...


In [8]:
df_final.to_csv("paraphrased_tomtat.csv", index=False)