In [1]:
import pymysql
from Bio import SeqIO

# ==================== 配置区 ====================
# FASTA 文件路径
FASTA_FILE = "sampled_10000_proteins.fasta"

# 阿里云 RDS MySQL 连接信息
HOST = ""
PORT = 3306
USER = ""
PASSWORD = ""
DATABASE = "ionet"
CHARSET = "utf8mb4"

# 插入的默认值
IS_PROCESS = 0
# ===============================================

# 连接数据库
connection = pymysql.connect(
    host=HOST,
    port=PORT,
    user=USER,
    password=PASSWORD,
    database=DATABASE,
    charset=CHARSET,
    autocommit=True  # 自动提交，也可手动控制
)

try:
    with connection.cursor() as cursor:
        # 插入 SQL
        insert_sql = """
        INSERT INTO protein_seq (sentence1, is_process)
        VALUES (%s, %s)
        """

        # 读取 FASTA 文件
        print(f"正在读取 {FASTA_FILE} ...")
        records = list(SeqIO.parse(FASTA_FILE, "fasta"))

        print(f"共找到 {len(records)} 条蛋白质序列，开始插入...")

        count = 0
        for record in records:
            sequence = str(record.seq).strip()  # 转为字符串并去除首尾空白

            # 可选：如果想过滤过长序列（配合 GPT-2 512 aa 限制）
            # if len(sequence) > 512:
            #     sequence = sequence[:512]

            cursor.execute(insert_sql, (sequence, IS_PROCESS))
            count += 1

            if count % 20 == 0:
                print(f"已插入 {count}/{len(records)} 条")

        print(f"插入完成！共插入 {count} 条蛋白质序列到 protein_seq 表。")

except Exception as e:
    print(f"插入失败：{e}")
    connection.rollback()  # 出错时回滚
finally:
    connection.close()
    print("数据库连接已关闭。")

正在读取 sampled_10000_proteins.fasta ...
共找到 10000 条蛋白质序列，开始插入...
已插入 20/10000 条
已插入 40/10000 条
已插入 60/10000 条
已插入 80/10000 条
已插入 100/10000 条
已插入 120/10000 条
已插入 140/10000 条
已插入 160/10000 条
已插入 180/10000 条
已插入 200/10000 条
已插入 220/10000 条
已插入 240/10000 条
已插入 260/10000 条
已插入 280/10000 条
已插入 300/10000 条
已插入 320/10000 条
已插入 340/10000 条
已插入 360/10000 条
已插入 380/10000 条
已插入 400/10000 条
已插入 420/10000 条
已插入 440/10000 条
已插入 460/10000 条
已插入 480/10000 条
已插入 500/10000 条
已插入 520/10000 条
已插入 540/10000 条
已插入 560/10000 条
已插入 580/10000 条
已插入 600/10000 条
已插入 620/10000 条
已插入 640/10000 条
已插入 660/10000 条
已插入 680/10000 条
已插入 700/10000 条
已插入 720/10000 条
已插入 740/10000 条
已插入 760/10000 条
已插入 780/10000 条
已插入 800/10000 条
已插入 820/10000 条
已插入 840/10000 条
已插入 860/10000 条
已插入 880/10000 条
已插入 900/10000 条
已插入 920/10000 条
已插入 940/10000 条
已插入 960/10000 条
已插入 980/10000 条
已插入 1000/10000 条
已插入 1020/10000 条
已插入 1040/10000 条
已插入 1060/10000 条
已插入 1080/10000 条
已插入 1100/10000 条
已插入 1120/10000 条
已插入 1140/10000 条
已插入 1160/10000 条
已插入 

In [1]:
pip install pymysql

Looking in indexes: http://mirrors.aliyun.com/pypi/simple
Collecting pymysql
  Downloading http://mirrors.aliyun.com/pypi/packages/7c/4c/ad33b92b9864cbde84f259d5df035a6447f91891f5be77788e2a3892bce3/pymysql-1.1.2-py3-none-any.whl (45 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.3/45.3 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.2
[0mNote: you may need to restart the kernel to use updated packages.
