In [6]:
# Đọc nội dung file PDB và file Gaussian Input được tải lên
pdb_file_path = '1VQQadd.pdb'
gjf_file_path = '26.Silibinin A.gjf'

# Đọc nội dung của file .pdb
with open(pdb_file_path, 'r') as pdb_file:
    pdb_content = pdb_file.readlines()

# Đọc nội dung của file .gjf
with open(gjf_file_path, 'r') as gjf_file:
    gjf_content = gjf_file.readlines()

# Kiểm tra số dòng và hiển thị nội dung mẫu
pdb_sample = pdb_content
gjf_sample = gjf_content

pdb_sample, gjf_sample


(['EXPDTA    THEORETICAL MODEL, MODELLER 9v7 2010/05/08 16:43:04\n',
  'REMARK   6 MODELLER OBJECTIVE FUNCTION:       131.6129\n',
  'REMARK   6 MODELLER BEST TEMPLATE % SEQ ID: 100.000\n',
  'ATOM      1  N   ASP     1      -4.037  15.529 -10.655  1.00  0.00           N\n',
  'ATOM      2  CA  ASP     1      -3.420  16.096  -9.417  1.00  0.00           C\n',
  'ATOM      3  CB  ASP     1      -4.465  16.188  -8.311  1.00  0.00           C\n',
  'ATOM      4  CG  ASP     1      -5.473  17.279  -8.563  1.00  0.00           C\n',
  'ATOM      5  OD1 ASP     1      -5.067  18.344  -9.089  1.00  0.00           O\n',
  'ATOM      6  OD2 ASP     1      -6.662  17.080  -8.224  1.00  0.00           O\n',
  'ATOM      7  C   ASP     1      -2.226  15.297  -8.896  1.00  0.00           C\n',
  'ATOM      8  O   ASP     1      -1.874  15.381  -7.717  1.00  0.00           O\n',
  'ATOM      9  N   LYS     2      -1.589  14.542  -9.780  1.00  0.00           N\n',
  'ATOM     10  CA  LYS     2      -

In [7]:
# Hàm trích xuất tọa độ từ file PDB
def extract_pdb_coordinates(pdb_content):
    amino_acids = []
    for line in pdb_content:
        if line.startswith("ATOM"):
            # Trích xuất thông tin từ dòng PDB
            atom_name = line[12:16].strip()
            residue_name = line[17:20].strip()
            residue_id = line[22:26].strip()
            x = float(line[30:38].strip())
            y = float(line[38:46].strip())
            z = float(line[46:54].strip())
            
            # Lưu thông tin cần thiết
            amino_acids.append({
                "atom_name": atom_name,
                "residue_name": residue_name,
                "residue_id": residue_id,
                "x": x, "y": y, "z": z
            })
    return amino_acids

# Gọi hàm xử lý file PDB
amino_acid_data = extract_pdb_coordinates(pdb_content)

# Hiển thị dữ liệu mẫu đã trích xuất
amino_acid_data


[{'atom_name': 'N',
  'residue_name': 'ASP',
  'residue_id': '1',
  'x': -4.037,
  'y': 15.529,
  'z': -10.655},
 {'atom_name': 'CA',
  'residue_name': 'ASP',
  'residue_id': '1',
  'x': -3.42,
  'y': 16.096,
  'z': -9.417},
 {'atom_name': 'CB',
  'residue_name': 'ASP',
  'residue_id': '1',
  'x': -4.465,
  'y': 16.188,
  'z': -8.311},
 {'atom_name': 'CG',
  'residue_name': 'ASP',
  'residue_id': '1',
  'x': -5.473,
  'y': 17.279,
  'z': -8.563},
 {'atom_name': 'OD1',
  'residue_name': 'ASP',
  'residue_id': '1',
  'x': -5.067,
  'y': 18.344,
  'z': -9.089},
 {'atom_name': 'OD2',
  'residue_name': 'ASP',
  'residue_id': '1',
  'x': -6.662,
  'y': 17.08,
  'z': -8.224},
 {'atom_name': 'C',
  'residue_name': 'ASP',
  'residue_id': '1',
  'x': -2.226,
  'y': 15.297,
  'z': -8.896},
 {'atom_name': 'O',
  'residue_name': 'ASP',
  'residue_id': '1',
  'x': -1.874,
  'y': 15.381,
  'z': -7.717},
 {'atom_name': 'N',
  'residue_name': 'LYS',
  'residue_id': '2',
  'x': -1.589,
  'y': 14.542,
  

In [8]:
# Hàm trích xuất tọa độ từ file GJF
def extract_gjf_coordinates(gjf_content):
    ligand_atoms = []
    data_section = False  # Cờ để xác định phần dữ liệu tọa độ
    for line in gjf_content:
        if line.strip() == "0 1":
            data_section = True
            continue
        if data_section and line.strip():  # Bắt đầu trích xuất sau "0 1"
            parts = line.split()
            if len(parts) >= 4:  # Đảm bảo có đủ thông tin
                atom_type = parts[0]  # Loại nguyên tử (vd: O, C, H)
                x, y, z = map(float, parts[1:4])  # Tọa độ không gian
                ligand_atoms.append({"atom_type": atom_type, "x": x, "y": y, "z": z})
    return ligand_atoms

# Gọi hàm xử lý file GJF
ligand_data = extract_gjf_coordinates(gjf_content)

# Hiển thị dữ liệu mẫu đã trích xuất
ligand_data


[{'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': 1.85,
  'y': -0.058,
  'z': 0.371},
 {'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': 2.409,
  'y': -2.878,
  'z': 0.499},
 {'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': -3.266,
  'y': -0.246,
  'z': 0.825},
 {'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': -2.673,
  'y': -0.978,
  'z': -2.735},
 {'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': 4.973,
  'y': -3.723,
  'z': 0.046},
 {'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': -4.983,
  'y': 0.422,
  'z': -2.842},
 {'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': -7.057,
  'y': 1.473,
  'z': -1.683},
 {'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': 5.856,
  'y': 2.271,
  'z': -1.938},
 {'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': -7.002,
  'y': 1.624,
  'z': 3.06},
 {'atom_type': 'O(PDBName=O,ResName=UNK,ResNum=0)',
  'x': 7.0,
  'y': 3.458,
  'z': 0.3},
 {'atom_type': 'C(PDBName=C,ResName=UNK,Re

In [5]:
# Ghi tọa độ của axit amin và ligand ra file
amino_acid_output_path = 'amino_acids_coordinates.txt'
ligand_output_path = 'ligand_coordinates.txt'

# Ghi file amino acid
with open(amino_acid_output_path, 'w') as aa_file:
    aa_file.write("Atom_Name Residue_Name Residue_ID X Y Z\n")
    for aa in amino_acid_data:
        aa_file.write(f"{aa['atom_name']} {aa['residue_name']} {aa['residue_id']} {aa['x']} {aa['y']} {aa['z']}\n")

# Ghi file ligand
with open(ligand_output_path, 'w') as ligand_file:
    ligand_file.write("Atom_Type X Y Z\n")
    for ligand in ligand_data:
        ligand_file.write(f"{ligand['atom_type']} {ligand['x']} {ligand['y']} {ligand['z']}\n")

amino_acid_output_path, ligand_output_path


('amino_acids_coordinates.txt', 'ligand_coordinates.txt')