In [1]:
import pandas as pd


In [2]:

def find_similar_pockets_by_residues(file_path, target_residues_str):
    """
    Belirtilen kalıntı listesine en çok benzeyen cepleri bir CSV dosyasında bulur.

    Args:
        file_path (str): Cep verilerini içeren dosyanın yolu (ör. 'pockets_clustered.csv').
        target_residues_str (str): Aranan kalıntıların boşlukla ayrılmış metin dizisi.

    Returns:
        pd.DataFrame: Benzerlik puanlarına göre sıralanmış en benzer cepler.
    """
    try:
        df = pd.read_csv(file_path)
    except FileNotFoundError as e:
        return f"Hata: Dosya bulunamadı - {e}"

    # Hedef kalıntı listesini kümeye dönüştür
    target_residues = set(target_residues_str.split())
    print(f"Aranan kalıntı listesi: {target_residues}\n")
    
    similarity_scores = []
    
    # Dosyadaki her bir ceple karşılaştır
    for index, row in df.iterrows():
        # pockets_clustered.csv'de 'residues' sütunu boş olabilir, bu yüzden kontrol etmek faydalı.
        pocket_residues_str = str(row['residues'])
        if pocket_residues_str == 'nan':
            continue
            
        pocket_residues = set(pocket_residues_str.split())
        
        # Ortak kalıntıları bul
        common_residues = target_residues.intersection(pocket_residues)
        
        # Jaccard benzerlik skorunu hesapla
        union_residues = target_residues.union(pocket_residues)
        jaccard_score = len(common_residues) / len(union_residues) if len(union_residues) > 0 else 0
        
        similarity_scores.append({
            'File name': row['File name'],
            'Pocket Index': row['Frame_pocket_index'],
            'Common Residues Count': len(common_residues),
            'Common Residues': ' '.join(list(common_residues)),
            'Total Residues in Pocket': len(pocket_residues),
            "Target Residues Count": len(target_residues),
            'Jaccard Score': jaccard_score
        })

    # DataFrame'e dönüştür, en benzerleri en üste gelecek şekilde sırala
    df_scores = pd.DataFrame(similarity_scores)
    df_scores = df_scores.sort_values(by=['Common Residues Count', 'Jaccard Score'], ascending=False)
    
    return df_scores


In [None]:


file_path = 'pockets_clustered.csv'

#2rku_A_prod_R3_fit_4180.pdb için hedef kalıntılar
# Hedef kalıntı listesi (simulasyon ceplerinde bulunan en yüksek olasılığa sahip ceplerin kalıntıları)
target_residues_list = "A_100 A_140 A_142 A_144 A_147 A_158 A_160 A_161 A_178 A_180 A_23 A_24 A_25 A_26 A_27 A_28 A_29 A_31 A_44 A_46 A_61 A_62 A_65 A_78 A_94 A_95 A_96 A_97"
    
# Benzer cepleri bul ve yazdır
result = find_similar_pockets_by_residues(file_path, target_residues_list)
    
if isinstance(result, pd.DataFrame):
    print("Kalıntı listenle en çok örtüşen protein cepleri (en benzerden en aza sıralı):\n")
    print(result.head(10))
else:
    print(result)

Aranan kalıntı listesi: {'A_160', 'A_142', 'A_158', 'A_78', 'A_147', 'A_95', 'A_161', 'A_46', 'A_140', 'A_65', 'A_31', 'A_44', 'A_178', 'A_25', 'A_180', 'A_61', 'A_62', 'A_100', 'A_94', 'A_97', 'A_26', 'A_29', 'A_144', 'A_24', 'A_23', 'A_96', 'A_28', 'A_27'}

Kalıntı listenle en çok örtüşen protein cepleri (en benzerden en aza sıralı):

                File name Pocket Index  Common Residues Count  \
100  4A4L.pdb_predictions       4A4L_2                      6   
49   2YAC.pdb_predictions       2YAC_2                      5   
104  4J52.pdb_predictions       4J52_2                      5   
125  3FC2.pdb_predictions       3FC2_2                      5   
28   8BJT.pdb_predictions       8BJT_2                      5   
46   2OWB.pdb_predictions       2OWB_2                      5   
12   8X72.pdb_predictions       8X72_2                      5   
14   3KB7.pdb_predictions       3KB7_2                      5   
48   2YAC.pdb_predictions       2YAC_1                      5   
13   3KB7.p

In [5]:
#lets try it for another target residue list


file_path = 'pockets_clustered.csv'

#2rku_A_prod_R3_fit_3384.pdb için hedef kalıntılar
# Yeni hedef kalıntı listesi
target_residues_list = "A_100 A_103 A_106 A_107 A_140 A_142 A_143 A_144 A_147 A_158 A_160 A_161 A_178 A_180 A_181 A_207 A_211 A_213 A_216 A_23 A_24 A_25 A_26 A_27 A_28 A_29 A_31 A_44 A_46 A_61 A_65 A_78 A_94 A_95 A_96 A_97"
    
    # Benzer cepleri bul ve yazdır
result = find_similar_pockets_by_residues(file_path, target_residues_list)
    
if isinstance(result, pd.DataFrame):
    print("Yeni kalıntı listenle en çok örtüşen protein cepleri (en benzerden en aza sıralı):\n")
    print(result.head(10))
else:
    print(result)    

Aranan kalıntı listesi: {'A_160', 'A_142', 'A_158', 'A_78', 'A_103', 'A_147', 'A_95', 'A_161', 'A_46', 'A_140', 'A_65', 'A_31', 'A_44', 'A_178', 'A_107', 'A_216', 'A_180', 'A_25', 'A_61', 'A_213', 'A_100', 'A_211', 'A_143', 'A_181', 'A_207', 'A_94', 'A_97', 'A_26', 'A_29', 'A_144', 'A_24', 'A_23', 'A_96', 'A_28', 'A_106', 'A_27'}

Yeni kalıntı listenle en çok örtüşen protein cepleri (en benzerden en aza sıralı):

                File name Pocket Index  Common Residues Count  \
100  4A4L.pdb_predictions       4A4L_2                      5   
12   8X72.pdb_predictions       8X72_2                      5   
14   3KB7.pdb_predictions       3KB7_2                      5   
48   2YAC.pdb_predictions       2YAC_1                      5   
13   3KB7.pdb_predictions       3KB7_1                      5   
49   2YAC.pdb_predictions       2YAC_2                      4   
104  4J52.pdb_predictions       4J52_2                      4   
125  3FC2.pdb_predictions       3FC2_2                      4  