# Algoritmo Click
## Generacion de cliques
+ Se generan con biopandas para obtener los atomos de  CαCα  y sus coordenadas.
+ Se calcula la distancia y se genera un grafo completo con la distancia entre cada par de atomos.
+ Se restringen los enlaces por una distancia dada y se generan los cliques que tengas un numero k de elementos para pertencer al clique.
+ Una ves generados los cliques de cada proteina se extraen sus coordenadas para poderlas comparar

In [128]:
#libreria de analisis de datos y una caracterizacion para su facil lectura.
import pandas as pd
pd.set_option('display.float_format', lambda x: '%.5f' % x)
pd.set_option('max_rows', 100)
pd.set_option('max_columns', 40)
pd.set_option('display.max_colwidth', -1)
#libreria de generacion de rede y cliques
import networkx as nx,community

#libreria de visualizacion de datos y un formato dado
import matplotlib.pyplot as plt
plt.style.use('ggplot')
font = {'family' : 'sans',
        'weight' : 'bold',
        'size'   : 20}
plt.rc('font', **font)
plt.rcParams['xtick.labelsize'] = 16
plt.rcParams['axes.labelsize'] = 18
plt.rcParams['ytick.labelsize'] = 16
plt.rcParams[u'figure.figsize'] = (16,8)

#mas librerias que voy obteniendo
import biopandas.pdb as bp
biop = bp.PandasPdb() #libreria de lectura de pdbs

#libreria de calculo de distancia euclidiana
from scipy.spatial.distance import pdist, squareform

#libreria de mate
import numpy as np

#libreria de iteraciones
import itertools as it

#Libreria de MA para RMSD
import sys
sys.path.append('math_tricks/')
import math_vect_tools as mvt

#libreria para correr dssp desde bash
import subprocess as sp

#libreria para Parsear DSSP FIles
import DSSPData as dd

#Libreria de graficacion interactiva
# import plotly.plotly as py
# import plotly.graph_objs as go

In [129]:
# Aqui se cambiaria por los archivos a leer pdbs sin modificar
path1 = '1phr.pdb'
path2 = '1tig.pdb'

#funcion de lectura con biopandas
def read_biopdb(path):
    """Extrae las cordenadas de los atomos de C_alfa y los acomoda en un vector
    devuelve un dataframe con las coordenadas y el numero de residuo"""
    df = biop.read_pdb(path)
    df_atom = df.df['ATOM']
    #OJO AQUI ESTA ADECUADO AL PDB   para elegir solo un frame en trj_0 y trj_0_A [:1805]
    df_ca = df_atom[[
        'atom_number', 'atom_name', 'residue_name', 'residue_number',
        'x_coord', 'y_coord', 'z_coord'
    ]]
    columna_vector = []
    for i in zip(df_ca.x_coord.tolist(), df_ca.y_coord.tolist(),
                 df_ca.z_coord.tolist()):
        columna_vector.append(np.array(i))

    df_ca['vector'] = columna_vector
    return (df_ca)

In [130]:
#lectura de pdbs
df_ca1 = read_biopdb(path1)
df_ca2 = read_biopdb(path2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


In [131]:
df_ca1.head(5)

Unnamed: 0,atom_number,atom_name,residue_name,residue_number,x_coord,y_coord,z_coord,vector
0,1,N,VAL,4,0.072,49.471,46.574,"[0.072, 49.471, 46.574]"
1,2,CA,VAL,4,-1.152,49.045,47.247,"[-1.152, 49.045, 47.247]"
2,3,C,VAL,4,-1.722,48.076,46.226,"[-1.722, 48.076, 46.226]"
3,4,O,VAL,4,-1.897,46.912,46.572,"[-1.897, 46.912, 46.572]"
4,5,CB,VAL,4,-2.146,50.188,47.515,"[-2.146, 50.188, 47.515]"


In [132]:
#se calcula la distancia entre cada par de nodos.
def distancia_entre_atomos(df_ca):
    """df_ca: Dataframe con coordenadas de los atomos alfa, devuelve otro DataFrame
    df_da: Dataframe como una matriz de adyacencias donde el valor es la distancia"""
    df_ca = df_ca[df_ca.atom_name == 'CA']
    distancias = []
    #se calcula la distancia euclidiana entre cada atomo de carbon alfalfa
    for v,i in zip(df_ca.vector,df_ca.atom_number):
        distancia_un_atomo = []
        for av,j in zip(df_ca.vector,df_ca.atom_number):
            distancia = pdist([v,av],metric='euclidean').item()
            distancia_un_atomo.append(distancia)
        distancias.append(distancia_un_atomo)
    #se genera la matriz de adyacencias para la red
    df_da = pd.DataFrame(index=df_ca.atom_number,columns=df_ca.atom_number,
                         data=distancias)
    return(df_da)

In [133]:
#generacion de matriz de adyacencias
df_da1 = distancia_entre_atomos(df_ca1)
df_da2 = distancia_entre_atomos(df_ca2)
#podriamos solo mantener la matriz diagonal y dejarla como un array de arrays

In [134]:
def gen_3_cliques(df_da, dth = 10, k=3):
    """Genera n-cliques de dataframe de distancias, tomando en cuenta los enlaces menores o iguales
    a dth y forma los k-cliques que elijas 
    valores por default:
    dth=10, k=3"""
    #red de distancias completa
    red = nx.from_pandas_adjacency(df_da)
#     print("red antes de filtros:",nx.info(red))

    #filtro de distancias
    edgesstrong = [(u,v) for (u,v,d) in red.edges(data=True) if d["weight"] <= dth]

    red = nx.Graph(edgesstrong)
#     print("=="*20)
#     print("red despues de filtros:",nx.info(red))

    n_cliques = [clq for clq in nx.find_cliques(red) if len(clq) >=k]
    print('numero de cliques maximos encontrados:',len(n_cliques))

    lista_cliques = []
    for i,v in enumerate(n_cliques):
        a = list(it.combinations(v,k))
        for j in a:
            if set(j) not in lista_cliques:
                #recuerda que para comparar elementos utiliza set, y apilalos como set
                lista_cliques.append(set(j))

    df_lc = pd.DataFrame(lista_cliques)            
    print("numero de %s-cliques posibles:" % (k), df_lc.shape[0])
    return(df_lc)

In [171]:
df_lc1 = gen_3_cliques(df_da1,dth = 10, k=3)
print('--'*59)
df_lc2 = gen_3_cliques(df_da2,dth = 10, k=3)

numero de cliques maximos encontrados: 419
numero de 3-cliques posibles: 4480
----------------------------------------------------------------------------------------------------------------------
numero de cliques maximos encontrados: 246
numero de 3-cliques posibles: 2102


## Calculo del SSM
Para calcular la estructura secundaria, es necesario obtener los angulos dihedrales Phi y Psi, y posteriormente empalmarlo con el diagrama de Ramachandran y observar en que clasificacion cae, donde para fines practicos solo se utilizaran 3 estructuras:
    + alfa helices
    + beta laminas
    + coil cualquier otra estructura no definida
    
Para obtener C, $\alpha$, $\beta$ con:
   + $\Phi$
   + $\Psi$
1. Matriz de comparacion de Estructura Secundaria (SSM)
2. Solvente Accesible (SAM)

### DSSP
desde bash y se extrae la estructura secundaria.

__Que siempre si se utiliza este...__

Para comparar resultados se utiliza este !!!

Diccionario DSSP
<img src='ss.jpeg'/>

In [186]:
def mini_dssp(path,df_ca):
    #ejecuto dssp desde bash y guardo archivo como output.log
    sp.run(['dssp','-i',path,'-o','output.log'])
    #parseo el dssp file
    dd_ob = dd.DSSPData()
    dssp_file_name = open('output.log')
    dd_ob.parseDSSP( 'output.log' )
    #obtengo la estructura y la guardo, posible no es necesario los residuos
    #solo el numero de atomo que le pego arbitrariamente REVISAR si esta bien
    ss = [i[2] for i in dd_ob.struct]
    ss = pd.DataFrame([i for i in zip(ss,dd_ob.resnum)])
    ss.columns = ['pre_ss','residue_number']
    ss = ss[ss.residue_number != ''].reset_index(drop=True)
    ss['atom_number'] = df_ca[df_ca.atom_name == 'CA'].atom_number.values
    #catalogo  Yo tomo B y E como betas, G H I como alfa y lo demás como coil 
    #B - betas 
    #H - alfas
    ss['structure'] = np.where(ss.pre_ss.isin(['B','E']),'B',
                               np.where(ss.pre_ss.isin(['G','H','I']),'H',
                                        'C'))
    #checks
    print(ss.structure.value_counts(normalize = True) * 100)
    print(path)
    return(ss)

In [187]:
ss1 = mini_dssp(path1,df_ca1)
print('//'*40)
ss2 = mini_dssp(path2,df_ca2)

H   43.50649
C   41.55844
B   14.93506
Name: structure, dtype: float64
1phr.pdb
////////////////////////////////////////////////////////////////////////////////
H   35.22727
B   35.22727
C   29.54545
Name: structure, dtype: float64
1tig.pdb


In [188]:
#funcion para obtener las coordenadas del clique
def get_SS(ss,df_lc):
    """
    """
    #lista para apilar las estructuras
    c1 = []
    c2 = []
    c3 = []

    for i in df_lc.index:
        #si coincide el numero de atomo con el numero de atomo del clique le coloca el vector de coordenadas
        c1_temp = np.array(ss[ss.atom_number==df_lc.iloc[i,0]].structure.values[0])
        c2_temp = np.array(ss[ss.atom_number==df_lc.iloc[i,1]].structure.values[0])
        c3_temp = np.array(ss[ss.atom_number==df_lc.iloc[i,2]].structure.values[0])

        c1.append(c1_temp)
        c2.append(c2_temp)
        c3.append(c3_temp)

    df_lc['ss_0'] = c1
    df_lc['ss_1'] = c2
    df_lc['ss_2'] = c3
    
    #columna con coordenadas del clique
    return(df_lc)

In [194]:
df_lc1 = get_SS(ss1,df_lc1)
df_lc2 = get_SS(ss2,df_lc2)

In [216]:
for i in df_lc1.index:
    print(list(it.permutations(df_lc1[[0,1,2]].values[i],3)))

[(121, 514, 431), (121, 431, 514), (514, 121, 431), (514, 431, 121), (431, 121, 514), (431, 514, 121)]
[(121, 514, 507), (121, 507, 514), (514, 121, 507), (514, 507, 121), (507, 121, 514), (507, 514, 121)]
[(121, 514, 393), (121, 393, 514), (514, 121, 393), (514, 393, 121), (393, 121, 514), (393, 514, 121)]
[(121, 514, 387), (121, 387, 514), (514, 121, 387), (514, 387, 121), (387, 121, 514), (387, 514, 121)]
[(514, 507, 431), (514, 431, 507), (507, 514, 431), (507, 431, 514), (431, 514, 507), (431, 507, 514)]
[(393, 514, 431), (393, 431, 514), (514, 393, 431), (514, 431, 393), (431, 393, 514), (431, 514, 393)]
[(514, 387, 431), (514, 431, 387), (387, 514, 431), (387, 431, 514), (431, 514, 387), (431, 387, 514)]
[(393, 514, 507), (393, 507, 514), (514, 393, 507), (514, 507, 393), (507, 393, 514), (507, 514, 393)]
[(514, 507, 387), (514, 387, 507), (507, 514, 387), (507, 387, 514), (387, 514, 507), (387, 507, 514)]
[(393, 514, 387), (393, 387, 514), (514, 393, 387), (514, 387, 393), (387

[(121, 90, 538), (121, 538, 90), (90, 121, 538), (90, 538, 121), (538, 121, 90), (538, 90, 121)]
[(121, 90, 393), (121, 393, 90), (90, 121, 393), (90, 393, 121), (393, 121, 90), (393, 90, 121)]
[(121, 90, 387), (121, 387, 90), (90, 121, 387), (90, 387, 121), (387, 121, 90), (387, 90, 121)]
[(121, 82, 538), (121, 538, 82), (82, 121, 538), (82, 538, 121), (538, 121, 82), (538, 82, 121)]
[(121, 82, 393), (121, 393, 82), (82, 121, 393), (82, 393, 121), (393, 121, 82), (393, 82, 121)]
[(121, 82, 387), (121, 387, 82), (82, 121, 387), (82, 387, 121), (387, 121, 82), (387, 82, 121)]
[(529, 307, 519), (529, 519, 307), (307, 529, 519), (307, 519, 529), (519, 529, 307), (519, 307, 529)]
[(529, 313, 519), (529, 519, 313), (313, 529, 519), (313, 519, 529), (519, 529, 313), (519, 313, 529)]
[(90, 307, 519), (90, 519, 307), (307, 90, 519), (307, 519, 90), (519, 90, 307), (519, 307, 90)]
[(313, 90, 519), (313, 519, 90), (90, 313, 519), (90, 519, 313), (519, 313, 90), (519, 90, 313)]
[(82, 307, 519), (

[(426, 1006, 1055), (426, 1055, 1006), (1006, 426, 1055), (1006, 1055, 426), (1055, 426, 1006), (1055, 1006, 426)]
[(426, 1006, 999), (426, 999, 1006), (1006, 426, 999), (1006, 999, 426), (999, 426, 1006), (999, 1006, 426)]
[(426, 1006, 415), (426, 415, 1006), (1006, 426, 415), (1006, 415, 426), (415, 426, 1006), (415, 1006, 426)]
[(25, 38, 31), (25, 31, 38), (38, 25, 31), (38, 31, 25), (31, 25, 38), (31, 38, 25)]
[(25, 299, 31), (25, 31, 299), (299, 25, 31), (299, 31, 25), (31, 25, 299), (31, 299, 25)]
[(25, 628, 38), (25, 38, 628), (628, 25, 38), (628, 38, 25), (38, 25, 628), (38, 628, 25)]
[(25, 299, 38), (25, 38, 299), (299, 25, 38), (299, 38, 25), (38, 25, 299), (38, 299, 25)]
[(25, 291, 38), (25, 38, 291), (291, 25, 38), (291, 38, 25), (38, 25, 291), (38, 291, 25)]
[(25, 284, 38), (25, 38, 284), (284, 25, 38), (284, 38, 25), (38, 25, 284), (38, 284, 25)]
[(25, 299, 628), (25, 628, 299), (299, 25, 628), (299, 628, 25), (628, 25, 299), (628, 299, 25)]
[(25, 299, 291), (25, 291, 299

[(322, 317, 543), (322, 543, 317), (317, 322, 543), (317, 543, 322), (543, 322, 317), (543, 317, 322)]
[(322, 563, 543), (322, 543, 563), (563, 322, 543), (563, 543, 322), (543, 322, 563), (543, 563, 322)]
[(313, 322, 543), (313, 543, 322), (322, 313, 543), (322, 543, 313), (543, 313, 322), (543, 322, 313)]
[(329, 554, 335), (329, 335, 554), (554, 329, 335), (554, 335, 329), (335, 329, 554), (335, 554, 329)]
[(329, 554, 82), (329, 82, 554), (554, 329, 82), (554, 82, 329), (82, 329, 554), (82, 554, 329)]
[(329, 554, 317), (329, 317, 554), (554, 329, 317), (554, 317, 329), (317, 329, 554), (317, 554, 329)]
[(329, 554, 563), (329, 563, 554), (554, 329, 563), (554, 563, 329), (563, 329, 554), (563, 554, 329)]
[(329, 554, 313), (329, 313, 554), (554, 329, 313), (554, 313, 329), (313, 329, 554), (313, 554, 329)]
[(329, 554, 322), (329, 322, 554), (554, 329, 322), (554, 322, 329), (322, 329, 554), (322, 554, 329)]
[(329, 82, 335), (329, 335, 82), (82, 329, 335), (82, 335, 329), (335, 329, 82)

[(64, 57, 720), (64, 720, 57), (57, 64, 720), (57, 720, 64), (720, 64, 57), (720, 57, 64)]
[(64, 57, 712), (64, 712, 57), (57, 64, 712), (57, 712, 64), (712, 64, 57), (712, 57, 64)]
[(720, 57, 712), (720, 712, 57), (57, 720, 712), (57, 712, 720), (712, 720, 57), (712, 57, 720)]
[(64, 322, 675), (64, 675, 322), (322, 64, 675), (322, 675, 64), (675, 64, 322), (675, 322, 64)]
[(720, 322, 675), (720, 675, 322), (322, 720, 675), (322, 675, 720), (675, 720, 322), (675, 322, 720)]
[(712, 322, 675), (712, 675, 322), (322, 712, 675), (322, 675, 712), (675, 712, 322), (675, 322, 712)]
[(64, 675, 720), (64, 720, 675), (675, 64, 720), (675, 720, 64), (720, 64, 675), (720, 675, 64)]
[(64, 675, 712), (64, 712, 675), (675, 64, 712), (675, 712, 64), (712, 64, 675), (712, 675, 64)]
[(720, 675, 712), (720, 712, 675), (675, 720, 712), (675, 712, 720), (712, 720, 675), (712, 675, 720)]
[(64, 322, 720), (64, 720, 322), (322, 64, 720), (322, 720, 64), (720, 64, 322), (720, 322, 64)]
[(64, 322, 712), (64, 71

[(667, 659, 46), (667, 46, 659), (659, 667, 46), (659, 46, 667), (46, 667, 659), (46, 659, 667)]
[(307, 667, 659), (307, 659, 667), (667, 307, 659), (667, 659, 307), (659, 307, 667), (659, 667, 307)]
[(667, 659, 38), (667, 38, 659), (659, 667, 38), (659, 38, 667), (38, 667, 659), (38, 659, 667)]
[(57, 667, 861), (57, 861, 667), (667, 57, 861), (667, 861, 57), (861, 57, 667), (861, 667, 57)]
[(57, 861, 46), (57, 46, 861), (861, 57, 46), (861, 46, 57), (46, 57, 861), (46, 861, 57)]
[(57, 861, 38), (57, 38, 861), (861, 57, 38), (861, 38, 57), (38, 57, 861), (38, 861, 57)]
[(675, 667, 861), (675, 861, 667), (667, 675, 861), (667, 861, 675), (861, 675, 667), (861, 667, 675)]
[(675, 861, 46), (675, 46, 861), (861, 675, 46), (861, 46, 675), (46, 675, 861), (46, 861, 675)]
[(675, 861, 38), (675, 38, 861), (861, 675, 38), (861, 38, 675), (38, 675, 861), (38, 861, 675)]
[(667, 861, 46), (667, 46, 861), (861, 667, 46), (861, 46, 667), (46, 667, 861), (46, 861, 667)]
[(667, 659, 861), (667, 861, 6

[(570, 603, 747), (570, 747, 603), (603, 570, 747), (603, 747, 570), (747, 570, 603), (747, 603, 570)]
[(570, 747, 774), (570, 774, 747), (747, 570, 774), (747, 774, 570), (774, 570, 747), (774, 747, 570)]
[(577, 563, 774), (577, 774, 563), (563, 577, 774), (563, 774, 577), (774, 577, 563), (774, 563, 577)]
[(577, 563, 747), (577, 747, 563), (563, 577, 747), (563, 747, 577), (747, 577, 563), (747, 563, 577)]
[(603, 563, 774), (603, 774, 563), (563, 603, 774), (563, 774, 603), (774, 603, 563), (774, 563, 603)]
[(603, 563, 747), (603, 747, 563), (563, 603, 747), (563, 747, 603), (747, 603, 563), (747, 563, 603)]
[(563, 774, 747), (563, 747, 774), (774, 563, 747), (774, 747, 563), (747, 563, 774), (747, 774, 563)]
[(577, 603, 774), (577, 774, 603), (603, 577, 774), (603, 774, 577), (774, 577, 603), (774, 603, 577)]
[(577, 603, 747), (577, 747, 603), (603, 577, 747), (603, 747, 577), (747, 577, 603), (747, 603, 577)]
[(577, 747, 774), (577, 774, 747), (747, 577, 774), (747, 774, 577), (774

[(603, 659, 847), (603, 847, 659), (659, 603, 847), (659, 847, 603), (847, 603, 659), (847, 659, 603)]
[(603, 38, 847), (603, 847, 38), (38, 603, 847), (38, 847, 603), (847, 603, 38), (847, 38, 603)]
[(647, 603, 847), (647, 847, 603), (603, 647, 847), (603, 847, 647), (847, 647, 603), (847, 603, 647)]
[(603, 628, 639), (603, 639, 628), (628, 603, 639), (628, 639, 603), (639, 603, 628), (639, 628, 603)]
[(603, 628, 659), (603, 659, 628), (628, 603, 659), (628, 659, 603), (659, 603, 628), (659, 628, 603)]
[(603, 628, 38), (603, 38, 628), (628, 603, 38), (628, 38, 603), (38, 603, 628), (38, 628, 603)]
[(603, 628, 647), (603, 647, 628), (628, 603, 647), (628, 647, 603), (647, 603, 628), (647, 628, 603)]
[(603, 659, 639), (603, 639, 659), (659, 603, 639), (659, 639, 603), (639, 603, 659), (639, 659, 603)]
[(603, 38, 639), (603, 639, 38), (38, 603, 639), (38, 639, 603), (639, 603, 38), (639, 38, 603)]
[(647, 603, 639), (647, 639, 603), (603, 647, 639), (603, 639, 647), (639, 647, 603), (639,

[(603, 852, 639), (603, 639, 852), (852, 603, 639), (852, 639, 603), (639, 603, 852), (639, 852, 603)]
[(603, 659, 852), (603, 852, 659), (659, 603, 852), (659, 852, 603), (852, 603, 659), (852, 659, 603)]
[(603, 852, 861), (603, 861, 852), (852, 603, 861), (852, 861, 603), (861, 603, 852), (861, 852, 603)]
[(852, 847, 647), (852, 647, 847), (847, 852, 647), (847, 647, 852), (647, 852, 847), (647, 847, 852)]
[(628, 852, 647), (628, 647, 852), (852, 628, 647), (852, 647, 628), (647, 628, 852), (647, 852, 628)]
[(639, 852, 647), (639, 647, 852), (852, 639, 647), (852, 647, 639), (647, 639, 852), (647, 852, 639)]
[(659, 852, 647), (659, 647, 852), (852, 659, 647), (852, 647, 659), (647, 659, 852), (647, 852, 659)]
[(852, 861, 647), (852, 647, 861), (861, 852, 647), (861, 647, 852), (647, 852, 861), (647, 861, 852)]
[(628, 852, 847), (628, 847, 852), (852, 628, 847), (852, 847, 628), (847, 628, 852), (847, 852, 628)]
[(639, 852, 847), (639, 847, 852), (852, 639, 847), (852, 847, 639), (847

[(886, 958, 966), (886, 966, 958), (958, 886, 966), (958, 966, 886), (966, 886, 958), (966, 958, 886)]
[(886, 949, 966), (886, 966, 949), (949, 886, 966), (949, 966, 886), (966, 886, 949), (966, 949, 886)]
[(894, 974, 1118), (894, 1118, 974), (974, 894, 1118), (974, 1118, 894), (1118, 894, 974), (1118, 974, 894)]
[(886, 974, 1118), (886, 1118, 974), (974, 886, 1118), (974, 1118, 886), (1118, 886, 974), (1118, 974, 886)]
[(958, 974, 1118), (958, 1118, 974), (974, 958, 1118), (974, 1118, 958), (1118, 958, 974), (1118, 974, 958)]
[(974, 1118, 949), (974, 949, 1118), (1118, 974, 949), (1118, 949, 974), (949, 974, 1118), (949, 1118, 974)]
[(894, 886, 974), (894, 974, 886), (886, 894, 974), (886, 974, 894), (974, 894, 886), (974, 886, 894)]
[(894, 958, 974), (894, 974, 958), (958, 894, 974), (958, 974, 894), (974, 894, 958), (974, 958, 894)]
[(894, 949, 974), (894, 974, 949), (949, 894, 974), (949, 974, 894), (974, 894, 949), (974, 949, 894)]
[(894, 966, 974), (894, 974, 966), (966, 894, 974

[(121, 155, 150), (121, 150, 155), (155, 121, 150), (155, 150, 121), (150, 121, 155), (150, 155, 121)]
[(128, 393, 507), (128, 507, 393), (393, 128, 507), (393, 507, 128), (507, 128, 393), (507, 393, 128)]
[(393, 426, 507), (393, 507, 426), (426, 393, 507), (426, 507, 393), (507, 393, 426), (507, 426, 393)]
[(128, 121, 46), (128, 46, 121), (121, 128, 46), (121, 46, 128), (46, 128, 121), (46, 121, 128)]
[(128, 121, 141), (128, 141, 121), (121, 128, 141), (121, 141, 128), (141, 128, 121), (141, 121, 128)]
[(128, 115, 46), (128, 46, 115), (115, 128, 46), (115, 46, 128), (46, 128, 115), (46, 115, 128)]
[(128, 104, 46), (128, 46, 104), (104, 128, 46), (104, 46, 128), (46, 128, 104), (46, 104, 128)]
[(128, 307, 46), (128, 46, 307), (307, 128, 46), (307, 46, 128), (46, 128, 307), (46, 307, 128)]
[(128, 307, 136), (128, 136, 307), (307, 128, 136), (307, 136, 128), (136, 128, 307), (136, 307, 128)]
[(128, 307, 141), (128, 141, 307), (307, 128, 141), (307, 141, 128), (141, 128, 307), (141, 307, 

[(232, 215, 223), (232, 223, 215), (215, 232, 223), (215, 223, 232), (223, 232, 215), (223, 215, 232)]
[(184, 499, 487), (184, 487, 499), (499, 184, 487), (499, 487, 184), (487, 184, 499), (487, 499, 184)]
[(184, 491, 487), (184, 487, 491), (491, 184, 487), (491, 487, 184), (487, 184, 491), (487, 491, 184)]
[(487, 499, 491), (487, 491, 499), (499, 487, 491), (499, 491, 487), (491, 487, 499), (491, 499, 487)]
[(728, 697, 689), (728, 689, 697), (697, 728, 689), (697, 689, 728), (689, 728, 697), (689, 697, 728)]
[(712, 697, 689), (712, 689, 697), (697, 712, 689), (697, 689, 712), (689, 712, 697), (689, 697, 712)]
[(720, 697, 689), (720, 689, 697), (697, 720, 689), (697, 689, 720), (689, 720, 697), (689, 697, 720)]
[(697, 706, 689), (697, 689, 706), (706, 697, 689), (706, 689, 697), (689, 697, 706), (689, 706, 697)]
[(728, 697, 712), (728, 712, 697), (697, 728, 712), (697, 712, 728), (712, 728, 697), (712, 697, 728)]
[(728, 697, 720), (728, 720, 697), (697, 728, 720), (697, 720, 728), (720

[(681, 966, 886), (681, 886, 966), (966, 681, 886), (966, 886, 681), (886, 681, 966), (886, 966, 681)]
[(886, 974, 878), (886, 878, 974), (974, 886, 878), (974, 878, 886), (878, 886, 974), (878, 974, 886)]
[(886, 966, 878), (886, 878, 966), (966, 886, 878), (966, 878, 886), (878, 886, 966), (878, 966, 886)]
[(675, 974, 886), (675, 886, 974), (974, 675, 886), (974, 886, 675), (886, 675, 974), (886, 974, 675)]
[(675, 966, 886), (675, 886, 966), (966, 675, 886), (966, 886, 675), (886, 675, 966), (886, 966, 675)]
[(689, 958, 894), (689, 894, 958), (958, 689, 894), (958, 894, 689), (894, 689, 958), (894, 958, 689)]
[(681, 958, 894), (681, 894, 958), (958, 681, 894), (958, 894, 681), (894, 681, 958), (894, 958, 681)]
[(689, 958, 886), (689, 886, 958), (958, 689, 886), (958, 886, 689), (886, 689, 958), (886, 958, 689)]
[(681, 958, 886), (681, 886, 958), (958, 681, 886), (958, 886, 681), (886, 681, 958), (886, 958, 681)]
[(898, 966, 894), (898, 894, 966), (966, 898, 894), (966, 894, 898), (894

### DSSP A MANO 
sin puentes de hidrogeno solo por Ramachandran Plot y filtros feeling

__QUE SIEMPRE NO SE UTILIZA ESTE__

In [48]:
#se genera un dataset con solo los atomos de interes para obtener la estructura
df_dh1 = df_ca1[df_ca1.atom_name.isin(['N','CA','C',])].reset_index()
df_dh2 = df_ca2[df_ca2.atom_name.isin(['N','CA','C',])].reset_index()

In [331]:
def calculate_phi_psi(df_dh):
    #calculo de Phi observar el orden que es C--N--CA--C
    index_atom_number = []
    # index_phi = []
    angulos_phi = []
    append = angulos_phi.append
    valores = df_dh.vector.values
    dihedral = mvt.dihedral
    nombres = df_dh.atom_name
    for i in range(df_dh.shape[0]-3):
        if i == 0: # COMO NO TIENE CON QUIEN COMPARAR SE AGREGA QUE EL PRIMERO COMIENCE A 360 GRADOS
            append(360.0)

        elif (nombres[i] == 'C') and (nombres[i+1] == 'N') and (nombres[i+2] == 'CA') and (nombres[i+3] == 'C'):
    #         index_phi.append(df_dh1.residue_number.values[i])
            index_atom_number.append(df_dh.atom_number.values[i]-1)
            append(dihedral(valores[i],valores[i+1],valores[i+2],valores[i+3]))

    # index_phi.append(df_dh1.residue_number.values[-1])
    index_atom_number.append(df_dh.atom_number.values[-1]-1)
    
    #Calculo de psi con el orden N--CA--C--N
    angulos_psi = []
    append = angulos_psi.append
    valores = df_dh.vector.values
    dihedral = mvt.dihedral
    nombres = df_dh.atom_name
    for i in range(df_dh.shape[0]-3):
            if (nombres[i] == 'N') and (nombres[i+1] == 'CA') and (nombres[i+2] == 'C') and (nombres[i+3] == 'N'):
                append(dihedral(valores[i],valores[i+1],valores[i+2],valores[i+3]))
                
    angulos = pd.DataFrame([angulos_phi,angulos_psi]).T
    angulos.columns = ['phi','psi']
    angulos.phi = np.where(angulos.phi > 180, angulos.phi - 360, angulos.phi)
    angulos.psi = np.where(angulos.psi > 180, angulos.psi - 360, angulos.psi)
    angulos.replace( 0, 360, inplace = True)
    angulos['atom_number'] = index_atom_number
    angulos.fillna(360.0, inplace=True)
    return(angulos)

In [332]:
angulos1 = calculate_phi_psi(df_dh1)
angulos2 = calculate_phi_psi(df_dh2)

In [333]:
# #Calculo de psi con el orden N--CA--C--N
# angulos_psi = []
# append = angulos_psi.append
# valores = df_dh1.vector.values
# dihedral = mvt.dihedral
# nombres = df_dh1.atom_name
# for i in range(df_dh1.shape[0]-3):
#         if (nombres[i] == 'N') and (nombres[i+1] == 'CA') and (nombres[i+2] == 'C') and (nombres[i+3] == 'N'):
#             append(dihedral(valores[i],valores[i+1],valores[i+2],valores[i+3]))

In [334]:
# SE REVISAN LOS ANGULOS QUE SEAN ADECUADOS
# SE CHECO UTILIZANDO DSSP ONLINE Y SI DAN LOS ANGULOS
#AHORA FALTA GENERAR O UN CATALOGO O EMPALMAR EL RAMACHANDRAN PLOT PARA
#OBTENER LA ESTRUCTURA SECUNDARIA
# angulos = pd.DataFrame([angulos_phi,angulos_psi]).T
# angulos.columns = ['phi','psi']
# angulos.phi = np.where(angulos.phi > 180, angulos.phi - 360, angulos.phi)
# angulos.psi = np.where(angulos.psi > 180, angulos.psi - 360, angulos.psi)
# angulos.replace( 0, 360, inplace = True)
# angulos['atom_number'] = index_atom_number
# angulos.fillna(360.0, inplace=True)

In [335]:
# siguiendo el catalogo de: https://www.researchgate.net/publication/220777003_Protein_Secondary_Structure_Prediction_Based_on_Ramachandran_Maps
#crearemos el catalogo para la SS
# para alfa-helice tienen que caer los puntos dentro del circulo de radio 7 con centro en (-63,-45)
# def inside_circle(x,y):
#     R = 7
#     x_center = -63.0
#     y_center = -45.0
#     distancia = np.sqrt((x - (x_center))**2 + (y - (y_center))**2)
#     return(distancia <= R)

# boolean_list_alfa_circle =  np.where(inside_circle(angulos.phi,angulos.psi),1,0)

In [336]:
# def inside_alfa_helix(x,y):
#     esta_en_x = -75.0 <= x <= -45.0
#     esta_en_y = -60.0 <= y <= -30.0
#     boolean = esta_en_x and esta_en_y
#     return(boolean)

# boolean_list_alfa = []
# for i in angulos.index:
#     resultado = inside_alfa_helix(angulos.phi[i],angulos.psi[i])
#     boolean_list_alfa.append(resultado)
    
# boolean_list_alfa = np.array(boolean_list_alfa) * 1

In [337]:
# def inside_beta_sheets(x,y):
#     esta_en_x = -180.0 <= x <= -105.0
#     esta_en_y = 120.0 <= y <= 180.0
#     boolean = esta_en_x and esta_en_y
#     return(boolean)

# boolean_list_beta = []
# for i in angulos.index:
#     resultado = inside_beta_sheets(angulos.phi[i],angulos.psi[i])
#     boolean_list_beta.append(resultado)
    
# boolean_list_beta = np.array(boolean_list_beta) * 1

In [338]:
def secundary_structure(angulos,df_ca):
    #alfa helices
    def inside_circle(x,y):
        R = 7
        x_center = -63.0
        y_center = -45.0
        distancia = np.sqrt((x - (x_center))**2 + (y - (y_center))**2)
        return(distancia <= R)

    boolean_list_alfa_circle =  np.where(inside_circle(angulos.phi,angulos.psi),1,0)
    #mas alfa helices
    def inside_alfa_helix(x,y):
        esta_en_x = -75.0 <= x <= -45.0
        esta_en_y = -60.0 <= y <= -30.0
        boolean = esta_en_x and esta_en_y
        return(boolean)

    boolean_list_alfa = []
    for i in angulos.index:
        resultado = inside_alfa_helix(angulos.phi[i],angulos.psi[i])
        boolean_list_alfa.append(resultado)
    
    boolean_list_alfa = np.array(boolean_list_alfa) * 1
    #beta sheets
    def inside_beta_sheets(x,y):
        esta_en_x = -180.0 <= x <= -105.0
        esta_en_y = 120.0 <= y <= 180.0
        boolean = esta_en_x and esta_en_y
        return(boolean)

    boolean_list_beta = []
    for i in angulos.index:
        resultado = inside_beta_sheets(angulos.phi[i],angulos.psi[i])
        boolean_list_beta.append(resultado)
    
    boolean_list_beta = np.array(boolean_list_beta) * 1
    #generacion de dataframe structure
    structure = pd.DataFrame([boolean_list_alfa_circle,
                              boolean_list_alfa,
                              boolean_list_beta]).T
    structure.columns = ['alfa_circulo','alfa_helice','beta_sheets']
    structure['SS'] = np.where(structure.alfa_circulo == 1,'alfa_circulo',
                              np.where(structure.alfa_helice == 1,'alfa_helice',
                                 np.where(structure.beta_sheets == 1,'beta_sheets','COIL')))
    angulos['SS'] = np.where(structure.SS.isin(['alfa_circulo','alfa_helice']),'H',
                             np.where(structure.SS == 'beta_sheets','E','C'))
    # # H -- ALFA HELIX
    # # E -- BETA SHEETS
    # # C -- COIL
#     print(angulos.SS.value_counts(normalize = True) * 100)
    df_ca = df_ca.merge(angulos[['atom_number','SS']], 
                        how='left',on='atom_number')
    return(df_ca)

In [339]:
#calculo de SS y pegado
df_ca1 = secundary_structure(angulos1,df_ca1)
df_ca2 = secundary_structure(angulos2,df_ca2)

In [342]:
#check de SS
df_ca1.SS.value_counts(normalize=True)*100

C   52.91375
E   24.24242
H   22.84382
Name: SS, dtype: float64

In [287]:
%%timeit
secundary_structure(angulos1,df_ca1)

50.6 ms ± 2.16 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Checks de Estructura secundaria
Para generar los checks correr el codigo sin funciones

In [288]:
# structure.SS.value_counts(normalize = True) * 100

In [289]:
# angulos['SS'] = np.where(structure.SS.isin(['alfa_circulo','alfa_helice']),'H',
#                          np.where(structure.SS == 'beta_sheets','E','C'))
# # # H -- ALFA HELIX
# # # E -- BETA SHEETS
# # # C -- COIL
# angulos.SS.value_counts(normalize = True) * 100

In [290]:
# angulos['color_SS'] = np.where(angulos.SS == 'H','r',
#                                np.where(angulos.SS == 'E','navy','g'))

# angulos[['atom_number','SS']]

In [198]:
# #Metodologia wiki
# #alfa helice (−90°, −15°) to (−35°, −70°) ROJO
# #betta (–135°, 135°) to (–180°, 180°) NAVY

In [292]:
# #RAMACHANDRAN PLOT SOLO ANGULOS
# angulos.plot.scatter('phi','psi', title='Ramachandran Plot', 
#                      c = angulos.color_SS.values.tolist(),
#                      marker = 'x',
#                      alpha=0.6, figsize=(10,10), s=80
#                     )
# limite1,limite2 = -190,190
# plt.xlim(limite1,limite2)
# plt.ylim(limite1,limite2);

In [9]:
#funcion para obtener las coordenadas del clique
def get_coord_clique(df_ca,df_lc):
    """df_ca:DataFrame con coordenadas de carbonos alfa,
    df_lc:Dataframe con cliques, si coincide el numero del atomo
    le pega su coordenada y genera una matriz de vectores que contiene 
    las coordenadas de cada atomo ordenado de izquierda a derecha como 
    aparecen en df_lc"""
    lista_matriz_coordendas = [] #lista para apilar las coordenadas
    x = []
    y = []
    z = []

    for i in df_lc.index:
        #si coincide el numero de atomo con el numero de atomo del clique le coloca el vector de coordenadas
        x_temp = np.array(df_ca[df_ca.atom_number==df_lc.iloc[i,0]].vector.values[0])
        y_temp = np.array(df_ca[df_ca.atom_number==df_lc.iloc[i,1]].vector.values[0])
        z_temp = np.array(df_ca[df_ca.atom_number==df_lc.iloc[i,2]].vector.values[0])
        mat_dist = [x_temp,y_temp,z_temp]

        x.append(x_temp)
        y.append(y_temp)
        z.append(z_temp)
        lista_matriz_coordendas.append(mat_dist)

    df_lc['coord_clique_0'] = x
    df_lc['coord_clique_1'] = y
    df_lc['coord_clique_2'] = z
    df_lc['matriz_coordenadas'] = lista_matriz_coordendas #columna con coordenadas del clique
    return(df_lc)

In [10]:
#pegado de coordendas
df_lc1 = get_coord_clique(df_ca1,df_lc1)
df_lc2 = get_coord_clique(df_ca2,df_lc2)

## Comparacion de cliques
Para obtener el __RMSD__ es necesario primero rotar y trasladar un atomo con respecto al atomo a comparar (de la otra proteina) y calcular el __RMSD__.

Siguiendo al metodologia en *Using quaternions to calculate RMSD*.
Se generan las funciones de traslado y rotacion.

### Traslacion
Se calcula el baricentro de cada clique en ambas moleculas y se generan nuevos vectores que van del baricentro al atomo llamados $\hat{x}$.

El baricentro se calcula como $\bar{x} =$($\frac{(x_1 + x_2 + x_3)}{3}$,$\frac{(y_1 + y_2 + y_3)}{3}$,$\frac{(z_1 + z_2 + z_3)}{3}$)

$\hat{x} = x_k - \bar{x}$

In [11]:
# funcion de calculo de baricentro
def baricenter_clique(df_lc):
    """se calcula el baricentro de cada clique 
    siguiendo la formula de arriba.
    df_lc: Dataframe con los cliques y coordenadas
    regresa
    df_lc:Dataframe con el baricentro de ese clique"""
    coord_center = []
    for i in range(df_lc.shape[0]):
        #se extrae las coordenadas de los atomos
        A = df_lc.coord_clique_0[i]
        B = df_lc.coord_clique_1[i]
        C = df_lc.coord_clique_2[i]
        #se calcula el punto promedio
        x1 = round((A[0]+B[0]+C[0])/3,5)
        y1 = round((A[1]+B[1]+C[1])/3,5)
        z1 = round((A[2]+B[2]+C[2])/3,5)
        #se apila para pegarlo en una sola fila correspondiente al clique
        coord_center.append(np.array([x1,y1,z1]))

    #generacion de la columna
    df_lc['baricentro_clique'] = coord_center
    return(df_lc)

In [12]:
#calculo de baricentro
df_lc1 = baricenter_clique(df_lc1)
df_lc2 = baricenter_clique(df_lc2)

In [13]:
def center_vectors(df_lc):
    """Calculo de los vectores gorro que van del baricentro 
    a la coordenada del atomo
    df_lc: Dataframe con baricentro y coordenadas de cada clique
    regresa
    df_lc:Dataframe con vectores gorro en otra columna"""
    vec1 = []
    vec2 = []
    vec3 = []
    vectores_centricos = []
    for i,val in enumerate(df_lc.baricentro_clique):
    #     extraccion de coordenadas de cada atomo
        A = df_lc.coord_clique_0[i]
        B = df_lc.coord_clique_1[i]
        C = df_lc.coord_clique_2[i]
        #calculo de vectores DEL CENTRO AL PUNTO COORDENADA
        vec_a = np.round(list(A - val),6)
        vec_b = np.round(list(B - val),6)
        vec_c = np.round(list(C - val),6)
    #SE APILAN PARA QUE ESTEN EN EL MISMO CLIQUE CORRESPONDIENTE A CADA UNO.
        vec1.append(vec_a)
        vec2.append(vec_b)
        vec3.append(vec_c)
        vectores_centricos.append(np.array([vec_a,vec_b,vec_c]))
    #se generan la columna de cada vector correspondiente a cada atomo
    df_lc['vec_gorro_0'] = vec1
    df_lc['vec_gorro_1'] = vec2
    df_lc['vec_gorro_2'] = vec3
    df_lc['vectores_gorro'] = vectores_centricos
    return(df_lc)

In [14]:
#generacion de vectores gorro
df_lc1 = center_vectors(df_lc1)
df_lc2 = center_vectors(df_lc2)

### Rotacion
Para generar la rotacion tenemos que generar la *matriz gigante* que depende de los elemento de la matriz de correlacion $R_{ij}$

Donde $R_{ij} = \sum\limits_{k=1}^N{x_{ik}y_{jk}}, i,j = 1,2,3$

Posteriormente se calculan los eigenvalores y eigenvectores de esta matriz gigante
Para obtener los quaterniones y generar la matriz de rotacion y con ella calcular el vector rotado

Por ultimo, se suma al vector rotado y trasladado se suma el baricentro del clique a comparar y se calcula el RMSD

In [15]:
# No conviene utilizar pandas ya que tarda al acceder a los datos, buscar la manera
#usual para acceder a los datos y seguir avanzando
prueba1 = df_lc1.values
prueba2 = df_lc2.values

In [16]:
# for i,val in enumerate(df_lc1.columns):
#     print(i,val)

In [17]:
#funcion para obtener los valores de la prerotacion, de los valores de la matriz de correlaciones
# en check por que se utiliza vector gorro en lugar de posiciones iniciales 
# el articulo no dice...

def R_ij(i,j,a1=0,a2=0):
    """Recuerda que 0-->1,1-->2,2-->2 en los indices de R
    a1,a2 corresponden a que atomo quieren que se compare 
    """
    #se genera un diccionario para asignar los valores como en el articulo 
    #y no tener equivocaciones
    dict_convencion = {1:0,2:1,3:2}

    i = dict_convencion.get(i)
    j = dict_convencion.get(j)
    
    values = []
    append = values.append
    for k in [8,9,10]: #8,9,10 corresponde a la columna de vec_gorro_0,_1,_2
        atom_value1 = prueba1[:,k][a1][i]
        atom_value2 = prueba2[:,k][a2][j]
        value = atom_value1 * atom_value2
        append(value)
        
    valor = sum(values)
    return(valor)

In [18]:
%%timeit
R_ij(1,1)

3.26 µs ± 209 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [19]:
def giant_matrix(i,j):
    """cliques a comparar: i,j
    desde aqui se itera sobre cada i y hay que variar los vectores 
    coordenada 
    Regresa la matriz gigante (matriz simetrica del articulo)"""
    #primer renglon
    R11R22R33 = (R_ij(1,1,a1=i,a2=j) + R_ij(2,2,a1=i,a2=j) + R_ij(3,3,a1=i,a2=j))
    R23_R32 = (R_ij(2,3,a1=i,a2=j) - R_ij(3,2,a1=i,a2=j))
    R31_R13 = (R_ij(3,1,a1=i,a2=j) - R_ij(1,3,a1=i,a2=j))
    R12_R21 = (R_ij(1,2,a1=i,a2=j) - R_ij(2,1,a1=i,a2=j))
    #segundo renglon
    R11_R22_R33 = (R_ij(1,1,a1=i,a2=j) - R_ij(2,2,a1=i,a2=j) - R_ij(3,3,a1=i,a2=j))
    R12R21 = (R_ij(1,2,a1=i,a2=j) + R_ij(2,1,a1=i,a2=j))
    R13R31 = (R_ij(1,3,a1=i,a2=j) + R_ij(3,1,a1=i,a2=j))
    #tercer renglon
    _R11R22_R33 = (-R_ij(1,1,a1=i,a2=j) + R_ij(2,2,a1=i,a2=j) - R_ij(3,3,a1=i,a2=j))
    R23R32 = (R_ij(2,3,a1=i,a2=j) + R_ij(3,2,a1=0,a2=0))
    #cuarto renglon
    _R11_R22R33 = (-R_ij(1,1,a1=i,a2=j) - R_ij(2,2,a1=i,a2=j) + R_ij(3,3,a1=i,a2=j))

    matriz_gigante = [
        [R11R22R33, R23_R32 , R31_R13, R12_R21],
        [R23_R32, R11_R22_R33, R12R21, R13R31],
        [R31_R13, R12R21, _R11R22_R33, R23R32],
        [R12_R21, R13R31, R23R32, _R11_R22R33]
    ]
    
    return(matriz_gigante)

In [20]:
%%timeit
giant_matrix(1,1)

79.5 µs ± 2.15 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [21]:
def rotation_matrix(matriz_gigante):
    """utilizando la funcion giant_matrix, fijando los valores de i,j
    se calcula la matriz de rotacion con los eigenvectores y eigenvalores
    arroja una matriz de rotacion que depende de la matriz gigante
    """
    eignvalues,eigenvectors = np.linalg.eig(matriz_gigante)
    q = eigenvectors[:,np.argmax(eignvalues)]
    q0,q1,q2,q3 = q[0],q[1],q[2],q[3]
    #matriz de rotacion con eigenvectores
    mat_rot = np.array([
                [(q0**2+q1**2-q2**2-q3**2), 2*(q1*q2-q0*q3),2*(q1*q3+q0*q2)],
                [2*(q1*q2+q0*q3), (q0**2-q1**2+q2**2-q3**2),2*(q2*q3-q0*q1)],
                [2*(q1*q3-q0*q2),2*(q2*q3+q0*q1), (q0**2-q1**2-q2**2+q3**2)]
    ])
    return(mat_rot)

In [22]:
%%timeit
rotation_matrix(giant_matrix(1,1))

577 µs ± 151 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [23]:
def rotation_vectors(vector_gorro,mat_rot):
    """obtencion de vector rotado,
    utilizando la matriz de rotacion 
    y los vectores gorro a rotar y trasladar"""
    #multiplicacion de matrices de cada vector rotado
    coord_rot_tras = []
    append = coord_rot_tras.append
    matmul = np.matmul
    for i in vector_gorro:
        append(matmul(mat_rot,i.reshape(3,1)).T[0])

    return(coord_rot_tras)

In [24]:
%%timeit
matriz_gigante = giant_matrix(1,1)
mat_rot = rotation_matrix(matriz_gigante)
x_rot = rotation_vectors(prueba1[:,11][1],mat_rot)
x_rot

143 µs ± 3.25 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


## Calculo del RMSD con previo filtro de SSM y SAM
Aqui iria el codigo de SSM y SAM para filtrado y despues se calcula el rmsd de cada clique, por lo que primero hay que filtrar

In [25]:
def rmsd_between_cliques(atom_trans_rot,atom_to_compare):
    """Calculo de rmsd entre cliques tomando el atomo rotado y trasladado
    y el atomo a comparar, por el momento solo imprime el resultado"""
    # primer RMSD entre atomos
    p12 = np.sum((np.array(atom_to_compare)-atom_trans_rot)**2,1)
    rmsd_i = lambda i: np.sqrt(i)/3
    rmsd_final = rmsd_i(p12).mean()
    
#     if rmsd_final <= 0.15: ##AQUI LOS DETECTA QUIENES CUMPLEN CON EL FILTRO...
#         print('RMSD_final:', rmsd_final)

In [26]:
def calculate_rmsd_rot_trans(atom1,atom2):
    matriz_gigante = giant_matrix(atom1,atom2)
    mat_rot = rotation_matrix(matriz_gigante)
    x_rot = rotation_vectors(prueba1[:,11][atom1],mat_rot)
    coord_rot_clique_2 = x_rot + np.array(prueba2[:,7][atom2])
    rmsd_between_cliques(coord_rot_clique_2,np.array(prueba2[:,6][atom2]))

In [27]:
%%timeit
for i in range(df_lc2.shape[0]): 
    calculate_rmsd_rot_trans(10,i)

379 ms ± 5.09 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [28]:
# %%time
# for j in range(df_lc1.shape[0]):
#     for i in range(df_lc2.shape[0]):
#         calculate_rmsd_rot_trans(j,i)

# %%time
#para quitarme el for anidado puedo hacerlo con este producto por lo que reduce ligeramente pero aun no se puede medir
# #dado que son muchas operaciones 13000 * 2000
# producto = it.product(df_lc1.index.values,df_lc2.index.values)
# for i,j in producto[:100]:
#     calculate_rmsd_rot_trans(j,i)