<a href="https://colab.research.google.com/github/jdlg-42/TFG/blob/main/attention_data_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de datos de atención tras analizar con ESM-2

Tras realizar el análisis usando ESM-2 se generan dos archivos CSV, uno para cada receptor, con los que se obtienen datos de interés:

- Número de residuos que superan el percentil 85
- Valor máximo y mínimo
- Valor promedio
- Desviación estándar

## Receptor A2A de adenosina

In [1]:
# Importación del dataset

import pandas as pd

df_a2a = pd.read_csv('attention_to_allosteric_sites_a2a.csv')

res_p85_a2a = df_a2a[df_a2a["Top 15%?"] == "YES"]
res_p85_a2a

Unnamed: 0,From (Query Position),Residue,Accumulated Avg Attention,Top 15%?
155,156,S,0.034885,YES
156,157,Q,0.060046,YES
157,158,G,0.042792,YES
158,159,C,0.054821,YES
159,160,G,0.04108,YES
160,161,E,0.093247,YES
161,162,G,0.047895,YES
162,163,Q,0.059049,YES
163,164,V,0.036831,YES
164,165,A,0.028252,YES


In [2]:
# Nº de residuos que superan el percentil 85

print(f"El número de residuos que superan el percentil 85 es de {len(res_p85_a2a)} residuos.")

El número de residuos que superan el percentil 85 es de 49 residuos.


In [3]:
# Ordenar los residuos por valor de atención promedio acumulada

res_p85_a2a.sort_values(by=['Accumulated Avg Attention'], ascending=False)

# Calcular máximo y mínimo

## Obtener las columnas de los valores máximo y mínimo respectivamente
max_row_a2a = res_p85_a2a.loc[res_p85_a2a['Accumulated Avg Attention'].idxmax()]
min_row_a2a = res_p85_a2a.loc[res_p85_a2a['Accumulated Avg Attention'].idxmin()]

## Obtener los valores máximo y mínimo
max_a2a_value = max_row_a2a['Accumulated Avg Attention']
max_residue_a2a = max_row_a2a['From (Query Position)']

min_a2a_value = min_row_a2a['Accumulated Avg Attention']
min_residue_a2a = min_row_a2a['From (Query Position)']

print(f"El valor máximo de atención acumulada es de {round(max_a2a_value,6)} para el residuo {max_residue_a2a} y el valor mínimo es de {round(min_a2a_value,6)} para el residuo {min_residue_a2a}.")

El valor máximo de atención acumulada es de 0.554844 para el residuo 280 y el valor mínimo es de 0.028252 para el residuo 165.


In [4]:
res_p85_a2a.sort_values(by=['Accumulated Avg Attention'], ascending=False)

Unnamed: 0,From (Query Position),Residue,Accumulated Avg Attention,Top 15%?
279,280,N,0.554844,YES
278,279,T,0.541498,YES
273,274,I,0.464615,YES
276,277,S,0.419808,YES
292,293,R,0.405513,YES
277,278,H,0.374195,YES
280,281,S,0.348179,YES
274,275,V,0.336731,YES
249,250,H,0.211614,YES
275,276,L,0.195775,YES


In [None]:
# Promedio y desviación estandar de atención promedio acumulada

avg_a2a = round(res_p85_a2a['Accumulated Avg Attention'].mean(),6)

print(f"El valor promedio de la atención promedio acumulada es de {avg_a2a}.")

std_a2a = round(res_p85_a2a['Accumulated Avg Attention'].std(),6)

print(f"La desviación estándar de la atención promedio acumulada es de {std_a2a}.")

El valor promedio de la atención promedio acumulada es de 0.123808.
La desviación estándar de la atención promedio acumulada es de 0.146771.


## Receptor beta-2 adrenérgico

In [5]:
import pandas as pd

df_adrb2 = pd.read_csv('attention_to_allosteric_sites_adrb2.csv')

res_p85_adrb2 = df_adrb2[df_adrb2["Top 15%?"] == "YES"]
res_p85_adrb2

Unnamed: 0,From (Query Position),Residue,Accumulated Avg Attention,Top 15%?
124,125,C,0.056048,YES
174,175,R,0.092361,YES
175,176,A,0.134524,YES
176,177,T,0.115638,YES
177,178,H,0.075743,YES
178,179,Q,0.080198,YES
179,180,E,0.073034,YES
190,191,C,0.067374,YES
191,192,D,0.127429,YES
192,193,F,0.195922,YES


In [6]:
res_p85_adrb2.sort_values(by=['Accumulated Avg Attention'], ascending=False)

Unnamed: 0,From (Query Position),Residue,Accumulated Avg Attention,Top 15%?
199,200,A,0.228257,YES
198,199,Y,0.228033,YES
210,211,P,0.224743,YES
206,207,S,0.211972,YES
193,194,F,0.205647,YES
192,193,F,0.195922,YES
291,292,V,0.194959,YES
205,206,V,0.193929,YES
202,203,S,0.18582,YES
211,212,L,0.181247,YES


In [7]:
# Nº de residuos que superan el percentil 85

print(f"El número de residuos que superan el percentil 85 es de {len(res_p85_adrb2)} residuos.")

El número de residuos que superan el percentil 85 es de 55 residuos.


In [9]:
# Ordenar los residuos por valor de atención promedio acumulada

df_adrb2.sort_values(by=['Accumulated Avg Attention'], ascending=False)

# Calcular máximo y mínimo

## Obtener las columnas de los valores máximo y mínimo respectivamente
max_row_adrb2 = res_p85_adrb2.loc[res_p85_adrb2['Accumulated Avg Attention'].idxmax()]
min_row_adrb2 = res_p85_adrb2.loc[res_p85_adrb2['Accumulated Avg Attention'].idxmin()]

## Obtener los valores máximo y mínimo
max_adrb2_value = max_row_adrb2['Accumulated Avg Attention']
max_residue_adrb2 = max_row_adrb2['From (Query Position)']

min_adrb2_value = min_row_adrb2['Accumulated Avg Attention']
min_residue_adrb2 = min_row_adrb2['From (Query Position)']

print(f"El valor máximo de atención acumulada es de {round(max_adrb2_value,6)} para el residuo {max_residue_adrb2} y el valor mínimo es de {round(min_adrb2_value,6)} para el residuo {min_residue_adrb2}.")

El valor máximo de atención acumulada es de 0.228257 para el residuo 200 y el valor mínimo es de 0.054825 para el residuo 329.


In [10]:
# Promedio y desviación estandar de atención promedio acumulada

avg_adrb2 = round(res_p85_adrb2['Accumulated Avg Attention'].mean(),6)

print(f"El valor promedio de la atención promedio acumulada es de {avg_adrb2}.")

std_adrb2 = round(res_p85_adrb2['Accumulated Avg Attention'].std(),6)

print(f"La desviación estándar de la atención promedio acumulada es de {std_adrb2}.")

El valor promedio de la atención promedio acumulada es de 0.117392.
La desviación estándar de la atención promedio acumulada es de 0.052407.
