# **0.2 Construcción del Dataset**

**Conjunto de datos**

El conjunto de datos se define como:

**1. Proteínas:**

$$
P = \{p_1, p_2, \ldots, p_n\}
$$

Conjunto de proteínas del estudio.  
*(Archivo: `ppi_clean.csv`)*

**2. Atributos topológicos:**

$$
\mathbf{X}_{\text{topo}} \in \mathbb{R}^{n \times d}
$$

Matriz donde cada fila representa una proteína y cada columna una métrica topológica.  
*(Archivo: `topo_clean.csv`)*

**3. Anotaciones funcionales GO:**

$$
\mathbf{X}_{\text{GO}} \in \{0,1\}^{n \times k}
$$

Matriz binaria con anotaciones funcionales (Gene Ontology).  
*(Archivo: `go_enrichment_clean.csv`)*

**4. Validación terapéutica:**

$$
\mathbf{y} \in \{T1, T2, T3, T4\}^{n}
$$

Vector categórico con el nivel de validación como blanco terapéutico.  
*(Archivo: `target_clean.csv`)*

**Matriz final integrada:**

$$
\mathbf{X} = [\mathbf{X}_{\text{topo}} \mid \mathbf{X}_{\text{GO}}] \in \mathbb{R}^{n \times (d + k)}
$$

Cada fila de la matriz representa una proteína, combinando propiedades topológicas y funcionales:

$$
\mathbf{X}
$$



In [13]:
# Importamos librerías 
import pandas as pd
import numpy as np
import os

In [14]:
# Cargar datos 
data_dir = r"C:\Users\Macarena Madrid\Desktop\\alzheimer-target-prediction\data\processed\raw_cleaned"

ppi_c = pd.read_csv(os.path.join(data_dir, "ppi_clean.csv"))
target_c = pd.read_csv(os.path.join(data_dir, "target_clean.csv"))
topo_c = pd.read_csv(os.path.join(data_dir, "topo_clean.csv"))
go_c = pd.read_csv(os.path.join(data_dir, "go_enrichment_clean.csv"))


In [31]:
# Definir el conjunto P
# P = conjunto de proteínas en el estudio, que son las presentes en los datos topológicos
P = set(ppi_c["Prot_A"].unique()).union(set(ppi_c["Prot_B"].unique()))
print(f"\nConjunto P (proteínas en el PPI): {len(P)} proteínas")

# Mostrar
print(list(P))  # Mostrar las primeras 10 proteínas


Conjunto P (proteínas en el PPI): 5411 proteínas
['SLC20A2', 'PEX6', 'CPX-952', 'TWF1', 'TNFSF11', 'SLC40A1', 'CPX-606', 'LOXHD1', 'MAPKAPK5', 'ACVRL1', 'CPX-7926', 'CPX-736', 'LIPT1', 'CPX-8126', 'DNAJC5', 'RIOK2', 'SLC25A6', 'ACOX3', 'EBP', 'VIPR1', 'PFKM', 'GDF3', 'CPX-2659', 'CHRM3', 'UNC45B', 'SLC22A11', 'CYSLTR2', 'CPX-6209', 'PLA2G4A', 'CPX-3301', 'CPX-415', 'CPX-8424', 'SLC12A8', 'APCDD1', 'MST1R', 'DNAAF1', 'ZNF81', 'CD40LG', 'CPX-6784', 'MAS1', 'LPIN1', 'CPX-8741', 'AMMECR1', 'CENPF', 'CLK2', 'PLEC', 'DYNC2LI1', 'JAG1', 'SLC24A1', 'ADSL', 'CST6', 'CNPY3', 'PEX1', 'PRKCD', 'F8A1', 'KCNE3', 'CPX-2579', 'TBX5', 'CPX-1988', 'LARP7', 'GAK', 'KCNK3', 'NADK2', 'CPX-1949', 'FTL', 'CPX-2454', 'ADNP', 'CHUK', 'KRT2', 'CPX-168', 'ALPL', 'POU2AF1', 'UVSSA', 'LIAS', 'CPX-4526', 'FGF20', 'PIK3R2', 'CAMK1', 'GPD1', 'ZPBP', 'ELOVL1', 'CIB2', 'MRGPRX4', 'SLC35A2', 'SSTR1', 'SLC1A2', 'SPART', 'CPX-8743', 'ECEL1', 'CFD', 'PHF8', 'CASR', 'CPX-6046', 'DPP10', 'TET2', 'SIK2', 'DAGLA', 'CPX-8670',

In [35]:
# Construir X_topo
# Seleccionamos las métricas topológicas desde el archivo 'topo', excluyendo 'prediction'
#Rellenar con ceros para proteínas que no tengan atributos topológicos

topo_filled = topo_c.set_index('Node_id').drop(columns=['prediction'])
all_proteins = sorted(P)
X_topo = pd.DataFrame(0, index=all_proteins, columns=topo_filled.columns)
X_topo.update(topo_filled)
print(f"\nX_topo: {X_topo.shape[0]} filas (proteínas), {X_topo.shape[1]} columnas (atributos topológicos)")



X_topo: 5411 filas (proteínas), 8 columnas (atributos topológicos)


  X_topo.update(topo_filled)
  X_topo.update(topo_filled)
  X_topo.update(topo_filled)
  X_topo.update(topo_filled)
  X_topo.update(topo_filled)
  X_topo.update(topo_filled)
  X_topo.update(topo_filled)
  X_topo.update(topo_filled)


In [38]:
#pd.set_option('display.max_rows', None)
#pd.set_option('display.max_columns', None)
#X_topo

In [28]:
# Construir X_GO

from sklearn.preprocessing import MultiLabelBinarizer

# Convertimos la columna de genes solapados a listas
go_c['Overlapping_genes_list'] = go_c['Overlapping genes'].apply(lambda x: [g.strip() for g in x.split(',')])
protein_go_mapping = {}

# Creamos un mapeo: proteína -> set de términos GO
for _, row in go_c.iterrows():
    term = f"{row['GO']}_{row['Ontology']}"
    for gene in row['Overlapping_genes_list']:
        if gene in P:
            protein_go_mapping.setdefault(gene, set()).add(term)

# Creamos la matriz binaria
mlb = MultiLabelBinarizer()
proteins_ordered = list(X_topo.index)
protein_terms_list = [protein_go_mapping.get(p, set()) for p in proteins_ordered]
X_GO = pd.DataFrame(mlb.fit_transform(protein_terms_list), index=proteins_ordered, columns=mlb.classes_)
print(f"\nX_GO: {X_GO.shape[0]} filas (proteínas), {X_GO.shape[1]} columnas (términos GO)")


X_GO: 5411 filas (proteínas), 6540 columnas (términos GO)


In [29]:
# Construir y 
# Usamos 'target', alineado con las proteínas en X_topo
target_filtered = target_c.set_index('Node_id')
y = target_filtered.loc[X_topo.index, 'Target_group']
print(f"\nVector y: {y.shape[0]} elementos (etiquetas categóricas)")


Vector y: 5411 elementos (etiquetas categóricas)


In [42]:
y

A2ML1                     T4
AADAC                     T2
AAK1                      T2
AARS1                     T4
AARS2                     T4
AASS                      T4
ABAT                      T3
ABCA1                     T4
ABCA12                    T4
ABCA2                     T4
ABCA3                     T4
ABCA4                     T4
ABCA7                     T4
ABCB1                     T2
ABCB11                T2, T3
ABCB4                     T4
ABCB6                     T4
ABCC1                     T2
ABCC10                    T2
ABCC11                    T2
ABCC2                 T2, T3
ABCC3                 T2, T3
ABCC4                 T2, T3
ABCC5                     T2
ABCC6                     T2
ABCD1                     T4
ABCD3                     T4
ABCD4                     T4
ABCG2                     T2
ABCG5                     T4
ABCG8                     T4
ABHD11                    T4
ABHD12                    T4
ABHD16A                   T4
ABHD5         

In [30]:
# Concatenar X = [X_topo, X_GO]
X = pd.concat([X_topo, X_GO], axis=1)
print(f"\nMatriz X final: {X.shape[0]} filas, {X.shape[1]} columnas")


Matriz X final: 5411 filas, 6548 columnas
