## **Generación del conjunto de datos final**
Este notebook está diseñado para preparar un conjunto de datos final que combina proteínas moonlighting y no moonlighting. Este conjunto se utilizará posteriormente para la extracción de embeddings y el entrenamiento de modelos predictivos de clasificación.

## Montaje de Google Drive
Montamos Google Drive para acceder a los archivos de datos almacenados.


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Carga de Datos
Cargamos los conjuntos de datos de proteínas moonlighting y no moonlighting desde Google Drive, los cuales incluyen métricas y etiquetas esenciales para el análisis.

In [None]:
import pandas as pd

# Cargamos los datos de proteínas moonlighting.
moon_dataset = pd.read_csv('/content/drive/My Drive/moon_stats_dataset.csv')

# Cargamos los datos de proteínas no moonlighting, seleccionadas por presentar
# baja distancia entre términos GO.
top700_dataset = pd.read_csv('/content/drive/My Drive/top700_stats_dataset.csv')

In [None]:
print(moon_dataset.shape)
print(top700_dataset.shape)

(561, 17)
(700, 17)


## Combinación de conjuntos de datos
Unimos ambos conjuntos de datos en un solo dataset. Esto facilita la implementación de modelos predictivos al disponer de un único DataFrame con todas las entradas necesarias.

In [None]:
# Unimos los dos DataFrames.
combined_df = pd.concat([moon_dataset, top700_dataset], axis=0)

# Resetemos el índice del nuevo DataFrame para asegurar la consistencia.
combined_df.reset_index(drop=True, inplace=True)

# Guardamos un nuevo archivo CSV y visualizamos los resultados para
# verificar la correcta combinación.
combined_df.to_csv('/content/drive/My Drive/predictor_dataset.csv', index=False)
print(combined_df)

     UniProt IDs                                             PDB ID  \
0         P09169                                               1I78   
1         Q9Y2X8                                                NaN   
2         Q05086  1C4Z; 1D5F; 1EQX; 2KR1; 4GIZ; 4XR8; 6SJV; 6SLM...   
3         Q9Y6X0                                                NaN   
4         Q8BH75                                               2OGB   
...          ...                                                ...   
1256      O95429                                         1M62; 1M7K   
1257      P0AFX7                                   1OR7; 1YFN; 3M4W   
1258      O95704                                         2DYQ; 2YSC   
1259      P0AC19                                               1B9L   
1260      O95071  1I2T; 2QHO; 3PT3; 8BJA; 8C06; 8C07; 8D4X; 8E0Q...   

                                              Gene Name  \
0     {'Name': 'ompT', 'OrderedLocusNames': ['b0565'...   
1            {'Name': 'UBE2D4