# Máster de Formación Permanente en Bioinformática e Inteligencia Artificial en Salud
## MÓDULO 6 - Diseño de terapias y medicamentos innovadores. 
### UNIDAD 1.4 Introducción a la quimioinformática. 
### Ejercicios extra de introducción al paquete RDkit para el manejo de compuestos químicos y el cálculo de descriptores moleculares.

En este módulo, tendremos una primera aproximación al uso de Python en el campo de la quimioinformática, centrándonos en la biblioteca de Python RDKit, que es un conjunto de herramientas potente diseñado específicamente para la quimioinformática y la modelización molecular. RDKit ofrece una amplia gama de herramientas y funciones que permiten a investigadores y profesionales del campo manipular, analizar y visualizar datos químicos con facilidad.

A lo largo de este módulo, explorarás los conceptos fundamentales y las aplicaciones prácticas de RDKit, desde el manejo de estructuras moleculares, el cálculo de propiedades químicas esenciales, hasta la exploración de bases de datos y la visualización molecular. Al final de este módulo, habrás adquirido conocimientos valiosos sobre cómo Python, junto con RDKit, puede agilizar los flujos de trabajo en quimioinformática, convirtiéndose en un recurso indispensable para quienes trabajan en las industrias química y farmacéutica, la química computacional y más.

## Sección 1. Empezando con RDKit: Manjenado moléculas

En esta tarea introductoria, profundizaremos en los aspectos fundamentales del trabajo con moléculas en quimioinformática utilizando la biblioteca RDKit, que es un potente conjunto de herramientas de Python. RDKit ofrece un conjunto extenso de herramientas para manejar datos moleculares, lo que lo convierte en un recurso invaluable para los profesionales de la quimioinformática.

Si necesitas más ejemplos de ejercicios para hacer con RDKit, puedes visitar la guía de inicio proporcionada por [RDKit](https://www.rdkit.org/docs/GettingStartedInPython.html). Además, siempre que te encuentres con un problema que no sepas cómo resolver, te recomendamos consultar sitios web como [StackOverflow](https://stackoverflow.com/questions/tagged/rdkit), donde otros usuarios de Python hacen sus preguntas y reciben respuestas de otros usuarios. Estos recursos se utilizan comúnmente para resolver problemas de código y son una de las mejores formas de aprender, especialmente al principio.

Primero, importa el módulo `Chem` de `rdkit`.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Usa la función `Chem.MolFromSmiles` para convertir la molécula con el SMILES `COc1cc2c(c3oc4cccc(OC(=O)c5ccc(Br)cc5)c4c(=O)c13)[C@@H]1C=CO[C@@H]1O2` a formato `mol` y visualízala.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Convierte la molécula de nuevo al formato SMILES, pero obteniendo ahora el SMILES canónico. Usa la función correspondiente con el argumento `isomericSmiles=False`.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Usa la función `NumValenceElectrons` de `rdkit.Chem.Descriptors` para calcular el número de electrones de valencia. Utiliza directamente el SMILES como entrada.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Encuentra si el compuesto tiene átomos quirales usando la función `FindMolChiralCenters` del módulo `Chem`.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Obtén una huella molecular numérica de la molécula con la función `GetMACCSKeysFingerprint` del módulo `rdkit.Chem.rdMolDescriptors`. Convierte la huella molecular a una lista para poder visualizarla (usa la función `list()` para hacerlo).

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Confirma si la molécula tiene algún átomo de bromo usando la función `HasSubstructMatch` del modulo `Chem`.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

## Sección 2. Visualizando moléculas: Representación 2D y red molécular

Poder visualizar estructuras moleculares es un aspecto crucial de la quimioinformática, ya que ayuda en la comunicación y comprensión de información química compleja. En esta tarea exploraremos algunas funcionalidades de representación de moléculas utilizando RDKit.

Primero, obtén el objeto mol del siguiente SMILES:

C1=CC=C(C(=C1)CC(=O)O)NC2=C(C=CC=C2Cl)Cl

Luego, usando la función `MolToFile`, obtén un archivo .png con su representación 2D.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

También se pueden visualizar varias moléculas en una cuadrícula.

Crea una lista de objetos mol y usa la función `MolsToGridImage` para visualizarlos.

In [None]:
smiles = [
    'N#CC(OC1OC(COC2OC(CO)C(O)C(O)C2O)C(O)C(O)C1O)c1ccccc1',
    'c1ccc2c(c1)ccc1c2ccc2c3ccccc3ccc21',
    'C=C(C)C1Cc2c(ccc3c2OC2COc4cc(OC)c(OC)cc4C2C3=O)O1',
    'ClC(Cl)=C(c1ccc(Cl)cc1)c1ccc(Cl)cc1'
]

# ESCRIBE AQUÍ TU CÓDIGO

# Crea una lista de objetos mol a partir de la lista de smiles


# Dibuja las estructuras en una cuadrícula


RDKit ofrece la posibilidad de resaltar un fragmento molecular dentro de una molécula, una técnica valiosa para ilustrar y enfatizar grupos funcionales o componentes estructurales clave.

Usa la función `GetSubstructMatch` sobre el objeto `mol`.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

# Importa el módulo Chem de rdkit


# Convierte el SMILES en un objeto mol


# Crea una variable para almacenar el objeto mol con la subestructura


# Usa la función GetSubstructMatch para resaltar la subestructura en el objeto mol


# Dibuja la molécula con la subestructura resaltada


Ahora, itera la siguiente lista de SMILES y resalta en ellos el grupo carboxilo.

**Nota:** Represéntalos en una cuadrícula, como has visto en el ejercicio anterior.

In [None]:
smiles_list = ["OC(C(O)C(O)=O)C(O)=O",
               "CCCC(CCC)C(=O)O",
               "C1CCN(CC1)C2=NC(=N)N(C(=C2)N)O",
               "C(=O)(C(C(C(C(C(F)(F)F)(F)F)(F)F)(F)F)(F)F)O"]


# ESCRIBE AQUÍ TU CÓDIGO

¿Hay algún compuesto sin grupo carboxilo?

Si estás interesado en las diferentes opciones que RDKit ofrece para la visualización de moléculas, puedes visitar este [enlace](https://www.rdkit.org/docs/Cookbook.html) para encontrar más ejercicios para practicar.

## Sección 3. Análisis de una base datos de compuestos químicos con RDKit y Pandas

En nuestra tercera tarea, nos centraremos en explorar bases de datos químicas de forma práctica. Es esencial adquirir la habilidad de analizar datos químicos de manera eficiente para la quimioinformática. Aquí, exploraremos algunas técnicas útiles para la exploración de datos, incluyendo la creación de gráficos informativos para la visualización de datos.

Si necesitas más ejemplos o ejercicios con Pandas, consulta su [documentación](https://pandas.pydata.org/docs/user_guide/10min.html). Ofrecen muchos ejemplos para diferentes usos, así como visualizaciones simples.

Primero, carga el archivo `IntroPythonChemometrics.csv` en un DataFrame con Pandas.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Obten el número de compuestos carcinogénicos y no-carcinogénicos.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

¿Cuántos compuestos carcinogénicos hay en el dataset?

En este juego de datos los compuestos están clasificados por categorias. 
Calcula el número de compuestos carcinogénicos y no-carcinogénicos para cada categoría, y guárdalos en un DataFrame llamado 
`carcinogenic_cat` y en otro llamado `non_carcinogenic_cat`.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

# Crea un DataFrame con los compuestos carcinogénicos

# Obtén el número de compuestos para cada categoría usando groupby y size

# Resetea el índice y da el nombre a la columna: "carcinogenic_count"



# Crea un DataFrame con los compuestos no carcinogénicos

# Obtén el número de compuestos para cada categoría

# Resetea el índice y da el nombre a la columna: "non_carcinogenic_count"



# Combina los dos DataFrames en uno solo usando merge


# Muestra en pantalla el DataFrame resultante


¿Cuántas categorías tenemos?

Después de construir los DataFrames con los recuentos de categorías, obtén una representación visual del número de compuestos carcinogénicos y no carcinogénicos en cada categoría.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

# Crea la figura
plt.figure(figsize=(15, 8))

# Grafica cada serie individual



# Rota las etiquetas del eje x (categoría) 90 grados


# Añade etiquetas, título y leyenda




Puede ser un desafío visualizar datos con tantas categorías. Sin embargo, con el código proporcionado a continuación, puedes establecer un umbral para el número total de compuestos en cada categoría. Esto te permitirá mostrar solo las categorías con un mayor número de compuestos, lo que facilita el análisis de los datos.

In [None]:
threshold = 50 # puedes modificar el umbral para ver los diferentes resultados


# Combina los dos DataFrames en uno solo usando merge
merged_counts_df = carcinogenicity_cat.merge(category_count, on='category', how='inner')

# Filtra las categorías con un número de compuestos por encima del umbral
filtered_counts_df = merged_counts_df[merged_counts_df['compound_count'] >= threshold]

print(filtered_counts_df)


Ahora crea la representación de barras apiladas usando el `filtered_counts_df` que acabamos de crear.

¿Qué categoría tiene mayor número de compuestos?

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Ahora obtén solo las moléculas de la categoría más abundante y guárdalas en un nuevo DataFrame llamado `subset_df`.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO


Extrae la columna con los SMILES con el comando `.iloc` y visualiza las primeras líneas.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Extrae la información sobre carcinogenicidad directamente como un objeto `Series` y visualiza las primeras líneas.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Crea un nuevo DataFrame llamado `carcinogenicity_df` concatenando los SMILES y la información sobre carcinogenicidad. Llama a las columnas `'SMILES'` e `'y'`.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

## Sección 4. Cálculo de propiedades químicas

Comprender las propiedades químicas es de gran importancia en el campo de la quimioinformática. Los profesionales de la quimioinformática dependen en gran medida de estas propiedades para tomar decisiones fundamentadas sobre la selección y el diseño de compuestos. Al aprender a calcular propiedades moleculares y filtrar bases de datos en función de ellas, estarás mejor preparado para analizar y manipular datos químicos. Estas habilidades son esenciales para tareas como el descubrimiento de fármacos, la predicción de toxicidad y el diseño de materiales.

Para empezar, determina el peso molecular de las moléculas presentes en el DataFrame `carcinogenicity_df` y conviértelo en una nueva columna. Puedes llevar esto a cabo combinando la función `apply` de `Pandas` con la función `MolWt` del módulo `rdkit.Chem.Descriptors`.

Visuliza las primeras columnas del DataFrame resultante para confirmar que se ha realizado correctamente.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Ahora, siguiendo el mismo procedimiento, usa la función `MolLogP` para crear una columna llamada `LogP`.

Visuliza las primeras columnas del DataFrame resultante para confirmar que se ha realizado correctamente.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Para terminar, filtra el DataFrame resultante y quédate solo con las moléculas con un peso molecular por debajo de 300 y un valor de LogP inferior a 4.

¿Cuántos compuestos han quedado en el DataFrame final?

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO

Guarda el DataFrame final en formato `.csv`.

In [None]:
# ESCRIBE AQUÍ TU CÓDIGO