# MINADO Y CURACION DE DATOS, EDA

### Importamos el instalador de CHEMBL

In [None]:
#Este código instala el paquete de Python llamado Chembl_WebResource_Client. 
# Este paquete proporciona una interfaz de programación de aplicaciones (API)
# para acceder a los recursos en línea de ChEMBL, una base de datos química y biológica. Esta API permite a los desarrolladores crear aplicaciones 
# que puedan interactuar con la base de datos ChEMBL para recuperar información sobre compuestos químicos, actividad biológica, estructuras moleculares y más.
! pip install chembl_webresource_client

In [None]:
# Importamos módulos necesarios
# pandas: biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento.
import pandas as pd
# chembl_webresource_client: módulo que proporciona una API para acceder a los datos del Depósito ChEMBL.
from chembl_webresource_client.new_client import new_client

### Seleccionamos el target TRPM8

In [None]:
# Utilizar el recurso "target" del cliente `new_client` para acceder a los datos del Depósito ChEMBL sobre objetivos biológicos.
target = new_client.target
# Buscar targets en el Depósito ChEMBL que coincidan con el término "TRPM8"
target_query = target.search('TRPM8')
# Guardar los resultados de la consulta en un DataFrame de pandas llamado `targets`
targets = pd.DataFrame.from_dict(target_query)
# Imprimir el DataFrame `targets`
targets

### Trabajaremos con el target Homo sapiens

In [None]:
# Seleccionar el cuarto elemento (índice 3) de la columna `target_chembl_id` del DataFrame `targets`
# Almacenar el valor seleccionado (3, homo sapiens) en la variable `selected_target3`
selected_target3 = targets.target_chembl_id[3]
# Imprimir el valor almacenado en `selected_target3`
selected_target3

### Instalamos librerias necesarias para convertir a excel un DF

In [None]:
# instala dos módulos de Python: openpyxl y xlwt.
# openpyxl: permite trabajar con archivos de Microsoft Excel en formato .xlsx en Python
%pip install openpyxl
# xlwt: permite crear archivos de Microsoft Excel en formato .xls en Python
%pip install xlwt

### Dataframe sin modificar de Homo Sapiens, para poder comparar los datos

In [None]:
# Utilizar el recurso "activity" del cliente `new_client` para acceder a los datos del Depósito ChEMBL.
activity0 = new_client.activity
# Ejecutar una consulta para obtener la actividad de moléculas en el target seleccionado previamente (identificado por `selected_target3`)
res0 = activity0.get(target_chembl_id=selected_target3)
# Guardar los resultados de la consulta en un DataFrame de pandas llamado `df_sinmodificar`
df_sinmodificar = pd.DataFrame.from_dict(res0)


### Dataframe con los datos de TRPM8

In [None]:
# Imprimir el valor almacenado en `df_sinmodificar`
df_sinmodificar

In [None]:
# Guardar el DataFrame `df_sinmodificar` en un archivo de Microsoft Excel con el nombre "Datos_sin_Modificar_IC50_EC50_PIC50_PEC50.xlsx"
df_sinmodificar.to_excel('Datos_sin_Modificar_IC50_EC50_PIC50_PEC50.xlsx')


###  Filtramos EC50

In [None]:
# Utilizar el recurso "activity" del cliente `new_client` para acceder a los datos del Depósito ChEMBL.
activity3EC50 = new_client.activity
# Almacenar los resultados de la consulta en la variable `res3EC50` filtrado con target EC50
res3EC50 = activity3EC50.filter(target_chembl_id=selected_target3).filter(standard_type="EC50") 

### Filtramos IC50

In [None]:
# Utilizar el recurso "activity" del cliente `new_client` para acceder a los datos del Depósito ChEMBL.
activity3 = new_client.activity
# Almacenar los resultados de la consulta en la variable `res3` filtrado con target IC50
res3 = activity3.filter(target_chembl_id=selected_target3).filter(standard_type="IC50") 

### Pasamos a DF EC50, lo llamamos df3EC50

In [None]:
# Almacenar los resultados de la consulta en la variable `df3EC50` para cambiar el nombre del dataframe a df3EC50
df3EC50 = pd.DataFrame.from_dict(res3EC50)

### Pasamos a DF EC50, lo llamamos df3

In [None]:
# Convertir la lista de diccionarios almacenada en `res3` en un DataFrame de pandas y almacenar el resultado en la variable `df3`
df3 = pd.DataFrame.from_dict(res3)


### Mostramos el df3

In [None]:
# Imprimir el valor almacenado en `df3`
df3

In [None]:
# Contar el número de valores únicos en la columna `molecule_chembl_id` del DataFrame `df3`
# Mostrar el resultado
df3['molecule_chembl_id'].nunique()



### Mostramos el df3EC50

In [None]:
# Imprimir el contenido del DataFrame `df3EC50`
df3EC50

In [None]:
# Contar el número de valores únicos en la columna `molecule_chembl_id` del DataFrame `df3EC50`
# Mostrar el resultado
df3EC50['molecule_chembl_id'].nunique()

### Quitamos pEC50 de df3EC50 y los contamos

In [None]:
# Filtrar el DataFrame `df3EC50` para incluir solo las filas donde el valor en la columna `type` sea distinto de "pEC50"
# Almacenar el resultado en un nuevo DataFrame llamado `df3EC50_sinPEC50`
df3EC50_sinPEC50 = df3EC50[df3EC50.type != 'pEC50']
# Contar el número de veces que aparece cada valor en la columna `type` del DataFrame `df3EC50_sinPEC50`, para ver si solamente hay EC50.
df3EC50_sinPEC50['type'].value_counts()


In [None]:
# Contar el número de valores únicos en la columna `molecule_chembl_id` del DataFrame `df3EC50_sinPEC50`, para notar si se modifico el numero de moleculas al hacer el filtrado de "pEC50"
df3EC50_sinPEC50['molecule_chembl_id'].nunique()

### Quitamos pIC50 de df3 y los contamos

In [None]:
# Filtrar el DataFrame `df3` para incluir solo las filas donde el valor en la columna `type` sea distinto de "pIC50"
# Almacenar el resultado en un nuevo DataFrame llamado `df3_sinpIC50`
df3_sinpIC50 = df3[df3.type != 'pIC50']
# Contar el número de veces que aparece cada valor en la columna `type` del DataFrame `df3_sinpIC50`, para ver si solamente hay IC50.
df3_sinpIC50['type'].value_counts()


In [None]:
# Contar el número de valores únicos en la columna `molecule_chembl_id` del DataFrame `df3_sinpIC50`
df3_sinpIC50['molecule_chembl_id'].nunique()

### Filtramos las palabras mutants en df3

In [None]:
# Filtrar el DataFrame `df3_sinpIC50` para excluir las filas cuyo valor en la columna `assay_description` contenga la palabra "mutant" (en cualquier forma, ya sea con mayúsculas o minúsculas)
df3_sinMutants_IC50 = df3_sinpIC50[~df3_sinpIC50['assay_description'].str.contains("mutant")]
df3_sinMutants_IC50 = df3_sinMutants_IC50[~df3_sinMutants_IC50['assay_description'].str.contains("Mutant")]
df3_sinMutants_IC50 = df3_sinMutants_IC50[~df3_sinMutants_IC50['assay_description'].str.contains("MUTANT")]
df3_sinMutants_IC50 = df3_sinMutants_IC50[~df3_sinMutants_IC50['assay_description'].str.contains("Mutants")]
df3_sinMutants_IC50 = df3_sinMutants_IC50[~df3_sinMutants_IC50['assay_description'].str.contains("MUTANTS")]
# Contar el número de valores únicos en la columna `molecule_chembl_id` del DataFrame `df3_sinMutants_IC50`
df3_sinMutants_IC50['type'].value_counts()

In [None]:
# Contar el número de valores únicos sin mutants hay en la columna `molecule_chembl_id` del DataFrame `df3_sinMutants_IC50`
df3_sinMutants_IC50['molecule_chembl_id'].nunique()

### Filtramos las palabras mutants en df3EC50

In [None]:
# Filtrar el DataFrame `df3EC50_sinMutants_EC50` para excluir las filas cuyo valor en la columna `assay_description` contenga la palabra "mutant" (en cualquier forma, ya sea con mayúsculas o minúsculas)
df3EC50_sinMutants_EC50 = df3EC50_sinPEC50[~df3EC50_sinPEC50['assay_description'].str.contains("mutant")]
df3EC50_sinMutants_EC50 = df3EC50_sinMutants_EC50[~df3EC50_sinMutants_EC50['assay_description'].str.contains("Mutant")]
df3EC50_sinMutants_EC50 = df3EC50_sinMutants_EC50[~df3EC50_sinMutants_EC50['assay_description'].str.contains("MUTANT")]
df3EC50_sinMutants_EC50 = df3EC50_sinMutants_EC50[~df3EC50_sinMutants_EC50['assay_description'].str.contains("Mutants")]
df3EC50_sinMutants_EC50 = df3EC50_sinMutants_EC50[~df3EC50_sinMutants_EC50['assay_description'].str.contains("MUTANTS")]
# Contar el número de valores únicos en la columna `molecule_chembl_id` del DataFrame `df3EC50_sinMutants_EC50`
df3EC50_sinMutants_EC50['type'].value_counts()

In [None]:
# Contar el número de valores únicos en la columna `molecule_chembl_id` del DataFrame `df3EC50_sinMutants_EC50`
df3EC50_sinMutants_EC50['molecule_chembl_id'].nunique()

### SIN MUTANT


In [None]:
# Contar el número de veces que aparece cada valor en la columna `type` del DataFrame `df3EC50_sinMutants_EC50`
df3EC50_sinMutants_EC50['type'].value_counts()

In [None]:
# Contar el número de veces que aparece cada valor en la columna `type` del DataFrame `df3_sinMutants_IC50`
df3_sinMutants_IC50['type'].value_counts()

In [None]:
# Contar el número de valores únicos en la columna `molecule_chembl_id` del DataFrame `df3_sinMutants_IC50`
df3_sinMutants_IC50['molecule_chembl_id'].nunique()

### En esta columna buscamos un valor especifico CHEMBL2442030 para comprobar la unidad en la que esta.

In [None]:
# Buscar el dato "CHEMBL2442030" en la columna "molecule_chembl_id" 
CHEMBL2442030 = df3_sinMutants_IC50[df3_sinMutants_IC50.molecule_chembl_id == 'CHEMBL2442030']
# Mostrar el contenido de las columnas `value`, `standard_units` y `units` del DataFrame 
print(CHEMBL2442030['value'])
print(CHEMBL2442030['standard_units'])
print(CHEMBL2442030['units'])

###  Pasamos los valores a uM

In [None]:
# Crear cinco DataFrames a partir de `df3_sinMutants_IC50` que incluyen solo las filas con ciertos valores específicos en la columna `molecule_chembl_id` o `units`
df_nM0 = df3_sinMutants_IC50[df3_sinMutants_IC50.molecule_chembl_id.isin(['CHEMBL1289953','CHEMBL4446849','CHEMBL4454519','CHEMBL4458679','CHEMBL4517528'])]
df_nM0
df_nM = df3_sinMutants_IC50[df3_sinMutants_IC50.units == 'nM']
df_nM
# Convertir el tipo de datos de la columna `value` del DataFrame `df_nM` a float
df_nM['value'] = df_nM['value'].astype(float)
# Dividir el valor de cada fila en la columna `value` del DataFrame `df_nM` por 1000
df_nM['value'] = df_nM['value']/1000
# Establecer la opción para mostrar valores float con 10 dígitos decimales
pd.set_option('display.float_format', lambda x: '%.10f' % x)
df_nM
# Cambiar el valor de la columna `units` en todas las filas del DataFrame `df_nM` a "µM"
df_nM['units'] = 'µM'
df_nM
df_µM2 = df3_sinMutants_IC50[df3_sinMutants_IC50.units == 'µM']
df_µM2
df_uM3 = df3_sinMutants_IC50[df3_sinMutants_IC50.units == 'uM']
df_uM3
df_um4 = df3_sinMutants_IC50[df3_sinMutants_IC50.units == 'um']
df_um4
# Concatenar los cuatro DataFrames mencionados anteriormente en un único DataFrame llamado `df3_Pasando_valores_a_uM`
df3_Pasando_valores_a_uM =  pd.concat([df_nM0,df_nM,df_µM2,df_uM3,df_um4])
# Cambiar el valor de la columna `units` en todas las filas del DataFrame `df3_Pasando_valores_a_uM` a "µM"
df3_Pasando_valores_a_uM['units'] = 'µM'
# Cambiar el valor de la columna `standard_units` en todas las filas del DataFrame `df3_Pasando_valores_a_uM` a "µM"
df3_Pasando_valores_a_uM['standard_units'] = 'µM'
# Muestra el Df
df3_Pasando_valores_a_uM



In [None]:
# Mismo proceso que el anterior pero con EC50.
df_nMEC50=df3EC50_sinMutants_EC50
df_nMEC50['value'] = df_nMEC50['value'].astype(float)
df_nMEC50 = df3EC50_sinMutants_EC50[df3EC50_sinMutants_EC50.units == 'nM']
df_nMEC50
df_nMEC50['value'] = df3EC50_sinMutants_EC50['value'].astype(float)
df_nMEC50['value'] = df3EC50_sinMutants_EC50['value']/1000
pd.set_option('display.float_format', lambda x: '%.10f' % x)
df_nMEC50
df_nMEC50['units'] = 'µM'
df_nMEC50
df_µM2EC50 = df3EC50_sinMutants_EC50[df3EC50_sinMutants_EC50.units == 'µM']
df_µM2EC50
df_uM3EC50 = df3EC50_sinMutants_EC50[df3EC50_sinMutants_EC50.units == 'uM']
df_uM3EC50
df_um4EC50 = df3EC50_sinMutants_EC50[df3EC50_sinMutants_EC50.units == 'um']
df_um4EC50
df3EC50_Pasando_valores_a_uM =  pd.concat([df_nMEC50,df_µM2EC50,df_uM3EC50,df_um4EC50])
df3EC50_Pasando_valores_a_uM['units'] = 'µM'
df3EC50_Pasando_valores_a_uM['standard_units'] = 'µM'
df3EC50_Pasando_valores_a_uM


### Comprobamos que se realizo correctamente la transformacion a uM

In [None]:
# Buscar el dato "CHEMBL2442030" en la columna "molecule_chembl_id" 
CHEMBL2442030 = df3_Pasando_valores_a_uM[df3_Pasando_valores_a_uM.molecule_chembl_id == 'CHEMBL2442030']
# Mostrar el contenido de las columnas `value`, `standard_units` y `units` del DataFrame 
print(CHEMBL2442030['value'])
print(CHEMBL2442030['standard_units'])
print(CHEMBL2442030['units'])

In [None]:
# Buscar el dato "CHEMBL391997" en la columna "molecule_chembl_id" 
CHEMBL391997 = df3_Pasando_valores_a_uM[df3_Pasando_valores_a_uM.molecule_chembl_id == 'CHEMBL391997']
# Mostrar el contenido de las columnas `value`, `standard_units` y `units` del DataFrame 
print(CHEMBL391997['value'])
print(CHEMBL391997['standard_units'])
print(CHEMBL391997['units'])


### Concatenamos ambos dataframe para realizar busqueda de valores que tengan EC50 Y IC50 a la vez

In [None]:
# Concatenamos ambos dataframe para realizar busqueda de valores que tengan EC50 Y IC50 a la vez
dataframes_uM_concatenados = pd.concat([df3_Pasando_valores_a_uM, df3EC50_Pasando_valores_a_uM], ignore_index=True)
dataframes_uM_concatenados


### Sacamos los duplicados

In [None]:
# Crear un nuevo DataFrame llamado `dataframes_uM_concatenados_duplicados` a partir de `dataframes_uM_concatenados` que incluye solo las filas con valores duplicados en la columna `molecule_chembl_id`
# Pero manteniendo todas las filas duplicadas en lugar de solo una de ellas
dataframes_uM_concatenados_duplicados = dataframes_uM_concatenados[dataframes_uM_concatenados.duplicated(['molecule_chembl_id'], keep=False)]
dataframes_uM_concatenados_duplicados

### MOLECULA CON AMBOS VALORES

In [None]:
# Buscamos la Molecula CHEMBL256087 la cual tiene valores de IC50 y EC50 al mismo tiempo.
buscarCHEMBL256087 = dataframes_uM_concatenados_duplicados[dataframes_uM_concatenados_duplicados.molecule_chembl_id == 'CHEMBL256087']
buscarCHEMBL256087

In [None]:
CHEMBL256087 = df3_Pasando_valores_a_uM[df3_Pasando_valores_a_uM.molecule_chembl_id == 'CHEMBL256087']
CHEMBL256087

In [None]:
CHEMBL256087 = df3EC50_Pasando_valores_a_uM[df3EC50_Pasando_valores_a_uM.molecule_chembl_id == 'CHEMBL256087']
CHEMBL256087


### DUPLICADOS SOLO DE IC50

In [None]:
# Crear un nuevo DataFrame llamado `dataframes_uM_IC50_duplicados` a partir de `dataframes_uM_concatenados_duplicados` que incluye solo las filas con el valor "IC50" duplicado en la columna `standard_type`
dataframes_uM_IC50_duplicados = dataframes_uM_concatenados_duplicados[dataframes_uM_concatenados_duplicados.standard_type == 'IC50']
dataframes_uM_IC50_duplicados


### CONTEO DE DUPLICADOS IC50 Y EC50

In [None]:
# Cuenta los valores duplicados que hay en el df dataframes_uM_concatenados_duplicados
dataframes_uM_concatenados_duplicados['type'].value_counts()


### DUPLICADOS EC50

In [None]:
# Muestra los duplicados de EC50 
dataframes_uM_EC50_duplicados9 = dataframes_uM_concatenados_duplicados[dataframes_uM_concatenados_duplicados.standard_type == 'EC50']
dataframes_uM_EC50_duplicados9

### DATAFRAME DUPLICADOS IC50


In [None]:
df3_duplicados = dataframes_uM_IC50_duplicados


In [None]:
# Cuenta los valores duplicados que hay en el df df3_duplicados
df3_duplicados['type'].value_counts()

In [None]:
# Agrupar las filas del DataFrame `df3_duplicados` por el valor en la columna `molecule_chembl_id`
# y contar el número de filas en cada grupo
df3_duplicados.groupby('molecule_chembl_id').count()

In [None]:
# Crear un nuevo DataFrame llamado `df3EC50_duplicados` a partir de `df3EC50_Pasando_valores_a_uM` que incluye solo las filas con valores duplicados en la columna `molecule_chembl_id`
# pero manteniendo todas las filas duplicadas en lugar de solo una de ellas
df3EC50_duplicados = df3EC50_Pasando_valores_a_uM[df3EC50_Pasando_valores_a_uM.duplicated(['molecule_chembl_id'], keep=False)]
# Contar el número de veces que aparece cada valor único en la columna `type` y mostrar el resultado
df3EC50_duplicados['type'].value_counts()

In [None]:
# Agrupar las filas del DataFrame `df3EC50_duplicados` por el valor en la columna `molecule_chembl_id`
# y contar el número de filas en cada grupo
df3EC50_duplicados.groupby('molecule_chembl_id').count()

### UNICA MOLECULA QUE TIENE AMBOS VALORES- IC50 Y EC50

In [None]:
# Crear un nuevo DataFrame llamado `ambos_valores` que incluye la molecula CHEMBL256087 que tiene valores de IC50 y EC50
ambos_valores = df3_Pasando_valores_a_uM[df3_Pasando_valores_a_uM['molecule_chembl_id'] == 'CHEMBL256087']
ambos_valores


In [None]:
# Crear un nuevo DataFrame llamado `ambos_valores2` que incluye la molecula CHEMBL256087 que tiene valores de IC50 y EC50
ambos_valores2 = df3EC50_Pasando_valores_a_uM[df3EC50_Pasando_valores_a_uM['molecule_chembl_id'] == 'CHEMBL256087']
ambos_valores2

### QUITAMOS LOS DUPLICADOS DE LOS DATAFRAMES 

### DATAFRAME SIN DUPLICADOS.

In [None]:
# Crear un nuevo DataFrame llamado `df3_SIN_DUPLICADOS` eliminando todas las filas que tienen valores duplicados en la columna `molecule_chembl_id`
# del DataFrame `df3_Pasando_valores_a_uM`
df3_SIN_DUPLICADOS = df3_Pasando_valores_a_uM.drop_duplicates(subset=['molecule_chembl_id'], keep=False)
# Contar el número de veces que aparece cada valor único en la columna `type` y mostrar el resultado como una serie de datos
df3_SIN_DUPLICADOS['type'].value_counts()


In [None]:
# Contar el número de valores únicos en la columna `molecule_chembl_id` del DataFrame `df3_SIN_DUPLICADOS`
df3_SIN_DUPLICADOS['molecule_chembl_id'].nunique()

In [None]:
# Eliminando todas las filas que tienen valores duplicados en la columna `molecule_chembl_id`
df3EC50_SIN_DUPLICADOS = df3EC50_Pasando_valores_a_uM.drop_duplicates(subset=['molecule_chembl_id'], keep=False)
# Contar el número de valores de `molecule_chembl_id` del DataFrame `df3EC50_SIN_DUPLICADOS`
df3EC50_SIN_DUPLICADOS['type'].value_counts()


In [None]:
# Contar el número de valores unicos de `molecule_chembl_id` del DataFrame `df3EC50_SIN_DUPLICADOS`
df3EC50_SIN_DUPLICADOS['molecule_chembl_id'].nunique()

### Creando desviacion estandar

In [None]:
# Agregar una nueva columna al DataFrame `df3_duplicados` que contenga el valor de la desviación estándar de los valores en la columna `value`
# agrupados por el valor de la columna `molecule_chembl_id`
df3_duplicados['std'] = df3_duplicados.groupby('molecule_chembl_id')['value'].transform('std')
df3_duplicados


In [None]:
# Agregar una nueva columna al DataFrame `df3EC50_duplicados` que contenga el valor de la desviación estándar de los valores en la columna `value`
# agrupados por el valor de la columna `molecule_chembl_id`
df3EC50_duplicados['std'] = df3EC50_duplicados.groupby('molecule_chembl_id')['value'].transform('std')
df3EC50_duplicados

### Sacando la media de df3_duplicados

In [None]:
# Convertir los valores de la columna `value y std` del DataFrame `df3_duplicados` en tipo `float`
df3_duplicados['value'] = df3_duplicados['value'].astype(float)
df3_duplicados['std'] = df3_duplicados['std'].astype(float)


In [None]:
# Convertir los valores de la columna `value y std` del DataFrame `df3EC50_duplicados` en tipo `float`
df3EC50_duplicados['value'] = df3EC50_duplicados['value'].astype(float)
df3EC50_duplicados['std'] = df3EC50_duplicados['std'].astype(float)


In [None]:
# Agregar una nueva columna al DataFrame `df3_duplicados` que contenga el valor mediano de los valores en la columna `value`
# agrupados por el valor de la columna `molecule_chembl_id`
df3_duplicados['median'] = df3_duplicados.groupby('molecule_chembl_id')['value'].transform('median')
df3_duplicados

In [None]:
# Agregar una nueva columna al DataFrame `df3EC50_duplicados` que contenga el valor mediano de los valores en la columna `value`
# agrupados por el valor de la columna `molecule_chembl_id`
df3EC50_duplicados['median'] = df3EC50_duplicados.groupby('molecule_chembl_id')['value'].transform('median')
df3EC50_duplicados

### Eliminando el dato CHEMBL256087 de IC50, ya que tiene valores de EC50 tambien

In [None]:
# Eliminando el dato CHEMBL256087 de IC50, ya que tiene valores de EC50 tambien
df3EC50_SIN_DUPLICADOS = df3EC50_SIN_DUPLICADOS[df3EC50_SIN_DUPLICADOS.molecule_chembl_id != 'CHEMBL256087']
df3_duplicados= df3_duplicados[df3_duplicados.molecule_chembl_id != 'CHEMBL256087']


In [None]:
# Mostrando que el dato ya no existe en ese Df
CHEMBL256087 = df3EC50_SIN_DUPLICADOS[df3EC50_SIN_DUPLICADOS.molecule_chembl_id == 'CHEMBL256087']
CHEMBL256087


In [None]:
# Mostrando que el dato ya no existe en ese Df
CHEMBL256087 = df3_duplicados[df3_duplicados.molecule_chembl_id == 'CHEMBL256087']
CHEMBL256087


### Eliminando el indice 1 indicado por los profesores ya que usaremos valores de literatura

In [None]:
# Eliminando el indice 1
df3EC50_duplicados = df3EC50_duplicados.drop([1])
df3EC50_duplicados



In [None]:

df3_SIN_DUPLICADOS['type'].value_counts()


In [None]:

df3_SIN_DUPLICADOS['type'].value_counts()


### Mayores a 3 DESVIACION ESTANDAR DUPLICADOS IC50

In [None]:
# Crear un nuevo DataFrame que contenga solo las filas del DataFrame `df3_duplicados` cuyo valor en la columna `std` es mayor a 3
df3_duplicadosmayora3 = df3_duplicados[df3_duplicados['std'] > 3]
df3_duplicadosmayora3



In [None]:
# Mostramos los valores unicos de df3_duplicadosmayora3
df3_duplicadosmayora3['molecule_chembl_id'].nunique()

### MENORES A 3 DESVIACION ESTANDAR DUPLICADOS IC50

In [None]:
# Filtramos que contenga solo las filas del DataFrame `df3_duplicados` cuyo valor en la columna `std` es menor a 3
df3_duplicados = df3_duplicados[df3_duplicados['std'] <= 3]
df3_duplicados


In [None]:
# Mostramos los valores unicos.
df3_duplicados['molecule_chembl_id'].nunique()

In [None]:
# Contamos df3_SIN_DUPLICADOS 
df3_SIN_DUPLICADOS['type'].value_counts()

In [None]:
# Contamos df3EC50_SIN_DUPLICADOS 
df3EC50_SIN_DUPLICADOS['type'].value_counts()

### Dataframe de duplicados, sin duplicados (unicos) aplicando la media en value

In [None]:
# Reemplazar los valores en la columna `value` del DataFrame `df3_duplicados` con los valores correspondientes en la columna `median`
df3_duplicados['value'] = df3_duplicados['median']
df3_duplicados = df3_duplicados.drop_duplicates(subset=['molecule_chembl_id'], keep='first')
df3_duplicados = df3_duplicados.drop(['median'], axis=1)
df3_duplicados = df3_duplicados.drop(['std'], axis=1)
df3_duplicados

In [None]:
# Mostramos los datos que nos quedaron en el df df3_duplicados luego de filtrar los datos mayores a 3 y dejar la media de los datos duplicados.
df3_duplicados['type'].value_counts()


In [None]:
# Mismo procedimiento que el anterior pero en el df df3EC50_duplicados
df3EC50_duplicados['value'] = df3EC50_duplicados['median']
df3EC50_duplicados = df3EC50_duplicados.drop_duplicates(subset=['molecule_chembl_id'], keep='first')
df3EC50_duplicados = df3EC50_duplicados.drop(['median'], axis=1)
df3EC50_duplicados = df3EC50_duplicados.drop(['std'], axis=1)
df3EC50_duplicados


### agregando los datos a sus respectivos dataframes

In [None]:
# Agregamos los datos filtrados a DF3_NORMALIZADO.
DF3_NORMALIZADO = df3_SIN_DUPLICADOS.append(df3_duplicados)
# Contamos los valores.
DF3_NORMALIZADO['type'].value_counts()


In [None]:
# Agregamos los datos filtrados a DF3_EC50_NORMAALIZADO
DF3_EC50_NORMAALIZADO = df3EC50_SIN_DUPLICADOS.append(df3EC50_duplicados)
# Contamos los valores.
DF3_EC50_NORMAALIZADO['type'].value_counts()



### Mostrando los Dataframes.

In [None]:
DF3_EC50_NORMAALIZADO

In [None]:
DF3_NORMALIZADO

### CAMBIANDO COMA POR PUNTO

In [None]:
# Convertir la columna "value" del dataframe DF3_NORMALIZADO a tipo de dato "str"
DF3_NORMALIZADO['value'] = DF3_NORMALIZADO['value'].astype(str)
# Convertir la columna "value" del dataframe DF3_EC50_NORMAALIZADO a tipo de dato "str"
DF3_EC50_NORMAALIZADO['value'] = DF3_EC50_NORMAALIZADO['value'].astype(str)


In [None]:
# Reemplazar todas las comas por puntos en la columna "value" 
DF3_NORMALIZADO['value'] = DF3_NORMALIZADO['value'].str.replace(',', '.')
DF3_EC50_NORMAALIZADO['value'] = DF3_EC50_NORMAALIZADO['value'].str.replace(',', '.')


In [None]:
# Convertir la columna "value" del dataframe DF3_NORMALIZADO a tipo de dato "float"
DF3_NORMALIZADO['value'] = DF3_NORMALIZADO['value'].astype(float)
DF3_EC50_NORMAALIZADO['value'] = DF3_EC50_NORMAALIZADO['value'].astype(float)


In [None]:
DF3_NORMALIZADO

### AGREGANDO VALOR DE LITERATURA A DATO QUE TENIA AMBOS VALORES( IC50 Y EC50 )

In [None]:
# Agregar un valor de literatura a una fila específica del dataframe DF3_EC50_NORMAALIZADO
DF3_EC50_NORMAALIZADO.loc[DF3_EC50_NORMAALIZADO['molecule_chembl_id'] == 'CHEMBL256087', 'value'] = 350
DF3_EC50_NORMAALIZADO


In [None]:
# Instalar la biblioteca "matplotlib" utilizando pip
!pip install matplotlib

In [None]:
# Este código importa el módulo "pyplot" de la biblioteca de visualización de datos "matplotlib" y lo renombra como "plt".
import matplotlib.pyplot as plt

In [None]:
# Crear histograma de la columna "value"
DF3_NORMALIZADO['value'].hist(bins=50)


In [None]:
# Crear diagrama de caja de la columna "value" del dataframe 
DF3_NORMALIZADO.boxplot(column=['value'])


In [None]:
# Crear diagrama de caja de la columna "value" del dataframe 
DF3_EC50_NORMAALIZADO.boxplot(column=['value'])


In [None]:
# Crear histograma de la columna "value" del dataframe 
DF3_EC50_NORMAALIZADO['value'].hist(bins=50)


### COMPROBANDO QUE EL DATO QUE TENIA AMBOS VALORES SOLO ESTE EN DATAFRAME EC50

In [None]:
# Esto se hace para buscar el dato con identificador "CHEMBL256087" en el dataframe DF3_NORMALIZADO
CHEMBL256087 = DF3_NORMALIZADO[DF3_NORMALIZADO.molecule_chembl_id == 'CHEMBL256087']
CHEMBL256087

DF3_NORMALIZADO = DF3_NORMALIZADO[DF3_NORMALIZADO.molecule_chembl_id != 'CHEMBL256087']
DF3_NORMALIZADO
CHEMBL256087 = DF3_NORMALIZADO[DF3_NORMALIZADO.molecule_chembl_id == 'CHEMBL256087']
CHEMBL256087

In [None]:
# Esto se hace para buscar el dato con identificador "CHEMBL256087" en el dataframe DF3_NORMALIZADO
CHEMBL256087 = DF3_EC50_NORMAALIZADO[DF3_EC50_NORMAALIZADO.molecule_chembl_id == 'CHEMBL256087']
CHEMBL256087


### COMPROBANDO NULOS EN EL DATAFRAME EN LA CATEGORIA "VALUE"

In [None]:
# Esto se hace para comprobar que no haya valores "NaN" o "Not a Number" en la columna "value" del dataframe DF3_NORMALIZADO
DF3_NORMALIZADO[DF3_NORMALIZADO['value'].isnull()]

In [None]:
# Esto se hace para comprobar que no haya valores "NaN" o "Not a Number" en la columna "value" del dataframe DF3_EC50_NORMAALIZADO
DF3_EC50_NORMAALIZADO[DF3_EC50_NORMAALIZADO['value'].isnull()]


### COMPROBANDO NULOS EN CATEGORIA "SMILE"

In [None]:
# Esto se hace para comprobar que no haya valores "NaN" o "Not a Number" en la columna "canonical_smiles" del dataframe DF3_NORMALIZADO
DF3_NORMALIZADO[DF3_NORMALIZADO['canonical_smiles'].isnull()]


In [None]:
# Esto se hace para comprobar que no haya valores "NaN" o "Not a Number" en la columna "canonical_smiles" del dataframe DF3_EC50_NORMAALIZADO
DF3_EC50_NORMAALIZADO[DF3_EC50_NORMAALIZADO['canonical_smiles'].isnull()]


### BUSCANDO EN LITERATURA EL SMILE DE LOS DATOS PERDIDOS EN CATEGORIA SMILE

In [None]:
# Datos sin canonical_smiles
df3_nulos = DF3_NORMALIZADO[DF3_NORMALIZADO['canonical_smiles'].isnull()]
df3_nulos


### mostrando solo su id

In [None]:
# Mostrando el molecule_chembl_id de df3_nulos
df3_nulos['molecule_chembl_id']


In [None]:
#instala seaborn
!pip install seaborn


### NO HAY DATOS DE LAS MOLECULAS EN CUESTION


In [None]:
# Importar los módulos "matplotlib", "numpy" y "pandas"
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
# Crear un gráfico de barras a partir de los datos de la columna "value" del dataframe DF3_EC50_NORMAALIZADO
DF3_EC50_NORMAALIZADO['value'].plot(kind='bar')
# Establecer el tamaño del gráfico
plt.rcParams['figure.figsize'] = [20, 20]
# Ocultar las etiquetas del eje x del gráfico
plt.xticks([])


In [None]:
# Crear un histograma a partir de los datos de la columna "value" del dataframe DF3_NORMALIZADO, dividiendo los datos en 50 intervalos o bin
DF3_NORMALIZADO['value'].hist(bins=50)
# Crear un histograma a partir de los datos de la columna "value" del dataframe DF3_EC50_NORMAALIZADO, dividiendo los datos en 50 intervalos o bin
DF3_EC50_NORMAALIZADO['value'].hist(bins=50)


### DATAFRAME IC50 NORMALIZADO

In [None]:
DF3_NORMALIZADO


### DF EC50 NORMALIZADO

In [None]:
DF3_EC50_NORMAALIZADO

### SEPARANDO COLUMNAS RELEVANTES ('value', 'canonical_smiles', 'molecule_chembl_id')

In [None]:
# Crear un nuevo dataframe llamado "df3_class" que contenga solo las columnas "value", "canonical_smiles" y "molecule_chembl_id" del dataframe DF3_NORMALIZADO
df3_class = DF3_NORMALIZADO[['value', 'canonical_smiles', 'molecule_chembl_id']]
df3_class

In [None]:
# Crear un nuevo dataframe llamado "df3_class2" que contenga solo las columnas "value", "canonical_smiles" y "molecule_chembl_id" del dataframe DF3_EC50_NORMAALIZADO
df3_class2 =  DF3_EC50_NORMAALIZADO[['value', 'canonical_smiles', 'molecule_chembl_id']]

### Eliminando los datos que no tenian smile

In [None]:
# Eliminar las filas que contengan valores nulos en cualquiera de sus columnas
df3_class = df3_class.dropna()
# Eliminar las filas que contengan una cadena vacía en la columna "canonical_smiles"
df3_class = df3_class[df3_class.canonical_smiles != '']
# Mostrar el dataframe "df3_class"
df3_class
#se eliminaron 6 que no tenian smile y no fue posible recuperarlos de chembl.

### LIPINSKI 1

#### Este código importa la biblioteca de química RDKit y usa sus funciones para calcular los descriptores moleculares para un conjunto de datos. Está calculando el peso molecular (MW), el logaritmo del punto de fusión (LogP), el número de donantes de hidrógeno (NumHDonors) y el número de aceptores de hidrógeno (NumHAcceptors) para cada molécula en el conjunto de datos. Estos descriptores se utilizan comúnmente para predecir la solubilidad y absorción oral en los estudios farmacocinéticos.

In [None]:
# Importar los módulos "Chem" y "Descriptors" de la biblioteca "rdkit"
# Importar el módulo "Lipinski" de la biblioteca "rdkit"
from rdkit import Chem
from rdkit.Chem import Descriptors, Lipinski
# Añadir una nueva columna al dataframe "df3_class" con el peso molecular de las moléculas
df3_class['MW'] = df3_class.canonical_smiles.apply(lambda x: Descriptors.MolWt(Chem.MolFromSmiles(x)))
# Añadir una nueva columna al dataframe "df3_class" con el coeficiente de distribución octanol-agua de las moléculas
df3_class['LogP'] = df3_class.canonical_smiles.apply(lambda x: Descriptors.MolLogP(Chem.MolFromSmiles(x)))
# Añadir una nueva columna al dataframe "df3_class" con el número de átomos de hidrógeno que actúan como donadores de enlaces en las moléculas
df3_class['NumHDonors'] = df3_class.canonical_smiles.apply(lambda x: Lipinski.NumHDonors(Chem.MolFromSmiles(x)))
# Añadir una nueva columna al dataframe "df3_class" con el número de átomos que actúan como aceptores de enlaces en las moléculas
df3_class['NumHAcceptors'] = df3_class.canonical_smiles.apply(lambda x: Lipinski.NumHAcceptors(Chem.MolFromSmiles(x)))
# Añadir una nueva columna al dataframe "df3_class" con el número de átomos de hidrógeno que actúan como donadores de enlaces en las moléculas
df3_class['NumHBondDonors'] = df3_class.canonical_smiles.apply(lambda x: Lipinski.NumHDonors(Chem.MolFromSmiles(x)))
# Añadir una nueva columna al dataframe "df3_class" con el número de átomos que actúan como aceptores de enlaces en las moléculas
df3_class['NumHBondAcceptors'] = df3_class.canonical_smiles.apply(lambda x: Lipinski.NumHAcceptors(Chem.MolFromSmiles(x)))


In [None]:
df3_class


In [None]:
# Elimina las filas que tienen valores "NaN" en el dataframe "df3_class2"
df3_class2 = df3_class2.dropna()
# Elimina las filas que tienen cadenas vacías en la columna "canonical_smiles" del dataframe "df3_class2"
df3_class2 = df3_class2[df3_class2.canonical_smiles != '']
df3_class2


In [None]:
from rdkit import Chem
from rdkit.Chem import Descriptors, Lipinski
df3_class2['MW'] = df3_class2.canonical_smiles.apply(lambda x: Descriptors.MolWt(Chem.MolFromSmiles(x)))
df3_class2['LogP'] = df3_class2.canonical_smiles.apply(lambda x: Descriptors.MolLogP(Chem.MolFromSmiles(x)))
df3_class2['NumHDonors'] = df3_class2.canonical_smiles.apply(lambda x: Lipinski.NumHDonors(Chem.MolFromSmiles(x)))
df3_class2['NumHAcceptors'] = df3_class2.canonical_smiles.apply(lambda x: Lipinski.NumHAcceptors(Chem.MolFromSmiles(x)))
df3_class2['NumHBondDonors'] = df3_class2.canonical_smiles.apply(lambda x: Lipinski.NumHDonors(Chem.MolFromSmiles(x)))
df3_class2['NumHBondAcceptors'] = df3_class2.canonical_smiles.apply(lambda x: Lipinski.NumHAcceptors(Chem.MolFromSmiles(x)))


### Agregando IC50 O EC50 para diferenciarlos despues

In [None]:
# Añadir una nueva columna al dataframe "df3_class2" llamada "type" y asignarle a todas las filas el valor "EC50"
df3_class2['type'] = 'EC50'
df3_class2

In [None]:
# Añadir una nueva columna al dataframe "df3_class" llamada "type" y asignarle a todas las filas el valor "IC50"
df3_class['type'] = 'IC50'
df3_class

### concatenando ambos df

In [None]:
# Concatenar los dataframes "df3_class" y "df3_class2" en un nuevo dataframe "df3_class"
df3_class = pd.concat([df3_class, df3_class2], axis=0)
df3_class
# Reindexar el dataframe "df3_class" y eliminar las etiquetas de índice antiguas
df3_class = df3_class.reset_index(drop=True)
df3_class


### cambiando a nM

In [None]:
# Multiplicar todos los valores de la columna "value" del dataframe "df3_class" por 1000
df3_class['value'] = df3_class['value']*1000
df3_class
# Renombrar la columna "value" del dataframe "df3_class" a "value_nM"
df3_class = df3_class.rename(columns={'value': 'value_nM'})
df3_class


In [None]:
# Importar la biblioteca "numpy" como "np"
import numpy as np


In [None]:
# Añadir una nueva columna al dataframe "df3_class" llamada "value_Molar", que contiene los valores de "value_nM" convertidos a Molar
df3_class['value_Molar'] = df3_class['value_nM'].apply(lambda x: 10**(-9)*x)
df3_class


In [None]:
# Añadir una nueva columna al dataframe "df3_class" llamada "log10_value_Molar", que contiene el logaritmo base 10 de los valores de "value_Molar"
df3_class['log10_value_Molar'] = df3_class['value_Molar'].apply(lambda x:-np.log10(x))
# Renombrar la columna "log10_value_Molar" a "PIC50"
df3_class = df3_class.rename(columns={'log10_value_Molar': 'PIC50'})
df3_class


In [None]:
df3_class

### QUITANDO COLUMNAS NO RELEVANTES

In [None]:
# Eliminar las columnas "value_nM", "value_Molar" y "canonical_smiles" del dataframe "df3_class" y almacenar el resultado en un nuevo dataframe llamado "df3_class_columnasrelevantes"
df3_class_columnasrelevantes=df3_class.drop(['value_nM', 'value_Molar', 'canonical_smiles'], axis=1)
df3_class_columnasrelevantes

In [None]:
# Eliminar las columnas "value_nM", "value_Molar" y "canonical_smiles" del dataframe "df3_class" y almacenar el resultado en un nuevo dataframe llamado "graficos"
graficos = df3_class 
graficos = graficos.drop(['value_nM', 'value_Molar', 'canonical_smiles'], axis=1)
graficos

### TIPOS DE DATOS EN DF

In [None]:
# Cambiar el tipo de datos de la columna "type" a cadena (str)
graficos['type'] = graficos['type'].astype(str)
# Mostrar los tipos de datos de cada columna del dataframe
graficos.dtypes


### CREANDO COLUMNA type_num para poder graficar con type

In [None]:
# Crear una nueva columna "type_num" que contenga un número entero según el valor de la columna "type"
# Si "type" es "IC50", "type_num" tendrá el valor 1
# Si "type" es "EC50", "type_num" tendrá el valor 2
graficos['type_num'] = graficos['type'].apply(lambda x: 1 if x == 'IC50' else 2)
graficos


### Importando librerias y paletas de Bokeh

In [None]:
# Este código importa varias paletas de colores de Bokeh, una biblioteca de Python para crear gráficos interactivos. Estas paletas incluyen Spectral6, Category20c, Category20b, Category20, Category10 y otros. También importa varias funciones de Bokeh como figure, show, ColumnDataSource y Legend. Finalmente, también se usa output_notebook() para mostrar los gráficos en un cuaderno Jupyter.
from bokeh.palettes import Spectral6
from bokeh.transform import factor_cmap
from bokeh.palettes import Category20c
from bokeh.palettes import Category20b
from bokeh.palettes import Category20
from bokeh.palettes import Category10
from bokeh.palettes import Category10
from bokeh.palettes import Category10
from bokeh.plotting import figure, show
from bokeh.models import ColumnDataSource
from bokeh.palettes import Spectral6
from bokeh.transform import factor_cmap
from bokeh.palettes import Category20c
from bokeh.models import Legend
from bokeh.palettes import cividis
from bokeh.palettes import Pastel1
from bokeh.palettes import PuRd
from bokeh.palettes import inferno
from bokeh.palettes import PuOr
from bokeh.palettes import Purples
from bokeh.palettes import Turbo256
from bokeh.palettes import RdPu
from bokeh.palettes import Purples
from bokeh.palettes import Spectral6
from bokeh.transform import factor_cmap
from bokeh.palettes import Category20c
from bokeh.palettes import Category20b
from bokeh.palettes import Category20
from bokeh.palettes import Category10
from bokeh.palettes import Category10
from bokeh.palettes import Category10
from bokeh.plotting import figure, show
from bokeh.models import ColumnDataSource
from bokeh.palettes import Spectral6
from bokeh.transform import factor_cmap
from bokeh.palettes import Category20c
from bokeh.models import Legend
from bokeh.plotting import figure, show
from bokeh.models import ColumnDataSource
from bokeh.io import output_notebook
from bokeh.models import Legend
output_notebook()



# GRAFICOS

## DINAMICOS

##### Los siguientes codigos en la seccion DINAMICOS crean diferentes tipos de graficos como de línea, scatter, wisker, barras con Bokeh y colores para un conjunto de datos específico (df). Toma los parámetros columna_x, columna_y, título, nombre de archivo, nombrex y nombrey para construir el gráfico. El gráfico se guarda como un archivo HTML con el nombre especificado en el parámetro nombre de archivo. El gráfico contiene líneas y círculos que se colorean según la columna 'type' del conjunto de datos df, además de etiquetas en los ejes x e y especificadas por los parámetros nombrex y nombrey respectivamente. El gráfico también contiene herramientas hover que muestran información adicional sobre los puntos del gráfico cuando se pasan por encima con el cursor del mouse.

## Scatter 

In [None]:
from bokeh.models import PolySelectTool
from bokeh.models import CrosshairTool, HoverTool
#La función grafico_scatter_bokeh() permite generar un gráfico de dispersión utilizando la librería Bokeh en Python.
#Recibe como parámetros el dataframe que contiene los datos, el nombre de la columna para el eje x, 
# el nombre de la columna para el eje y, el título del gráfico, el nombre del archivo a guardar, 
# el título del eje x y el título del eje y. Además, la función agrega herramientas de hover y leyenda al gráfico para facilitar 
# la interpretación de los datos.
def grafico_scatter_bokeh(df,columna_x,columna_y,titulo,nombre_archivo,nombrex,nombrey):
    df=df.sort_values(by=columna_x)
    source = ColumnDataSource(df)
    p = figure(plot_width=800, plot_height=400,title=titulo)
    p.circle(columna_x, columna_y, source=source, size=10, color="blue", alpha=0.5)
    p.xaxis.axis_label = nombrex
    p.yaxis.axis_label = nombrey
    p.xaxis.axis_label_text_alpha = 1
    p.yaxis.axis_label_text_alpha = 1
    p.xaxis.axis_label_text_font = "times"
    p.yaxis.axis_label_text_font = "times"
    p.xaxis.axis_label_text_font_size = "12pt"
    p.yaxis.axis_label_text_font_size = "12pt"
    p.xaxis.axis_label_text_font_style = "bold"
    p.yaxis.axis_label_text_font_style = "bold"
    p.xaxis.axis_label_standoff = 10
    p.yaxis.axis_label_standoff = 10
    from bokeh.transform import factor_cmap
    index_cmap = factor_cmap('type', palette=['deeppink', 'deepskyblue'], 
                         factors=sorted(graficos['type'].unique()))
    p = figure(plot_width=600, plot_height=450, title = titulo)
    p.scatter(columna_x, columna_y, source=source, fill_color=index_cmap, line_color="ghostwhite",size=10,legend='type', alpha=0.8)
    p.xaxis.axis_label = columna_x
    p.yaxis.axis_label = columna_y
    p.legend.location = "top_left"
    hover = HoverTool()
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id")]
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id"),("PIC50", "@PIC50"),("LogP", "@LogP"),("MW", "@MW"),("NumHAcceptors", "@NumHAcceptors"),("NumHDonors", "@NumHDonors"),("NumHBondAcceptors", "@NumHBondAcceptors"),("NumHBondDonors", "@NumHBondDonors")]
    p.add_tools(hover)
    p.title.text_font_size = '20pt'
    p.title.text_font_style = 'bold'
    p.title.align = 'center'
    p.xaxis.axis_label_text_font_size = '20pt'
    p.xaxis.axis_label_text_font_style = 'bold'
    p.yaxis.axis_label_text_font_size = '20pt'
    p.yaxis.axis_label_text_font_style = 'bold'
    p.yaxis.major_label_text_font_size = '15pt'
    p.yaxis.major_label_text_font_style = 'bold'
    p.xaxis.major_label_text_font_size = '15pt'
    p.xaxis.major_label_text_font_style = 'bold'
    p.axis.axis_line_width = 2
    p.axis.major_tick_line_width = 4
    show(p)

grafico_scatter_bokeh(graficos,'LogP','MW','LogP vs MW','nombre_archivo.html',"LogP","MW")
#LogP vs MW
grafico_scatter_bokeh(graficos,'LogP','NumHAcceptors','LogP vs NumHAcceptors','nombre_archivo.html',"LogP","NumHAcceptors")
#LogP vs NumHDonors
grafico_scatter_bokeh(graficos,'LogP','NumHDonors','LogP vs NumHDonors','nombre_archivo.html',"LogP","NumHDonors")
#mw 
grafico_scatter_bokeh(graficos,'MW','NumHAcceptors','MW vs NumHAcceptors','nombre_archivo.html',"MW","NumHAcceptors")
#mw vs NumHDonors
grafico_scatter_bokeh(graficos,'MW','NumHDonors','MW vs NumHDonors','nombre_archivo.html',"MW","NumHDonors")
#NumHAcceptors vs NumHDonors
grafico_scatter_bokeh(graficos,'NumHAcceptors','NumHDonors','NumHAcceptors vs NumHDonors','nombre_archivo.html',"NumHAcceptors","NumHDonors")
#MW VS NumHBondAcceptors
grafico_scatter_bokeh(graficos,'MW','NumHBondAcceptors','MW vs NumHBondAcceptors','nombre_archivo.html',"MW","NumHBondAcceptors")
#MW VS NumHBondDonors
grafico_scatter_bokeh(graficos,'MW','NumHBondDonors','MW vs NumHBondDonors','nombre_archivo.html',"MW","NumHBondDonors")
#NumHAcceptors VS NumHBondAcceptors
grafico_scatter_bokeh(graficos,'NumHAcceptors','NumHBondAcceptors','NumHAcceptors vs NumHBondAcceptors','nombre_archivo.html',"NumHAcceptors","NumHBondAcceptors")
#PIC50 VS
grafico_scatter_bokeh(graficos,'PIC50','LogP','PIC50 vs LogP','nombre_archivo.html',"PIC50","LogP")
#PIC50 VS MW
grafico_scatter_bokeh(graficos,'PIC50','MW','PIC50 vs MW','nombre_archivo.html',"PIC50","MW")
#PIC50 VS NumHAcceptors
grafico_scatter_bokeh(graficos,'PIC50','NumHAcceptors','PIC50 vs NumHAcceptors','nombre_archivo.html',"PIC50","NumHAcceptors")
#PIC50 VS NumHDonors
grafico_scatter_bokeh(graficos,'PIC50','NumHDonors','PIC50 vs NumHDonors','nombre_archivo.html',"PIC50","NumHDonors")
#PIC50 VS NumHBondAcceptors
grafico_scatter_bokeh(graficos,'PIC50','NumHBondAcceptors','PIC50 vs NumHBondAcceptors','nombre_archivo.html',"PIC50","NumHBondAcceptors")




## test dinamicos agregar cada punto

In [None]:
from bokeh.models import HoverTool
#Esta función grafica un gráfico de dispersión utilizando Bokeh. 
# Los parámetros de entrada son un dataframe, el nombre de la columna de los datos del eje x, 
# el nombre de la columna de los datos del eje y, el título del gráfico, el nombre del archivo para guardar el gráfico,
# el nombre del eje x y el nombre del eje y. Además, permite mostrar una leyenda en la parte superior izquierda de la gráfica 
# y una descripción de cada punto del gráfico al pasar el mouse sobre el punto.
def grafico_scatter_bokeh(df,columna_x,columna_y,titulo,nombre_archivo,nombrex,nombrey):
    df=df.sort_values(by=columna_x)
    source = ColumnDataSource(df)
    p = figure(plot_width=800, plot_height=400,title=titulo)
    p.circle(columna_x, columna_y, source=source, size=10, color="blue", alpha=0.5)
    p.xaxis.axis_label = nombrex
    p.yaxis.axis_label = nombrey
    #text_alpha
    p.xaxis.axis_label_text_alpha = 1
    p.yaxis.axis_label_text_alpha = 1
    #text_font
    p.xaxis.axis_label_text_font = "times"
    p.yaxis.axis_label_text_font = "times"
    #text_font_size
    p.xaxis.axis_label_text_font_size = "12pt"
    p.yaxis.axis_label_text_font_size = "12pt"
    #text_font_style
    p.xaxis.axis_label_text_font_style = "bold"
    p.yaxis.axis_label_text_font_style = "bold"
    #calidad de la letra
    p.xaxis.axis_label_standoff = 10
    p.yaxis.axis_label_standoff = 10
    from bokeh.transform import factor_cmap
    #index_cmap
        
    index_cmap = factor_cmap('type', palette=['deeppink', 'deepskyblue'], 
                         factors=sorted(graficos['type'].unique()))
    

    #grafico
    p = figure(plot_width=600, plot_height=450, title = titulo)
    p.scatter(columna_x, columna_y, source=source, fill_color=index_cmap, line_color="ghostwhite",size=10,legend='type', alpha=0.8)
    p.xaxis.axis_label = columna_x
    p.yaxis.axis_label = columna_y
    p.legend.location = "top_left"
    
    hover = HoverTool()
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id")]
    #PIC50 AL Hover
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id"),("PIC50", "@PIC50")]
    #todos los datos al hover
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id"),("PIC50", "@PIC50"),("LogP", "@LogP"),("MW", "@MW"),("NumHAcceptors", "@NumHAcceptors"),("NumHDonors", "@NumHDonors"),("NumHBondAcceptors", "@NumHBondAcceptors"),("NumHBondDonors", "@NumHBondDonors")]
    
    p.add_tools(hover)
    p.title.text_font_size = '20pt'
    p.title.text_font_style = 'bold'
    #el titulo
    p.title.align = 'center'
    p.xaxis.axis_label_text_font_size = '20pt'
    p.xaxis.axis_label_text_font_style = 'bold'
    p.yaxis.axis_label_text_font_size = '20pt'
    p.yaxis.axis_label_text_font_style = 'bold'
    p.yaxis.major_label_text_font_size = '15pt'
    p.yaxis.major_label_text_font_style = 'bold'
    p.xaxis.major_label_text_font_size = '15pt'
    p.xaxis.major_label_text_font_style = 'bold'
    p.axis.axis_line_width = 2
    p.axis.major_tick_line_width = 4
    
    

    show(p)

    

grafico_scatter_bokeh(graficos,'LogP','MW','LogP vs MW','nombre_archivo.html',"LogP","MW")

In [None]:
graficos[graficos['molecule_chembl_id']=='CHEMBL4073922']


## P.LINE

In [None]:
# esta función grafico_line_bokeh_color toma como entrada un dataframe 
# y dos columnas del mismo, y crea un gráfico de dispersión con la columna_x en el eje x 
# y la columna_y en el eje y. Además, agrega un título al gráfico y le da nombres a los ejes x y y.
# También agrega una herramienta de hover que muestra información adicional al pasar el cursor sobre los puntos del gráfico.
# Además, el gráfico tiene una línea de tendencia y los puntos están coloreados según una columna del dataframe.
# Finalmente, muestra el gráfico utilizando la función show de Bokeh.

def grafico_line_bokeh_color(df,columna_x,columna_y,titulo,nombre_archivo,nombrex,nombrey):
    df=df.sort_values(by=columna_x)
    source = ColumnDataSource(df)
    p = figure(plot_width=800, plot_height=400,title=titulo)
    p.line(columna_x, columna_y, source=source, line_width=2, line_alpha=0.6,color="blue",alpha=0.1)
    p.circle(columna_x, columna_y, source=source, size=10, color=factor_cmap('type', palette=RdPu[4], factors=graficos['type'].unique()), alpha=1)
    p.xaxis.axis_label = nombrex
    p.yaxis.axis_label = nombrey
    p.xaxis.axis_label_text_alpha = 1
    p.yaxis.axis_label_text_alpha = 1
    index_cmap = factor_cmap('type', palette=['deeppink', 'deepskyblue'],
                            factors=sorted(graficos['type'].unique()))
    p = figure(plot_width=600, plot_height=450, title = titulo)
    p.line(columna_x, columna_y, source=source, line_width=2, line_alpha=0.6,color="gainsboro",alpha=0.8)
    p.circle(columna_x, columna_y, source=source, size=10, color=index_cmap,line_color="ghostwhite",legend='type')    
    p.xaxis.axis_label = columna_x
    p.yaxis.axis_label = columna_y
    p.legend.location = "top_left"
    hover = HoverTool()
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id")]
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id"),("PIC50", "@PIC50")]
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id"),("PIC50", "@PIC50"),("LogP", "@LogP"),("MW", "@MW"),("NumHAcceptors", "@NumHAcceptors"),("NumHDonors", "@NumHDonors"),("NumHBondAcceptors", "@NumHBondAcceptors"),("NumHBondDonors", "@NumHBondDonors")]
    p.add_tools(hover)
    p.title.text_font_size = '20pt'
    p.title.text_font_style = 'bold'
    p.title.align = 'center'
    p.xaxis.axis_label_text_font_size = '20pt'
    p.xaxis.axis_label_text_font_style = 'bold'
    p.yaxis.axis_label_text_font_size = '20pt'
    p.yaxis.axis_label_text_font_style = 'bold'
    p.yaxis.major_label_text_font_size = '15pt'
    p.yaxis.major_label_text_font_style = 'bold'
    p.xaxis.major_label_text_font_size = '15pt'
    p.xaxis.major_label_text_font_style = 'bold'
    p.axis.axis_line_width = 2
    p.axis.major_tick_line_width = 4
    


    
    
    show(p)

grafico_line_bokeh_color(graficos,'LogP','MW','LogP vs MW','nombre_archivo.html',"LogP","MW")
#LogP vs
grafico_line_bokeh_color(graficos,'LogP','NumHAcceptors','LogP vs NumHAcceptors','nombre_archivo.html',"LogP","NumHAcceptors")
#LogP vs NumHDonors
grafico_line_bokeh_color(graficos,'LogP','NumHDonors','LogP vs NumHDonors','nombre_archivo.html',"LogP","NumHDonors")



## BARRAS

In [None]:
from bokeh.models import CrosshairTool
#Barras con bokeh

from bokeh.palettes import Plasma
def grafico_barra_bokeh_color(df,columna_x,columna_y,titulo,nombre_archivo,nombrex,nombrey):
    #df=df.sort_values(by=columna_x)
    source = ColumnDataSource(df)
    p = figure(plot_width=800, plot_height=400,title=titulo)
    p.vbar(x=columna_x, top=columna_y, source=source, width=0.9, alpha=1, line_color=None, fill_color=factor_cmap('type', palette=RdPu[4], factors=graficos['type'].unique()))
    p.xaxis.axis_label = nombrex
    p.yaxis.axis_label = nombrey
    p.xaxis.axis_label_text_alpha = 1
    p.yaxis.axis_label_text_alpha = 1
    index_cmap = factor_cmap('type', palette=['deeppink', 'deepskyblue'],
                            factors=sorted(graficos['type'].unique()))
    p = figure(plot_width=600, plot_height=450, title = titulo)
    p.vbar(x=columna_x, top=columna_y, source=source, width=0.9, alpha=1, line_color=None, fill_color=index_cmap,legend='type')
    p.xaxis.axis_label = columna_x
    p.yaxis.axis_label = columna_y
    p.legend.location = "top_left"
    hover = HoverTool()
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id")]

    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id"),("PIC50", "@PIC50")]
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id"),("PIC50", "@PIC50"),("LogP", "@LogP"),("MW", "@MW"),("NumHAcceptors", "@NumHAcceptors"),("NumHDonors", "@NumHDonors"),("NumHBondAcceptors", "@NumHBondAcceptors"),("NumHBondDonors", "@NumHBondDonors")]
    p.add_tools(hover)
    p.title.text_font_size = '20pt'
    p.title.text_font_style = 'bold'
    p.title.align = 'center'
    p.xaxis.axis_label_text_font_size = '20pt'
    p.xaxis.axis_label_text_font_style = 'bold'
    p.yaxis.axis_label_text_font_size = '20pt'
    p.yaxis.axis_label_text_font_style = 'bold'
    p.yaxis.major_label_text_font_size = '15pt'
    p.yaxis.major_label_text_font_style = 'bold'
    p.xaxis.major_label_text_font_size = '15pt'
    p.xaxis.major_label_text_font_style = 'bold'
    p.axis.axis_line_width = 2
    p.axis.major_tick_line_width = 4
    show(p)

grafico_barra_bokeh_color(graficos,'MW','LogP','LogP vs MW','nombre_archivo.html',"LogP","MW")
#LogP vs
grafico_barra_bokeh_color(graficos,'NumHAcceptors','LogP','LogP vs NumHAcceptors','nombre_archivo.html',"LogP","NumHAcceptors")
#LogP vs NumHDonors
grafico_barra_bokeh_color(graficos,'NumHDonors','LogP','LogP vs NumHDonors','nombre_archivo.html',"LogP","NumHDonors")
#MW vs
grafico_barra_bokeh_color(graficos,'MW','NumHAcceptors','MW vs NumHAcceptors','nombre_archivo.html',"MW","NumHAcceptors")
#MW vs NumHDonors
grafico_barra_bokeh_color(graficos,'MW','NumHDonors','MW vs NumHDonors','nombre_archivo.html',"MW","NumHDonors")
#NumHAcceptors vs NumHDonors
grafico_barra_bokeh_color(graficos,'NumHAcceptors','NumHDonors','NumHAcceptors vs NumHDonors','nombre_archivo.html',"NumHAcceptors","NumHDonors")
#MW VS PIC50
grafico_barra_bokeh_color(graficos,'MW','PIC50','MW vs PIC50','nombre_archivo.html',"MW","PIC50")
#LogP VS PIC50
grafico_barra_bokeh_color(graficos,'LogP','PIC50','LogP vs PIC50','nombre_archivo.html',"LogP","PIC50")
#NumHAcceptors VS PIC50
grafico_barra_bokeh_color(graficos,'NumHAcceptors','PIC50','NumHAcceptors vs PIC50','nombre_archivo.html',"NumHAcceptors","PIC50")
#NumHDonors VS PIC50
grafico_barra_bokeh_color(graficos,'NumHDonors','PIC50','NumHDonors vs PIC50','nombre_archivo.html',"NumHDonors","PIC50")




## HISTOGRAMA

In [None]:
# Histograma con bokeh
def histogram_categorical_bokeh(x,data,hue,palette,title,xlabel,ylabel):
    p = figure(title=title, background_fill_color="#ffffff")
    hist, edges = np.histogram(data[x], density=True, bins=50)
    p.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:],
           fill_color="deepskyblue", line_color="#033649",alpha=0.7)
    p.xaxis.axis_label = xlabel
    p.yaxis.axis_label = ylabel
    hover = HoverTool()
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id"),("PIC50", "@PIC50"),("LogP", "@LogP"),("MW", "@MW"),("NumHAcceptors", "@NumHAcceptors"),("NumHDonors", "@NumHDonors"),("NumHBondAcceptors", "@NumHBondAcceptors"),("NumHBondDonors", "@NumHBondDonors")]
    p.add_tools(hover)
    p.title.text_font_size = '20pt'
    p.title.text_font_style = 'bold'
    p.title.align = 'center'
    p.xaxis.axis_label_text_font_size = '20pt'
    p.xaxis.axis_label_text_font_style = 'bold'
    p.yaxis.axis_label_text_font_size = '20pt'
    p.yaxis.axis_label_text_font_style = 'bold'
    p.yaxis.major_label_text_font_size = '15pt'
    p.yaxis.major_label_text_font_style = 'bold'
    p.xaxis.major_label_text_font_size = '15pt'
    p.xaxis.major_label_text_font_style = 'bold'
    p.axis.axis_line_width = 2
    p.axis.major_tick_line_width = 4
    
    show(p)

histogram_categorical_bokeh('LogP',graficos,'type',RdPu[4],'LogP','LogP','Probabilidad')
histogram_categorical_bokeh('MW',graficos,'type',RdPu[4],'MW','MW','Probabilidad')
histogram_categorical_bokeh('NumHAcceptors',graficos,'type',RdPu[4],'NumHAcceptors','NumHAcceptors','Probabilidad')
histogram_categorical_bokeh('NumHDonors',graficos,'type',RdPu[4],'NumHDonors','NumHDonors','Probabilidad')
histogram_categorical_bokeh('PIC50',graficos,'type',RdPu[4],'PIC50','PIC50','Probabilidad')



In [None]:
def grafico_scatter_bokeh_color(data,x,y,titulo,archivo,xlabel,ylabel):
    source = ColumnDataSource(data)
    index_cmap = factor_cmap('type', palette=RdPu[4], factors=sorted(data.type.unique()))

    p = figure(plot_width=600, plot_height=450, title = titulo)
    p.line(x=x, y=y, source=source, line_width=2, line_alpha=0.6,)
    p.scatter(x=x, y=y, source=source, size=10, alpha=1, line_color=None, fill_color=index_cmap,legend='type')
    p.xaxis.axis_label = xlabel
    p.yaxis.axis_label = ylabel
    p.legend.location = "top_left"
    hover = HoverTool()
    hover.tooltips = [("molecule_chembl_id", "@molecule_chembl_id"),("PIC50", "@PIC50"),("LogP",
    "@LogP"),("MW", "@MW"),("NumHAcceptors", "@NumHAcceptors"),("NumHDonors", "@NumHDonors"),("NumHBondAcceptors", "@NumHBondAcceptors"),("NumHBondDonors", "@NumHBondDonors")]
    p.add_tools(hover)

    show(p)




## WHISKER

In [None]:
from bokeh.models import ColumnDataSource, Whisker
from bokeh.plotting import figure, show
from bokeh.sampledata.autompg2 import autompg2 as df
from bokeh.transform import factor_cmap, jitter

# Whisker con bokeh

def grafico_wisker_bokeh(data,x,y,titulo,archivo,xlabel,ylabel):
    source = ColumnDataSource(data)
    classes = list(sorted(data["type"].unique()))
    index_cmap = factor_cmap('type', palette=RdPu[4], factors=sorted(data.type.unique()))
    p = figure(plot_width=600, plot_height=450, title = titulo,x_range=classes)
    g = data.groupby("type")

    upper=[g.get_group(c)[y].max() for c in classes]
    lower=[g.get_group(c)[y].min() for c in classes]
    middle=[g.get_group(c)[y].mean() for c in classes]
    
    
    p.x_range.range_padding = 5
    p.xgrid.grid_line_color = None
    p.xaxis.axis_label = xlabel
    p.yaxis.axis_label = ylabel
    p.xaxis.major_label_orientation = 1
    p.scatter(x=classes, y=upper, size=8, color="deeppink", alpha=1)
    p.scatter(x=classes, y=lower, size=8, color="deepskyblue", alpha=1)
    p.segment(x0=classes, y0=upper, x1=classes, y1=lower, color="mediumslateblue", line_width=2, line_alpha=0.3)
    p.vbar(x=classes, top=middle, width=0.7, line_color="magenta", fill_color=index_cmap,legend='type')
    p.legend.location = "top_left"
    # minimos maximos y medios
    print("los maximos son: {} ".format(upper))
    print("los minimos son: {} ".format(lower))
    print("los medios son: {} ".format(middle))
    p.title.text_font_size = '20pt'
    p.title.text_font_style = 'bold'
    #el titulo
    p.title.align = 'center'
    p.xaxis.axis_label_text_font_size = '20pt'
    p.xaxis.axis_label_text_font_style = 'bold'
    p.yaxis.axis_label_text_font_size = '20pt'
    p.yaxis.axis_label_text_font_style = 'bold'
    p.yaxis.major_label_text_font_size = '15pt'
    p.yaxis.major_label_text_font_style = 'bold'
    p.xaxis.major_label_text_font_size = '15pt'
    p.xaxis.major_label_text_font_style = 'bold'
    p.axis.axis_line_width = 2
    p.axis.major_tick_line_width = 4
    show(p)

grafico_wisker_bokeh(graficos,'type','LogP','LogP','nombre_archivo.html',"type","LogP")
grafico_wisker_bokeh(graficos,'type','MW','MW','nombre_archivo.html',"type","MW")
#type con NumHAcceptors
grafico_wisker_bokeh(graficos,'type','NumHAcceptors','NumHAcceptors','nombre_archivo.html',"type","NumHAcceptors")
#type con NumHDonors
grafico_wisker_bokeh(graficos,'type','NumHDonors','NumHDonors','nombre_archivo.html',"type","NumHDonors")
#type con NumHBondAcceptors
grafico_wisker_bokeh(graficos,'type','NumHBondAcceptors','NumHBondAcceptors','nombre_archivo.html',"type","NumHBondAcceptors")
#type con NumHBondDonors
grafico_wisker_bokeh(graficos,'type','NumHBondDonors','NumHBondDonors','nombre_archivo.html',"type","NumHBondDonors")

    


In [None]:
#importa seaborn
import seaborn as sns

## CORRELACION

In [None]:
def mapa_correlacion(df):
    corr = df.corr()
    corr.style.background_gradient(cmap='coolwarm')
    plt.figure(figsize=(20,20))
    sns.heatmap(corr, annot=True, fmt=".2f")
    plt.show()

mapa_correlacion(graficos)


#lista con los valores del mapa de correlacion
def lista_correlacion(df):
    corr = df.corr()
    corr.style.background_gradient(cmap='coolwarm')
    print(corr)

lista_correlacion(graficos)





## NO DIMANICOS

##### Los siguientes codigos en la seccion NO DINAMICOS crean diferentes tipos de graficos como de línea, scatter, wisker, barras con mathplotlib, seaborn y colores para un conjunto de datos específico (df).

## BOXPLOT

In [None]:
def boxplot_compare(df, var_cat, var_num, color_cat,labelx,labely,title):
    plt.figure(figsize=(5, 5), dpi=160)
    sns.set_style('whitegrid')
    sns.boxplot(x=var_cat, y=var_num, data=df, palette=color_cat)
    plt.xlabel(labelx, fontsize=14, fontweight='bold')
    plt.ylabel(labely, fontsize=14, fontweight='bold')
    plt.xticks(fontsize=12, fontweight='bold')
    plt.yticks(fontsize=12, fontweight='bold')
    plt.title(title, fontsize=16, fontweight='bold')
    plt.setp(plt.gca().artists, edgecolor = 'k', facecolor='w')
    plt.setp(plt.gca().lines, color='k')
    plt.show()
boxplot_compare(graficos,'type','LogP',['palevioletred', 'lightskyblue'],"type","LogP","LogP vs type")
boxplot_compare(graficos,'type','MW',['palevioletred', 'lightskyblue'],"type","MW","MW vs type")
boxplot_compare(graficos,'type','NumHDonors',['palevioletred', 'lightskyblue'],"type","NumHDonors","NumHDonorsvs type")
boxplot_compare(graficos,'type','NumHAcceptors',['palevioletred', 'lightskyblue'],"type","NumHAcceptors","NumHAcceptors vs type")
boxplot_compare(graficos,'type','NumHBondAcceptors',['palevioletred', 'lightskyblue'],"type","NumHBondAcceptors","NumHBondAcceptors vs type")
boxplot_compare(graficos,'type','PIC50',['palevioletred', 'lightskyblue'],"type","PIC50","PIC50 vs type")

## Scatter

In [None]:
def scatterplot_categorical(x,y,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(50, 50), dpi=160)
    sns.set_style('whitegrid')
    sns.lmplot(x=x, y=y, data=data, hue=hue, palette=palette, size=6,aspect=2,fit_reg=False)
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.xticks(fontsize=12, fontweight='bold')
    plt.yticks(fontsize=12, fontweight='bold')
    plt.title(title, fontsize=20, fontweight='bold')
    plt.legend(loc='upper right', fontsize=20)
    plt.show()
scatterplot_categorical('LogP','MW',graficos,'type',['palevioletred', 'lightskyblue'],"LogP vs MW","LogP","MW")
scatterplot_categorical('LogP','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],"LogP vs NumHDonors","LogP","NumHDonors")

## LINEPLOT

In [None]:
def lineplot_hue(x,y,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(5, 5), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.pointplot(x=x, y=y, hue=hue, data=data, palette=palette,alpha=0.7,edgecolor='black', pointkws={"linestyle":"-","linewidth":0.4,"marker":"o","markersize":2,"alpha":0.5},linekws={"linewidth":0.5,"alpha":0.5},size=6,aspect=2,point_size=0.5)
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.legend(loc= 3 , facecolor="w", fontsize=16)
    #ticks
    plt.xticks(fontsize=12, fontweight='bold')
    plt.yticks(fontsize=12, fontweight='bold')

    
    plt.show()

lineplot_hue('LogP','MW',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','LogP','MW')
lineplot_hue('LogP','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','LogP','NumHDonors')
lineplot_hue('LogP','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','LogP','NumHAcceptors')
lineplot_hue('LogP','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','LogP','NumHBondAcceptors')
lineplot_hue('MW','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','MW','NumHDonors')
lineplot_hue('MW','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','MW','NumHAcceptors')
lineplot_hue('MW','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','MW','NumHBondAcceptors')
lineplot_hue('NumHDonors','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','NumHDonors','NumHAcceptors')
lineplot_hue('NumHDonors','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','NumHDonors','NumHBondAcceptors')
lineplot_hue('NumHAcceptors','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','NumHAcceptors','NumHBondAcceptors')



## BARPLOT

In [None]:
def barplot_categorical_stacked_percent_hue(x,y,data,palette,title,xlabel,ylabel):
    plt.figure(figsize=(5, 5), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.barplot(x=x, y=y, data=data, palette=palette, hue_order=["0", "1"], dodge=False,edgecolor='black',)
    plt.xticks(fontsize=20, fontweight='bold')
    plt.yticks(fontsize=20, fontweight='bold')
    plt.title(title, fontsize=20, fontweight='bold')
    plt.setp(plt.gca().artists, edgecolor = 'k', facecolor='w')
    plt.setp(plt.gca().lines, color='k')
    plt.xlabel(xlabel, fontsize=10, fontweight='bold')
    plt.ylabel(ylabel, fontsize=10, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=16)
    plt.show()

barplot_categorical_stacked_percent_hue('type','LogP',graficos,['palevioletred', 'lightskyblue'],'Barplot','type','LogP')
barplot_categorical_stacked_percent_hue('type','MW',graficos,['palevioletred', 'lightskyblue'],'Barplot','type','MW')
barplot_categorical_stacked_percent_hue('type','NumHDonors',graficos,['palevioletred', 'lightskyblue'],'Barplot','type','NumHDonors')
barplot_categorical_stacked_percent_hue('type','NumHAcceptors',graficos,['palevioletred', 'lightskyblue'],'Barplot','type','NumHAcceptors')
barplot_categorical_stacked_percent_hue('type','NumHBondAcceptors',graficos,['palevioletred', 'lightskyblue'],'Barplot','type','NumHBondAcceptors')
#pic50 VS tYPE
barplot_categorical_stacked_percent_hue('type','PIC50',graficos,['palevioletred', 'lightskyblue'],'Barplot','type','pic50')


## HISTOGRAMA

In [None]:
def histplot_hue(x,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(8, 8), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.histplot(x=x, hue=hue, data=data, palette=palette, kde=False,edgecolor='black',alpha=0.7)
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    
    plt.xticks(fontsize=10, fontweight='bold')
    plt.yticks(fontsize=10, fontweight='bold')
    plt.show()


histplot_hue('LogP',graficos,'type',['palevioletred', 'lightskyblue'],'Histogram','LogP','Count')
histplot_hue('MW',graficos,'type',['palevioletred', 'lightskyblue'],'Histogram','MW','Count')
histplot_hue('NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Histogram','NumHDonors','Count')
histplot_hue('NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Histogram','NumHAcceptors','Count')
histplot_hue('NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Histogram','NumHBondAcceptors','Count')
#PIC50
histplot_hue('PIC50',graficos,'type',['palevioletred', 'lightskyblue'],'Histogram','PIC50','Count')





## LINEPLOT

In [None]:
def lineplot_categorical(x,y,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(8, 8), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.lineplot(x=x, y=y, hue=hue, data=data, palette=palette,alpha=1)
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=16)
    plt.xticks(fontsize=10, fontweight='bold')
    plt.yticks(fontsize=10, fontweight='bold')


    plt.show()

lineplot_categorical('LogP','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','LogP','NumHAcceptors')
lineplot_categorical('LogP','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','LogP','NumHDonors')
lineplot_categorical('LogP','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','LogP','NumHBondAcceptors')
lineplot_categorical('MW','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','MW','NumHAcceptors')
lineplot_categorical('MW','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','MW','NumHDonors')
lineplot_categorical('MW','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','MW','NumHBondAcceptors')
lineplot_categorical('NumHAcceptors','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','NumHAcceptors','NumHDonors')
lineplot_categorical('NumHAcceptors','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','NumHAcceptors','NumHBondAcceptors')
lineplot_categorical('NumHDonors','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Lineplot','NumHDonors','NumHBondAcceptors')


## KDEPLOT

In [None]:
#kdeplot
def kdeplot_hue(x,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(5, 5), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.kdeplot(x=x, hue=hue, data=data, palette=palette,alpha=0.7)
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.xticks(fontsize=10, fontweight='bold')
    plt.yticks(fontsize=10, fontweight='bold')
    #plt.legend(graficos["type"],loc= 1 , fontsize=16)
    



    
    plt.show()

kdeplot_hue('LogP',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','LogP','Count')
kdeplot_hue('MW',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','MW','Count')
kdeplot_hue('NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','NumHDonors','Count')
kdeplot_hue('NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','NumHAcceptors','Count')
kdeplot_hue('NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','NumHBondAcceptors','Count')



## HISTOGRAMA CON KDE

In [None]:
def displot_categorical(x,data,palette,title,xlabel,ylabel):
    sns.set(style="whitegrid", color_codes=True)
    plt.figure(figsize=(5, 5), dpi=160)
 
    sns.distplot(data[x], bins=10, kde=True, rug=True,color=palette[1],hist_kws={'alpha':1,'edgecolor':'black','linewidth': 2},kde_kws={'color':'black','linewidth': 4},rug_kws={'color': 'green','alpha':0})


    
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=10, fontweight='bold')
    plt.ylabel(ylabel, fontsize=10, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=1)
    plt.xticks(fontsize=10, fontweight='bold')
    plt.yticks(fontsize=10, fontweight='bold')
    


    plt.show()

displot_categorical('LogP',graficos,['palevioletred', 'lightskyblue'],'Histogram','LogP','Count')
displot_categorical('MW',graficos,['palevioletred', 'lightskyblue'],'Histogram','MW','Count')
displot_categorical('NumHDonors',graficos,['palevioletred', 'lightskyblue'],'Histogram','NumHDonors','Count')
displot_categorical('NumHAcceptors',graficos,['palevioletred', 'lightskyblue'],'Histogram','NumHAcceptors','Count')
displot_categorical('NumHBondAcceptors',graficos,['palevioletred', 'lightskyblue'],'Histogram','NumHBondAcceptors','Count')
#PIC50
displot_categorical('PIC50',graficos,['palevioletred', 'lightskyblue'],'Histogram','PIC50','Count')



## BARPLOT GRUUPBY

In [None]:
#BARRAS CON GRUOUPBY Y HUE
def barplot_hue(x,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(5, 5), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.barplot(x=x, y="count", hue=hue, data=data, palette=palette)
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=16)
    plt.xticks(fontsize=20, fontweight='bold')
    plt.yticks(fontsize=20, fontweight='bold')
    plt.show()

barplot_hue('NumHDonors',graficos.groupby(['NumHDonors','type']).size().reset_index(name='count'),'type',['palevioletred', 'lightskyblue'],'Barplot','NumHDonors','Count')
barplot_hue('NumHAcceptors',graficos.groupby(['NumHAcceptors','type']).size().reset_index(name='count'),'type',['palevioletred', 'lightskyblue'],'Barplot','NumHAcceptors','Count')
barplot_hue('NumHBondAcceptors',graficos.groupby(['NumHBondAcceptors','type']).size().reset_index(name='count'),'type',['palevioletred', 'lightskyblue'],'Barplot','NumHBondAcceptors','Count')
#TYPE
barplot_hue('type',graficos.groupby(['type']).size().reset_index(name='count'),'type',['palevioletred', 'lightskyblue'],'Barplot','type','Count')







## SCATTERPLOT

In [None]:

#SCATTERPLOT
def scatterplot_hue(x,y,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(5, 5), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.scatterplot(x=x, y=y, hue=hue, data=data, palette=palette)
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=16)
    plt.xticks(fontsize=20, fontweight='bold')
    plt.yticks(fontsize=20, fontweight='bold')
    plt.show()

scatterplot_hue('LogP','MW',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','LogP','MW')
scatterplot_hue('NumHDonors','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','NumHDonors','NumHAcceptors')
scatterplot_hue('NumHDonors','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','NumHDonors','NumHBondAcceptors')
scatterplot_hue('NumHAcceptors','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','NumHAcceptors','NumHBondAcceptors')
scatterplot_hue('LogP','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','LogP','NumHDonors')
scatterplot_hue('LogP','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','LogP','NumHAcceptors')
scatterplot_hue('LogP','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','LogP','NumHBondAcceptors')
scatterplot_hue('MW','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','MW','NumHDonors')
scatterplot_hue('MW','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','MW','NumHAcceptors')
scatterplot_hue('MW','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','MW','NumHBondAcceptors')
scatterplot_hue('NumHDonors','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','NumHDonors','NumHAcceptors')
scatterplot_hue('NumHDonors','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','NumHDonors','NumHBondAcceptors')
scatterplot_hue('NumHAcceptors','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','NumHAcceptors','NumHBondAcceptors')
scatterplot_hue('LogP','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','LogP','NumHDonors')
#LOGP vs pic50
scatterplot_hue('LogP','PIC50',graficos,'type',['palevioletred', 'lightskyblue'],'Scatterplot','LogP','PIC50')





## METODO DISPLOT

In [None]:
#displot con hue y groupby
def displot_hue(x,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(8, 8), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.distplot(data[x], bins=10, kde=True, rug=True,color=palette[1],hist_kws={'alpha':0.5,'edgecolor':'black','linewidth': 2},kde_kws={'color':'black','linewidth': 4},rug_kws={'color': 'green','alpha': 0})
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=16)
    plt.xticks(fontsize=20, fontweight='bold')
    plt.yticks(fontsize=20, fontweight='bold')
    plt.show()
    
displot_hue('LogP',graficos,'type',['palevioletred', 'lightskyblue'],'Displot','LogP','Count')
displot_hue('MW',graficos,'type',['palevioletred', 'lightskyblue'],'Displot','MW','Count')

## KDE PLOT

In [None]:
def kdeplot_shade(x,y,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(5, 5), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.kdeplot(data[x], data[y], shade=True, cmap='Reds')
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=16)
    plt.xticks(fontsize=10, fontweight='bold')
    plt.yticks(fontsize=10, fontweight='bold')
    plt.show()

kdeplot_shade('LogP','MW',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','LogP','MW')
kdeplot_shade('LogP','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','LogP','NumHDonors')
kdeplot_shade('LogP','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','LogP','NumHAcceptors')
kdeplot_shade('LogP','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','LogP','NumHBondAcceptors')
kdeplot_shade('LogP','PIC50',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','LogP','PIC50')
kdeplot_shade('MW','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','MW','NumHDonors')
kdeplot_shade('MW','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','MW','NumHAcceptors')
kdeplot_shade('MW','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','MW','NumHBondAcceptors')
kdeplot_shade('MW','PIC50',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','MW','PIC50')
kdeplot_shade('NumHDonors','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','NumHDonors','NumHAcceptors')
kdeplot_shade('NumHDonors','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','NumHDonors','NumHBondAcceptors')
kdeplot_shade('NumHDonors','PIC50',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','NumHDonors','PIC50')
kdeplot_shade('NumHAcceptors','PIC50',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','NumHAcceptors','PIC50')
kdeplot_shade('NumHBondAcceptors','PIC50',graficos,'type',['palevioletred', 'lightskyblue'],'KDE','NumHBondAcceptors','PIC50')

## VIOLIN PLOT

In [None]:
def violin_numeric(x,y,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(5, 5), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.violinplot(x=x, y=y, hue=hue, data=data, palette=palette, split=True, inner="quart")
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=16)
    plt.xticks(fontsize=10, fontweight='bold')
    plt.yticks(fontsize=10, fontweight='bold')
    plt.show()


violin_numeric('type','LogP',graficos,'type',['palevioletred', 'lightskyblue'],'Violin','type','LogP')
violin_numeric('type','MW',graficos,'type',['palevioletred', 'lightskyblue'],'Violin','type','MW')
violin_numeric('type','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Violin','type','NumHDonors')
violin_numeric('type','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Violin','type','NumHAcceptors')
violin_numeric('type','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Violin','type','NumHBondAcceptors')
violin_numeric('type','PIC50',graficos,'type',['palevioletred', 'lightskyblue'],'Violin','type','PIC50')

## JOINPLOT

In [None]:
#jointplot con hue
def jointplot_hue(x,y,data,hue,color,title,xlabel,ylabel):
    plt.figure(figsize=(8, 8), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.jointplot(x=x, y=y, data=data, kind="kde", color=color, height=7)
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=16)
    plt.xticks(fontsize=20, fontweight='bold')
    plt.yticks(fontsize=20, fontweight='bold')
    plt.show()

jointplot_hue('LogP','MW',graficos,'type','palevioletred','Jointplot','LogP','MW')
jointplot_hue('LogP','NumHDonors',graficos,'type','palevioletred','Jointplot','LogP','NumHDonors')
jointplot_hue('LogP','NumHAcceptors',graficos,'type','palevioletred','Jointplot','LogP','NumHAcceptors')
jointplot_hue('LogP','NumHBondAcceptors',graficos,'type','palevioletred','Jointplot','LogP','NumHBondAcceptors')
jointplot_hue('LogP','PIC50',graficos,'type','palevioletred','Jointplot','LogP','PIC50')
jointplot_hue('MW','NumHDonors',graficos,'type','palevioletred','Jointplot','MW','NumHDonors')
jointplot_hue('MW','NumHAcceptors',graficos,'type','palevioletred','Jointplot','MW','NumHAcceptors')
jointplot_hue('MW','NumHBondAcceptors',graficos,'type','palevioletred','Jointplot','MW','NumHBondAcceptors')
jointplot_hue('MW','PIC50',graficos,'type','palevioletred','Jointplot','MW','PIC50')
jointplot_hue('NumHDonors','NumHAcceptors',graficos,'type','palevioletred','Jointplot','NumHDonors','NumHAcceptors')
jointplot_hue('NumHDonors','NumHBondAcceptors',graficos,'type','palevioletred','Jointplot','NumHDonors','NumHBondAcceptors')
jointplot_hue('NumHDonors','PIC50',graficos,'type','palevioletred','Jointplot','NumHDonors','PIC50')
jointplot_hue('NumHAcceptors','PIC50',graficos,'type','palevioletred','Jointplot','NumHAcceptors','PIC50')
jointplot_hue('NumHBondAcceptors','PIC50',graficos,'type','palevioletred','Jointplot','NumHBondAcceptors','PIC50')




## STRIPPLOT

In [None]:
def stripplot_numeric(x,y,data,hue,palette,title,xlabel,ylabel):
    plt.figure(figsize=(5, 5), dpi=160)
    sns.set(style="whitegrid", color_codes=True)
    sns.stripplot(x=x, y=y, hue=hue, data=data, palette=palette, jitter=True)
    plt.title(title, fontsize=20, fontweight='bold')
    plt.xlabel(xlabel, fontsize=20, fontweight='bold')
    plt.ylabel(ylabel, fontsize=20, fontweight='bold')
    plt.legend(loc= 1 , facecolor="w", fontsize=16)
    plt.xticks(fontsize=10, fontweight='bold')
    plt.yticks(fontsize=10, fontweight='bold')
    plt.show()

stripplot_numeric('type','LogP',graficos,'type',['palevioletred', 'lightskyblue'],'Stripplot','type','LogP')
stripplot_numeric('type','MW',graficos,'type',['palevioletred', 'lightskyblue'],'Stripplot','type','MW')
stripplot_numeric('type','NumHDonors',graficos,'type',['palevioletred', 'lightskyblue'],'Stripplot','type','NumHDonors')
stripplot_numeric('type','NumHAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Stripplot','type','NumHAcceptors')
stripplot_numeric('type','NumHBondAcceptors',graficos,'type',['palevioletred', 'lightskyblue'],'Stripplot','type','NumHBondAcceptors')
stripplot_numeric('type','PIC50',graficos,'type',['palevioletred', 'lightskyblue'],'Stripplot','type','PIC50')

# EQUILIBRAR LA DATA (Balanceo de datos)

#### Este código realiza una técnica de muestreo llamada SMOTE (Synthetic Minority Over-sampling Technique) para manejar el desequilibrio de clases en los datos. Esta técnica genera nuevos ejemplos sintéticos para la clase minoritaria a partir de los ejemplos existentes. El código toma los datos X y y, así como el parámetro ignore, que especifica qué atributos ignorar durante el muestreo. Luego, se aplica SMOTE para generar nuevos ejemplos sintéticos. Los resultados se devuelven como X_resampled y y_resampled. Después de eso, se crea un DataFrame con los resultados del muestreo y se agrega la columna 'type'. 

In [None]:
#Se elimina la columna 'type_num' del dataframe graficos
#El resultado se almacena en el mismo dataframe graficos.
graficos = graficos.drop(columns=['type_num'])
graficos

In [None]:
resample = graficos 
resample.dtypes


In [None]:
import imblearn

In [None]:
#instala imblearn
#!pip install -U imbalanced-learn==0.7.0

In [None]:
print(imblearn.__version__)

In [None]:
from imblearn.over_sampling import SMOTE



In [None]:
resample['molecule_chembl_id_num'] = resample['molecule_chembl_id'].str.extract('(\d+)').astype(int)
resample = resample.drop(columns=['molecule_chembl_id'])
resample


In [None]:
def smote_ignore(X, y, ignore):
    sm = SMOTE(random_state=0, k_neighbors=1, sampling_strategy='auto', n_jobs=-1)
    X_resampled, y_resampled = sm.fit_resample(X, y)
    return X_resampled, y_resampled

X_resampled, y_resampled = smote_ignore(resample.drop('type', axis=1), resample['type'], 'molecule_chembl_id')
resample = pd.DataFrame(X_resampled, columns=resample.drop('type', axis=1).columns)
resample['type'] = y_resampled

barplot_hue('type',resample.groupby(['type']).size().reset_index(name='count'),'type',['palevioletred', 'lightskyblue'],'Barplot','type','Count')

resample.groupby(['type']).size().reset_index(name='count')




In [None]:

def smote(X, y):
    sm = SMOTE(random_state=0)
    X_resampled, y_resampled = sm.fit_resample(X, y)
    return X_resampled, y_resampled


In [None]:
resample

In [None]:
resample['molecule_chembl_id'] = 'CHEMBL' + resample['molecule_chembl_id_num'].astype(str)
resample['molecule_chembl_id'][660:] = 0
resample = resample.drop('molecule_chembl_id_num', axis=1)



In [None]:
resample['molecule_chembl_id'] = resample['molecule_chembl_id'].replace(0, np.nan)

In [None]:
resample

In [None]:
scatterplot_hue('LogP','MW',resample,'type',['palevioletred', 'lightskyblue'],'Scatterplot','LogP','MW')
#barras LogP vs numofaceptator 
grafico_barra_bokeh_color(resample,'NumHAcceptors','LogP','LogP vs NumHAcceptors','nombre_archivo.html',"LogP","NumHAcceptors")
#logP numhdonors
grafico_barra_bokeh_color(resample,'NumHDonors','LogP','LogP vs NumHDonors','nombre_archivo.html',"LogP","NumHDonors")
barplot_hue('NumHAcceptors',resample.groupby(['NumHAcceptors','type']).size().reset_index(name='count'),'type',['palevioletred', 'lightskyblue'],'Barplot','NumHAcceptors','Count')
#numaceptators vs logp scatter
scatterplot_hue('NumHAcceptors','LogP',resample,'type',['palevioletred', 'lightskyblue'],'Scatterplot','NumHAcceptors','LogP')
grafico_scatter_bokeh(resample,'LogP','NumHAcceptors','LogP vs NumHAcceptors','nombre_archivo.html',"LogP","NumHAcceptors")
grafico_scatter_bokeh(resample,'LogP','NumHDonors','LogP vs NumHDonors','nombre_archivo.html',"LogP","NumHDonors")
grafico_scatter_bokeh(resample,'LogP','MW','LogP vs MW','nombre_archivo.html',"LogP","MW")
grafico_scatter_bokeh(resample,'NumHAcceptors','NumHDonors','NumHAcceptors vs NumHDonors','nombre_archivo.html',"NumHAcceptors","NumHDonors")
grafico_scatter_bokeh(resample,'NumHAcceptors','MW','NumHAcceptors vs MW','nombre_archivo.html',"NumHAcceptors","MW")
grafico_scatter_bokeh(resample,'NumHDonors','MW','NumHDonors vs MW','nombre_archivo.html',"NumHDonors","MW")
grafico_scatter_bokeh(resample,'LogP','PIC50','LogP vs PIC50','nombre_archivo.html',"LogP","PIC50")
grafico_scatter_bokeh(resample,'MW','PIC50','MW vs PIC50','nombre_archivo.html',"MW","PIC50")
grafico_scatter_bokeh(resample,'NumHAcceptors','PIC50','NumHAcceptors vs PIC50','nombre_archivo.html',"NumHAcceptors","PIC50")
grafico_scatter_bokeh(resample,'NumHDonors','PIC50','NumHDonors vs PIC50','nombre_archivo.html',"NumHDonors","PIC50")
grafico_barra_bokeh_color(resample,'PIC50','LogP','LogP vs PIC50','nombre_archivo.html',"LogP","PIC50")
grafico_barra_bokeh_color(resample,'MW','PIC50','MW vs PIC50','nombre_archivo.html',"MW","PIC50")


# PADEL DESCRIPTOR

In [None]:
#Este código usa la biblioteca urllib.request para descargar dos archivos desde un repositorio de GitHub. El primer archivo descargado es "padel.zip" y el segundo es "padel.sh". 
# Estos archivos se guardan en el directorio actual con los nombres especificados

import urllib.request

urllib.request.urlretrieve("https://github.com/dataprofessor/bioinformatics/raw/master/padel.zip", "padel.zip")
urllib.request.urlretrieve("https://github.com/dataprofessor/bioinformatics/raw/master/padel.sh", "padel.sh")



In [None]:
#Este código importa la biblioteca zipfile y extrae todos los archivos
# de un archivo zip llamado "padel.zip". Esto significa que todos los archivos
# contenidos en el archivo zip se descomprimirán en el directorio actual.
import zipfile
with zipfile.ZipFile('padel.zip', 'r') as zip_ref:
    zip_ref.extractall()
    

In [None]:
#Este código selecciona dos columnas de un marco de datos (df3_class) llamado 'canonical_smiles' y 
# 'molecule_chembl_id' y luego guarda esas columnas en un archivo de texto llamado 'molecule.smi'. 
# El archivo se separa con tabulaciones y no contiene encabezados.
# Finalmente, el código muestra los primeros 100 registros del marco de datos df3_selection.

selection = ['canonical_smiles','molecule_chembl_id']
df3_selection = df3_class[selection]
df3_selection.to_csv('molecule.smi', sep='\t', index=False, header=False)
df3_selection.head(100)


In [None]:
#df3_selection a excel
#df3_selection.to_excel("molecule.xlsx")

In [None]:
#Este código abre un archivo llamado 'molecule.smi' y luego lee todas las líneas del archivo. 
# Después, imprime las primeras cinco líneas del archivo.
with open("molecule.smi") as f:
    lines = f.readlines()
    for line in lines[:5]:
        print(line)


In [None]:
#Este código abre el archivo "molecule.smi" y lee todas las líneas del archivo. 
# Luego, cuenta el número de líneas en el archivo y lo imprime en la pantalla.
with open("molecule.smi") as f:
    lines = f.readlines()
    num_lines = len(lines)
    print(num_lines)


In [None]:
#Este código abre el archivo "padel.sh" y lee todas las líneas del archivo. Luego, imprime 
# cada línea del archivo en la pantalla. 
with open("padel.sh") as f:
    lines = f.readlines()
    for line in lines:
        print(line)



In [None]:
#Este código importa la biblioteca OS de Python, 
# luego cambia los permisos del archivo padel.sh a 777, 
# luego obtiene el directorio actual y agrega el directorio de Git a la variable de entorno PATH.
# Finalmente, ejecuta el archivo padel.sh y guarda la salida en un archivo log.txt, luego 
# imprime el contenido del archivo log.txt.
import os
os.chmod('padel.sh', 0o777)
os.getcwd()
import os
os.environ['PATH'] += os.pathsep + 'C:/Program Files/Git/usr/bin'
!bash padel.sh > log.txt
!cat log.txt


In [None]:
#Este código lee un archivo CSV llamado descriptors_output.csv y lo almacena en una variable llamada df3_X. 
# El archivo CSV contiene datos que se pueden usar para crear una tabla de datos en formato Pandas.
df3_X = pd.read_csv('descriptors_output.csv')

In [None]:
# Muestra df3_X
df3_X

In [None]:
# es una variable que contiene los valores de la columna 'PIC50' y 
# 'type' del marco de datos df3_class. Esta variable 
# se utiliza para almacenar los valores de ambas columnas en un solo lugar para su uso posterior.
df3_Y = df3_class['PIC50']
df3_Y = pd.concat([df3_Y, df3_class['type']], axis=1)
df3_Y

In [None]:
# es una variable que contiene el resultado de la concatenación de dos dataframes, 
# df3_X y df3_Y. La concatenación se realiza a lo largo del eje 1 (axis=1), lo que significa que 
# los dataframes se unen por columnas. 
# Esto significa que el resultado será un dataframe con todas las columnas de df3_X y df3_Y.
dataset3 = pd.concat([df3_X,df3_Y], axis=1)
dataset3

# COLUMNAS IMPORTANTES ANTES DEL BALANCEO

### agregando valor numerico a type

In [None]:
#Este código toma un conjunto de datos llamado dataset3 y crea una nueva columna llamada 'type1'.
# Esta columna contiene un valor de 1 si la columna 'type' contiene el valor 'IC50', o 2 si no lo es.
# Después, elimina las columnas 'type', 'Name', 'PIC50' y 'SMILES'.
# Esto reduce el conjunto de datos a solo los datos relevantes para el análisis.
importantesAntes = dataset3
importantesAntes['type1'] = importantesAntes['type'].apply(lambda x: 1 if x == 'IC50' else 2)
importantesAntes.drop(['type'], axis=1, inplace=True)
importantesAntes.drop(['Name'], axis=1, inplace=True)
importantesAntes.drop(['PIC50'], axis=1, inplace=True)
importantesAntes

In [None]:
dataset3

In [None]:
dataset3.to_excel("dataset3antes1.xlsx")
#dataset3 = pd.read_excel('dataset3antes1.xlsx')
#dataset3

In [None]:
'''from sklearn.metrics import roc_auc_score
from sklearn.linear_model import RidgeClassifier
from sklearn.model_selection import train_test_split
import numpy as np

X = dataset3.drop(['type1'], axis=1)
y = dataset3['type1']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.75, stratify=y)

clf = RidgeClassifier()
clf.fit(X_train, y_train)

y_pred_proba = clf.decision_function(X_test)
y_pred_proba = 1 / (1 + np.exp(-y_pred_proba))

auc = roc_auc_score(y_test, y_pred_proba)
print("AUC (Ridge Classifier): {:.4f}".format(auc))'''


In [None]:
#Importa y muestra las librerias necesarias para Pycaret.
#instala imblearn 0.7.0
#instala pycaret 2.3.1
#instala sklearn 0.24.1

import imblearn
print(imblearn.__version__)
import pycaret
print(pycaret.__version__)
import sklearn
print(sklearn.__version__)


#

# Vanilla compare_models(Accuracy)

#### El código siguiente se utiliza para realizar un análisis de clasificación para el conjunto de datos "dataset3". El objetivo es predecir la variable "tipo1" y se establece un tamaño de entrenamiento del 75%. La división de datos se realiza con estratificación y se habilita la GPU. El proceso se realiza en silencio, con la selección de características habilitada y sin verbose. El ID de sesión es 123 y la normalización está habilitada. Por último, el código invoca el método compare_models() para comparar los modelos entrenados.

In [None]:
from pycaret.classification import *
s = setup(dataset3, target = 'type1', train_size=0.75, data_split_stratify=True,use_gpu=True,silent=True, feature_selection=True,verbose=False,session_id=123,normalize=True)
compare_models()


#

#

# Vanilla

¿Qué tan importante es minimizar la tasa de falsos negativos o falsos positivos? La precisión y el recall pueden ser útiles para evaluar esto.

¿Hay un desequilibrio significativo en el número de ejemplos de cada clase? Si es así, el MCC puede ser útil ya que es sensible al desequilibrio de clases.

¿Estás más interesado en la capacidad del modelo para distinguir entre las dos clases o en su capacidad para hacer predicciones correctas en general? El AUC y la precisión pueden ser útiles para evaluar la primera pregunta, mientras que la precisión y el F1 pueden ser útiles para evaluar la segunda.

In [None]:
#Este código es una función que evalúa un modelo de clasificación de PyCaret.
# Esta función toma como parámetro el nombre del modelo y los datos.
# La función inicializa el entorno de PyCaret, crea el modelo, hace predicciones
# con el modelo, sintoniza el modelo, evalúa el rendimiento del modelo 
# y obtiene la importancia de  las características. 
# Esta información se almacena en listas globales para su uso posterior.

from pycaret.classification import *
important_features_list = []
result_list = []
tuned_models_list = []
predictions_list = []
results_list = []

def eval_model(model_name,datos):   
    # Inicializar el entorno de PyCaret
    exp_clf1 = setup(data = datos, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True)
    set_config('seed', 123)
    
    # Crear el modelo
    best = create_model(model_name)
    
    # Hacer predicciones con el modelo
    predictions = predict_model(best)
    predictions_list.append(predictions)
    
    # Sintonizar el modelo
    tuned_model = tune_model(best,optimize='F1')
    #tuned_model = tune_model(best)
    tuned_models_list.append(tuned_model)
    
    # Evaluar el rendimiento del modelo
    results = evaluate_model(tuned_model)
    results_list.append(results)
    result = pull()
    result_list.append(result)
    
    # Obtener la importancia de las características
    columns = get_config('X_train').columns
    importances = tuned_model.feature_importances_
    important_features = pd.DataFrame({'feature': columns, 'importance': importances, 'Model' : model_name})
    important_features_list.append(important_features)
    globals()[model_name] = tuned_model    


In [None]:
#Este código es una función que se utiliza para evaluar un modelo de clasificación. 
# Utiliza la biblioteca PyCaret para crear el modelo, sintonizarlo y evaluar su rendimiento. 
# También calcula las características más importantes del modelo y las agrega a una lista.

from pycaret.classification import *
# Importar la función permutation_importance
from sklearn.inspection import permutation_importance

#feature_names list
df_list = []
important_features_list = []

# Importar la función permutation_importance
from sklearn.inspection import permutation_importance

#feature_names list
df_list = []

def eval_model2(model_name, df):
    # Crear el modelo
    best = create_model(model_name)
    
    # Sintonizar el modelo
    tuned_model = tune_model(best,optimize='Accuracy')
    
    # Evaluar el rendimiento del modelo
    results = evaluate_model(tuned_model)
    results_list.append(results)
    resultado = pull()
    result_list.append(resultado)
    
    if hasattr(tuned_model, 'feature_importances_'):
        columns = df.columns
        importances = tuned_model.feature_importances_
        important_features = pd.DataFrame({'feature': columns, 'importance': importances, 'Model' : model_name})
        important_features_list.append(important_features)
        globals()[model_name] = tuned_model
        
    elif hasattr(tuned_model, 'coef_'):
        coef = tuned_model.coef_[0]
        feature_names = list(df.columns)
        feature_importances = dict(zip(feature_names, coef))
        df2 = pd.DataFrame.from_dict(feature_importances, orient='index', columns=['importance'])        
        df2 = df2.sort_values(by='importance', ascending=False)
        df2['Model'] = model_name
        df_list.append(df2)
    if df_list:
        result = pd.concat(df_list)
        result = result[result['importance'] != 0]
        #agregalos a la lista
        #important_features_list.append(result)
    else:
        result = pd.DataFrame()
    return result



In [None]:
#Este código se utiliza para mostrar las características importantes de un modelo de aprendizaje automático.
# La primera función, show_important_features(), concatena una lista de características importantes y 
# las ordena en orden descendente por importancia. 
# La segunda función, show_important_features2(), busca un modelo específico en la lista de características
# importantes y devuelve sus características más importantes.

def show_important_features():
    important_features_all = pd.concat(important_features_list)   
    important_features_all.sort_values(by='importance', ascending=False, inplace=True)
    important_features_all['Model'].value_counts()
    important_features_all = important_features_all[important_features_all['importance'] != 0]
    return important_features_all

def show_important_features2(model_name):
    important_features_all = None
    for features in important_features_list:
        if features['Model'].iloc[0] == model_name:
            important_features_all = features
            break
    if important_features_all is None:
        print(f"No se encontraron características importantes para el modelo {model_name}")
    else:
        important_features_all.sort_values(by='importance', ascending=False, inplace=True)
        important_features_all = important_features_all[important_features_all['importance'] != 0]
        return important_features_all

In [None]:
#Este código realiza una serie de operaciones para mostrar 
# los resultados finales de una tabla de datos. La primera función, show_common_features(), busca 
# las características comunes en el conjunto de datos y las devuelve en un marco de datos. 
# La segunda función, show_total_importance(), agrega la importancia total para cada característica y la
# devuelve ordenada por importancia. La tercera función, show_pivot_table(), crea una tabla pivot con la 
# importancia total para cada modelo y cuenta el número de veces que aparece cada característica.
# Finalmente, la última función, show_final_result(), suma todas las importancias para cada característica
# y devuelve los resultados ordenados por importancia.
def show_common_features(df):
    counts = df.groupby('feature')['feature'].count()
    common_features = counts[counts > 1]
    common_features = pd.DataFrame(common_features)
    return common_features
def show_total_importance(df):
    Resto = df.groupby('feature')['importance'].sum()
    Resto = Resto.sort_values(ascending=False)
    Resto = pd.DataFrame(Resto)
    return Resto
def show_pivot_table(df):
    result = df.pivot_table(index='feature', columns='Model', values='importance', aggfunc='sum')
    counts = df['feature'].value_counts().reset_index()
    counts.columns = ['feature', 'count']
    result = pd.merge(result, counts, on='feature')
    result = result.fillna(0)
    result = result[result['count'] > 1]
    result = result.sort_values(by='count', ascending=False)
    return result

def show_final_result(df):
    df['importance'] = df['catboost'] + df['gbc'] + df['dt']+df['ada']+df['et']+df['xgboost']+df['rf']+df['lightgbm']+df['svm']+df['lr']+df['lda']+df['ridge']
    df = df.sort_values(by='importance', ascending=False)
    return df

In [None]:
#Este código define una función llamada df1 que toma dos parámetros:model_name y indice.
# Esta función devuelve un DataFrame. La función primero obtiene el undécimo elemento de 
# la lista result_list en la posición indicada por el índice. Luego, crea un DataFrame a partir
# de ese elemento y agrega una columna llamada Model con el nombre del modelo. 
# Finalmente, devuelve el DataFrame transpuesto.
def df1(model_name,indice):
    df1 = result_list[indice].iloc[10]
    df1 = pd.DataFrame(df1)
    df1['Model'] = model_name
    df1 = df1.T
    return df1


In [None]:
#Este código define una función llamada obtener_importancias, que toma 
# como parámetros un dataframe (df) y un nombre de modelo (model_name). 
# La función agrega una columna al dataframe llamada "Model" que contiene el nombre del modelo. 
# Si el dataframe no tiene una columna llamada "index", se creará una y se renombrará como "feature".
# Luego, el dataframe se ordenará por la columna "importance" en orden descendente. 
# Se eliminarán las filas duplicadas de la columna "feature", manteniendo solo la primera aparición.
# Finalmente, se filtrarán las filas cuyo valor en la columna "importance" sea mayor a 0. 
# La función devuelve el dataframe resultante.
def obtener_importancias(df, model_name):
    df['Model'] = model_name
    if 'index' not in df.columns:
        df = df.reset_index()
        df = df.rename(columns={'index':'feature'})
    df = df.sort_values(by='importance', ascending=False)
    df = df.drop_duplicates(subset='feature', keep='first')
    df = df[df['importance'] > 0]
    important_features_list.append(df)
    return df


### Vanilla

### gbc vanilla


### Este código evalúa un modelo de clasificación  utilizando el conjunto de datos dataset3. El código también muestra las características más importantes del modelo  utilizando la función show_important_features2. Esta función devuelve una lista con los nombres de las características más importantes del modelo.

# El codigo se repite varias veces mas adelante haciendo el mismo procedimiento

In [None]:
eval_model('gbc',dataset3)
gbc = show_important_features2("gbc")
gbc

In [None]:
gbcstats = df1('gbc',0)
gbcstats



In [None]:
df_list = []
ridgestats = eval_model2('ridge',dataset3)
ridgestats

In [None]:
ridgestats = obtener_importancias(ridgestats, 'ridge')
ridgestats

In [None]:
ridgestats2 = df1('ridge',1)
Graficandoridgevanilla = ridgestats2
ridgestats2

In [None]:
df_list = []
ldastats = eval_model2('lda',dataset3)
ldastats

In [None]:
ldastats = obtener_importancias(ldastats, 'lda')
ldastats


In [None]:
ldastats2 = df1('lda',2)
ldastats2

In [None]:
df_list = []
lrstats = eval_model2('lr',dataset3)
lrstats  



In [None]:
lrstats = obtener_importancias(lrstats, 'lr')
lrstats

In [None]:
lrstats2 = df1('lr',3)
Graficandolrvanilla = lrstats2
lrstats2


In [None]:
df_list = []
svmstats = eval_model2('svm',dataset3)
svmstats


In [None]:
svmstats = obtener_importancias(svmstats, 'svm')
svmstats


In [None]:
svmstats2 = df1('svm',4)
svmstats2


### catboost  vanilla

In [None]:
eval_model('catboost',dataset3)
catboost = show_important_features2('catboost')
catboost

In [None]:
catbooststats = df1('catboost',5)
Graficandocatboostvanilla = catbooststats
catbooststats


### xgboost vanilla

In [None]:
eval_model('xgboost',dataset3)
xgboost = show_important_features2('xgboost')
xgboost


In [None]:
xgbooststats =  df1('xgboost',6)
xgbooststats

### lightgbm Vanilla

In [None]:
eval_model('lightgbm',dataset3)
lightgbm = show_important_features2('lightgbm')
lightgbm

In [None]:
lightgbmstats =  df1('lightgbm',7)
lightgbmstats


### rf vanilla

In [None]:
eval_model('rf',dataset3)
rf = show_important_features2('rf')
rf


In [None]:
rfstats =  df1('rf',8)
rfstats


### et vanilla 

In [None]:
#siguiente modelo
eval_model('et',dataset3)
et = show_important_features2('et')
et

In [None]:
etstats = df1('et',9)
etstats

### ada vanilla

In [None]:
#siguiente modelo
eval_model('ada',dataset3)
#evalua
ada = show_important_features2('ada')
ada

In [None]:
adastats = df1('ada',10)
adastats

### dt vanilla

In [None]:
#siguiente modelo
eval_model('dt',dataset3)
#evalua
dt = show_important_features2('dt')
dt



In [None]:
dtstats = df1('dt',11)
dtstats


In [None]:
df_list = []
knnstats = eval_model2('knn',dataset3)
knnstats
knnstats2 = df1('knn',12)
knnstats2



In [None]:
df_list = []
qdastats = eval_model2('qda',dataset3)
qdastats
qdastats2 = df1('qda',13)
qdastats2


In [None]:
df_list = []
nbstats = eval_model2('nb',dataset3)
nbstats
nbstats2 = df1('nb',14)
nbstats2


### Todas vanilla Antes

In [None]:
#Este código llama a la función show_important_features() y luego imprime el resultado.
# La función show_important_features() devuelve una lista de características importantes, 
# que luego se imprimen al usar la instrucción All.
All = show_important_features()
All


In [None]:
#Este código cuenta el número de veces que aparece cada valor en la columna 'Model' de una tabla o dataframe llamado All. Devuelve una serie con los valores únicos de la columna y el número de veces que aparecen.
All['Model'].value_counts()


## Vanilla Entre modelos

### Vanilla Importancia entre modelos

In [None]:
# Esta función toma una lista de elementos y devuelve una lista con los elementos comunes entre ellos
common_featuresVanilla = show_common_features(All)
common_featuresVanilla

In [None]:
# Esta función calcula el total de importancia de todos los elementos en la lista All
total_importanceVanilla = show_total_importance(All)
total_importanceVanilla


In [None]:
# Esta función muestra una tabla de pivote con los datos de la variable All
pivot_tableVanilla = show_pivot_table(All)
pivot_tableVanilla


In [None]:
## Esta línea llama a la función show_final_result() y le pasa como argumento el resultado de la tabla pivote generada con los datos de Vanilla.
final_resultVanilla = show_final_result(pivot_tableVanilla)
final_resultVanilla

## Ver las puntuaciones

In [None]:
#Este código está concatenando los resultados de diferentes modelos de
# aprendizaje automático en un solo objeto llamado "estadísticas". 
# Esto se hace usando la función "pd.concat" de Pandas. Luego elimina la columna 
# "Model" del objeto y agrega una nueva columna "Model" con los nombres de los modelos 
# utilizados para generar los resultados. Finalmente establece el índice del objeto como la columna 
# "Model" y  guarda el objeto como "resultadosVanilla".
stats = pd.concat([gbcstats,ridgestats2,ldastats2,lrstats2,svmstats2,catbooststats,xgbooststats,lightgbmstats,rfstats,etstats,adastats,dtstats,knnstats2,qdastats2,nbstats2],axis=0)
stats = stats.drop('Model',axis=0)
stats['Model'] = ['gbc',"ridge","lda","lr","svm",'catboost','xgboost','lightgbm','rf','et','ada','dt',"knnstats2","qdastats2","nbstats2"]
stats = stats.set_index('Model')
stats['Model'] = ['gbc',"ridge","lda","lr","svm",'catboost','xgboost','lightgbm','rf','et','ada','dt',"knnstats2","qdastats2","nbstats2"]
resultadosVanilla=stats
stats

### Graficos Vanilla

In [None]:
def plot_features_importance(stats, title):
    # cambiar tipo de letra a Times New Roman
    font = {'family': 'Times New Roman',
            'weight': 'bold',
            'size': 20}
    plt.rc('font', **font)

    # elegir paleta de colores
    colors = plt.cm.cividis(np.linspace(0, 1, 7))

    # graficar las barras
    stats.plot(kind='bar',figsize=(14,14), color=colors)

    # establecer título del gráfico
    plt.title(title, fontsize=30)

    # establecer color del fondo
    plt.rcParams['figure.facecolor'] = '#FFFFFF'

    # ocultar rejilla
    plt.grid(b=None)

    # ajustar escala de Y
    plt.yticks(np.arange(0, 1, 0.05))

    # ajustar tamaño de letra y ubicación de la leyenda
    plt.legend(loc='center left', bbox_to_anchor=(1, 0.87),fontsize=20)

    # ajustar tamaño de letras del eje X y hacer que se muestren de lado
    plt.tick_params(axis='x', labelsize=35,rotation=90)

    # ajustar tamaño de letras del eje Y
    plt.tick_params(axis='y', labelsize=16)

    # establecer título del eje X
    plt.xlabel('MODELO',fontsize = 35)

    # establecer título del eje Y
    plt.ylabel('IMPORTANCIA',fontsize = 35)
    plt.show()


In [None]:
def plot_features_importance(stats, title):
    # cambiar tipo de letra a Times New Roman
    font = {'family': 'Times New Roman',
            'weight': 'bold',
            'size': 20}
    plt.rc('font', **font)

    # elegir paleta de colores
    colors = plt.cm.cividis(np.linspace(0, 1, 7))

    # graficar las barras
    stats.plot(kind='bar',figsize=(14,14), color=colors)

    # establecer título del gráfico
    plt.title(title, fontsize=30)

    # establecer color del fondo
    plt.rcParams['figure.facecolor'] = '#FFFFFF'

    # ocultar rejilla
    plt.grid(b=None)

    # ajustar escala de Y
    plt.yticks(np.arange(0, 1, 0.05))

    # ajustar tamaño de letra y ubicación de la leyenda
    plt.legend(loc='center left', bbox_to_anchor=(1, 0.87),fontsize=20)

    # ajustar tamaño de letras del eje X y hacer que se muestren de lado
    plt.tick_params(axis='x', labelsize=35,rotation=90)

    # ajustar tamaño de letras del eje Y
    plt.tick_params(axis='y', labelsize=16)

    # establecer título del eje X
    plt.xlabel('MODELO',fontsize = 35)

    # establecer título del eje Y
    plt.ylabel('IMPORTANCIA',fontsize = 35)
    plt.show()
    


# Classic

#### El código siguiente se utiliza para realizar un análisis de clasificación para el conjunto de datos "dataset3". El objetivo es predecir la variable "tipo1" y se establece un tamaño de entrenamiento del 75%. La división de datos se realiza con estratificación y se habilita la GPU. El proceso se realiza en silencio, con la selección de características habilitada y sin verbose. El ID de sesión es 123 y la normalización está habilitada. Por último, el código invoca el método compare_models() para comparar los modelos entrenados.

In [None]:
exp_clf1 = setup(data = dataset3, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True,feature_selection_method="classic")
compare_models()

## Metodo Classic

In [None]:
from pycaret.classification import *
important_features_list = []
result_list = []
tuned_models_list = []
predictions_list = []
results_list = []

def eval_modelClassic(model_name,datos):
    # Inicializar el entorno de PyCaret
    exp_clf1 = setup(data = datos, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True,feature_selection_method="classic")
    set_config('seed', 123)
    
    # Crear el modelo
    best = create_model(model_name)
    
    # Hacer predicciones con el modelo
    predictions = predict_model(best)
    predictions_list.append(predictions)
    
    # Sintonizar el modelo
    tuned_model = tune_model(best,optimize='Accuracy')
    tuned_models_list.append(tuned_model)
    
    # Evaluar el rendimiento del modelo
    results = evaluate_model(tuned_model)
    results_list.append(results)
    result = pull()
    result_list.append(result)
    
    # Obtener la importancia de las características
    columns = get_config('X_train').columns
    importances = tuned_model.feature_importances_
    important_features = pd.DataFrame({'feature': columns, 'importance': importances, 'Model' : model_name})
    important_features_list.append(important_features)
    globals()[model_name] = tuned_model

In [None]:
from pycaret.classification import *
# Importar la función permutation_importance
from sklearn.inspection import permutation_importance

#feature_names list
df_list = []
important_features_list = []

# Importar la función permutation_importance
from sklearn.inspection import permutation_importance

#feature_names list
df_list = []

def eval_model2Classic(model_name, df):
    # Crear el modelo
    best = create_model(model_name)
    
    # Sintonizar el modelo
    tuned_model = tune_model(best,optimize='Accuracy')
    
    # Evaluar el rendimiento del modelo
    results = evaluate_model(tuned_model)
    results_list.append(results)
    resultado = pull()
    result_list.append(resultado)
    
    if hasattr(tuned_model, 'feature_importances_'):
        columns = df.columns
        importances = tuned_model.feature_importances_
        important_features = pd.DataFrame({'feature': columns, 'importance': importances, 'Model' : model_name})
        important_features_list.append(important_features)
        globals()[model_name] = tuned_model
        
    elif hasattr(tuned_model, 'coef_'):
        coef = tuned_model.coef_[0]
        feature_names = list(df.columns)
        feature_importances = dict(zip(feature_names, coef))
        df2 = pd.DataFrame.from_dict(feature_importances, orient='index', columns=['importance'])        
        df2 = df2.sort_values(by='importance', ascending=False)
        df2['Model'] = model_name
        df_list.append(df2)
    if df_list:
        result = pd.concat(df_list)
        result = result[result['importance'] != 0]
        #important_features_list.append(result)
    else:
        result = pd.DataFrame()
    return result


### dt classic

In [None]:
eval_modelClassic('dt', dataset3)
dt = show_important_features2('dt')
dt


In [None]:
dtstatsClassic = df1('dt',0)
dtstatsClassic

In [None]:
df_list = []
ridgestats = eval_model2Classic('ridge',dataset3)
ridgestats


In [None]:
ridgestats = obtener_importancias(ridgestats, 'ridge')
ridgestats


In [None]:
ridgestatsClassic = df1('ridge',1)
GraficandoridgeClassic = ridgestatsClassic
ridgestatsClassic


In [None]:
df_list = []
svmstats = eval_model2Classic('svm',dataset3)
svmstats


In [None]:
svmstats = obtener_importancias(svmstats, 'svm')
svmstats


In [None]:
svmstatsClassic = df1('svm',2)
svmstatsClassic


In [None]:
df_list = []
lrstats = eval_model2Classic('lr',dataset3)
lrstats


In [None]:
lrstats = obtener_importancias(lrstats, 'lr')
lrstats


In [None]:
lrstatsClassic = df1('lr',3)
GraficandolrClassic = lrstatsClassic
lrstatsClassic

In [None]:
df_list = []
ldastats = eval_model2Classic('lda',dataset3)
ldastats


In [None]:
ldastats = obtener_importancias(ldastats, 'lda')
ldastats


In [None]:
ldastatsClassic = df1('lda',4)
ldastatsClassic


### ada classic

In [None]:
eval_modelClassic('ada', dataset3)
ada = show_important_features2('ada')
ada

In [None]:
adastatsClassic = df1('ada',5)
adastatsClassic


### et classic

In [None]:
eval_modelClassic('et', dataset3)
et = show_important_features2('et')
et

In [None]:
etstatsClassic = df1('et',6)
etstatsClassic

### xgboost classic

In [None]:
eval_modelClassic('xgboost', dataset3)
xgboost = show_important_features2('xgboost')
xgboost

In [None]:
xgbooststatsClassic = df1('xgboost',7)
xgbooststatsClassic

### gbc classic

In [None]:
eval_modelClassic('gbc', dataset3)
gbc = show_important_features2('gbc')
gbc

In [None]:
gbcstatsClassic = df1('gbc',8)
gbcstatsClassic

### rf classic

In [None]:
eval_modelClassic('rf', dataset3)
rf = show_important_features2('rf')
rf

In [None]:
rfstatsClassic = df1('rf',9)
rfstatsClassic


### lightgbm classic 

In [None]:
eval_modelClassic('lightgbm', dataset3)
lightgbm = show_important_features2('lightgbm')
lightgbm

In [None]:
lightgbmstatsClassic = df1('lightgbm',10)
lightgbmstatsClassic

### catboost classic

In [None]:
eval_modelClassic('catboost', dataset3)
catboost = show_important_features2('catboost')
catboost

In [None]:
catbooststatsClassic = df1('catboost',11)
GraficandocatboostClassic = catbooststatsClassic
catbooststatsClassic


In [None]:
df_list = []
knnstatsClassic = eval_model2('knn',dataset3)
knnstatsClassic
knnstats2Classic = df1('knn',12)
knnstats2Classic

df_list = []
qdastatsClassic = eval_model2('qda',dataset3)
qdastatsClassic
qdastats2Classic = df1('qda',13)
qdastats2Classic

df_list = []
nbstatsClassic = eval_model2('nb',dataset3)
nbstatsClassic
nbstats2Classic = df1('nb',14)
nbstats2Classic

### Todas Classic Antes

In [None]:
AllClasic = show_important_features()
AllClasic

In [None]:
AllClasic['Model'].value_counts()

### Entre Modelos Classic

In [None]:
common_featuresClasic = show_common_features(AllClasic)
common_featuresClasic


In [None]:

total_importanceClasic = show_total_importance(AllClasic)
total_importanceClasic


In [None]:

pivot_tableClasic = show_pivot_table(AllClasic)
pivot_tableClasic


In [None]:
final_resultClasic = show_final_result(pivot_tableClasic)
final_resultClasic



### Comparando Puntuaciones

In [None]:
resultadosClasicos = pd.concat([dtstatsClassic,ridgestatsClassic,svmstatsClassic,lrstatsClassic,ldastatsClassic,adastatsClassic,etstatsClassic,xgbooststatsClassic,gbcstatsClassic,rfstatsClassic,lightgbmstatsClassic,catbooststatsClassic,knnstats2Classic,qdastats2Classic,nbstats2Classic], axis=0)
resultadosClasicos = resultadosClasicos.drop('Model',axis=0)
resultadosClasicos
resultadosClasicos['Model'] = ['dt', 'ridge', 'svm', 'lr', 'lda', 'ada', 'et', 'xgboost', 'gbc', 'rf', 'lightgbm', 'catboost',"knnstats2Classic","qdastats2Classic","nbstats2Classic"]
resultadosClasicos = resultadosClasicos.set_index('Model')
resultadosClasicos
resultadosClasicos['Model'] = ['dt', 'ridge', 'svm', 'lr', 'lda', 'ada', 'et', 'xgboost', 'gbc', 'rf', 'lightgbm', 'catboost',"knnstats2Classic","qdastats2Classic","nbstats2Classic"]
resultadosClasicos 

# Boruta 

In [None]:
exp_clf1 = setup(data = dataset3, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True,feature_selection_method="boruta")
compare_models()

## Metodo Boruta 

In [None]:
from pycaret.classification import *
important_features_list = []
result_list = []
tuned_models_list = []
predictions_list = []
results_list = []
def eval_modelboruta(model_name,datos):
    # Inicializar el entorno de PyCaret
    exp_clf1 = setup(data = datos, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True,feature_selection_method="boruta")
    set_config('seed', 123)
    
    # Crear el modelo
    best = create_model(model_name)
    
    # Hacer predicciones con el modelo
    predictions = predict_model(best)
    predictions_list.append(predictions)
    
    # Sintonizar el modelo
    tuned_model = tune_model(best,optimize='Accuracy')
    tuned_models_list.append(tuned_model)
    
    # Evaluar el rendimiento del modelo
    results = evaluate_model(tuned_model)
    results_list.append(results)
    result = pull()
    result_list.append(result)
    
    # Obtener la importancia de las características
    columns = get_config('X_train').columns
    importances = tuned_model.feature_importances_
    important_features = pd.DataFrame({'feature': columns, 'importance': importances, 'Model' : model_name})
    important_features_list.append(important_features)
    globals()[model_name] = tuned_model

In [None]:
from pycaret.classification import *
# Importar la función permutation_importance
from sklearn.inspection import permutation_importance

#feature_names list
df_list = []
important_features_list = []

# Importar la función permutation_importance
from sklearn.inspection import permutation_importance

#feature_names list
df_list = []

def eval_model2boruta(model_name, df):
    # Crear el modelo
    best = create_model(model_name)
    
    # Sintonizar el modelo
    tuned_model = tune_model(best,optimize='Accuracy')
    
    # Evaluar el rendimiento del modelo
    results = evaluate_model(tuned_model)
    results_list.append(results)
    resultado = pull()
    result_list.append(resultado)
    
    if hasattr(tuned_model, 'feature_importances_'):
        columns = df.columns
        importances = tuned_model.feature_importances_
        important_features = pd.DataFrame({'feature': columns, 'importance': importances, 'Model' : model_name})
        important_features_list.append(important_features)
        globals()[model_name] = tuned_model
        
    elif hasattr(tuned_model, 'coef_'):
        coef = tuned_model.coef_[0]
        feature_names = list(df.columns)
        feature_importances = dict(zip(feature_names, coef))
        df2 = pd.DataFrame.from_dict(feature_importances, orient='index', columns=['importance'])        
        df2 = df2.sort_values(by='importance', ascending=False)
        df2['Model'] = model_name
        df_list.append(df2)
    if df_list:
        result = pd.concat(df_list)
        result = result[result['importance'] != 0]
        #agregalos a la lista
        #important_features_list.append(result)
    else:
        result = pd.DataFrame()
    return result


### dt boruta

In [None]:
eval_modelboruta('dt', dataset3)
dt = show_important_features2('dt')
dt


In [None]:
dtstatsboruta = df1('dt',0)
dtstatsboruta


In [None]:
df_list = []
svmstats = eval_model2boruta('svm',dataset3)
svmstats
svmstats = obtener_importancias(svmstats, 'svm')
svmstats


In [None]:
#svm f1 metodo
svmstatsboruta = df1('svm',1)
svmstatsboruta


In [None]:
df_list = []
lrstats = eval_model2boruta('lr',dataset3)
lrstats
lrstats = obtener_importancias(lrstats, 'lr')
lrstats


In [None]:
lrstatsboruta = df1('lr',2)
GraficandolrBoruta = lrstatsboruta
lrstatsboruta


In [None]:
df_list = []
ldastats = eval_model2boruta('lda',dataset3)
ldastats
ldastats = obtener_importancias(ldastats, 'lda')
ldastats

    


In [None]:
ldastatsboruta = df1('lda',3)
ldastatsboruta


In [None]:
df_list = []
ridgestats = eval_model2boruta('ridge',dataset3)
ridgestats
ridgestats = obtener_importancias(ridgestats, 'ridge')
ridgestats


In [None]:
ridgestatsboruta = df1('ridge',4)
GraficandoridgeBoruta = ridgestatsboruta
ridgestatsboruta


### ada boruta

In [None]:
eval_modelboruta('ada', dataset3)
ada = show_important_features2('ada')
ada



In [None]:
adastatsboruta = df1('ada',5)
adastatsboruta


### et boruta

In [None]:
eval_modelboruta('et', dataset3)
et = show_important_features2('et')
et


In [None]:
etstatsboruta = df1('et',6)
etstatsboruta


### xgboost boruta

In [None]:
eval_modelboruta('xgboost', dataset3)
xgboost = show_important_features2('xgboost')
xgboost


In [None]:
xgbooststatsboruta = df1('xgboost',7)
xgbooststatsboruta


### gbc boruta

In [None]:
eval_modelboruta('gbc', dataset3)
gbc = show_important_features2('gbc')
gbc


In [None]:
gbcstatsboruta = df1('gbc',8)
gbcstatsboruta

### rf  boruta

In [None]:
eval_modelboruta('rf', dataset3)
rf = show_important_features2('rf')
rf


In [None]:
rfstatsboruta = df1('rf',9)
rfstatsboruta


### lightgbm boruta

In [None]:
eval_modelboruta('lightgbm', dataset3)
lightgbm = show_important_features2('lightgbm')
lightgbm


In [None]:
lightgbmstatsboruta = df1('lightgbm',10)
lightgbmstatsboruta

### catboost boruta

In [None]:
eval_modelboruta('catboost', dataset3)
catboost = show_important_features2('catboost')
catboost


In [None]:
catbooststatsboruta = df1('catboost',11)
GraficandocatboostBoruta = catbooststatsboruta
catbooststatsboruta


In [None]:
df_list = []
knnstatsboruta = eval_model2('knn',dataset3)
knnstatsboruta
knnstats2boruta = df1('knn',12)
knnstats2boruta

df_list = []
qdastatsboruta = eval_model2('qda',dataset3)
qdastatsboruta
qdastats2boruta = df1('qda',13)
qdastats2boruta

df_list = []
nbstatsboruta = eval_model2('nb',dataset3)
nbstatsboruta
nbstats2boruta = df1('nb',14)
nbstats2boruta

### Todas Boruta Antes

In [None]:
AllBoruta = show_important_features()
AllBoruta

In [None]:

AllBoruta['Model'].value_counts()


### Entre modelos Boruta Antes

In [None]:
common_featuresBoruta = show_common_features(AllBoruta)
common_featuresBoruta


In [None]:
total_importanceBoruta = show_total_importance(AllBoruta)
total_importanceBoruta



In [None]:
pivot_tableBoruta = show_pivot_table(AllBoruta)
pivot_tableBoruta



In [None]:
final_resultBoruta = show_final_result(pivot_tableBoruta)
final_resultBoruta

### Ver Puntuaciones

In [None]:
resultadosBoruta = pd.concat([dtstatsboruta, svmstatsboruta, lrstatsboruta, ldastatsboruta, ridgestatsboruta, adastatsboruta, etstatsboruta, xgbooststatsboruta, gbcstatsboruta, rfstatsboruta, lightgbmstatsboruta, catbooststatsboruta,knnstats2boruta,qdastats2boruta,nbstats2boruta], axis=0)
resultadosBoruta
resultadosBoruta = resultadosBoruta.drop('Model',axis=0)
resultadosBoruta['Model'] =["dtstatsboruta", "svmstatsboruta", "lrstatsboruta", "ldastatsboruta", "ridgestatsboruta", "adastatsboruta", "etstatsboruta", "xgbooststatsboruta"," gbcstatsboruta"," rfstatsboruta"," lightgbmstatsboruta"," catbooststatsboruta","knnstats2boruta","qdastats2boruta","nbstats2boruta"]
resultadosBoruta = resultadosBoruta.set_index('Model')
resultadosBoruta['Model'] =["dtstatsboruta", "svmstatsboruta", "lrstatsboruta", "ldastatsboruta", "ridgestatsboruta", "adastatsboruta", "etstatsboruta", "xgbooststatsboruta"," gbcstatsboruta"," rfstatsboruta"," lightgbmstatsboruta"," catbooststatsboruta","knnstats2boruta","qdastats2boruta","nbstats2boruta"]
resultadosBoruta

## Graficos Boruta

# Agregando valores IC50 Y EC50 para balanceo

In [None]:
dataset3

dataset3['type'] = dataset3['type1'].apply(lambda x: 'IC50' if x == 1 else 'EC50')
dataset3.drop(['type1'], axis=1, inplace=True)
dataset3

# BALANCEO

#### Este código realiza una técnica de muestreo llamada SMOTE (Synthetic Minority Over-sampling Technique) para manejar el desequilibrio de clases en los datos. Esta técnica genera nuevos ejemplos sintéticos para la clase minoritaria a partir de los ejemplos existentes. El código toma los datos X y y, así como el parámetro ignore, que especifica qué atributos ignorar durante el muestreo. Luego, se aplica SMOTE para generar nuevos ejemplos sintéticos. Los resultados se devuelven como X_resampled y y_resampled. Después de eso, se crea un DataFrame con los resultados del muestreo y se agrega la columna 'type'. 

In [None]:
resamplepadel = dataset3
resamplepadel

In [None]:
resamplepadel
from imblearn.over_sampling import SMOTE
sm = SMOTE(random_state=42)
X_res, y_res = sm.fit_resample(resamplepadel.drop(['type'], axis=1), resamplepadel['type'])
resamplepadel = pd.concat([X_res, y_res], axis=1)
resamplepadel



In [None]:
barplot_hue('type',resamplepadel.groupby(['type']).size().reset_index(name='count'),'type',['palevioletred', 'lightskyblue'],'Barplot','type','Count')
resamplepadel.groupby(['type']).size().reset_index(name='count')



In [None]:
resamplepadel.head()


In [None]:
resamplepadel

In [None]:
resamplepadel.dtypes


### Excel resamplepadel

In [None]:
resamplepadel.to_excel('resamplepadel.xlsx', index=False)



In [None]:
import pandas as pd

In [None]:
resamplepadel = pd.read_excel('resamplepadel.xlsx')
resamplepadel

In [None]:
importantesDespues = resamplepadel
importantesDespues['type1'] = importantesDespues['type'].apply(lambda x: 1 if x == 'IC50' else 2)
#drop type
importantesDespues.drop(['type'], axis=1, inplace=True)
importantesDespues


# Despues

# Compare Models Despues de balanceo

In [None]:
from pycaret.classification import *
s = setup(importantesDespues, target = 'type1', train_size=0.75, data_split_stratify=True,use_gpu=True, silent=True)
compare_models()

#  Vanilla Despues

In [None]:
from pycaret.classification import *
important_features_list = []
result_list = []
tuned_models_list = []
predictions_list = []
results_list = []

def eval_modeld(model_name,datos):   
    # Inicializar el entorno de PyCaret
    exp_clf1 = setup(data = datos, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True)
    set_config('seed', 123)
    
    # Crear el modelo
    best = create_model(model_name)
    
    # Hacer predicciones con el modelo
    predictions = predict_model(best)
    predictions_list.append(predictions)
    
    # Sintonizar el modelo
    tuned_model = tune_model(best,optimize='Accuracy')
    tuned_models_list.append(tuned_model)
    
    # Evaluar el rendimiento del modelo
    results = evaluate_model(tuned_model)
    results_list.append(results)
    result = pull()
    result_list.append(result)
    
    # Obtener la importancia de las características
    columns = get_config('X_train').columns
    importances = tuned_model.feature_importances_
    important_features = pd.DataFrame({'feature': columns, 'importance': importances, 'Model' : model_name})
    important_features_list.append(important_features)
    globals()[model_name] = tuned_model
    

### dt vanilla Despues

In [None]:
eval_modeld('dt', importantesDespues)
dt = show_important_features2('dt')
dt



In [None]:

dtstatsvanilladespues = df1('dt',0)
dtstatsvanilladespues


In [None]:
df_list = []
ridgestats = eval_model2('ridge',importantesDespues)
ridgestats





In [None]:

ridgestats = obtener_importancias(ridgestats, 'ridge')
ridgestats



In [None]:

ridgestatsvanilladespues = df1('ridge',1)
GraficandoridgeVanilladespues = ridgestatsvanilladespues
ridgestatsvanilladespues



In [None]:

df_list = []
ldastats = eval_model2('lda',importantesDespues)
ldastats


In [None]:

ldastats = obtener_importancias(ldastats, 'lda')
ldastats



In [None]:
ldastatsvanilladespues = df1('lda',2)
ldastatsvanilladespues

In [None]:


df_list = []
lrstats = eval_model2('lr',importantesDespues)
lrstats  


In [None]:



lrstats = obtener_importancias(lrstats, 'lr')
lrstats





In [None]:

lrstatsvanilladespues = df1('lr',3)
GraficandolrVanilladespues = lrstatsvanilladespues
lrstatsvanilladespues



In [None]:

df_list = []
svmstats = eval_model2('svm',importantesDespues)
svmstats


In [None]:


svmstats = obtener_importancias(svmstats, 'svm')
svmstats



In [None]:



svmstatsvanilladespues = df1('svm',4)
svmstatsvanilladespues


### ada vanilla Despues

In [None]:
eval_modeld('ada', importantesDespues)
ada = show_important_features2('ada')
ada


In [None]:
adastatsVanilla  = df1('ada',5)
adastatsVanilla 


### et vanilla Despues

In [None]:
eval_modeld('et', importantesDespues)
et = show_important_features2('et')
et


In [None]:
etstatsVanilla  = df1('et',6)
etstatsVanilla 


### xgboost vanilla Despues

In [None]:
eval_modeld('xgboost', importantesDespues)
xgboost = show_important_features2('xgboost')
xgboost


In [None]:
xgbooststatsVanilla  = df1('xgboost',7)
xgbooststatsVanilla 


### gbc vanilla Despues

In [None]:
eval_modeld('gbc', importantesDespues)
gbc = show_important_features2('gbc')
gbc


In [None]:
gbcstatsVanilla  = df1('gbc',8)
gbcstatsVanilla 


### rf vanilla Despues

In [None]:
eval_modeld('rf', importantesDespues)
rf = show_important_features2('rf')
rf


In [None]:
rfstatsVanilla  = df1('rf',9)
rfstatsVanilla 


### lightgbm vanilla Despues

In [None]:
eval_modeld('lightgbm', importantesDespues)
lightgbm = show_important_features2('lightgbm')
lightgbm


In [None]:
lightgbmstatsVanilla  = df1('lightgbm',10)
lightgbmstatsVanilla 


### catboost vanilla Despues

In [None]:
eval_modeld('catboost', importantesDespues)
catboost = show_important_features2('catboost')
catboost


In [None]:
catbooststatsVanilla  = df1('catboost',11)
GraficandocatboostVanilladespues = catbooststatsVanilla
catbooststatsVanilla 


In [None]:
df_list = []
knnstatsVanilla = eval_model2('knn',importantesDespues)
knnstatsVanilla
knnstats2Vanilla = df1('knn',12)
knnstats2Vanilla

df_list = []
qdastatsVanilla = eval_model2('qda',importantesDespues)
qdastatsVanilla
qdastats2Vanilla = df1('qda',13)
qdastats2Vanilla

df_list = []
nbstatsVanilla = eval_model2('nb',importantesDespues)
nbstatsVanilla
nbstats2Vanilla = df1('nb',14)
nbstats2Vanilla

###  

## Todas Vanilla Despues

In [None]:
AllVanillaDespues = show_important_features()
AllVanillaDespues


In [None]:
AllVanillaDespues['Model'].value_counts()


## Entre modelos Vanilla Despues

In [None]:
common_featuresDespuesVanilla = show_common_features(AllVanillaDespues)
common_featuresDespuesVanilla

In [None]:
total_importanceDespuesVanilla = show_total_importance(AllVanillaDespues)
total_importanceDespuesVanilla

In [None]:
pivot_tableDespuesVanilla= show_pivot_table(AllVanillaDespues)
pivot_tableDespuesVanilla

In [None]:
final_resultDespuesVanilla = show_final_result(pivot_tableDespuesVanilla)
final_resultDespuesVanilla

## Ver puntuaciones

In [None]:
resultadosVanillaDespues = pd.concat([dtstatsvanilladespues ,ridgestatsvanilladespues, ldastatsvanilladespues, lrstatsvanilladespues, svmstatsvanilladespues, adastatsVanilla, etstatsVanilla, xgbooststatsVanilla, gbcstatsVanilla, rfstatsVanilla, lightgbmstatsVanilla, catbooststatsVanilla,nbstats2Vanilla, qdastats2Vanilla ,knnstats2Vanilla], axis=0)
resultadosVanillaDespues
resultadosVanillaDespues = resultadosVanillaDespues.drop('Model',axis=0)
resultadosVanillaDespues['Model'] =["dtstatsvanilladespues ","ridgestatsvanilladespues", "ldastatsvanilladespues", "lrstatsvanilladespues", "svmstatsvanilladespues", "adastatsVanilla", "etstatsVanilla", "xgbooststatsVanilla", "gbcstatsVanilla", "rfstatsVanilla", "lightgbmstatsVanilla", "catbooststatsVanilla","nbstats2Vanilla ","qdastats2Vanilla", "knnstats2Vanilla"]
resultadosVanillaDespues = resultadosVanillaDespues.set_index('Model')
resultadosVanillaDespues['Model'] =["dtstatsvanilladespues ","ridgestatsvanilladespues", "ldastatsvanilladespues", "lrstatsvanilladespues", "svmstatsvanilladespues", "adastatsVanilla", "etstatsVanilla", "xgbooststatsVanilla", "gbcstatsVanilla", "rfstatsVanilla", "lightgbmstatsVanilla", "catbooststatsVanilla","nbstats2Vanilla ","qdastats2Vanilla", "knnstats2Vanilla"]
resultadosVanillaDespues

# Classic balanceado 

In [None]:
exp_clf1 = setup(data = importantesDespues, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True,feature_selection_method="classic")
compare_models()

In [None]:
from pycaret.classification import *
important_features_list = []
tuned_models_list = []
predictions_list = []
results_list = []
result_list = []
def eval_modelClassicd(model_name,datos):
        
    
    
    # Inicializar el entorno de PyCaret
    exp_clf1 = setup(data = datos, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True,feature_selection_method="classic")
    set_config('seed', 123)
    
    # Crear el modelo
    best = create_model(model_name)
    
    # Hacer predicciones con el modelo
    predictions = predict_model(best)
    predictions_list.append(predictions)
    
    # Sintonizar el modelo
    tuned_model = tune_model(best,optimize='Accuracy')
    tuned_models_list.append(tuned_model)
    
    # Evaluar el rendimiento del modelo
    results = evaluate_model(tuned_model)
    results_list.append(results)
    result = pull()
    result_list.append(result)
    
    # Obtener la importancia de las características
    columns = get_config('X_train').columns
    importances = tuned_model.feature_importances_
    important_features = pd.DataFrame({'feature': columns, 'importance': importances, 'Model' : model_name})
    important_features_list.append(important_features)
    globals()[model_name] = tuned_model

### dt Classic Despues

In [None]:
eval_modelClassicd('dt', importantesDespues)
dt = show_important_features2('dt')
dt


In [None]:
dtstatsClassicdespues  = df1('dt',0)
dtstatsClassicdespues 


In [None]:
df_list = []
ridgestats =eval_model2Classic('ridge',importantesDespues)
ridgestats

ridgestats = obtener_importancias(ridgestats, 'ridge')
ridgestats



In [None]:

ridgestatsClassicdespues  = df1('ridge',1)
GraficandoridgeClassicdespues = ridgestatsClassicdespues
ridgestatsClassicdespues


In [None]:


df_list = []
ldastats = eval_model2Classic('lda',importantesDespues)
ldastats

ldastats = obtener_importancias(ldastats, 'lda')
ldastats




In [None]:


ldastatsClassicdespues  = df1('lda',2)
ldastatsClassicdespues


In [None]:


df_list = []
lrstats = eval_model2Classic('lr',importantesDespues)
lrstats  


lrstats = obtener_importancias(lrstats, 'lr')
lrstats





In [None]:



lrstatsClassicdespues  = df1('lr',3)
GraficandolrClassicdespues = lrstatsClassicdespues
lrstatsClassicdespues


In [None]:
df_list = []
svmstats =eval_model2Classic('svm',importantesDespues)
svmstats

svmstats = obtener_importancias(svmstats, 'svm')
svmstats





In [None]:
svmstatsClassicdespues  = df1('svm',4)
svmstatsClassicdespues


### ada Classic Despues

In [None]:
eval_modelClassicd('ada', importantesDespues)
ada = show_important_features2('ada')
ada


In [None]:
adastatsClassicdespues  = df1('ada',5)
adastatsClassicdespues 


### et Classic Despues

In [None]:
eval_modelClassicd('et', importantesDespues)
et = show_important_features2('et')
et


In [None]:
etstatsClassicdespues  = df1('et',6)
etstatsClassicdespues 


### xgboost Classic Despues

In [None]:
eval_modelClassicd('xgboost', importantesDespues)
xgboost = show_important_features2('xgboost')
xgboost


In [None]:
xgbooststatsClassicdespues  = df1('xgboost',7)
xgbooststatsClassicdespues 


### gbc Classic Despues

In [None]:
eval_modelClassicd('gbc', importantesDespues)
gbc = show_important_features2('gbc')
gbc


In [None]:
gbcstatsClassicdespues  = df1('gbc',8)
gbcstatsClassicdespues 


### rf Classic Despues

In [None]:
eval_modelClassicd('rf', importantesDespues)
rf = show_important_features2('rf')
rf


In [None]:
rfstatsClassicdespues  = df1('rf',9)
rfstatsClassicdespues 


### lightgbm Classic Despues

In [None]:
eval_modelClassicd('lightgbm', importantesDespues)
lightgbm = show_important_features2('lightgbm')
lightgbm


In [None]:
lightgbmstatsClassicdespues  = df1('lightgbm',10)
lightgbmstatsClassicdespues 


### catboost Classic Despues

In [None]:
eval_modelClassicd('catboost', importantesDespues)
catboost = show_important_features2('catboost')
catboost

In [None]:
catbooststatsClassicdespues  = df1('catboost',11)
GraficandocatboostClassicdespues = catbooststatsClassicdespues
catbooststatsClassicdespues 


In [None]:
df_list = []
knnstatsClassicdespues = eval_model2('knn',importantesDespues)
knnstatsClassicdespues
knnstats2Classicdespues = df1('knn',12)
knnstats2Classicdespues

df_list = []
qdastatsClassicdespues = eval_model2('qda',importantesDespues)
qdastatsClassicdespues
qdastats2Classicdespues = df1('qda',13)
qdastats2Classicdespues

df_list = []
nbstatsClassicdespues = eval_model2('nb',importantesDespues)
nbstatsClassicdespues
nbstats2Classicdespues = df1('nb',14)
nbstats2Classicdespues

## Todas Classic Despues 

In [None]:
AllClassicDespues = show_important_features()
AllClassicDespues


In [None]:
AllClassicDespues['Model'].value_counts()


## Entre Modelos Classic Despues 

In [None]:
common_featuresDespuesClassic = show_common_features(AllClassicDespues)
common_featuresDespuesClassic

In [None]:
total_importanceDespuesClassic = show_total_importance(AllClassicDespues)
total_importanceDespuesClassic

In [None]:
pivot_tableDespuesClassic = show_pivot_table(AllClassicDespues)
pivot_tableDespuesClassic


In [None]:
final_resultDespues = show_final_result(pivot_tableDespuesClassic)
final_resultDespues



## Ver puntuaciones

In [None]:
resultadosClassicDespues = pd.concat([dtstatsClassicdespues ,ridgestatsClassicdespues ,ldastatsClassicdespues ,lrstatsClassicdespues ,svmstatsClassicdespues ,adastatsClassicdespues ,etstatsClassicdespues ,xgbooststatsClassicdespues ,gbcstatsClassicdespues ,rfstatsClassicdespues ,lightgbmstatsClassicdespues ,catbooststatsClassicdespues,knnstats2Classicdespues,qdastats2Classicdespues,nbstats2Classicdespues ], axis=0)
resultadosClassicDespues
resultadosClassicDespues = resultadosClassicDespues.drop('Model',axis=0)
resultadosClassicDespues['Model'] =["dtstatsClassicdespues ","ridgestatsClassicdespues", "ldastatsClassicdespues", "lrstatsClassicdespues", "svmstatsClassicdespues", "adastatsClassicdespues", "etstatsClassicdespues", "xgbooststatsClassicdespues", "gbcstatsClassicdespues", "rfstatsClassicdespues", "lightgbmstatsClassicdespues", "catbooststatsClassicdespues","knnstats2Classicdespues","qdastats2Classicdespues","nbstats2Classicdespues" ]
resultadosClassicDespues = resultadosClassicDespues.set_index('Model')
resultadosClassicDespues['Model'] =["dtstatsClassicdespues ","ridgestatsClassicdespues", "ldastatsClassicdespues", "lrstatsClassicdespues", "svmstatsClassicdespues", "adastatsClassicdespues", "etstatsClassicdespues", "xgbooststatsClassicdespues", "gbcstatsClassicdespues", "rfstatsClassicdespues", "lightgbmstatsClassicdespues", "catbooststatsClassicdespues","knnstats2Classicdespues","qdastats2Classicdespues","nbstats2Classicdespues" ]
resultadosClassicDespues

# Boruta 

In [None]:
exp_clf1 = setup(data = importantesDespues, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True,feature_selection_method="boruta")
compare_models(sort='Accuracy')

In [None]:
from pycaret.classification import *
important_features_list = []
important_features_list = []
tuned_models_list = []
predictions_list = []
results_list = []
result_list = []
def eval_modelborutad(model_name,datos):

    
    # Inicializar el entorno de PyCaret
    exp_clf1 = setup(data = datos, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True,feature_selection_method="boruta")
    set_config('seed', 123)
    
    # Crear el modelo
    best = create_model(model_name)
    
    # Hacer predicciones con el modelo
    predictions = predict_model(best)
    predictions_list.append(predictions)
    
    # Sintonizar el modelo
    tuned_model = tune_model(best,optimize='Accuracy')
    tuned_models_list.append(tuned_model)
    
    # Evaluar el rendimiento del modelo
    results = evaluate_model(tuned_model)
    results_list.append(results)
    result = pull()
    result_list.append(result)
    
    # Obtener la importancia de las características
    columns = get_config('X_train').columns
    importances = tuned_model.feature_importances_
    important_features = pd.DataFrame({'feature': columns, 'importance': importances, 'Model' : model_name})
    important_features_list.append(important_features)
    globals()[model_name] = tuned_model

### dt Boruta Despues  

In [None]:
eval_modelborutad('dt', importantesDespues)
dt = show_important_features2('dt')
dt


In [None]:
dtstatsborutadespues  = df1('dt',0)
dtstatsborutadespues


In [None]:
df_list = []
ridgestats =eval_model2Classic('ridge',importantesDespues)
ridgestats

ridgestats = obtener_importancias(ridgestats, 'ridge')
ridgestats




In [None]:
ridgestatsborutadespues  = df1('ridge',1)
GraficandoridgeBorutadespues = ridgestatsborutadespues
ridgestatsborutadespues



In [None]:

df_list = []
ldastats = eval_model2boruta('lda',importantesDespues)
ldastats

ldastats = obtener_importancias(ldastats, 'lda')
ldastats






In [None]:
ldastatsborutadespues  = df1('lda',2)
ldastatsborutadespues



In [None]:

df_list = []
lrstats = eval_model2boruta('lr',importantesDespues)
lrstats  


lrstats = obtener_importancias(lrstats, 'lr')
lrstats







In [None]:
lrstatsborutadespues  = df1('lr',3)
GraficandolrBorutadespues = lrstatsborutadespues
lrstatsborutadespues



In [None]:
df_list = []
svmstats =eval_model2boruta('svm',importantesDespues)
svmstats

svmstats = obtener_importancias(svmstats, 'svm')
svmstats






In [None]:
svmstatsborutadespues  = df1('svm',4)
svmstatsborutadespues


### ada Boruta Despues

In [None]:

eval_modelborutad('ada', importantesDespues)
ada = show_important_features2('ada')
ada


In [None]:
adastatsBorutaDespues = df1('ada',5)
adastatsBorutaDespues

### et Boruta Despues

In [None]:
eval_modelborutad('et', importantesDespues)
et = show_important_features2('et')
et


In [None]:
etstatsBorutaDespues = df1('et',6)
etstatsBorutaDespues


### xgboost Boruta Despues

In [None]:
eval_modelborutad('xgboost', importantesDespues)
xgboost = show_important_features2('xgboost')
xgboost


In [None]:
xgbooststatsBorutaDespues = df1('xgboost',7)
xgbooststatsBorutaDespues


### gbc Boruta Despues

In [None]:
eval_modelborutad('gbc', importantesDespues)
gbc = show_important_features2('gbc')
gbc


In [None]:
gbcstatsBorutaDespues = df1('gbc',8)
gbcstatsBorutaDespues


### rf Boruta Despues

In [None]:
eval_modelborutad('rf', importantesDespues)
rf = show_important_features2('rf')
rf


In [None]:
rfstatsBorutaDespues = df1('rf',9)
rfstatsBorutaDespues


### lighgbm Boruta Despues

In [None]:
eval_modelborutad('lightgbm', importantesDespues)
lightgbm = show_important_features2('lightgbm')
lightgbm


In [None]:
lightgbmstatsBorutaDespues = df1('lightgbm',10)
lightgbmstatsBorutaDespues


### catboost Boruta Despues

In [None]:
eval_modelborutad('catboost', importantesDespues)
catboost = show_important_features2('catboost')
catboost

In [None]:
#grafica roc curve de catboost

In [None]:
catbooststatsBorutaDespues = df1('catboost',11)
GraficandocatboostBorutadespues = catbooststatsBorutaDespues
catbooststatsBorutaDespues

In [None]:
df_list = []
knnstatsBorutaDespues = eval_model2('knn',importantesDespues)
knnstatsBorutaDespues
knnstats2BorutaDespues = df1('knn',12)
knnstats2BorutaDespues

df_list = []
qdastatsBorutaDespues = eval_model2('qda',importantesDespues)
qdastatsBorutaDespues
qdastats2BorutaDespues = df1('qda',13)
qdastats2BorutaDespues

df_list = []
nbstatsBorutaDespues = eval_model2('nb',importantesDespues)
nbstatsBorutaDespues
nbstats2BorutaDespues = df1('nb',14)
nbstats2BorutaDespues

## Todas Boruta Despues


In [None]:
AllBorutaDespues = show_important_features()
AllBorutaDespues

In [None]:
AllBorutaDespues['Model'].value_counts()


## Entre modelos Boruta Despues 

In [None]:
common_featuresDespuesBoruta = show_common_features(AllBorutaDespues)
common_featuresDespuesBoruta



In [None]:

total_importanceDespuesBoruta = show_total_importance(AllBorutaDespues)
total_importanceDespuesBoruta



In [None]:
pivot_tableDespuesBoruta = show_pivot_table(AllBorutaDespues)
pivot_tableDespuesBoruta




In [None]:
final_resultDespuesBoruta = show_final_result(pivot_tableDespuesBoruta)
final_resultDespuesBoruta






## Ver Puntuaciones

In [None]:
#Este código concatena varios conjuntos de datos (dtstatsborutadespues, ridgestatsborutadespues, ldastatsborutadespues, etc.) en un solo conjunto de datos llamado resultadosBorutaDespues. Luego elimina la columna 'Model' y la reemplaza con una lista de nombres de modelos. Por último, establece el índice del conjunto de datos como 'Model'.
resultadosBorutaDespues = pd.concat([dtstatsborutadespues ,ridgestatsborutadespues ,ldastatsborutadespues ,lrstatsborutadespues ,svmstatsborutadespues ,adastatsBorutaDespues ,etstatsBorutaDespues ,xgbooststatsBorutaDespues ,gbcstatsBorutaDespues ,rfstatsBorutaDespues ,lightgbmstatsBorutaDespues ,catbooststatsBorutaDespues,knnstats2BorutaDespues,qdastats2BorutaDespues,nbstats2BorutaDespues ], axis=0)
resultadosBorutaDespues
resultadosBorutaDespues = resultadosBorutaDespues.drop('Model',axis=0)
resultadosBorutaDespues['Model'] =["dtstatsborutadespues ","ridgestatsborutadespues", "ldastatsborutadespues", "lrstatsborutadespues", "svmstatsborutadespues", "adastatsBorutaDespues", "etstatsBorutaDespues", "xgbooststatsBorutaDespues", "gbcstatsBorutaDespues", "rfstatsBorutaDespues", "lightgbmstatsBorutaDespues", "catbooststatsBorutaDespues","knnstats2BorutaDespues","qdastats2BorutaDespues","nbstats2BorutaDespues"]
resultadosBorutaDespues = resultadosBorutaDespues.set_index('Model')
resultadosBorutaDespues['Model'] =["dtstatsborutadespues ","ridgestatsborutadespues", "ldastatsborutadespues", "lrstatsborutadespues", "svmstatsborutadespues", "adastatsBorutaDespues", "etstatsBorutaDespues", "xgbooststatsBorutaDespues", "gbcstatsBorutaDespues", "rfstatsBorutaDespues", "lightgbmstatsBorutaDespues", "catbooststatsBorutaDespues","knnstats2BorutaDespues","qdastats2BorutaDespues","nbstats2BorutaDespues"]
resultadosBorutaDespues



# Mejores Modelos

## Antes de balanceo

In [None]:
Antes_graficos_final_vanilla = pd.concat([Graficandoridgevanilla, Graficandolrvanilla, Graficandocatboostvanilla])

In [None]:
Antes_graficos_final_vanilla

In [None]:
Antes_graficos_final_Classic = pd.concat([GraficandoridgeClassic, GraficandolrClassic, GraficandocatboostClassic])
Antes_graficos_final_Classic

In [None]:
Antes_graficos_final_Boruta = pd.concat([GraficandolrBoruta, GraficandoridgeBoruta, GraficandocatboostBoruta])
Antes_graficos_final_Boruta

## Despues de balanceo

In [None]:
Despues_graficos_final_Vanilla = pd.concat([GraficandoridgeVanilladespues, GraficandolrVanilladespues, GraficandocatboostVanilladespues])
Despues_graficos_final_Vanilla

In [None]:
Despues_graficos_final_Classic = pd.concat([GraficandoridgeClassicdespues, GraficandolrClassicdespues, GraficandocatboostClassicdespues])
Despues_graficos_final_Classic

In [None]:
Despues_graficos_final_Boruta = pd.concat([GraficandoridgeBorutadespues, GraficandolrBorutadespues, GraficandocatboostBorutadespues])
Despues_graficos_final_Boruta

In [None]:
Antes_graficos_final_vanillatest = Antes_graficos_final_vanilla.T
Antes_graficos_final_vanillatest = Antes_graficos_final_vanillatest.reset_index()
Antes_graficos_final_vanillatest = Antes_graficos_final_vanillatest.rename(columns={'index':'Model'})
Antes_graficos_final_vanillatest = Antes_graficos_final_vanillatest.rename(columns={0:'Accuracy'})
Antes_graficos_final_vanillatest = Antes_graficos_final_vanillatest.rename(columns={1:'AUC'})
Antes_graficos_final_vanillatest = Antes_graficos_final_vanillatest.rename(columns={2:'Recall'})
Antes_graficos_final_vanillatest = Antes_graficos_final_vanillatest.rename(columns={3:'Prec.'})
Antes_graficos_final_vanillatest = Antes_graficos_final_vanillatest.rename(columns={4:'F1'})
Antes_graficos_final_vanillatest = Antes_graficos_final_vanillatest.rename(columns={5:'Kappa'})
Antes_graficos_final_vanillatest = Antes_graficos_final_vanillatest.rename(columns={6:'MCC'})
Antes_graficos_final_vanillatest

# Resultados a Excel

In [None]:
resultadosVanilla.to_excel('resultadosVanilla.xlsx')
resultadosClasicos.to_excel('resultadosClasicos.xlsx')
resultadosBoruta.to_excel('resultadosBoruta.xlsx')
resultadosVanillaDespues.to_excel('resultadosVanillaDespues.xlsx')
resultadosClassicDespues.to_excel('resultadosClassicDespues.xlsx')
resultadosBorutaDespues.to_excel('resultadosBorutaDespues.xlsx')

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np


In [None]:
resultadosVanilla = pd.read_excel('resultadosVanilla.xlsx')
resultadosClasicos = pd.read_excel('resultadosClasicos.xlsx')
resultadosBoruta = pd.read_excel('resultadosBoruta.xlsx')
resultadosVanillaDespues = pd.read_excel('resultadosVanillaDespues.xlsx')
resultadosClassicDespues = pd.read_excel('resultadosClassicDespues.xlsx')
resultadosBorutaDespues = pd.read_excel('resultadosBorutaDespues.xlsx')

In [None]:
#Este código define una función llamada boxplot_compare que se utiliza para crear un gráfico de caja y bigotes. Esta función toma como parámetros un marco de datos, una variable numérica, etiquetas para el eje x y el eje y, así como un título. La función crea entonces un gráfico de caja y bigotes con los datos especificados, con los parámetros dados para el eje x, el eje y y el título. La función también establece límites en el eje y para asegurar que los resultados sean visibles.
def boxplot_compare(df, var_num, labelx, labely, title):
    fig, ax = plt.subplots(figsize=(5, 5), dpi=160)
    ax.boxplot(df[var_num].values, labels=var_num)
    plt.xlabel(labelx, fontsize=14, fontweight='bold')
    plt.ylabel(labely, fontsize=14, fontweight='bold')
    plt.xticks(fontsize=12, fontweight='bold')
    plt.yticks(fontsize=12, fontweight='bold')
    plt.title(title, fontsize=16, fontweight='bold')
    plt.setp(plt.gca().artists, edgecolor = 'k', facecolor='w')
    plt.ylim(0.80, 0.95)
    plt.setp(plt.gca().lines, color='k')
    plt.show()

In [None]:
#Este código crea un diagrama de caja (boxplot) a partir de un dataframe, una columna, un grupo por el que agrupar los datos, el tamaño de la figura y etiquetas para los ejes x e y. Además, se especifica un título para el gráfico. El código también establece la rotación del eje x en 90 grados y configura los bordes y los colores de los artistas y líneas del gráfico. Finalmente, muestra el gráfico.
def create_boxplot_v2(dataframe, column, by, figsize, labelx, labely, title):
    dataframe.boxplot(column=column, by=by, figsize=figsize)
    plt.xlabel(labelx, fontsize=14, fontweight='bold')
    plt.ylabel(labely, fontsize=14, fontweight='bold')
    plt.xticks(fontsize=12, fontweight='bold')
    plt.yticks(fontsize=12, fontweight='bold')
    plt.title(title, fontsize=16, fontweight='bold')
    plt.setp(plt.gca().artists, edgecolor = 'k', facecolor='w')
    plt.xticks(rotation=90)
    plt.setp(plt.gca().lines, color='k')
    plt.show()


In [None]:
#Este código importa la biblioteca matplotlib.pyplot como plt y luego define una 
# función llamada plot_boxplots_subplots. Esta función toma tres 
# argumentos: df_list, columns y labels. Estos argumentos se utilizan para crear una gráfica de caja con subplots. La gráfica de caja se genera usando los datos de los dataframes en df_list, las columnas especificadas en columns y los títulos especificados en labels. La función configura el tamaño de la figura, los límites del eje y, además, establece algunas opciones de 
# estilo para la gráfica como el color de los bordes, el color del fondo y el color de las líneas.
import matplotlib.pyplot as plt

def plot_boxplots_subplots(df_list, columns, labels):
    rows=4
    cols=3
    n=1
    for i, df in enumerate(df_list):
        ax = plt.subplot(rows, cols, n)
        ax.boxplot(df[columns].values)
        plt.gcf().set_size_inches(15, 15)
        plt.ylim(0.80, 0.90)
        ax.set_title(labels[i])
        plt.gcf().set_dpi(100)
        plt.xticks(fontweight='bold')
        plt.yticks(fontweight='bold')
        plt.title(labels[i].upper(), fontweight='bold')
        plt.gcf().set_dpi(100)
        plt.setp(plt.gca().artists, edgecolor = 'k', facecolor='w')
        plt.setp(plt.gca().lines, color='k')
        plt.setp(plt.gca().spines.values(), color='k')
        plt.setp(plt.gca().spines.values(), alpha=1)
        plt.setp(plt.gca().spines.values(), color='k')

        n+=1
    


In [None]:
#Este código crea un gráfico de caja y bigote usando la biblioteca plotly.express. El parámetro "dataframe" es un marco de datos que contiene los datos a representar. El parámetro "column" es el nombre de la columna del marco de datos que contiene los valores a representar. El parámetro "by" es el nombre de la columna del marco de datos que contiene los grupos para los cuales se deben agrupar los valores. Los parámetros "figsize", "labelx", "labely" y "title" son usados para definir el tamaño, etiquetas y título del gráfico respectivamente. El código también actualiza el eje Y para limitar su rango entre 0,80 y 0,95. Finalmente, muestra el gráfico generado.
import plotly.express as px

def create_boxplot_test2(dataframe, column, by, figsize, labelx, labely, title):
    fig = px.box(dataframe, x=by, y=column, title=title, labels={'x':labelx, 'y':labely}, color=by)
    fig.update_layout(
        yaxis=dict(
            range=[0.80, 0.95]
        )
    )
    fig.show()

In [None]:
#Este código crea un gráfico de caja para comparar los resultados de varias pruebas. Utiliza la biblioteca Plotly Graph Objects para crear el gráfico. El código toma un dataframe, una lista de columnas y un parámetro "by" como entradas. Luego, crea un gráfico de caja para cada columna en la lista de columnas. El gráfico se actualiza dinámicamente con los botones para mostrar solo los resultados específicos que el usuario desea ver. El título del gráfico se actualiza dinámicamente dependiendo del resultado que se esté mostrando.
import plotly.graph_objects as go

def create_boxplot_test5(dataframe, columns, by):
    def update_title(col):
        if col == 'MCC':
            return 'MCC Score Comparison'
        elif col == 'F1':
            return 'F1 Score Comparison'
        elif col == 'Kappa':
            return 'Kappa Score Comparison'
        else:
            return 'Score Comparison'
    
    colors = {'MCC':'blue','F1':'green','Kappa':'red'}
    fig = go.Figure()
    for column in columns:
        fig.add_trace(go.Box(x=dataframe[by], y=dataframe[column], name=column, boxpoints='all',line=dict(color=colors.get(column,'black'))))
    fig.update_layout(updatemenus=[
        dict(
            type='buttons',
            showactive=False,
            buttons=[dict(
                label=col,
                method='update',
                args=[{'visible': [col == i for i in columns]},
                      {'title': update_title(col)}]) for col in columns])])
    fig.show()

In [None]:
resultadosVanilla
resultadosVanilla['Metodo'] = 'Vanilla'
resultadosVanilla = resultadosVanilla.loc[:, ~resultadosVanilla.columns.str.contains('^Unnamed')]


In [None]:
resultadosClasicos
resultadosClasicos['Metodo'] = 'Classic'
#quita todas las columnas que digan Unnamed
resultadosClasicos = resultadosClasicos.loc[:, ~resultadosClasicos.columns.str.contains('^Unnamed')]


In [None]:
resultadosBoruta
#crea una columna llamada metodo y se le pone boruta
resultadosBoruta['Metodo'] = 'Boruta'
#quita todas las columnas que digan Unnamed
resultadosBoruta = resultadosBoruta.loc[:, ~resultadosBoruta.columns.str.contains('^Unnamed')]



In [None]:
#Este código se utiliza para combinar los resultados de varios modelos de aprendizaje automático. Primero, concatena los resultados de los modelos "Vanilla", "Clásicos" y "Boruta" en una sola tabla llamada resultadosAll. Luego, elimina la columna 'Model.1' de la tabla. A continuación, reemplaza todas las cadenas que contienen 'statsboruta', 'stats2Classic', 'stats2', 'stats2boruta' y 'boruta' con una cadena vacía en la columna 'Model'. Finalmente, elimina las columnas 'Accuracy', 'AUC', 'Recall' y 'Prec.' y luego limpia cualquier espacio en blanco en la columna 'Model'. Por último, imprime el resultado final.
resultadosAll = pd.concat([resultadosVanilla, resultadosClasicos, resultadosBoruta])
resultadosAll = resultadosAll.drop(['Model.1'], axis=1)
resultadosAll['Model'] = resultadosAll['Model'].str.replace('statsboruta', '')
resultadosAll['Model'] = resultadosAll['Model'].str.replace('stats2Classic', '')
resultadosAll['Model'] = resultadosAll['Model'].str.replace('stats2', '')
resultadosAll['Model'] = resultadosAll['Model'].str.replace('stats2boruta', '')
resultadosAll['Model'] = resultadosAll['Model'].str.replace('boruta', '')
resultadosAll = resultadosAll.drop(['Accuracy', 'AUC', 'Recall', 'Prec.'], axis=1)
resultadosAll['Model'] = resultadosAll['Model'].str.strip()
resultadosAll




# Desbalanceados

In [None]:
create_boxplot_test2(resultadosAll, 'F1', 'Metodo', (10, 10), 'Metodos', 'F1 Score', 'F1 Score Comparison')

In [None]:
create_boxplot_test2(resultadosAll, 'F1', 'Model', (10, 10), 'Metodos', 'F1 Score', 'F1 Score Comparison')
create_boxplot_test2(resultadosAll, 'MCC', 'Model', (10, 10), 'Metodos', 'MCC Score', 'MCC Score Comparison')
create_boxplot_test2(resultadosAll, 'Kappa', 'Model', (10, 10), 'Metodos', 'Kappa Score', 'Kappa Score Comparison')

In [None]:
create_boxplot_test5(resultadosAll, ['MCC', 'F1', 'Kappa'], 'Model')

In [None]:
create_boxplot_v2(resultadosAll, 'MCC', 'Metodo', (10, 10), 'Metodos', 'MCC Score', 'MCC Score Comparison')
create_boxplot_v2(resultadosAll, 'F1', 'Metodo', (10, 10), 'Metodos', 'F1 Score', 'F1 Score Comparison')
create_boxplot_v2(resultadosAll, 'Kappa', 'Metodo', (10, 10), 'Metodos', 'Kappa Score', 'Kappa Score Comparison')

In [None]:
create_boxplot_v2(resultadosAll, 'MCC', 'Model', (10, 10), 'Models', 'MCC Score', 'MCC Score Comparison')


In [None]:

create_boxplot_v2(resultadosAll, 'F1', 'Model', (10, 10), 'Models', 'F1 Score', 'F1 Score Comparison')


In [None]:

create_boxplot_v2(resultadosAll, 'Kappa', 'Model', (10, 10), 'Models', 'Kappa Score', 'Kappa Score Comparison')




In [None]:
modeloslista = list(resultadosAll['Model'].unique())
modeloslista
resultadosAllList = []
for i in modeloslista:
    resultadosAllList.append(resultadosAll[resultadosAll['Model'] == i.strip()])
resultadosAllList

resultadosAllList[0]

In [None]:
resultadosVanillaDespues
resultadosVanillaDespues = resultadosVanillaDespues.loc[:, ~resultadosVanillaDespues.columns.str.contains('^Unnamed')]
resultadosVanillaDespues['Metodo'] = 'Vanilla'
resultadosVanillaDespues['Model'] = resultadosVanillaDespues['Model'].str.replace('statsvanilladespues', '')
resultadosVanillaDespues['Model'] = resultadosVanillaDespues['Model'].str.replace('statsVanilla', '')
resultadosVanillaDespues['Model'] = resultadosVanillaDespues['Model'].str.replace('stats2Vanilla', '')
resultadosVanillaDespues['Model'] = resultadosVanillaDespues['Model'].str.strip()




In [None]:
resultadosClassicDespues
resultadosClassicDespues = resultadosClassicDespues.loc[:, ~resultadosClassicDespues.columns.str.contains('^Unnamed')]
resultadosClassicDespues['Metodo'] = 'Classic'
resultadosClassicDespues['Model'] = resultadosClassicDespues['Model'].str.replace('statsclassicdespues', '')
resultadosClassicDespues['Model'] = resultadosClassicDespues['Model'].str.replace('statsClassic', '')
resultadosClassicDespues['Model'] = resultadosClassicDespues['Model'].str.replace('despues', '')
resultadosClassicDespues['Model'] = resultadosClassicDespues['Model'].str.replace('stats2Classic', '')
resultadosClassicDespues['Model'] = resultadosClassicDespues['Model'].str.strip()




In [None]:
resultadosBorutaDespues
resultadosBorutaDespues = resultadosBorutaDespues.loc[:, ~resultadosBorutaDespues.columns.str.contains('^Unnamed')]
resultadosBorutaDespues['Metodo'] = 'Boruta'
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('statsborutadespues', '')
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('statsBoruta', '')
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('despues', '')
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('Despues', '')
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('boruta', '')
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('stats2Vanilla', '')
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('stats2Classi', '')
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('stats2Boruta', '')
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('stats2Vanilla', '')
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.replace('stats2Classic', '')
#borra el espacio que tengan delante o detras cada modelo
resultadosBorutaDespues['Model'] = resultadosBorutaDespues['Model'].str.strip()




In [None]:
resultadosAllDespues = pd.concat([resultadosVanillaDespues, resultadosClassicDespues, resultadosBorutaDespues])
resultadosAllDespues = resultadosAllDespues.drop(['Model.1'], axis=1)   
resultadosAllDespues

In [None]:
#ordena resultadosAllDespues por MCC
resultadosAllDespues = resultadosAllDespues.sort_values(by=['MCC'], ascending=False)
resultadosAllDespues

# Balanceados

### En los siguientes codigos se realizan diferentes tipos de graficos para poder evaluar cual son los mejores modelos para poder crear el predictor

In [None]:
create_boxplot_test2(resultadosAllDespues, 'F1', 'Metodo', (10, 10), 'Metodos', 'F1 Score', 'F1 Score Comparison')

In [None]:
# create_boxplot_test5(resultadosAll, ['MCC', 'F1', 'Kappa'], 'Model')
create_boxplot_test2(resultadosAllDespues, 'F1', 'Model', (10, 10), 'Metodos', 'F1 Score', 'F1 Score Comparison')
create_boxplot_test2(resultadosAllDespues, 'MCC', 'Model', (10, 10), 'Metodos', 'MCC Score', 'MCC Score Comparison')
create_boxplot_test2(resultadosAllDespues, 'Kappa', 'Model', (10, 10), 'Metodos', 'Kappa Score', 'Kappa Score Comparison')
create_boxplot_test5(resultadosAllDespues, ['MCC', 'F1', 'Kappa'], 'Model')

In [None]:
create_boxplot_v2(resultadosAllDespues, 'MCC', 'Metodo', (10, 10), 'Metodos', 'MCC Score', 'MCC Score Comparison')
create_boxplot_v2(resultadosAllDespues, 'F1', 'Metodo', (10, 10), 'Metodos', 'F1 Score', 'F1 Score Comparison')
create_boxplot_v2(resultadosAllDespues, 'Kappa', 'Metodo', (10, 10), 'Metodos', 'Kappa Score', 'Kappa Score Comparison')

In [None]:

create_boxplot_v2(resultadosAllDespues, 'MCC', 'Model', (10, 10), 'Models', 'MCC Score', 'MCC Score Comparison')
create_boxplot_v2(resultadosAllDespues, 'F1', 'Model', (10, 10), 'Models', 'MCC Score', 'F1 Score Comparison')
create_boxplot_v2(resultadosAllDespues, 'Kappa', 'Model', (10, 10), 'Models', 'MCC Score', 'Kappa Score Comparison')

In [None]:
resultadosAllDespues['Model'] = resultadosAllDespues['Model'] + 'balanceados'
resultadosAllDespues

In [None]:
resultadosAll = pd.concat([resultadosAll, resultadosAllDespues])
resultadosAll = resultadosAll.drop(['Accuracy', 'AUC', 'Recall', 'Prec.'], axis=1)
resultadosAll

In [None]:
create_boxplot_test2(resultadosAll, 'F1', 'Model', (10, 10), 'Metodos', 'F1 Score', 'F1 Score Comparison')
create_boxplot_test2(resultadosAll, 'MCC', 'Model', (10, 10), 'Metodos', 'MCC Score', 'MCC Score Comparison')
create_boxplot_test2(resultadosAll, 'Kappa', 'Model', (10, 10), 'Metodos', 'Kappa Score', 'Kappa Score Comparison')


In [None]:
create_boxplot_test5(resultadosAll, ['MCC', 'F1', 'Kappa'], 'Model')

In [None]:
create_boxplot_v2(resultadosAll, 'MCC', 'Model', (10, 10), 'Models', 'MCC Score', 'MCC Score Comparison')


# crear el modelo lr boruta , lda boruta , gbc boruta

In [1]:
#Este código importa un archivo de Excel llamado "resamplepadel.xlsx" usando la biblioteca Pandas. Luego, crea una nueva columna llamada "type1" en el conjunto de datos, que contiene el valor 1 si la columna "type" contiene el valor "IC50", y 2 en caso contrario. Por último, elimina la columna "type" del conjunto de datos.
import pandas as pd
resamplepadel = pd.read_excel('resamplepadel.xlsx')
resamplepadel
importantesDespues = resamplepadel
importantesDespues['type1'] = importantesDespues['type'].apply(lambda x: 1 if x == 'IC50' else 2)
#drop type
importantesDespues.drop(['type'], axis=1, inplace=True)
importantesDespues


Unnamed: 0,PubchemFP0,PubchemFP1,PubchemFP2,PubchemFP3,PubchemFP4,PubchemFP5,PubchemFP6,PubchemFP7,PubchemFP8,PubchemFP9,...,PubchemFP872,PubchemFP873,PubchemFP874,PubchemFP875,PubchemFP876,PubchemFP877,PubchemFP878,PubchemFP879,PubchemFP880,type1
0,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1
1,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1
2,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1
3,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1
4,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1109,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,2
1110,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,2
1111,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,2
1112,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,2


In [2]:
from pycaret.datasets import get_data
from pycaret.classification import *

In [3]:
# Este código establece una configuración para un modelo de aprendizaje automático. Establece los datos, el objetivo y el tamaño del conjunto de entrenamiento. Luego, crea tres modelos diferentes (regresión logística, análisis discriminante lineal y árboles de decisión gradiente) y los ajusta para optimizar sus resultados. Finalmente, evalúa los modelos y realiza predicciones con cada uno de ellos.
exp_clf1 = setup(data = importantesDespues, target = 'type1', train_size=0.75, data_split_stratify=True, use_gpu=True, feature_selection=True, silent=True,feature_selection_method="classic")

lrPREDICCIONS = create_model('lr')
#tunea el modelo
tuned_lrPREDICCIONS = tune_model(lrPREDICCIONS)
ldaPREDICCIONS = create_model('lda')
#tunea el modelo
tuned_ldaPREDICCIONS = tune_model(ldaPREDICCIONS)

gbcPREDICCIONS = create_model('gbc')
#tunea el modelo
tuned_gbcPREDICCIONS = tune_model(gbcPREDICCIONS)

evaluate_model(lrPREDICCIONS)
evaluate_model(ldaPREDICCIONS)
evaluate_model(gbcPREDICCIONS)

predictions_lr = predict_model(lrPREDICCIONS, data=importantesDespues)
predictions_lda = predict_model(ldaPREDICCIONS, data=importantesDespues)
predictions_gbc = predict_model(gbcPREDICCIONS, data=importantesDespues)



Unnamed: 0,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,0.9762,0.9881,0.9762,0.9762,0.9762,0.9524,0.9524
1,1.0,1.0,1.0,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,1.0,1.0,1.0,1.0
3,0.9762,0.9943,1.0,0.9545,0.9767,0.9524,0.9535
4,0.9643,0.9966,1.0,0.9333,0.9655,0.9286,0.9309
5,0.988,1.0,1.0,0.9767,0.9882,0.9759,0.9762
6,1.0,1.0,1.0,1.0,1.0,1.0,1.0
7,1.0,1.0,1.0,1.0,1.0,1.0,1.0
8,0.9759,0.9977,0.9756,0.9756,0.9756,0.9518,0.9518
9,1.0,1.0,1.0,1.0,1.0,1.0,1.0


interactive(children=(ToggleButtons(description='Plot Type:', icons=('',), options=(('Hyperparameters', 'param…

interactive(children=(ToggleButtons(description='Plot Type:', icons=('',), options=(('Hyperparameters', 'param…

interactive(children=(ToggleButtons(description='Plot Type:', icons=('',), options=(('Hyperparameters', 'param…

In [4]:
predictions_lr

Unnamed: 0,PubchemFP0,PubchemFP1,PubchemFP2,PubchemFP3,PubchemFP4,PubchemFP5,PubchemFP6,PubchemFP7,PubchemFP8,PubchemFP9,...,PubchemFP874,PubchemFP875,PubchemFP876,PubchemFP877,PubchemFP878,PubchemFP879,PubchemFP880,type1,Label,Score
0,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9935
1,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9974
2,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9980
3,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9981
4,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9945
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1109,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,0.9960
1110,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,0.9854
1111,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,0.9814
1112,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,0.9979


In [5]:
predictions_lda

Unnamed: 0,PubchemFP0,PubchemFP1,PubchemFP2,PubchemFP3,PubchemFP4,PubchemFP5,PubchemFP6,PubchemFP7,PubchemFP8,PubchemFP9,...,PubchemFP874,PubchemFP875,PubchemFP876,PubchemFP877,PubchemFP878,PubchemFP879,PubchemFP880,type1,Label,Score
0,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,1.0
1,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,1.0
2,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,1.0
3,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,1.0
4,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1109,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,1.0
1110,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,1.0
1111,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,1.0
1112,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,1.0


In [6]:
predictions_gbc

Unnamed: 0,PubchemFP0,PubchemFP1,PubchemFP2,PubchemFP3,PubchemFP4,PubchemFP5,PubchemFP6,PubchemFP7,PubchemFP8,PubchemFP9,...,PubchemFP874,PubchemFP875,PubchemFP876,PubchemFP877,PubchemFP878,PubchemFP879,PubchemFP880,type1,Label,Score
0,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9919
1,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9990
2,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9991
3,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9991
4,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0.9990
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1109,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,0.9964
1110,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,0.9918
1111,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,0.9895
1112,1,1,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,2,2,0.9970


# PREDICCIONES CON EL MODELO

In [54]:
#crea un dataframe vacio
df3_class = pd.DataFrame()
#crea una columna llamada canonical_smiles
df3_class['canonical_smiles'] = ['COc1cc(CC(=O)OCC2=C[C@H]3[C@H]4OC5(Cc6ccccc6)O[C@@]4(C[C@@H](C)[C@]3(O5)[C@@H]3C=C(C)C(=O)[C@@]3(O)C2)C(C)=C)ccc1O']



In [55]:
df3_class

Unnamed: 0,canonical_smiles
0,COc1cc(CC(=O)OCC2=C[C@H]3[C@H]4OC5(Cc6ccccc6)O...


In [56]:
#Este código importa la biblioteca zipfile, extrae el archivo zip "padel.zip" y guarda los datos en un archivo de texto llamado "molecule.smi". Luego imprime las primeras 5 líneas del archivo de texto y cuenta el número total de líneas en el archivo. Después, imprime todas las líneas del archivo "padel.sh", cambia los permisos para que el archivo sea ejecutable y ejecuta el script con la salida redirigida a un archivo de registro llamado "log.txt". Finalmente, imprime el contenido del archivo de registro.
import zipfile
with zipfile.ZipFile('padel.zip', 'r') as zip_ref:
    zip_ref.extractall()

selection = ['canonical_smiles']
df3_selection = df3_class[selection]
df3_selection.to_csv('molecule.smi', sep='\t', index=False, header=False)
df3_selection.head(100)

with open("molecule.smi") as f:
    lines = f.readlines()
    for line in lines[:5]:
        print(line)


with open("molecule.smi") as f:
    lines = f.readlines()
    num_lines = len(lines)
    print(num_lines)

with open("padel.sh") as f:
    lines = f.readlines()
    for line in lines:
        print(line)


import os
os.chmod('padel.sh', 0o777)
os.getcwd()
import os
os.environ['PATH'] += os.pathsep + 'C:/Program Files/Git/usr/bin'
!bash padel.sh > log.txt
!cat log.txt



COc1cc(CC(=O)OCC2=C[C@H]3[C@H]4OC5(Cc6ccccc6)O[C@@]4(C[C@@H](C)[C@]3(O5)[C@@H]3C=C(C)C(=O)[C@@]3(O)C2)C(C)=C)ccc1O

1
java -Xms1G -Xmx1G -Djava.awt.headless=true -jar ./PaDEL-Descriptor/PaDEL-Descriptor.jar -removesalt -standardizenitro -fingerprints -descriptortypes ./PaDEL-Descriptor/PubchemFingerprinter.xml -dir ./ -file descriptors_output.csv

Processing AUTOGEN_molecule in molecule.smi (1/1). 
Descriptor calculation completed in 0.778 secs . Average speed: 0,78 s/mol.


In [57]:
#Este código lee un archivo CSV llamado descriptors_output.csv y lo almacena en una variable llamada df3_X. Luego imprime el contenido de la variable df3_X para ver los datos que contiene el archivo CSV.
df3_X = pd.read_csv('descriptors_output.csv')
df3_X


Unnamed: 0,Name,PubchemFP0,PubchemFP1,PubchemFP2,PubchemFP3,PubchemFP4,PubchemFP5,PubchemFP6,PubchemFP7,PubchemFP8,...,PubchemFP871,PubchemFP872,PubchemFP873,PubchemFP874,PubchemFP875,PubchemFP876,PubchemFP877,PubchemFP878,PubchemFP879,PubchemFP880
0,AUTOGEN_molecule,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [58]:
predictions_lr = pd.DataFrame()

In [59]:
# CON ESTE CODIGO DE REALIZAN LAS PREDICCIONES
predictions_lr = predict_model(tuned_lrPREDICCIONS, data=df3_X)

In [60]:
predictions_lr

Unnamed: 0,Name,PubchemFP0,PubchemFP1,PubchemFP2,PubchemFP3,PubchemFP4,PubchemFP5,PubchemFP6,PubchemFP7,PubchemFP8,...,PubchemFP873,PubchemFP874,PubchemFP875,PubchemFP876,PubchemFP877,PubchemFP878,PubchemFP879,PubchemFP880,Label,Score
0,AUTOGEN_molecule,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0.9036


In [61]:
predictions_lr['type'] = predictions_lr['Label'].apply(lambda x: 'IC50' if x == 1 else 'EC50')
predictions_lr

Unnamed: 0,Name,PubchemFP0,PubchemFP1,PubchemFP2,PubchemFP3,PubchemFP4,PubchemFP5,PubchemFP6,PubchemFP7,PubchemFP8,...,PubchemFP874,PubchemFP875,PubchemFP876,PubchemFP877,PubchemFP878,PubchemFP879,PubchemFP880,Label,Score,type
0,AUTOGEN_molecule,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0.9036,IC50


In [62]:
# El siguiente codigo guarda los modelos
save_model(tuned_lrPREDICCIONS, 'lrPREDICCIONS')
save_model(tuned_ldaPREDICCIONS, 'ldaPREDICCIONS')
save_model(tuned_gbcPREDICCIONS, 'gbcPREDICCIONS')



Transformation Pipeline and Model Succesfully Saved
Transformation Pipeline and Model Succesfully Saved
Transformation Pipeline and Model Succesfully Saved


(Pipeline(memory=None,
          steps=[('dtypes',
                  DataTypes_Auto_infer(categorical_features=[],
                                       display_types=False, features_todrop=[],
                                       id_columns=[],
                                       ml_usecase='classification',
                                       numerical_features=[], target='type1',
                                       time_features=[])),
                 ('imputer',
                  Simple_Imputer(categorical_strategy='not_available',
                                 fill_value_categorical=None,
                                 fill_value_numerical=None,
                                 numeric_strat...
                                             loss='deviance', max_depth=3,
                                             max_features=1.0,
                                             max_leaf_nodes=None,
                                             min_impurity_decrease=0.0

In [63]:
#plot_model(tuned_lrPREDICCIONS, plot = 'auc')

In [64]:
#plot_model(tuned_ldaPREDICCIONS, plot = 'auc')

In [65]:
#plot_model(tuned_gbcPREDICCIONS, plot = 'auc')