In [112]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression


from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score


#INTRODUCCIÓN:

# Los sideroforos son moléculas que son secretadas por microorganismos(bacterias o hongos) que tienen la facultad de captar hierro en su entorno. Por lo mismo,
#estos sideroforos afectan a la patogenecidad de los microorganismos que lo segregan , ya que dependiendo del entorno (suelo ,ambiente alimenticio o  en el  ambiente humano ), pueden ocasionar
#enfermedades [1][2] . Por ende, contemplar la función de los sideroforos en las interacciones de microorganismos y por supuesto, en su clasificación , resulta muy importante a fin de evitar
# que ocasionen enfermedades en el entorno humano o de influir en la calidad de los cultivos  .Incluso, existe estudios que validen que  dependiendo del  microorganismo (en este caso Pseudomonas sp.),estos
# pueden generar compuestos antifungicos que pueden suprimir enfermedades; por lo que su análisis y clasificación de sideroforos  a fin de  obtener a qué microorganismo se encuentra asociado puede resulta
#muy importante  para combatir determinadas patologías.[1]

#[1]https://www.redalyc.org/pdf/4499/449945029007.pdf
#[2]https://www.scielo.org.mx/scielo.php?pid=S2007-09342018000100191&script=sci_arttext


# METODOLOGIA:


#1-Definición del problema o pregunta de investigación:
#Clasificación de sideroforos de acuerdo a los microorganismos asociados

#2-Identificación de variables y objetivos:
# Variables:todas las caracteristicas de Siderophore_DB1.csv y la variable objetivo es la clasificacion mediante los microorganismos
# que se encuentra en Siderophore_DB.csv
#3-Selección de la metodología apropiada:
#EDA,Preprocesamiento de la data, ML por clasificación (KNN, o teorema de Bayes) y resultados


#5-Recopilación de datos:
#Se utilizan los links de los dos archivos ( Siderophore_DB1.csv y  Siderophore_DB.csv)

#6-Análisis de datos:
#Se procede a realizar EDA (de 119 caracteristicas a 88) ,preprocesamiento (eliminar datos faltantes,estandarizacion de data) y  luego seleccionar  las caracteristicas más relevantes para nuestro estudio
# esto lo realizamos mediante selección de caracteristicas mediante ML (random forest) - pasamos de 88 caracteristicas a 34 .Luego de esto, realizamos nuestro ML de clasificacion por
#KNN y Teorema de Bayes

#7-Presentación de resultados:
#KNN=
#T.Bayes

#8-Discusiones:


#9-Conclusiones:




In [113]:

#Leemos las tablas

df0 = pd.read_csv("https://raw.githubusercontent.com/inefable12/siderophores_database/main/Siderophore_DB.csv")

df1=pd.read_csv("https://raw.githubusercontent.com/inefable12/siderophores_database/main/Siderophore_DB1.csv")


#REALIZANDO EDA: Determinamos que el ID, hydroxamate,catecholate,... m ,VALIDATE SMILES,SMARTS son irrelevantes para el análsisis.
#Esto porque esas caracteristicas de moleculas (hydroxamate,catecholate,carboxylate,...) no diferencian qué compuesto ni microorganismos esta asociado.
#(En los primeros 4 casos de la tabala de df0 se determinan que tienen los mismas moleculas pero  presentan diferentes componentes y microorganismos relacionados)

df0 = df0.drop(columns=['hydroxamate','catecholate','a-hydroxycarboxylate','carboxylate','phenolate','citrate','other','validate smiles','SMARTS','Compounds'])

#Eliminamos todos los valores que pueden afectar el análisis.
df1=df1.drop(columns=['HeavyAtomCount',	'NHOHCount'	,'NOCount',	'NumAliphaticHeterocycles',	'NumAliphaticRings',	'NumAromaticCarbocycles',	'NumAromaticRings',	'NumHAcceptors',	'NumHDonors',
	            'NumHeteroatoms',	'NumRotatableBonds',	'NumSaturatedHeterocycles',	'NumSaturatedRings',	'RingCount',
              'fr_Al_COO',	'fr_Al_OH',	'fr_Ar_OH',	'fr_COO',	'fr_COO2',	'fr_C_O',	'fr_C_O_noCOO',	'fr_NH0',	'fr_NH1',	'fr_NH2',	'fr_N_O',	'fr_amide',	'fr_benzene',	'fr_ester',	'fr_para_hydroxylation',	'fr_phenol',	'fr_phenol_noOrthoHbond'])
df1


Unnamed: 0,ID,MaxEStateIndex,MinEStateIndex,MaxAbsEStateIndex,MinAbsEStateIndex,qed,MolWt,HeavyAtomMolWt,ExactMolWt,NumValenceElectrons,...,VSA_EState2,VSA_EState3,VSA_EState4,VSA_EState5,VSA_EState6,VSA_EState7,VSA_EState8,FractionCSP3,MolLogP,MolMR
0,1,11.191262,-1.343472,11.191262,0.665370,0.522491,154.121,148.073,154.026609,58,...,11.191262,11.608163,-0.709954,-2.714167,-2.113398,0.000000,0.000000,0.000000,0.79600,36.7309
1,2,12.228676,-3.436129,12.228676,0.586755,0.522624,211.173,202.101,211.048072,80,...,23.387496,10.819702,-1.051013,-5.490726,-2.779927,0.000000,-3.436129,0.111111,-0.08780,49.7406
2,3,12.627825,-3.816337,12.627825,0.758838,0.442264,241.199,230.111,241.058637,92,...,24.376576,14.306422,-1.205152,-6.155680,-6.894762,0.000000,-3.721597,0.200000,-0.72690,55.7474
3,4,12.854441,-4.102795,12.854441,0.884463,0.468346,255.226,242.122,255.074287,98,...,24.919858,14.345548,-1.305067,-6.593665,-7.379507,-4.034097,-3.857255,0.272727,-0.33840,60.3424
4,5,11.108779,-1.310880,11.108779,0.630759,0.610259,138.122,132.074,138.031694,52,...,11.108779,7.580036,-0.670370,-1.974537,-2.669555,0.000000,0.000000,0.000000,1.09040,35.0661
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
216,277,13.053345,-3.721588,13.053345,0.123679,0.544261,353.422,330.238,353.173942,136,...,16.267298,3.048580,-10.314657,-1.518591,-5.546514,-8.807992,-10.693223,0.300000,3.37842,101.2102
217,278,14.672799,-5.563063,14.672799,0.044514,0.049920,753.236,717.956,752.156986,268,...,77.570084,8.485129,-19.591276,-15.481652,-7.342176,-9.677639,-35.438959,0.433333,1.15300,181.6249
218,279,14.672799,-5.563063,14.672799,0.044514,0.049920,753.236,717.956,752.156986,268,...,77.570084,8.485129,-19.591276,-15.481652,-7.342176,-9.677639,-35.438959,0.433333,1.15300,181.6249
219,280,14.708209,-5.629267,14.708209,0.054724,0.069150,767.263,729.967,766.172636,274,...,77.831822,4.076489,-19.866191,-16.029632,-7.594148,-9.758691,-35.751743,0.451613,1.45600,186.5121


In [114]:
#df1.info()

In [115]:
#1-Normalizamos todos los datos int64,float 64 - (Normalización Min-Max)

df1_numeric= df1.select_dtypes(include=['float64', 'int64'])
scaler = MinMaxScaler()
df1_normalized = scaler.fit_transform(df1_numeric)

df1_new = pd.DataFrame(df1_normalized, columns=df1_numeric.columns)




# Combinar los datos normalizados con las columnas no numéricas
df1 = pd.concat([df1_new, df1.select_dtypes(exclude=['float64', 'int64'])], axis=1)

#2-(Normalización por  Z-score normalization)
scaler = StandardScaler()

# Ajusta el scaler a tus datos y transforma los datos

df5_normalized= scaler.fit_transform(df1_numeric)
df5_new = pd.DataFrame(df5_normalized, columns=df1_numeric.columns)


# Combinar los datos normalizados con las columnas no numéricas
df5 = pd.concat([df5_new, df1.select_dtypes(exclude=['float64', 'int64'])], axis=1)


df2=pd.merge(df0, df1, on='ID') # UNIMOS LOS 2 ARCHIVOS para determinar una clasificación.


df2.dropna(inplace=True) # Preprocesamiento: eliminamos filas con datos faltante

df3=df2[['Microorganism']] # extraemos la columna objetivo de clasificación

df2 = df2.drop(columns=['ID','Microorganism'	,'SMILES',	'SELFIES'	])  #   eliminamos columnas no relevantes


#Seleccionamos las caracteristicas mas importantes:

# Entrenar un clasificador de bosque aleatorio
clf = RandomForestClassifier()
clf.fit(df2, df3)

# Obtener los nombres de las características
nombres_caracteristicas = df2.columns

# Seleccionar características basadas en la importancia del clasificador
selector = SelectFromModel(clf, prefit=True, threshold=None)
selector.fit(df2, df3)

# Obtener las características seleccionadas
caracteristicas_seleccionadas = nombres_caracteristicas[selector.get_support()]



df4=df2[caracteristicas_seleccionadas] # Obtenemos las caracteristicas mas trascendentales para realizar la clasificación
df4
#df3- columna categórica

  clf.fit(df2, df3)


Unnamed: 0,MinEStateIndex,MaxAbsEStateIndex,MinAbsEStateIndex,qed,MaxPartialCharge,MinPartialCharge,MaxAbsPartialCharge,MinAbsPartialCharge,FpDensityMorgan2,FpDensityMorgan3,...,SlogP_VSA2,SlogP_VSA5,EState_VSA8,VSA_EState2,VSA_EState3,VSA_EState6,VSA_EState7,VSA_EState8,FractionCSP3,MolLogP
0,0.929552,0.218268,0.296034,0.589295,0.797381,0.015725,0.984275,0.797381,0.694075,0.742571,...,0.056215,0.000000,0.168026,0.053006,0.399556,0.964426,1.000000,1.000000,0.000000,0.629262
1,0.610148,0.366902,0.260448,0.589446,0.693789,0.015721,0.984279,0.693789,0.741140,0.793096,...,0.109644,0.010290,0.168026,0.110772,0.389417,0.953207,1.000000,0.963241,0.130268,0.571350
2,0.552117,0.424090,0.338343,0.497581,0.728969,0.015721,0.984279,0.728969,0.730989,0.777460,...,0.164003,0.015435,0.224035,0.115457,0.434253,0.883945,1.000000,0.960187,0.234483,0.529472
3,0.508395,0.456558,0.395208,0.527397,0.730807,0.015721,0.984279,0.730807,0.726759,0.760877,...,0.161940,0.051441,0.224035,0.118030,0.434756,0.875785,0.968858,0.958736,0.319749,0.554929
4,0.934527,0.206450,0.280367,0.689628,0.796446,0.003379,0.996621,0.796446,0.741140,0.805178,...,0.028045,0.005145,0.112017,0.052616,0.347757,0.955065,1.000000,1.000000,0.000000,0.648554
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,0.353234,0.614950,0.342063,0.097469,0.728914,0.015721,0.984279,0.728914,0.639445,0.711974,...,0.269023,0.099287,0.283261,0.190048,0.425885,0.767135,0.923612,0.905603,0.439655,0.447437
201,0.261369,0.848115,0.540729,0.099717,0.512225,0.015721,0.984279,0.512225,0.282637,0.358145,...,0.485582,0.285091,0.445517,0.231602,0.533886,0.626748,0.843441,0.670336,0.401970,0.697882
202,0.373433,0.563345,0.574632,0.154518,0.908463,0.117167,0.882833,0.908463,0.597329,0.648112,...,0.380299,0.149401,0.331974,0.356686,0.454921,0.916056,0.860224,0.846066,0.732759,0.387757
203,0.204294,0.711618,0.942456,0.128537,0.730713,0.207361,0.792639,0.730713,0.151515,0.136641,...,0.554987,0.562218,0.327132,0.603358,0.224002,0.692210,0.446312,0.485397,0.852665,0.542603


In [116]:
 #7-Presentación de resultados:
#KNN

 # Dividir los datos en conjuntos de entrenamiento y prueba
from sklearn.model_selection import cross_val_score
from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix
from sklearn.model_selection import KFold

X_train, X_test, y_train, y_test = train_test_split(df4, df3, test_size=0.2, random_state=0)

# Crear y entrenar el clasificador kNN
knn_classifier = KNeighborsClassifier(n_neighbors=5, weights='distance',metric="euclidean")
knn_classifier.fit(X_train, y_train)

# Realizar predicciones sobre los datos de prueba
y_pred = knn_classifier.predict(X_test)

scores = cross_val_score(knn_classifier, df4, df3, cv=5, scoring='accuracy')

print("Scores de validación cruzada:", scores)

# Imprime el puntaje medio y la desviación estándar de los puntajes
print("Precisión media:", np.mean(scores))
print("Desviación estándar de la precisión:", np.std(scores))



# Calcular la precisión del clasificador
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

#DETERMINANDO lAS MÉTRICAS:

# Supongamos que 'y_true' son las etiquetas verdaderas y 'y_pred' son las etiquetas predichas por tu modelo

# Calcular la matriz de confusión
#cm = confusion_matrix(y_test, y_pred)

precision = precision_score(y_test, y_pred, average='weighted')

# Calcular el recall
recall = recall_score(y_test, y_pred, average='weighted')

# Calcular el F1-score
f1 = f1_score(y_test, y_pred, average='weighted')

specificity = 1 - recall
print("Precisión:", precision)
print("Recall:", recall)
print("F1-score:", f1)
print("Especificidad:", specificity)



  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)


Scores de validación cruzada: [0.36666667 0.23333333 0.33333333 0.23333333 0.31034483]
Precisión media: 0.29540229885057473
Desviación estándar de la precisión: 0.05375084301280428
Accuracy: 0.4
Precisión: 0.33888888888888885
Recall: 0.4
F1-score: 0.3622222222222222
Especificidad: 0.6


  return self._fit(X, y)
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [117]:
#Clasificación por Teorema de Bayes:
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix


X_train, X_test, y_train, y_test = train_test_split(df4, df3, test_size=0.2, random_state=0)

# Crear y entrenar el clasificador Naive Bayes
nb_classifier = GaussianNB()
nb_classifier.fit(X_train, y_train)

# Predecir las etiquetas para los datos de prueba
y_pred = nb_classifier.predict(X_test)

# Calcular las métricas relevantes del modelo
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')
conf_matrix = confusion_matrix(y_test, y_pred)

# Calcular la especificidad
#tn, fp, fn, tp = conf_matrix.ravel()
#specificity = tn / (tn + fp)

# Imprimir las métricas
print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1-score:", f1)
print("Specificity:", specificity)


Accuracy: 0.16666666666666666
Precision: 0.15694444444444444
Recall: 0.16666666666666666
F1-score: 0.14552380952380956
Specificity: 0.6


  y = column_or_1d(y, warn=True)
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


#8-Discusiones:

Respecto a la normalización de datos, no hubo una diferencia significativa entre los métodos de Min_Max y pz-score , ya que aplicando ambos no varian significativamente las métricas para cada método (KNN y T.Bayes).


Segun el análisis realizado, se obtuvo que la clasificación mediante KNN obtuvo mejores métricas(precision,especificidad,exactitud, F1 and recall) que el teorema de bayes . Esto se puede deber a KNN es un método no paramétrico , por  lo que se adecua mejor a patrones complejos o no lineales como en este caso ya que se presenta mas de 30 características. Por otro lado,  el T.Bayes si le es significativo la flexibilidad de los datos, por lo que obtiene valores de las métricas muy bajas comparado con KNN.

Se obtuvo métricas considerablemente bajas en el ML (0.4 para KNN y T.Bayes).Esto indica que no es un modelo óptimo completamente; sin embargo, esto se puede deber aún a la gran  cantidad características que se esta considerando(36)debido a la selección de características realizado por RandomForest. Para mejorar estas métricas se podría reducir mas estas características a fin de obtener un ML más exacto con mejores métricas.

#9-Conclusiones:

-No hubo una diferencia significativa en los 2 métodos de normalización(MinMax y z score) en los datos.

-Fue correcto el uso de la  selección de características por RandomForest ya que reducen  de manera efectiva las caracteristicas analizadas a más de la mitad de las totales(de 88 a 36).

-Se determinó que el método de clasificación por KNN es más óptimo que el Teorema de Bayes en esta data.

-Las métricas indican que el ML realizado aun debe realizarse afinaciones , ya sea mejorando el método KNN o utilizando otro método de clasificación como máquinas de Vectores de Soporte (SVM) o redes neuronales artificiales .



