In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
from sklearn.preprocessing import LabelEncoder

# Cargar el archivo de datos
file_path = r"C:\SS\datosSynapse\Training\Training\metadata\metadata.csv"
data = pd.read_csv(file_path)


# Crear la columna de 'birth_type' basado en el tipo de parto
data['birth_type'] = data.apply(
    lambda row: 'term' if row['was_term'] else 'preterm' if row['was_preterm'] else 'early_preterm', axis=1
)

# Codificar la variable objetivo 'birth_type'
label_encoder = LabelEncoder()
data['birth_type_encoded'] = label_encoder.fit_transform(data['birth_type'])

# Codificar la columna 'NIH Racial Category' como la única característica
feature_race = label_encoder.fit_transform(data['NIH Racial Category'].fillna("Unknown")).reshape(-1, 1)
target_birth_type = data['birth_type_encoded'].values

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(feature_race, target_birth_type, test_size=0.2, random_state=42)

# Entrenar el modelo de regresión logística
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Realizar predicciones
y_pred = model.predict(X_test)

# Generar el reporte de clasificación, adaptando los nombres de las clases
unique_labels = sorted(set(y_test))
target_names = ['early_preterm', 'preterm', 'term']
report = classification_report(y_test, y_pred, target_names=[target_names[i] for i in unique_labels])

# Mostrar precisión y reporte de clasificación
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
print("Classification Report:")
print(report)


Accuracy: 0.5936675461741425
Classification Report:
               precision    recall  f1-score   support

early_preterm       0.00      0.00      0.00       154
      preterm       0.59      1.00      0.75       225

     accuracy                           0.59       379
    macro avg       0.30      0.50      0.37       379
 weighted avg       0.35      0.59      0.44       379



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


 #### Accuracy o Precisión Global:
 proporción de predicciones correctas entre el total de predicciones realizadas. 
 En este caso, el modelo tiene un 59.37% de precisión, lo cual significa que aproximadamente el 59% de las predicciones fueron correctas en el conjunto de prueba.


## Métricas por Clase
Cada clase (early_preterm, preterm) tiene sus propias métricas. Estas incluyen:

#### Precision: Mide la exactitud de las predicciones positivas de cada clase.

En la clase preterm, la precisión es 0.59 (59%), lo que significa que este modelo cuando predijo "preterm", el 59% de esas predicciones fueron correctas.
La precisión para early_preterm es 0.00, indicando que el modelo no acertó ninguna vez cuando predijo esta clase.


#### Recall  o Sensibilidad : Mide la proporción de verdaderos positivos que fueron correctamente identificados.

Para la clase preterm, el recall es 1.00 (100%), lo cual significa que el modelo identificó todos los casos preterm correctamente.
El recall para early_preterm es 0.00, lo que indica que el modelo no logró identificar correctamente ningún caso de esta clase.

#### F1-score: Es la media armónica entre precisión y recall. Proporciona un balance entre estos dos valores.

Para preterm, el F1-score es 0.75, lo que refleja un balance entre su precisión y recall.
Para early_preterm, el F1-score es 0.00, lo que muestra que el modelo tiene un desempeño pobre muy miserable jajajaja en esta clase.

#### Support: Es la cantidad de instancias verdaderas en cada clase en el conjunto de prueba.

En este caso, hay 154 instancias de early_preterm y 225 de preterm.

##P romedios
#### Macro Avg: Calcula el promedio de precisión, recall y F1-score sin ponderar por la cantidad de ejemplos en cada clase. Es útil cuando todas las clases son igualmente importantes.
#### Weighted Avg: Promedia precisión, recall y F1-score ponderando por el soporte de cada clase. En este caso, refleja mejor la efectividad del modelo en función de la distribución de clases.

el modelo es eficaz solo para la clase preterm y no logra identificar correctamente los casos early_preterm. Esto se debe a que solo se utilizó NIH Racial Category como característica, lo cual limita mucho la capacidad del modelo para distinguir entre los tipos de parto.