# Supervised Learning: Regression & Classification

Student: Phabel Antonio López Delgado

## Logistic Regression

### Load Data

In [None]:
# Libraries
from sklearn.datasets import load_breast_cancer
import pandas as pd
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt
import numpy as np
import plotly.express as px
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

In [None]:
# Dataset
tabla = load_breast_cancer(as_frame=True)
X = tabla.data
y = tabla.target

In [None]:
# Select 5 features
X = X.iloc[:,0:5]

In [None]:
# Split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=2)
y_test = y_test.to_numpy()

### Multiple Logistic Regression

In [None]:
# Logistic Regression Model
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)


lbfgs failed to converge (status=1):
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression



In [None]:
# Confusion Matrix
cm = confusion_matrix(y_test,y_pred)
fig = px.imshow(cm,
                text_auto=True,
                color_continuous_scale="viridis",
                labels=dict(x="Predicted", y="True", color="Count"),
                title="Confussion Matrix")

# Set layout
fig.update_layout(
    title_x=0.5,
    width=800,
    height=600,
    title_font=dict(size=24)
)


# Classification Matrics
acc = accuracy_score(y_test,y_pred)
prec = precision_score(y_test,y_pred)
rec = recall_score(y_test,y_pred)
f1 = f1_score(y_test,y_pred)

# Add Classification Metrics
fig.update_layout(
    annotations=[
        dict(
            text=f"Model Metrics:<br>Accuracy: {acc:.3f}<br>Precision: {prec:.3f}<br>Recall: {rec:.3f}<br>F1-Score: {f1:.3f}",
            x=0.97,
            y=1.0,
            xref='paper',
            yref='paper',
            showarrow=False,
            align='left',
            bgcolor='white',
            bordercolor='black',
            borderwidth=1,
            font=dict(size=17)
        )
    ]
)

# Show
fig.show()

Interpretación: El modelo fue bueno, ya que las métricas fueron altas, incluso seleccionando un subconjunto de los features. Posiblemente sería mejor si se seleccionaran más features/cols del dataset. Sin embargo, eso podría dificultar el escalimiento del modelo, en ocasiones es es mejor obtener un clasificador muy bueno pero no perfecto, manteniendo entrenamientos más eficientes. Pero ya que es un uso de IA de alto riesgo, i.e. diagnóstico médico, sería mejor optar por incluir más variables (o incluso todas o las más significativas) y maximizar la calidad de la clasificación.