# Modelo de Regresión Logística

<li>La regresión logística se utiliza para problemas de clasificación binaria. </li>
<li>El objetivo es predecir la probabilidad de que una muestra pertenezca a una clase, utilizando una función logística.</li>

## Fórmula Matemática:

<li>El algoritmo en que se basa la regresion logistica es usando la funcion <b>sigmoide</b></li>

<img src="Modelo_Matematico_Logistic_Regression.png" alt="Regresion Logistica" width="400" />

# Suposiciones

<ul>
<li>Dos clases</li>
<li>No outliers (datos anómalos)</li>
<li>Muestra relativamente grande</li>
<li>Relación lineal entre las probabilidades logarítmicas y las variables predictoras</li>
</ul>

# Importación de Librerías

<li><b>numpy (np)</b>: La usamos para manejar datos y generar puntos para el gráfico.</li>
<li><b>LogisticRegression</b>: Esta es la clase del módulo sklearn que se encarga de crear el modelo de regresión logística.</li>
<li><b>train_test_split</b>: Divide los datos en dos conjuntos:<br>
    <ul>uno para entrenamiento y otro para prueba.</ul></li>
<li><b>matplotlib.pyplot (plt)</b>: La usaremos para visualizar los datos y la curva sigmoide del modelo.</li>
<li>Finalmente, el dataset para el entrenamiento de nuestra red la haremos a partir de los datasets almacenados en la libreria sklearn</li>
<li>Mayor informacion sobre dicho dataset se puede encontrar en la siguiente direccion</li>
<li><b>https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer</b></li>

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

# Cargar el conjunto de datos

In [None]:
datos = load_breast_cancer()
X = datos.data[:, :1]  # Tomamos solo la primera característica para simplificar la visualización
y = datos.target  # Clases binarias: 0 para benigno y 1 para maligno

# División de los Datos en Entrenamiento y Prueba:

<li><b>train_test_split()</b>: Divide los datos en dos partes:<br><ul>
    Conjunto de entrenamiento (datos_entrena, clase_entrena): Se utilizará para ajustar el modelo.<br>
    Conjunto de prueba (datos_prueba, clase_prueba): Se usará para evaluar el rendimiento del modelo en datos que no ha visto antes.</ul>
</li>
<li><b>test_size=0.30</b>: El <b>30%</b> de los datos se asigna al conjunto de <b>prueba</b> y el <b>70%</b> al conjunto de <b>entrenamiento</b>.</li>

In [None]:
# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Creación y Entrenamiento del Modelo de Regresión Logística:
<li>El proceso de entrenamiento de nuestro algoritmo de regresion logistica es el mismo que se uso en regresion lineal </br></li>
<li>Sin embargo, la funcion de perdida usada en este caso es la conocida como <b>Perdida Logaritmica</b></li>

<img src="Resumen_Algoritmo_Entrenamiento.png" alt="Algoritmo de Regresion Logistica" width="600" />

# Implementacion con Scikit Learn

<li><b>LogisticRegression()</b>: Usamos la funcion <b>LogisticRegression</b> para implementar nuestro modelo de regresion lineal</li>
<li><b>fit()</b>: Con este metodo, implementamos todo el algoritmo de entrenamiento para nuestro modelo de regresion logistica, basandose en los       <b>datos_entrena</b> y sus respectivas etiquetas <b>clase_entrena</b> y en base al modelo creado con <b>LogisticRegression</b></li>

In [None]:
# Crear el modelo de Regresión Logística

modelo = LogisticRegression().fit(X_train, y_train)
np.set_printoptions(suppress=True)

# Mostrar Predicciones y Resultados:
<li><b>np.set_printoptions(suppress=True)</b>: Evita que se muestren los números en notación científica cuando se imprimen.</li>
<li><b>modelo.predict(datos_prueba)</b>: Realiza predicciones de la clase (0 o 1) para cada uno de los valores en el conjunto de prueba.<br>
    <ul>Estas predicciones se basan en la frecuencia cardíaca de prueba.</ul></li>
<li><b>modelo.predict_proba(datos_prueba)</b>: Devuelve las probabilidades de que cada valor de frecuencia cardíaca pertenezca a las clases 0 o 1. <br>
    <ul>Esto te muestra qué tan seguro está el modelo de su predicción.</ul></li>
<li><b>modelo.score(datos_prueba, clase_prueba)</b>: Muestra la precisión del modelo. <br>
    <ul>Es decir, el porcentaje de predicciones correctas que hizo en el conjunto de prueba.</ul></li>
<li><b>modelo.intercept_</b>: Es la intersección o valor de sesgo (bias) que ajusta la función de decisión del modelo.</li>
<li><b>modelo.coef_</b>: Son los coeficientes que multiplican a las entradas (frecuencias cardíacas) en el modelo.</li>

In [None]:
# Probar el Modelo Entrenado con Datos de Prueba (test)

print("Predicciones:", modelo.predict(X_test))
print("Probabilidades:", modelo.predict_proba(X_test))
print("Precisión:", modelo.score(X_test, y_test))

In [None]:
print("Intersección (b):", modelo.intercept_)
print("Coeficientes (m):", modelo.coef_)

# Graficar los Resultados:

In [None]:
# Gráfico de la curva sigmoide
x_min = X.min()
x_max = X.max()
x_vals = np.linspace(x_min, x_max, 300).reshape(-1, 1)
y_vals = modelo.predict_proba(x_vals)[:, 1]

plt.plot(x_vals, y_vals, color="black", label="Curva sigmoide")

# Gráfico de los puntos de entrenamiento y prueba
plt.scatter(X_train, y_train, color="blue", label="Datos de entrenamiento")
plt.scatter(X_test, y_test, color="red", label="Datos de prueba")

# Añadir etiquetas y título
plt.xlabel("Primera característica del cáncer de mama")
plt.ylabel("Probabilidad de malignidad")
plt.title("Modelo de Regresión Logística")
plt.legend()
plt.grid(True)

# Mostrar el gráfico
plt.show()