### Fundamentos Teóricos de la Regresión Logística

#### Introducción
La regresión logística es un modelo estadístico utilizado para la clasificación binaria y multiclase.  
A diferencia de la regresión lineal, la regresión logística modela la probabilidad de que una observación pertenezca a una clase específica.

#### Función Sigmoide
La función sigmoide es clave en la regresión logística y se define como:
$$
sigmoid(z) = \frac{1}{1 + e^{-z}}
$$
Donde \(z\) es una combinación lineal de las características de entrada:
$$
z = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n
$$
La salida de la función sigmoide es un valor entre 0 y 1, lo que permite interpretarlo como una probabilidad.

#### Función de Costo
La función de costo utilizada en la regresión logística es la **entropía cruzada** (log-loss):
$$
J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y_i \log(h_\theta(x_i)) + (1 - y_i) \log(1 - h_\theta(x_i)) \right]
$$
Donde:
- \( y_i \) es la etiqueta real de la observación \( i \).
- \( h_\theta(x_i) \) es la predicción del modelo.
- \( m \) es el número total de ejemplos en el conjunto de datos.

#### Optimización
Para minimizar la función de costo y encontrar los parámetros óptimos \( \theta \), se utiliza el **gradiente descendente**:
$$
\theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}
$$
Donde \( \alpha \) es la tasa de aprendizaje.


In [None]:
%pip install numpy pandas matplotlib seaborn scikit-learn


In [None]:
### Importación de Librerías

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

### Carga del Dataset
iris = datasets.load_iris()
X = iris.data
y = iris.target

### Convertir a DataFrame para visualización
df = pd.DataFrame(X, columns=iris.feature_names)
df['target'] = y
print(df.head())

### Gráfico de Dispersión
sns.pairplot(df, hue='target', palette='Dark2')
plt.show()

### División de Datos en Entrenamiento y Prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

### Normalización de Datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

### Entrenamiento del Modelo
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

### Predicción
y_pred = model.predict(X_test)

### Evaluación del Modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f'Accuracy: {accuracy:.2f}')
print('Confusion Matrix:\n', conf_matrix)
print('Classification Report:\n', class_report)

### Visualización de la Matriz de Confusión
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='d')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix')
plt.show()
