# Regresión Logística

**Descripción del Dataset:**

- Utilizaremos el conjunto de datos de cáncer de mama de Wisconsin, disponible en Scikit-learn.
- Objetivo: Clasificar tumores como malignos o benignos.

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.datasets import load_breast_cancer

# Cargar el conjunto de datos
data = load_breast_cancer()
X = data.data
y = data.target

# Crear DataFrame para exploración (opcional)
df = pd.DataFrame(X, columns=data.feature_names)
df['target'] = y



# División de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y)

# Escalado de características (opcional pero recomendado)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entrenamiento del modelo
model = LogisticRegression(max_iter=10000)
model.fit(X_train_scaled, y_train)

# Predicciones
y_pred = model.predict(X_test_scaled)

print(y_pred)



**Evaluación del Modelo**

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix

# Evaluación del modelo
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred))
print("\nInforme de Clasificación:")
print(classification_report(y_test, y_pred))


# Confussion Matrix
cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.title('Matriz de Confusión')
plt.show()


Curvas ROC y AUC

In [None]:
from sklearn.metrics import roc_curve, auc

# Obtener las puntuaciones de decisión o probabilidades
y_scores = model.predict_proba(X_test)[:,1]

# Calcular FPR, TPR y umbrales
fpr, tpr, thresholds = roc_curve(y_test, y_scores)

# Calcular AUC
roc_auc = auc(fpr, tpr)

# Graficar Curva ROC
plt.figure()
plt.plot(fpr, tpr, label='Curva ROC (AUC = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Tasa de Falsos Positivos')
plt.ylabel('Tasa de Verdaderos Positivos')
plt.title('Curva ROC')
plt.legend(loc='lower right')
plt.show()


Informe de Clasificación

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))


# KNN
Preprocesamiento Necesario:

Escalado de características es crucial para KNN.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix

# Escalado de características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entrenamiento del modelo con K=5
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

# Predicciones
y_pred_knn = knn.predict(X_test_scaled)

# Evaluación del modelo
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred_knn))
print("\nInforme de Clasificación:")
print(classification_report(y_test, y_pred_knn))

# Confussion Matrix
cm_knn = confusion_matrix(y_test, y_pred_knn)

plt.figure(figsize=(6,4))
sns.heatmap(cm_knn, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicción KNN')
plt.ylabel('Real')
plt.title('Matriz de Confusión')
plt.show()


SVM - Supporting Vectors Machines

In [None]:
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix

# Escalado de características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entrenamiento del modelo con kernel RBF
svm = SVC(kernel='rbf', probability=True)
svm.fit(X_train_scaled, y_train)

# Predicciones
y_pred_svm = svm.predict(X_test_scaled)

# Evaluación del modelo
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred_svm))
print("\nInforme de Clasificación:")
print(classification_report(y_test, y_pred_svm))


# Ejercicio:

**Dataset Seleccionado: Pima Indians Diabetes Dataset.**

- Descripción: Este conjunto de datos se utiliza para predecir si un paciente tiene diabetes o no, basado en ciertas mediciones diagnósticas.
Características:
 - Número de instancias: 768.
 - Número de atributos: 8 características numéricas (por ejemplo, número de embarazos, concentración de glucosa en plasma, presión arterial, índice de masa corporal, etc.).
- Desafíos:
 - Desequilibrio de Clases: Aproximadamente el 65% de las instancias pertenecen a la clase negativa y el 35% a la clase positiva.
 - Valores Cero como Marcadores de Datos Faltantes: Algunos atributos - tienen valores cero que en realidad representan datos faltantes.


**Carga de datos**

In [None]:
import pandas as pd

# Cargar el dataset desde una URL o archivo local
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv'
column_names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness',
                'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
df = pd.read_csv(url, header=None, names=column_names)

print(df.isnull().sum())

df


**Distribución de la Variable Objetivo:**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.countplot(x='Outcome', data=df)
plt.title('Distribución de la Variable Objetivo')
plt.show()


**Observación:**

Notar el desequilibrio de clases y discutir su impacto.

**Preprocesamiento de Datos**

- Identificación de Valores Faltantes:

 - En este dataset, los valores cero en ciertas columnas indican datos faltantes.
 - Columnas Afectadas: 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI'.

**Reemplazo de Valores Cero por NaN:**

In [None]:
import numpy as np

columnas_con_ceros = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
df[columnas_con_ceros] = df[columnas_con_ceros].replace(0, np.nan)


**Imputación de Valores Faltantes:**

Método: Imputación con la mediana.

In [None]:
for columna in columnas_con_ceros:
    mediana = df[columna].median()
    df[columna].fillna(mediana, inplace=True)


**Verificación de Valores Faltantes:**



In [None]:
print(df.isnull().sum())


**División de Datos**

Separación en Características y Variable Objetivo:

In [None]:
X = df.drop('Outcome', axis=1)
y = df['Outcome']


**División en Conjuntos de Entrenamiento y Prueba:**

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y)


**Escalado de Características:**

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


## Implementación de Regresión Logística

In [None]:
from sklearn.linear_model import LogisticRegression

model_logistic = LogisticRegression(max_iter=1000)
model_logistic.fit(X_train_scaled, y_train)


**Predicciones y Evaluación:**

In [None]:
from sklearn.metrics import classification_report, confusion_matrix

y_pred_logistic = model_logistic.predict(X_test_scaled)
print("Matriz de Confusión - Regresión Logística:")
print(confusion_matrix(y_test, y_pred_logistic))
# Confussion Matrix

plt.figure(figsize=(6,4))
sns.heatmap(confusion_matrix(y_test, y_pred_logistic), annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.title('Matriz de Confusión')
plt.show()

print("\nInforme de Clasificación:")
print(classification_report(y_test, y_pred_logistic))


**Análisis de Resultados:**

- Discute la precisión, recall y F1-Score.
- Observa cómo el modelo maneja el desequilibrio de clases.

## Implementación de KNN

Entrenamiento del Modelo:

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model_knn = KNeighborsClassifier(n_neighbors=5)
model_knn.fit(X_train_scaled, y_train)


**Predicciones y Evaluación:**

In [None]:
y_pred_knn = model_knn.predict(X_test_scaled)
print("Matriz de Confusión - KNN:")
print(confusion_matrix(y_test, y_pred_knn))

plt.figure(figsize=(6,4))
sns.heatmap(confusion_matrix(y_test, y_pred_knn), annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.title('Matriz de Confusión')
plt.show()

print("\nInforme de Clasificación:")
print(classification_report(y_test, y_pred_knn))


**Análisis de Resultados:**

- Discute el impacto del valor de K.
- Considera probar diferentes valores de K y evaluar el rendimiento.

## Implementación de SVM

**Entrenamiento del Modelo:**

In [None]:
from sklearn.svm import SVC

model_svm = SVC(kernel='rbf', probability=True)
model_svm.fit(X_train_scaled, y_train)


**Predicciones y Evaluación:**

In [None]:
y_pred_svm = model_svm.predict(X_test_scaled)
print("Matriz de Confusión - SVM:")
print(confusion_matrix(y_test, y_pred_svm))

plt.figure(figsize=(6,4))
sns.heatmap(confusion_matrix(y_test, y_pred_svm), annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.title('Matriz de Confusión')
plt.show()

print("\nInforme de Clasificación:")
print(classification_report(y_test, y_pred_svm))


**Análisis de Resultados:**

Explora el efecto de los hiperparámetros C y gamma.
Discute cómo SVM maneja el desequilibrio de clases.

## Comparación de Modelos

| Modelo | Accuracy | Precision | Recall | F1-Score |
| --- | --- | --- | --- | --- |
| Regresión Logística | . | .| . |
| KNN = 5 | . | .| . |
| SVM (Kernel RBF) | . | .| . |

**Discusión:**

Analiza las diferencias en las métricas.
Discute por qué un modelo puede estar performando mejor que otros.
Considera el impacto del desequilibrio de clases en los resultados.

## Manejo del Desequilibrio de Clases

- Estrategias:

 - Ajuste de Pesos: Usar el parámetro class_weight en los algoritmos.

In [None]:
model_logistic_balanced = LogisticRegression(max_iter=1000, class_weight='balanced')
model_logistic_balanced.fit(X_train_scaled, y_train)


- Remuestreo:

 - Sobremuestreo de la Clase Minoritaria.
 - Submuestreo de la Clase Mayoritaria.

 - Implementación de Sobremuestreo con SMOTE:

In [None]:
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_scaled, y_train)


- Entrenamiento del Modelo con Datos Equilibrados:


In [None]:
model_logistic_resampled = LogisticRegression(max_iter=1000)
model_logistic_resampled.fit(X_train_resampled, y_train_resampled)


- Evaluación del Modelo:

In [None]:
y_pred_resampled = model_logistic_resampled.predict(X_test_scaled)
print("Matriz de Confusión - Regresión Logística con SMOTE:")
print(confusion_matrix(y_test, y_pred_resampled))

plt.figure(figsize=(6,4))
sns.heatmap(confusion_matrix(y_test, y_pred_resampled), annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.title('Matriz de Confusión')
plt.show()

print("\nInforme de Clasificación:")
print(classification_report(y_test, y_pred_resampled))


- Análisis de Resultados:

 - Observa cómo cambian las métricas después de aplicar SMOTE.
 - Discute las ventajas y posibles desventajas de esta técnica.

## Curvas ROC y AUC

Generación de la Curva ROC para Cada Modelo:

In [None]:
from sklearn.metrics import roc_curve, auc

modelos = {
    'Regresión Logística': model_logistic,
    'KNN': model_knn,
    'SVM': model_svm
}

plt.figure()

for nombre, modelo in modelos.items():
    if hasattr(modelo, "predict_proba"):
        y_prob = modelo.predict_proba(X_test_scaled)[:,1]
    else:
        y_prob = modelo.decision_function(X_test_scaled)
    fpr, tpr, thresholds = roc_curve(y_test, y_prob)
    roc_auc = auc(fpr, tpr)
    plt.plot(fpr, tpr, label=f'{nombre} (AUC = {roc_auc:.2f})')

plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Tasa de Falsos Positivos')
plt.ylabel('Tasa de Verdaderos Positivos')
plt.title('Curvas ROC')
plt.legend(loc='lower right')
plt.show()


- Análisis de Resultados:

 - Compara el AUC de cada modelo.
 - Discute qué tan buenos son los modelos para distinguir entre clases.

## Ajuste de Hiperparámetros

- Búsqueda en Malla (Grid Search) para KNN:


In [None]:
from sklearn.model_selection import GridSearchCV

param_grid = {'n_neighbors': range(1, 31)}
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5, scoring='f1')
grid_search.fit(X_train_scaled, y_train)

print("Mejor número de vecinos:", grid_search.best_params_)


- Entrenamiento con el Mejor Parámetro:

In [None]:
best_k = grid_search.best_params_['n_neighbors']
model_knn_best = KNeighborsClassifier(n_neighbors=best_k)
model_knn_best.fit(X_train_scaled, y_train)
y_pred_knn_best = model_knn_best.predict(X_test_scaled)
print("Informe de Clasificación - KNN con Mejor K:")
print(classification_report(y_test, y_pred_knn_best))


- Análisis:

 - Observa cómo el ajuste de hiperparámetros mejora el rendimiento.
 - Discute la importancia de la validación cruzada.