# Maestría en Ciencia de Datos e Inteligencia Artificial
## Módulo: 09: Minería de Datos
### 2025

### *Msc Renzo Claure*
---

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report, roc_curve, auc

In [None]:
plt.style.use('default')
sns.set_style('whitegrid')

In [None]:
#de datos
data = load_breast_cancer()

df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

df.head()

In [None]:
df.describe()

In [None]:
# División del dataset: 70% entrenamiento, 30% prueba
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, 
                                                    test_size=0.30, random_state=42, stratify=data.target)


In [None]:
modelo = LogisticRegression(max_iter=10000)
modelo.fit(X_train, y_train)

In [None]:
y_pred = modelo.predict(X_test)

In [None]:
print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred))


In [None]:
# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", cbar=False)
plt.title('Matriz de Confusión')
plt.xlabel('Clase Predicha')
plt.ylabel('Clase Real')
plt.show()

In [None]:
#probabilidades de predicción para la clase positiva (1)
y_prob = modelo.predict_proba(X_test)[:, 1]

In [None]:
#la curva ROC
fpr, tpr, thresholds = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)

In [None]:
plt.figure(figsize=(6, 4))
plt.plot(fpr, tpr, label=f'AUC = {roc_auc:.3f}')
plt.plot([0, 1], [0, 1], linestyle='--', color='gray')
plt.title('Curva ROC')
plt.xlabel('Tasa de Falsos Positivos')
plt.ylabel('Tasa de Verdaderos Positivos')
plt.legend(loc='lower right')
plt.show()

### 4. Interpretación de los Coeficientes: Odds Ratio
Para interpretar la influencia de cada variable, se calcula el *odds ratio* a partir de los coeficientes del modelo:  
$
OR = e^{\beta}
$  
Un valor mayor que 1 indica que un aumento en la variable incrementa los odds de que el tumor sea maligno (o benigno, dependiendo de la codificación), mientras que un valor menor que 1 indica lo contrario.


In [None]:
coeficientes = modelo.coef_[0]
features = data.feature_names

In [None]:
# Calcular el odds ratio
odds_ratio = np.exp(coeficientes)

In [None]:
df_coef = pd.DataFrame({
    'Feature': features,
    'Coeficiente': coeficientes,
    'Odds Ratio': odds_ratio
}).sort_values(by='Odds Ratio', ascending=False)

In [None]:
print("Interpretación de los Coeficientes (Odds Ratio):")
print(df_coef)

In [None]:
# Visualización del odds ratio para las 10 variables con mayor impacto
plt.figure(figsize=(8, 6))
sns.barplot(data=df_coef.head(10), x='Odds Ratio', y='Feature', orient='h')
plt.title('Top 10 Variables según Odds Ratio')
plt.xlabel('Odds Ratio')
plt.ylabel('Feature')
plt.show()

### Conclusiones
- **Evaluación del Modelo:** El reporte de clasificación, la matriz de confusión y la curva ROC muestran el desempeño del modelo en la clasificación de tumores.
- **Interpretación Estadística:** La interpretación de los coeficientes en términos de *odds ratio* permite entender cómo cada variable afecta la probabilidad de clasificar un tumor como maligno o benigno.