In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, accuracy_score, classification_report
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler

from sklearn.impute import SimpleImputer

import pandas as pd
import numpy as np

plt.style.use('seaborn-v0_8')
sns.set_palette('deep')
print("✅ Setup completo")

# 1. Cargar datos
filename = 'HousingData.csv'
boston = pd.read_csv(filename)
boston.info()

features_names = boston.columns[:13]

# Mostrar primeras 3 filas de las columnas ['CRIM', 'ZN', 'INDUS']
display(boston[['CRIM', 'ZN', 'INDUS']].head(3))

# 2. División train/test
imputer = SimpleImputer(strategy='mean') # or 'median', 'most_frequent'
df_imputed = pd.DataFrame(imputer.fit_transform(boston), columns=boston.columns[:14])

X_reg = pd.DataFrame(df_imputed, columns=features_names)
y_reg = boston['MEDV']

X_train, X_test, y_train, y_test = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)

print("🏠 DATASET: Boston Housing")
print(f"Forma: {X_reg.shape}, Target: precios ${y_reg.min():.1f}k-${y_reg.max():.1f}k")

# 3. Entrenar modelo
# model = LinearRegression()
# model.fit(X_reg, y_reg)
linear_model = LinearRegression().fit(X_reg, y_reg)

# 4. Evaluar modelo
# Hacer predicciones con .predict() y calcular MAE y RMSE
from sklearn.metrics import (
    mean_absolute_error,
    root_mean_squared_error
)

y_pred = linear_model.predict(X_test)

actual_vs_predicted = pd.DataFrame(
    {'Actual': y_test,
     'Predicted':y_pred}
)

# Show first 5 rows
display(actual_vs_predicted.head().round(2))

mae = mean_absolute_error(
    y_true=y_test,
    y_pred=y_pred
)

rmse = root_mean_squared_error(
    y_true=y_test,
    y_pred=y_pred
)

print(f"\nResultados: MAE=${mae:.2f}k, RMSE=${rmse:.2f}k")

# 5. Interpretar coeficientes
feature_importance = pd.DataFrame({
    'Feature': features_names,
    'Coefficient': linear_model.coef_,
    'Abs_Coefficient': np.abs(linear_model.coef_)
}).sort_values('Abs_Coefficient', ascending=False)

print("\nTOP 3 variables más importantes:")
print(feature_importance.head(3))

# como variables mas importantes tenemos:
# - NOX: al ser negativa a mayor nivel de dioxido de carbono, mas barata la propiedad
# - RM: A mayor numero de habitaciones, mayor el precio
# - CHAS: Cuanto mas cerca del Rio se encuentra, mayor es el precio

# Viendo todas las variables, y teniendo en cuenta que el dataset se encuentra
# "baneado" por cuestiones raciales, me llamo la atencion, y quise ver por que
# asique vi todas las variables y con la B (1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town)
# se ve que apenas un poco (0.0093)
# a medida que aumenta la poblacion afro disminuye el precio

✅ Setup completo
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     486 non-null    float64
 1   ZN       486 non-null    float64
 2   INDUS    486 non-null    float64
 3   CHAS     486 non-null    float64
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      486 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    int64  
 9   TAX      506 non-null    int64  
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    486 non-null    float64
 13  MEDV     506 non-null    float64
dtypes: float64(12), int64(2)
memory usage: 55.5 KB


Unnamed: 0,CRIM,ZN,INDUS
0,0.00632,18.0,2.31
1,0.02731,0.0,7.07
2,0.02729,0.0,7.07


🏠 DATASET: Boston Housing
Forma: (506, 13), Target: precios $5.0k-$50.0k


Unnamed: 0,Actual,Predicted
173,23.6,29.02
274,32.4,36.4
491,13.6,13.6
72,22.8,24.73
452,16.1,18.39



Resultados: MAE=$3.02k, RMSE=$4.76k

TOP 3 variables más importantes:
  Feature  Coefficient  Abs_Coefficient
4     NOX   -16.752015        16.752015
5      RM     4.109315         4.109315
3    CHAS     3.046846         3.046846


In [5]:
# 1. Cargar datos
# TODO: Usar load_breast_cancer() para cargar el dataset
# Documentación: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, accuracy_score, classification_report
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler

from sklearn.impute import SimpleImputer

import pandas as pd
import numpy as np


cancer = load_breast_cancer(return_X_y=False, as_frame=False)
X_clf = pd.DataFrame(cancer.data, columns=cancer.feature_names)
y_clf = cancer.target  # 0 = maligno, 1 = benigno

print("\n🏥 DATASET: Breast Cancer")
print(f"Forma: {X_clf.shape}")
np.bincount(y_clf)

# # 2. División train/test con estratificación
# # TODO: Usar train_test_split con stratify=y_clf para mantener proporción de clases
X_train_clf, X_test_clf, y_train_clf, y_test_clf = train_test_split(X_clf, y_clf, test_size=0.2, random_state=42, stratify=y_clf)

# # 3. Entrenar modelo
# # TODO: Crear LogisticRegression con max_iter=1000, random_state=42 y entrenar
# # Documentación: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
logistic_model = LogisticRegression(random_state=42, max_iter=5000)
logistic_model.fit(X_train_clf, y_train_clf)


# # 4. Evaluar modelo
# # TODO: Hacer predicciones con .predict() y obtener probabilidades con .predict_proba()
y_pred_clf = logistic_model.predict(X_test_clf)
y_proba_clf = logistic_model.predict_proba(X_test_clf)

# # TODO: Calcular accuracy usando accuracy_score
accuracy = accuracy_score(y_test_clf, y_pred_clf, normalize=True, sample_weight=None)

print(f"\nResultados: Accuracy = {accuracy:.1%}")

# # Mostrar ejemplos de probabilidades
print("\nEjemplos de confianza:")
for i in range(3):
    pred_class = "benigno" if y_pred_clf[i] == 1 else "maligno"
    confidence = y_proba_clf[i][1] if y_pred_clf[i] == 1 else y_proba_clf[i][0]
    print(f"Caso {i+1}: {pred_class} (confianza: {confidence:.2f})")


# # TODO: Usar classification_report con target_names=['maligno', 'benigno']
print("\nReporte detallado:")
print(classification_report(y_test_clf, y_pred_clf, target_names=['maligno', 'benigno']))



🏥 DATASET: Breast Cancer
Forma: (569, 30)

Resultados: Accuracy = 96.5%

Ejemplos de confianza:
Caso 1: maligno (confianza: 1.00)
Caso 2: benigno (confianza: 1.00)
Caso 3: maligno (confianza: 0.95)

Reporte detallado:
              precision    recall  f1-score   support

     maligno       0.97      0.93      0.95        42
     benigno       0.96      0.99      0.97        72

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114



In [6]:
# === CARGAR DATOS DE DIAGNÓSTICO DE CÁNCER ===

# 1. Cargar el dataset de cáncer de mama (que viene con sklearn)
cancer_data = load_breast_cancer()

# 2. Convertir a DataFrame para verlo mejor
X_cancer = pd.DataFrame(cancer_data.data, columns=cancer_data.feature_names)
y_cancer = cancer_data.target  # 0 = maligno, 1 = benigno

print("🏥 DATASET: Breast Cancer (Diagnóstico)")
print(f"   📊 Pacientes: {X_cancer.shape[0]}")
print(f"   📊 Características: {X_cancer.shape[1]}")
print(f"   🎯 Objetivo: Predecir si tumor es benigno (1) o maligno (0)")

# 3. Ver balance de clases
casos_malignos = (y_cancer == 0).sum()
casos_benignos = (y_cancer == 1).sum()

print(f"\n📊 DISTRIBUCIÓN:")
print(f"   ❌ Casos malignos: {casos_malignos}")
print(f"   ✅ Casos benignos: {casos_benignos}")

🏥 DATASET: Breast Cancer (Diagnóstico)
   📊 Pacientes: 569
   📊 Características: 30
   🎯 Objetivo: Predecir si tumor es benigno (1) o maligno (0)

📊 DISTRIBUCIÓN:
   ❌ Casos malignos: 212
   ✅ Casos benignos: 357


In [9]:
# === ENTRENAR MODELO DE CLASIFICACIÓN ===

from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix, classification_report

# 1. Dividir datos en entrenamiento y prueba
X_train_cancer, X_test_cancer, y_train_cancer, y_test_cancer = train_test_split(
    X_cancer, y_cancer, test_size=0.2, random_state=42
)

print(f"📊 Datos de entrenamiento: {X_train_cancer.shape[0]} pacientes")
print(f"📊 Datos de prueba: {X_test_cancer.shape[0]} pacientes")

# 2. Crear y entrenar modelo de regresión logística
modelo_clasificacion = LogisticRegression(max_iter=5000, random_state=42)
modelo_clasificacion.fit(X_train_cancer, y_train_cancer)

print("✅ Modelo de clasificación entrenado!")

# 3. Hacer predicciones
predicciones_cancer = modelo_clasificacion.predict(X_test_cancer)

# 4. Evaluar con MÚLTIPLES MÉTRICAS de clasificación
exactitud = accuracy_score(y_test_cancer, predicciones_cancer)
precision = precision_score(y_test_cancer, predicciones_cancer)
recall = recall_score(y_test_cancer, predicciones_cancer)
f1 = f1_score(y_test_cancer, predicciones_cancer)

print(f"\n📈 MÉTRICAS DE CLASIFICACIÓN:")
print(f"   🎯 Exactitud (Accuracy): {exactitud:.3f} ({exactitud*100:.1f}%)")
print(f"   🎯 Precisión (Precision): {precision:.3f} ({precision*100:.1f}%)")
print(f"   🎯 Recall (Sensibilidad): {recall:.3f} ({recall*100:.1f}%)")
print(f"   🎯 F1-Score: {f1:.3f}")

# Mostrar matriz de confusión de forma simple
matriz_confusion = confusion_matrix(y_test_cancer, predicciones_cancer)
print(f"\n🔢 MATRIZ DE CONFUSIÓN:")
print(f"   📊 {matriz_confusion}")
print(f"   📋 [Verdaderos Negativos, Falsos Positivos]")
print(f"   📋 [Falsos Negativos, Verdaderos Positivos]")

# Reporte detallado
print(f"\n📋 REPORTE DETALLADO:")
print(classification_report(y_test_cancer, predicciones_cancer, target_names=['Maligno', 'Benigno']))

print(f"\n🔍 INTERPRETACIÓN MÉDICA:")
print(f"   🩺 Precision: De los casos que predecimos como benignos, {precision*100:.1f}% lo son realmente")
print(f"   🩺 Recall: De todos los casos benignos reales, detectamos {recall*100:.1f}%")
print(f"   🩺 F1-Score: Balance general entre precision y recall: {f1:.3f}")

# 5. Ver ejemplos específicos
print(f"\n🔍 EJEMPLOS (Real vs Predicho):")
for i in range(5):
    real = "Benigno" if y_test_cancer[i] == 1 else "Maligno"
    predicho = "Benigno" if predicciones_cancer[i] == 1 else "Maligno"
    print(f"   Paciente {i+1}: Real: {real} vs Predicho: {predicho}")

📊 Datos de entrenamiento: 455 pacientes
📊 Datos de prueba: 114 pacientes
✅ Modelo de clasificación entrenado!

📈 MÉTRICAS DE CLASIFICACIÓN:
   🎯 Exactitud (Accuracy): 0.956 (95.6%)
   🎯 Precisión (Precision): 0.946 (94.6%)
   🎯 Recall (Sensibilidad): 0.986 (98.6%)
   🎯 F1-Score: 0.966

🔢 MATRIZ DE CONFUSIÓN:
   📊 [[39  4]
 [ 1 70]]
   📋 [Verdaderos Negativos, Falsos Positivos]
   📋 [Falsos Negativos, Verdaderos Positivos]

📋 REPORTE DETALLADO:
              precision    recall  f1-score   support

     Maligno       0.97      0.91      0.94        43
     Benigno       0.95      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114


🔍 INTERPRETACIÓN MÉDICA:
   🩺 Precision: De los casos que predecimos como benignos, 94.6% lo son realmente
   🩺 Recall: De todos los casos benignos reales, detectamos 98.6%
   🩺 F1-Score: Balance general entre precision y re