In [None]:
# Descripcion del ejercicio 

''''Breast Cancer Wisconsin (Diagnóstico)
Descripción: Contiene características calculadas a partir de una imagen digitalizada de un aspirado con aguja fina de una masa mamaria.
Clase a Predecir: El objetivo es predecir si el tumor es Maligno (M) o Benigno (B). Es un problema clásico de clasificación binaria.
URL: https://raw.githubusercontent.com/datasets/breast-cancer-wisconsin/master/data/data.csv'''

# Prediccion del cancer de mama 

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.datasets import load_breast_cancer
import warnings
warnings.filterwarnings('ignore')

# Configurar semilla para reproducibilidad 
SEED =42 
np.random.seed(SEED)

data = load_breast_cancer()

# Carga del data frame con los datos 
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

print("== Informacion del Dataset ==")
print(f"Dimensiones: {df.shape}" )
print(f"Numero de caracteristicas: {len(data.feature_names)}")
print(f"\nDescripcion del dataset:")
print(data.DESCR[:500])
print("\n...")


print(df.head())

#Matriz de correlacion 

X = df.drop('target', axis=1)
y = df['target']

print(f"\n== DIMENSIONES ==")
print(f"X (caracteristicas): {X.shape}")
print(f"y (objetivo): {y.shape}")

plt.figure(figsize=(20,16))
matriz_correlacion = X.corr()
sns.heatmap(matriz_correlacion, annot=True, cmap='coolwarm', fmt='.2f', 
            linewidths=0.5, cbar_kws={'label': 'Correlación'},
            square=True)
plt.title('Matriz de Correlación - Características del Tumor de Mama', 
          fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()


# Dividir datos en entrenamiento y prueba
x_train, x_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=SEED, 
    stratify=y  # Mantener proporción de clases
)

print(f"\n=== DIVISIÓN DE DATOS ===")
print(f"Total de muestras: {len(X)}")
print(f"Entrenamiento: {x_train.shape[0]} muestras ({x_train.shape[0]/len(X)*100:.1f}%)")
print(f"Prueba: {x_test.shape[0]} muestras ({x_test.shape[0]/len(X)*100:.1f}%)")

print(f"\n=== DISTRIBUCIÓN EN ENTRENAMIENTO ===")
print(f"Maligno (0): {np.sum(y_train == 0)} ({np.sum(y_train == 0)/len(y_train)*100:.1f}%)")
print(f"Benigno (1): {np.sum(y_train == 1)} ({np.sum(y_train == 1)/len(y_train)*100:.1f}%)")

print(f"\n=== DISTRIBUCIÓN EN PRUEBA ===")
print(f"Maligno (0): {np.sum(y_test == 0)} ({np.sum(y_test == 0)/len(y_test)*100:.1f}%)")
print(f"Benigno (1): {np.sum(y_test == 1)} ({np.sum(y_test == 1)/len(y_test)*100:.1f}%)")

# Escalar los datos
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_test_scaled = scaler.transform(x_test)

print("\nDatos escalados correctamente con StandardScaler")

# Entrenamiento del modelo 

print("Entrenmamiento MODELO NAIVE BAYES")

nb_model = GaussianNB()
nb_model.fit(x_train_scaled, y_train)

print("Modelo entrenado exitosamente")

# Realizar las predicciones 

y_pred_train = nb_model.predict(x_train_scaled)
y_pred_test = nb_model.predict(x_test_scaled)

# Calculo de la precision

accuracy_train = accuracy_score(y_train, y_pred_train)
accuracy_test = accuracy_score(y_test, y_pred_test)

print("RESULTADOS DE PRECISION")

print(f"Precisión en Entrenamiento: {accuracy_train:.4f} ({accuracy_train*100:.2f}%)")
print(f"Precisión en Prueba: {accuracy_test:.4f} ({accuracy_test*100:.2f}%)")