# Breast Cancer Diagnosis using SVM

Este proyecto usa Support Vector Machines (SVM) para clasificar células como benignas o malignas basado en características obtenidas de imágenes de muestras de tejido. El dataset se obtiene del archivo `cell_samples.csv`. Vamos a limpiar los datos, escalar características y entrenar un modelo SVM con kernel RBF.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn import svm
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
# Cargar dataset
dataset = pd.read_csv('data/external/cell_samples.csv')
dataset.head()

In [None]:
# Tipos de datos y valores nulos
dataset.info()
dataset.isnull().sum()

In [None]:
# Eliminamos filas con valores no numéricos en 'BareNuc'
dataset = dataset[pd.to_numeric(dataset['BareNuc'], errors='coerce').notnull()]
dataset['BareNuc'] = dataset['BareNuc'].astype('int')

In [None]:
# Distribución de clases
sns.countplot(x='Class', data=dataset)
plt.title('Distribución de clases (2 = Benigno, 4 = Maligno)')
plt.show()

In [None]:
# Selección de variables
X = dataset.iloc[:, 1:-1].values
y = dataset.iloc[:, -1].values

In [None]:
# Separar en training y test + escalar
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# Entrenar modelo SVM
model = svm.SVC(kernel='rbf')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [None]:
# Evaluación
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))