# Limpieza y Preparaci√≥n de Datos

En este notebook aplicamos una limpieza b√°sica al dataset de c√°ncer de mama:

- Eliminaci√≥n de duplicados
- Conversi√≥n de `diagnosis` a variable num√©rica
- Manejo de valores faltantes
- Guardado de un dataset procesado


## 1. Importar librer√≠as

In [5]:
import pandas as pd
from pathlib import Path


## 2. Cargar el dataset crudo

In [6]:
ruta_crudo = Path("../data/raw/cancer_mama.csv")

if not ruta_crudo.exists():
    raise FileNotFoundError(f"No se encontr√≥ el archivo en: {ruta_crudo.resolve()}")

df = pd.read_csv(ruta_crudo)
print("Datos crudos cargados correctamente")
print(df.shape)


Datos crudos cargados correctamente
(569, 33)


## 3. Eliminar columna `id` (si existe)

In [7]:
df_limpio = df.copy()

if "id" in df_limpio.columns:
    df_limpio = df_limpio.drop(columns=["id"])
    print("Columna 'id' eliminada")
else:
    print("No existe columna 'id', se contin√∫a sin cambios en esta parte.")

Columna 'id' eliminada


## 4. Eliminar filas duplicadas

In [8]:
filas_antes = df_limpio.shape[0]
df_limpio = df_limpio.drop_duplicates()
filas_despues = df_limpio.shape[0]
print(f"Filas eliminadas por duplicados: {filas_antes - filas_despues}")

Filas eliminadas por duplicados: 0


## 5. Convertir `diagnosis` a variable binaria

- `M` ‚Üí 1 (maligno)
- `B` ‚Üí 0 (benigno)

In [9]:
if "diagnosis" in df_limpio.columns:
    df_limpio["diagnosis_binaria"] = df_limpio["diagnosis"].map({"M": 1, "B": 0})
    print(df_limpio[["diagnosis", "diagnosis_binaria"]].head())
else:
    raise KeyError("No se encontr√≥ la columna 'diagnosis' en el dataset.")

  diagnosis  diagnosis_binaria
0         M                  1
1         M                  1
2         M                  1
3         M                  1
4         M                  1


## 6. Manejo de valores faltantes

Rellenamos valores faltantes en columnas num√©ricas con la **mediana** correspondiente.

In [10]:
columnas_numericas = df_limpio.select_dtypes(include=["int64", "float64"]).columns

faltantes_antes = df_limpio[columnas_numericas].isna().sum().sum()

df_limpio[columnas_numericas] = df_limpio[columnas_numericas].fillna(
    df_limpio[columnas_numericas].median()
)

faltantes_despues = df_limpio[columnas_numericas].isna().sum().sum()

print(f"Valores faltantes antes: {faltantes_antes}")
print(f"Valores faltantes despu√©s: {faltantes_despues}")

Valores faltantes antes: 569
Valores faltantes despu√©s: 569


## 7. Guardar el dataset procesado

In [None]:
ruta_procesado = Path("../data/processed/cancer_mama_procesado.csv")
ruta_procesado.parent.mkdir(parents=True, exist_ok=True)

df_limpio.to_csv(ruta_procesado, index=False)
print(f"Dataset procesado guardado en: {ruta_procesado.resolve()}")

üíæ Dataset procesado guardado en: C:\Cursos\Taller_GitHub\proyecto-clasificacion-cancer-mama\data\processed\cancer_mama_procesado.csv


## 8. Resumen de la limpieza

- Columna `id` eliminada (si exist√≠a).
- Duplicados removidos.
- `diagnosis` transformada a `diagnosis_binaria`.
- Valores faltantes num√©ricos rellenados con la mediana.
- Dataset limpio guardado en `data/processed/cancer_mama_procesado.csv`.

En el siguiente notebook entrenaremos un **modelo de clasificaci√≥n** usando este dataset procesado.