# Análisis Exploratorio Inicial

Proyecto: **Clasificación de Cáncer de Mama**

En este notebook realizamos una primera exploración del dataset de cáncer de mama.

---


## 1. Importar librerías

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from pathlib import Path

sns.set(style="whitegrid")


## 2. Cargar el dataset

El archivo se asume en la ruta `data/raw/cancer_mama.csv` (puedes ajustar el nombre si es diferente).

In [None]:
ruta_dataset = Path("../data/raw/cancer_mama.csv")

if not ruta_dataset.exists():
    raise FileNotFoundError(f"No se encontró el archivo en: {ruta_dataset.resolve()}")

df = pd.read_csv(ruta_dataset)
print("✅ Datos cargados correctamente")
print(df.shape)
df.head()

## 3. Información general del dataset

In [None]:
df.info()

In [None]:
df.describe().T

## 4. Distribución de la variable objetivo

En este dataset la variable objetivo suele llamarse `diagnosis`, donde:
- `M` = maligno
- `B` = benigno

In [None]:
print(df["diagnosis"].value_counts())
print("\nProporciones:")
print(df["diagnosis"].value_counts(normalize=True))




In [None]:
plt.figure(figsize=(4,4))
sns.countplot(x="diagnosis", data=df)
plt.title("Distribución de la variable objetivo (diagnosis)")
plt.show()

## 5. Valores faltantes

In [None]:
faltantes = df.isna().sum()
faltantes[faltantes > 0]

## 6. Correlación entre variables numéricas (visión general)

Aquí solo vemos un mapa de calor general para identificar posibles patrones.

In [None]:
df_numericas = df.select_dtypes(include=["int64", "float64"])

if df_numericas.shape[1] > 1:
    plt.figure(figsize=(10, 8))
    sns.heatmap(df_numericas.corr(), cmap="viridis")
    plt.title("Mapa de calor de correlaciones (variables numéricas)")
    plt.tight_layout()
    plt.show()
else:
    print("No hay suficientes variables numéricas para calcular correlaciones.")

## 7. Conclusiones iniciales

- Revisar el balance de clases en `diagnosis`.
- Identificar posibles variables con valores extremos o muy correlacionadas.
- Detectar si hay valores faltantes que deban tratarse en la etapa de limpieza.

En el siguiente notebook realizaremos la **limpieza y preparación de los datos**.