# Exploración profunda del dataset clínico
Este cuaderno realiza un análisis exhaustivo del dataset proporcionado.

In [None]:
# Importación de librerías
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import missingno as msno
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Carga de datos
df = pd.read_csv('/mnt/data/data.csv')
df.head()

## Información general del dataset

In [None]:
df.info()

## Valores nulos

In [None]:
msno.matrix(df)

In [None]:
msno.heatmap(df)

In [None]:
df.isnull().sum().sort_values(ascending=False).head(20)

## Tipos de datos y cardinalidad

In [None]:
df.dtypes.value_counts()

In [None]:
df.nunique().sort_values(ascending=False).head(20)

## Estadísticas descriptivas

In [None]:
df.describe(include='all').T

## Distribución de variables numéricas

In [None]:
df.select_dtypes(include=[np.number]).hist(bins=30, figsize=(20, 15))
plt.tight_layout()
plt.show()

## Boxplots para detección de outliers

In [None]:
for col in df.select_dtypes(include=[np.number]).columns:
    plt.figure(figsize=(10, 2))
    sns.boxplot(x=df[col])
    plt.title(col)
    plt.show()

## Frecuencias de variables categóricas

In [None]:
categoricas = df.select_dtypes(include='object')
for col in categoricas.columns[:10]:
    plt.figure(figsize=(10, 4))
    df[col].value_counts().head(10).plot(kind='bar')
    plt.title(f'Distribución de {col}')
    plt.xticks(rotation=45)
    plt.show()

## Correlación entre variables numéricas

In [None]:
plt.figure(figsize=(16,10))
sns.heatmap(df.corr(numeric_only=True), cmap='coolwarm', annot=True)
plt.title('Matriz de correlación')
plt.show()

## Relación entre variables categóricas y el tipo de cáncer

In [None]:
target = 'tipo_cancer_general'
for col in categoricas.columns[:10]:
    if col != target:
        cruzada = pd.crosstab(df[col], df[target])
        cruzada.plot(kind='bar', stacked=True, figsize=(10,4))
        plt.title(f'Relación entre {col} y {target}')
        plt.xticks(rotation=45)
        plt.tight_layout()
        plt.show()