# Exploración de datos - RSNA Intracranial Aneurysm Detection

Este notebook realiza un análisis exploratorio inicial de los datos del reto Kaggle para detección de aneurismas intracraneales.

## 1. Importar librerías
Importar las librerías necesarias para análisis de datos y visualización.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

## 2. Cargar y mostrar metadatos
Cargar los archivos CSV de metadatos y mostrar su estructura.

In [None]:
# Ruta de los archivos (ajusta según tu descarga)
train_csv = '../data/train.csv'
test_csv = '../data/test.csv'

# Cargar metadatos
train_df = pd.read_csv(train_csv)
test_df = pd.read_csv(test_csv)

# Mostrar estructura
print('Train shape:', train_df.shape)
print('Test shape:', test_df.shape)
display(train_df.head())

## 3. Análisis de la variable objetivo
Visualizar la distribución de la variable objetivo (presencia de aneurisma) en el conjunto de entrenamiento.

In [None]:
# Asumiendo que la columna objetivo se llama 'any_aneurysm'
if 'any_aneurysm' in train_df.columns:
    plt.figure(figsize=(6,4))
    sns.countplot(x='any_aneurysm', data=train_df)
    plt.title('Distribución de la variable objetivo')
    plt.show()
    print(train_df['any_aneurysm'].value_counts(normalize=True))
else:
    print('No se encontró la columna any_aneurysm en el dataset.')

## 4. Exploración de imágenes médicas
Visualizar ejemplos de imágenes DICOM y analizar sus propiedades básicas.

In [None]:
import pydicom
import cv2

# Ejemplo de ruta a una imagen DICOM (ajusta según tu estructura)
dicom_dir = '../data/train_images/'
example_study = train_df.iloc[0]['ID'] if 'ID' in train_df.columns else None

if example_study:
    study_path = os.path.join(dicom_dir, str(example_study))
    if os.path.exists(study_path):
        dicom_files = [f for f in os.listdir(study_path) if f.endswith('.dcm')]
        if dicom_files:
            dicom_file = os.path.join(study_path, dicom_files[0])
            ds = pydicom.dcmread(dicom_file)
            img = ds.pixel_array
            plt.imshow(img, cmap='gray')
            plt.title(f'Imagen DICOM - {dicom_files[0]}')
            plt.axis('off')
            plt.show()
            print('Shape:', img.shape)
            print('DICOM info:', ds)
        else:
            print('No se encontraron archivos DICOM en el estudio.')
    else:
        print('No se encontró la carpeta del estudio.')
else:
    print('No se encontró el ID del estudio en el dataset.')