# Introducción

Este análisis se centra en el dataset **VinDr-Mammo**, un conjunto de datos de referencia a gran escala para el diagnóstico asistido por computadora en mamografía digital de campo completo. El objetivo principal de este análisis es explorar y analizar los datos proporcionados para identificar patrones y tendencias que puedan ser útiles en el desarrollo de herramientas CADe/x (Computer-Aided Detection/Diagnosis) para la detección del cáncer de mama.

###  Descripción del Dataset

El dataset VinDr-Mammo consta de 5,000 exámenes de mamografía digital, cada uno con cuatro vistas diferentes y anotaciones detalladas a nivel de mama y hallazgo. Los exámenes han sido evaluados por radiólogos con experiencia, y cualquier discrepancia en la evaluación ha sido resuelta mediante arbitraje por un tercer radiólogo.

Este dataset se pone a disposición del público como un recurso valioso para promover el desarrollo de nuevas herramientas de diagnóstico asistido por computadora, con el objetivo final de mejorar la precisión y eficacia en la detección del cáncer de mama.

### Datos incluidos en el análisis

El análisis se basará en los siguientes archivos CSV proporcionados:
- **metadata.csv**: Contiene información general sobre cada imagen, incluyendo la edad del paciente, la vista de la mamografía y la lateralidad.
- **breast-level_annotations.csv**: Contiene anotaciones a nivel de mama, incluyendo la clasificación BI-RADS y la densidad mamaria.
- **finding_annotations.csv**: Contiene anotaciones de hallazgos específicos en las imágenes, con detalles sobre la ubicación y categoría del hallazgo.

Además, se utilizarán las imágenes asociadas que se encuentran en la carpeta `images` para realizar análisis visuales y apoyar la interpretación de los datos.

El análisis cubrirá la exploración inicial de los datos, la limpieza y preparación de los mismos, un análisis exploratorio detallado, y finalmente, una serie de conclusiones basadas en los hallazgos obtenidos. Este trabajo contribuirá al entendimiento del dataset y proporcionará información valiosa que puede ser utilizada en el desarrollo de modelos predictivos o en la creación de nuevas herramientas de diagnóstico asistido por computadora.


In [16]:
# Carga de Datos

# Importación de Librerías
import os
import pandas as pd

# Definir la ruta a la carpeta donde se encuentra el dataset
ruta_vindr = '/Volumes/m2/Memoria/Datasets/vindr'

# Leer archivos CSV
breast_level_annotations = pd.read_csv(os.path.join(ruta_vindr, 'breast-level_annotations.csv'))
finding_annotations = pd.read_csv(os.path.join(ruta_vindr, 'finding_annotations.csv'))
metadata = pd.read_csv(os.path.join(ruta_vindr, 'metadata.csv'))

# Mostrar las primeras filas de cada CSV para verificar la carga correcta
print("Breast Level Annotations:")
display(breast_level_annotations.head())

print("\nFinding Annotations:")
display(finding_annotations.head())

print("\nMetadata:")
display(metadata.head())

# Cargar las imágenes
ruta_imagenes = os.path.join(ruta_vindr, 'images')
lista_imagenes = os.listdir(ruta_imagenes)

# Mostrar un resumen de las imágenes disponibles
print(f"\nNúmero de imágenes en la carpeta 'images': {len(lista_imagenes)}")
print(f"Ejemplo de nombres de imágenes: {lista_imagenes[:5]}")


Breast Level Annotations:


Unnamed: 0,study_id,series_id,image_id,laterality,view_position,height,width,breast_birads,breast_density,split
0,b8d273e8601f348d3664778dae0e7e0b,b36517b9cbbcfd286a7ae04f643af97a,d8125545210c08e1b1793a5af6458ee2,L,CC,3518,2800,BI-RADS 2,DENSITY C,training
1,b8d273e8601f348d3664778dae0e7e0b,b36517b9cbbcfd286a7ae04f643af97a,290c658f4e75a3f83ec78a847414297c,L,MLO,3518,2800,BI-RADS 2,DENSITY C,training
2,b8d273e8601f348d3664778dae0e7e0b,b36517b9cbbcfd286a7ae04f643af97a,cd0fc7bc53ac632a11643ac4cc91002a,R,CC,3518,2800,BI-RADS 2,DENSITY C,training
3,b8d273e8601f348d3664778dae0e7e0b,b36517b9cbbcfd286a7ae04f643af97a,71638b1e853799f227492bfb08a01491,R,MLO,3518,2800,BI-RADS 2,DENSITY C,training
4,8269f5971eaca3e5d3772d1796e6bd7a,d931832a0815df082c085b6e09d20aac,dd9ce3288c0773e006a294188aadba8e,L,CC,3518,2800,BI-RADS 1,DENSITY C,training



Finding Annotations:


Unnamed: 0,study_id,series_id,image_id,laterality,view_position,height,width,breast_birads,breast_density,finding_categories,finding_birads,xmin,ymin,xmax,ymax,split
0,48575a27b7c992427041a82fa750d3fa,26de4993fa6b8ae50a91c8baf49b92b0,4e3a578fe535ea4f5258d3f7f4419db8,R,CC,3518,2800,BI-RADS 4,DENSITY C,['Mass'],BI-RADS 4,2355.139893,1731.640015,2482.97998,1852.75,training
1,48575a27b7c992427041a82fa750d3fa,26de4993fa6b8ae50a91c8baf49b92b0,dac39351b0f3a8c670b7f8dc88029364,R,MLO,3518,2800,BI-RADS 4,DENSITY C,['Mass'],BI-RADS 4,2386.679932,1240.609985,2501.800049,1354.040039,training
2,75e8e48933289d70b407379a564f8594,853b70e7e6f39133497909d9ca4c756d,c83f780904f25eacb44e9030f32c66e1,R,CC,3518,2800,BI-RADS 3,DENSITY C,['Global Asymmetry'],BI-RADS 3,2279.179932,1166.51001,2704.439941,2184.26001,training
3,75e8e48933289d70b407379a564f8594,853b70e7e6f39133497909d9ca4c756d,893528bc38a0362928a89364f1b692fd,R,MLO,3518,2800,BI-RADS 3,DENSITY C,['Global Asymmetry'],BI-RADS 3,1954.27002,1443.640015,2589.76001,2193.810059,training
4,c3487424fee1bdd4515b72dc3fd69813,77619c914263eae44e9099f1ce07192c,318264c881bf12f2c1efe5f93920cc37,R,CC,3518,2800,BI-RADS 4,DENSITY C,['Architectural Distortion'],BI-RADS 4,2172.300049,1967.410034,2388.699951,2147.159912,training



Metadata:


Unnamed: 0,SOP Instance UID,Series Instance UID,SOP Instance UID.1,Patient's Age,View Position,Image Laterality,Photometric Interpretation,Rows,Columns,Imager Pixel Spacing,...,Pixel Padding Value,Pixel Padding Range Limit,Window Center,Window Width,Rescale Intercept,Rescale Slope,Rescale Type,Window Center & Width Explanation,Manufacturer,Manufacturer's Model Name
0,d8125545210c08e1b1793a5af6458ee2,b36517b9cbbcfd286a7ae04f643af97a,d8125545210c08e1b1793a5af6458ee2,053Y,CC,L,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1662,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration
1,290c658f4e75a3f83ec78a847414297c,b36517b9cbbcfd286a7ae04f643af97a,290c658f4e75a3f83ec78a847414297c,053Y,MLO,L,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1664,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration
2,cd0fc7bc53ac632a11643ac4cc91002a,b36517b9cbbcfd286a7ae04f643af97a,cd0fc7bc53ac632a11643ac4cc91002a,053Y,CC,R,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1600,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration
3,71638b1e853799f227492bfb08a01491,b36517b9cbbcfd286a7ae04f643af97a,71638b1e853799f227492bfb08a01491,053Y,MLO,R,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1654,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration
4,dd9ce3288c0773e006a294188aadba8e,d931832a0815df082c085b6e09d20aac,dd9ce3288c0773e006a294188aadba8e,042Y,CC,L,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1580,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration



Número de imágenes en la carpeta 'images': 5001
Ejemplo de nombres de imágenes: ['94b8aa8d440fd53eeaba90c90fd7c5a8', 'fcc67ac333b35f981f75ac4ee37bcd23', 'f58ee75d530001771356090077eedbfe', '60c8177e1f4f489c8e14ad6804f8579a', '5a77087143733dea136bff7114889710']


In [19]:
# Exploración y Limpieza de Datos

# Resumen Estadístico Inicial
print("Resumen Estadístico de Breast Level Annotations:")
display(breast_level_annotations.describe(include='all'))

print("\nResumen Estadístico de Finding Annotations:")
display(finding_annotations.describe(include='all'))

print("\nResumen Estadístico de Metadata:")
display(metadata.describe(include='all'))

# Información General sobre el Dataset
print("\nInformación General de Breast Level Annotations:")
breast_level_annotations.info()

print("\nInformación General de Finding Annotations:")
finding_annotations.info()

print("\nInformación General de Metadata:")
metadata.info()

# Detección de Valores Faltantes
print("\nValores Faltantes en Breast Level Annotations:")
display(breast_level_annotations.isnull().sum())

print("\nValores Faltantes en Finding Annotations:")
display(finding_annotations.isnull().sum())

print("\nValores Faltantes en Metadata:")
display(metadata.isnull().sum())

# Manejo de Valores Faltantes (Ejemplo)
# Decisión: Para este ejemplo, vamos a eliminar filas con valores faltantes en 'Patient's Age' en metadata
metadata_clean = metadata.dropna(subset=["Patient's Age"]).copy()

# Estandarización de Variables Categóricas
# Convertir categorías a valores numéricos si es necesario para análisis posterior
metadata_clean.loc[:, 'View Position'] = metadata_clean['View Position'].map({'CC': 0, 'MLO': 1})
metadata_clean.loc[:, 'Image Laterality'] = metadata_clean['Image Laterality'].map({'R': 0, 'L': 1})

# Verificación después de la limpieza
print("\nDatos después de la limpieza:")
display(metadata_clean.head())


Resumen Estadístico de Breast Level Annotations:


Unnamed: 0,study_id,series_id,image_id,laterality,view_position,height,width,breast_birads,breast_density,split
count,20000,20000,20000,20000,20000,20000.0,20000.0,20000,20000,20000
unique,5000,5036,20000,2,2,,,5,4,2
top,b8d273e8601f348d3664778dae0e7e0b,b36517b9cbbcfd286a7ae04f643af97a,d8125545210c08e1b1793a5af6458ee2,L,CC,,,BI-RADS 1,DENSITY C,training
freq,4,4,1,10000,10001,,,13406,15292,16000
mean,,,,,,3386.9772,2647.4765,,,
std,,,,,,278.611866,308.275842,,,
min,,,,,,2812.0,2012.0,,,
25%,,,,,,3518.0,2800.0,,,
50%,,,,,,3518.0,2800.0,,,
75%,,,,,,3518.0,2800.0,,,



Resumen Estadístico de Finding Annotations:


Unnamed: 0,study_id,series_id,image_id,laterality,view_position,height,width,breast_birads,breast_density,finding_categories,finding_birads,xmin,ymin,xmax,ymax,split
count,20486,20486,20486,20486,20486,20486.0,20486.0,20486,20486,20486,2129,2254.0,2254.0,2254.0,2254.0,20486
unique,5000,5036,20000,2,2,,,5,4,35,3,,,,,2
top,6d4cd11574ad3598cca9b228bcfcc024,9713711cfb9dcb0d2be37917c083a1aa,8aaea8ad26744fa23f786699ae38d66e,L,MLO,,,BI-RADS 1,DENSITY C,['No Finding'],BI-RADS 4,,,,,training
freq,14,14,7,10247,10289,,,13406,15695,18232,995,,,,,16391
mean,,,,,,3387.483257,2647.495704,,,,,1160.120275,1439.259983,1426.837964,1740.29963,
std,,,,,,278.798948,308.210191,,,,,960.853053,444.646243,966.959392,437.777765,
min,,,,,,2812.0,2012.0,,,,,-26.844999,-5.22405,55.005161,152.147003,
25%,,,,,,3518.0,2800.0,,,,,244.267254,1165.827484,513.675766,1474.47998,
50%,,,,,,3518.0,2800.0,,,,,702.410004,1448.295044,989.629486,1765.705017,
75%,,,,,,3518.0,2800.0,,,,,2158.917542,1743.442505,2458.27002,2040.83501,



Resumen Estadístico de Metadata:


Unnamed: 0,SOP Instance UID,Series Instance UID,SOP Instance UID.1,Patient's Age,View Position,Image Laterality,Photometric Interpretation,Rows,Columns,Imager Pixel Spacing,...,Pixel Padding Value,Pixel Padding Range Limit,Window Center,Window Width,Rescale Intercept,Rescale Slope,Rescale Type,Window Center & Width Explanation,Manufacturer,Manufacturer's Model Name
count,20000,20000,20000,17740,20000,20000,20000,20000.0,20000.0,20000,...,20000.0,960.0,20000.0,20000.0,20000.0,20000.0,20000,20000,20000,20000
unique,20000,5036,20000,73,2,2,2,,,5,...,,,1325.0,943.0,,,1,3,4,4
top,d8125545210c08e1b1793a5af6458ee2,b36517b9cbbcfd286a7ae04f643af97a,d8125545210c08e1b1793a5af6458ee2,045Y,CC,L,MONOCHROME2,,,"[0.085, 0.085]",...,,,1653.0,1500.0,,,US,linear LUT,SIEMENS,Mammomat Inspiration
freq,1,4,1,804,10001,10000,16204,,,15244,...,,,192.0,15244.0,,,20000,15244,15244,15244
mean,,,,,,,,3386.9772,2647.4765,,...,1898.0,3074.763542,,,0.0,1.0,,,,
std,,,,,,,,278.611866,308.275842,,...,3921.525841,1900.710503,,,0.0,0.0,,,,
min,,,,,,,,2812.0,2012.0,,...,0.0,294.0,,,0.0,1.0,,,,
25%,,,,,,,,3518.0,2800.0,,...,0.0,1437.0,,,0.0,1.0,,,,
50%,,,,,,,,3518.0,2800.0,,...,0.0,3034.0,,,0.0,1.0,,,,
75%,,,,,,,,3518.0,2800.0,,...,0.0,4548.5,,,0.0,1.0,,,,



Información General de Breast Level Annotations:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   study_id        20000 non-null  object
 1   series_id       20000 non-null  object
 2   image_id        20000 non-null  object
 3   laterality      20000 non-null  object
 4   view_position   20000 non-null  object
 5   height          20000 non-null  int64 
 6   width           20000 non-null  int64 
 7   breast_birads   20000 non-null  object
 8   breast_density  20000 non-null  object
 9   split           20000 non-null  object
dtypes: int64(2), object(8)
memory usage: 1.5+ MB

Información General de Finding Annotations:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20486 entries, 0 to 20485
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   study_

study_id          0
series_id         0
image_id          0
laterality        0
view_position     0
height            0
width             0
breast_birads     0
breast_density    0
split             0
dtype: int64


Valores Faltantes en Finding Annotations:


study_id                  0
series_id                 0
image_id                  0
laterality                0
view_position             0
height                    0
width                     0
breast_birads             0
breast_density            0
finding_categories        0
finding_birads        18357
xmin                  18232
ymin                  18232
xmax                  18232
ymax                  18232
split                     0
dtype: int64


Valores Faltantes en Metadata:


SOP Instance UID                         0
Series Instance UID                      0
SOP Instance UID.1                       0
Patient's Age                         2260
View Position                            0
Image Laterality                         0
Photometric Interpretation               0
Rows                                     0
Columns                                  0
Imager Pixel Spacing                     0
Pixel Spacing                        16128
Pixel Padding Value                      0
Pixel Padding Range Limit            19040
Window Center                            0
Window Width                             0
Rescale Intercept                        0
Rescale Slope                            0
Rescale Type                             0
Window Center & Width Explanation        0
Manufacturer                             0
Manufacturer's Model Name                0
dtype: int64


Datos después de la limpieza:


Unnamed: 0,SOP Instance UID,Series Instance UID,SOP Instance UID.1,Patient's Age,View Position,Image Laterality,Photometric Interpretation,Rows,Columns,Imager Pixel Spacing,...,Pixel Padding Value,Pixel Padding Range Limit,Window Center,Window Width,Rescale Intercept,Rescale Slope,Rescale Type,Window Center & Width Explanation,Manufacturer,Manufacturer's Model Name
0,d8125545210c08e1b1793a5af6458ee2,b36517b9cbbcfd286a7ae04f643af97a,d8125545210c08e1b1793a5af6458ee2,053Y,0,1,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1662,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration
1,290c658f4e75a3f83ec78a847414297c,b36517b9cbbcfd286a7ae04f643af97a,290c658f4e75a3f83ec78a847414297c,053Y,1,1,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1664,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration
2,cd0fc7bc53ac632a11643ac4cc91002a,b36517b9cbbcfd286a7ae04f643af97a,cd0fc7bc53ac632a11643ac4cc91002a,053Y,0,0,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1600,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration
3,71638b1e853799f227492bfb08a01491,b36517b9cbbcfd286a7ae04f643af97a,71638b1e853799f227492bfb08a01491,053Y,1,0,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1654,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration
4,dd9ce3288c0773e006a294188aadba8e,d931832a0815df082c085b6e09d20aac,dd9ce3288c0773e006a294188aadba8e,042Y,0,1,MONOCHROME2,3518,2800,"[0.085, 0.085]",...,0,,1580,1500,0,1,US,linear LUT,SIEMENS,Mammomat Inspiration
