In [1]:
import pandas as pd

# Descripción de las bases de datos

## CBIS-DDSM

Esta es una base de datos actualizada y estandarizada de la base de datos DDSM.

La base de datos contiene 2,620 estudios y 10,239 imagenes mamograficas, los metadatos de la base está dividida por el tipo de anormalidad: Masa o calcificación, de cada anormalidad se tienen algunas variables en común como lo son:

* patient_id
* breast density
* left or right breast
* image view (proyecciones)
   - Proyección CC (Cráneo-Caudal)
   - Proyección MLO (Medio-Lateral Oblícua)
* abnormality id
* abnormality type
* assessment (BIRADS)
* pathology
* subtlety
  - 1 Muy sutil
  - 2 Sutil
  - 3 Moderadamente evidente
  - 4 Evidente
  - 5 Muy evidente
* iamge file path
* cropped image file path
* ROI mask file path

En caso de ser **calcificación** se tienen las siguiente varaibles:

* calc type (describe el patrón morfológico): PLEOMORPHIC, AMORPHOUS, ...
* cal distribution (Describe cómo están organbizadas espacialmente las calcificaciones dentro del tejido mamario): CLUSTERED, SEGMENTAL, REGIONAL,...

En caso de ser **masa** se tienen las siguientes variables:

* mass shape (Describe la forma geométrica de una masa): IRREGULAR, OVAL,...
* mass margins (Describe el contorno o borde de una masa detectada en la mamografía): CIRCUMSCRIBED, SPICULATED, ILL_DEFINED,...

## King Abdulaziz University Mammogram

La base de datos esta compuesta por un estudio en Arabia Saudita, es la primer base de datos clasificada en BIRADS de este país, la base de datos esta limitada por datos de abril de 2019 a marzo de 2020, la base de datos contiene 1416 casos y todos los casos de imagenes incluyen:

* tipos de proyecciones de ambasa mamas
  - CC
  - MLO
* clasificación BIRADS

## INbreast

ES una base de datos de Portugal, del centro hospitalario de S. Joao (CHSJ) en Porto, cuenta con 115 casos en total y 410 imagenes, de los cuales 90 casos son de mujeres con ambas mamas afectadas y 25 casos son de pacientes con masectomía igualmente dos imagenes por caso.

Los datos recaudados son:

* Laterality (L or R)
* View (MLO or CC)
* Acquisition date
* File Name
* ACR
* BI-RADS
* Mass
* Micros
* Distortion
* Asymmetry
* Findings notes (in Portuguese)
* Other Notes
* Lesion Annotation Status
* Pectoral Muscle Annotation
* Other annotations

## MIAS

Es una base de datos de Reino Unido el cual contiene 332 imagenes, la informaciónd de cada imagen esta dada por:

* REFNUM (número de referencia)
* BG (Caracter de tejido de fondo)
* CLASS (clase de la anormalidad presente: calcificación, circ, spic,...)
* SEVERITY (Severidad de la anormalidad: B, M)
* X (Coordenada X del centro de la anormalidad)
* Y (Coordenada Y del centro de la anormalidad)
* RADIUS (radio aproximado (en pixeles) de un circulo que encierra a la anormalidad)

# Importación de las bases de datos

In [30]:
# Base de datos de CBIS-DDSM: 4 archivos
C_DDSM_calc_t = pd.read_csv('/home/manuel/Descargas/Estudio de DB para cancer de mama/CBIS-DDSM/calc_case_description_train_set.csv')
C_DDSM_calc_test = pd.read_csv('/home/manuel/Descargas/Estudio de DB para cancer de mama/CBIS-DDSM/calc_case_description_test_set.csv')
C_DDSM_mass_t = pd.read_csv('/home/manuel/Descargas/Estudio de DB para cancer de mama/CBIS-DDSM/mass_case_description_train_set.csv')
C_DDSM_mass_test = pd.read_csv('/home/manuel/Descargas/Estudio de DB para cancer de mama/CBIS-DDSM/mass_case_description_test_set.csv')
C_DDSM_calc_t.head()

Unnamed: 0,patient_id,breast density,left or right breast,image view,abnormality id,abnormality type,calc type,calc distribution,assessment,pathology,subtlety,image file path,cropped image file path,ROI mask file path
0,P_00005,3,RIGHT,CC,1,calcification,AMORPHOUS,CLUSTERED,3,MALIGNANT,3,Calc-Training_P_00005_RIGHT_CC/1.3.6.1.4.1.959...,Calc-Training_P_00005_RIGHT_CC_1/1.3.6.1.4.1.9...,Calc-Training_P_00005_RIGHT_CC_1/1.3.6.1.4.1.9...
1,P_00005,3,RIGHT,MLO,1,calcification,AMORPHOUS,CLUSTERED,3,MALIGNANT,3,Calc-Training_P_00005_RIGHT_MLO/1.3.6.1.4.1.95...,Calc-Training_P_00005_RIGHT_MLO_1/1.3.6.1.4.1....,Calc-Training_P_00005_RIGHT_MLO_1/1.3.6.1.4.1....
2,P_00007,4,LEFT,CC,1,calcification,PLEOMORPHIC,LINEAR,4,BENIGN,4,Calc-Training_P_00007_LEFT_CC/1.3.6.1.4.1.9590...,Calc-Training_P_00007_LEFT_CC_1/1.3.6.1.4.1.95...,Calc-Training_P_00007_LEFT_CC_1/1.3.6.1.4.1.95...
3,P_00007,4,LEFT,MLO,1,calcification,PLEOMORPHIC,LINEAR,4,BENIGN,4,Calc-Training_P_00007_LEFT_MLO/1.3.6.1.4.1.959...,Calc-Training_P_00007_LEFT_MLO_1/1.3.6.1.4.1.9...,Calc-Training_P_00007_LEFT_MLO_1/1.3.6.1.4.1.9...
4,P_00008,1,LEFT,CC,1,calcification,,REGIONAL,2,BENIGN_WITHOUT_CALLBACK,3,Calc-Training_P_00008_LEFT_CC/1.3.6.1.4.1.9590...,Calc-Training_P_00008_LEFT_CC_1/1.3.6.1.4.1.95...,Calc-Training_P_00008_LEFT_CC_1/1.3.6.1.4.1.95...


In [34]:
C_DDSM_mass_t.head()

Unnamed: 0,patient_id,breast_density,left or right breast,image view,abnormality id,abnormality type,mass shape,mass margins,assessment,pathology,subtlety,image file path,cropped image file path,ROI mask file path
0,P_00001,3,LEFT,CC,1,mass,IRREGULAR-ARCHITECTURAL_DISTORTION,SPICULATED,4,MALIGNANT,4,Mass-Training_P_00001_LEFT_CC/1.3.6.1.4.1.9590...,Mass-Training_P_00001_LEFT_CC_1/1.3.6.1.4.1.95...,Mass-Training_P_00001_LEFT_CC_1/1.3.6.1.4.1.95...
1,P_00001,3,LEFT,MLO,1,mass,IRREGULAR-ARCHITECTURAL_DISTORTION,SPICULATED,4,MALIGNANT,4,Mass-Training_P_00001_LEFT_MLO/1.3.6.1.4.1.959...,Mass-Training_P_00001_LEFT_MLO_1/1.3.6.1.4.1.9...,Mass-Training_P_00001_LEFT_MLO_1/1.3.6.1.4.1.9...
2,P_00004,3,LEFT,CC,1,mass,ARCHITECTURAL_DISTORTION,ILL_DEFINED,4,BENIGN,3,Mass-Training_P_00004_LEFT_CC/1.3.6.1.4.1.9590...,Mass-Training_P_00004_LEFT_CC_1/1.3.6.1.4.1.95...,Mass-Training_P_00004_LEFT_CC_1/1.3.6.1.4.1.95...
3,P_00004,3,LEFT,MLO,1,mass,ARCHITECTURAL_DISTORTION,ILL_DEFINED,4,BENIGN,3,Mass-Training_P_00004_LEFT_MLO/1.3.6.1.4.1.959...,Mass-Training_P_00004_LEFT_MLO_1/1.3.6.1.4.1.9...,Mass-Training_P_00004_LEFT_MLO_1/1.3.6.1.4.1.9...
4,P_00004,3,RIGHT,MLO,1,mass,OVAL,CIRCUMSCRIBED,4,BENIGN,5,Mass-Training_P_00004_RIGHT_MLO/1.3.6.1.4.1.95...,Mass-Training_P_00004_RIGHT_MLO_1/1.3.6.1.4.1....,Mass-Training_P_00004_RIGHT_MLO_1/1.3.6.1.4.1....


In [95]:
# Base de datos de Abdulaziz University Mammogram
abdulaziz = pd.read_csv('/home/manuel/Descargas/Estudio de DB para cancer de mama/King Adbulaziz University Mammogram/BC with ultrasound.csv', sep=';')
abdulaziz.head()

Unnamed: 0.1,Unnamed: 0,patientID,patient No,DVD NO,Right Mammogram,Left Mammogram,Right Ultrasound,Left Ultrasound
0,25-abr-19,BC 007741,PTNT1,2,BIRAD 2,BIRAD 2,,
1,24-abr-19,BC 005401,PTNT1,3,BIRAD 2,BIRAD 2,,
2,24-abr-19,BC 0021806,PTNT3,3,BIRAD 2,BIRAD 2,,
3,23-abr-19,BC 0026041,PTNT2,4,BIRAD 2,BIRAD 2,,
4,23-abr-19,BC 0026062,PTNT3,4,BIRAD 2,BIRAD 2,,


In [36]:
# Base de datos INbreast
inbreast = pd.read_csv('/home/manuel/Descargas/Estudio de DB para cancer de mama/Inbreast/INbreast_complete.csv', sep=';') # Utilizar el xlxs
inbreast.head()

Unnamed: 0,Patient ID,Patient age,Laterality,View,Acquisition date,File Name,ACR,Bi-Rads,Mass,Micros,Distortion,Asymmetry,Findings Notes (in Portuguese),Other Notes,Lesion Annotation Status,Pectoral Muscle Annotation,Other Annotations
0,removed,removed,R,CC,201001,22678622,4,1,,,,,normal,,No annotation (Normal),,
1,removed,removed,L,CC,201001,22678646,4,3,X,,,,nódulo,,,,
2,removed,removed,R,MLO,201001,22678670,4,1,,,,,normal,,No annotation (Normal),,
3,removed,removed,L,MLO,201001,22678694,4,3,X,,,,nódulo,,,,
4,removed,removed,R,CC,201001,22614074,2,5,X,X,,,nódulo QSE + micros,,,,


In [23]:
# Base de datos MIAS
mias = pd.read_csv('/home/manuel/Descargas/Estudio de DB para cancer de mama/MIAS/MIAS_Format_correct.csv', sep=';')
mias.head()

Unnamed: 0,REFNUM,BG,CLASS,SEVERITY,X,Y,RADIUS
0,mdb001,G,CIRC,B,535.0,425.0,197.0
1,mdb002,G,CIRC,B,522.0,280.0,69.0
2,mdb003,D,NORM,,,,
3,mdb004,D,NORM,,,,
4,mdb005,F,CIRC,B,477.0,133.0,30.0


## Combinación de la base de datos de CBIS-DDSM

Antes de combinar los datos de los diferentes archivos es necesario que renombremos las columnas de 'breast_density' por 'breast density', para poder tener un mejor manejo de la información:

In [59]:
# Solo se renombraran las columnas de los archivo que contengan la anormalidad de masa
C_DDSM_mass_t_formated = C_DDSM_mass_t.rename(columns={'breast_density':'breast density'})
C_DDSM_mass_test_formated = C_DDSM_mass_test.rename(columns={'breast_density':'breast density'})

Una vez renombradas las columnas podemos hacer la concatenación de los datos:

In [84]:
CBIS_DDSM = pd.concat([C_DDSM_calc_t, C_DDSM_calc_test, C_DDSM_mass_t_formated, C_DDSM_mass_test_formated])

Toda la información de la base de datos de CBIS-DDSM se tiene en una tabla, independientemente del tipo de anormalidad.

# Homogenizar los términos médicos

Antes de hacer combinar las columnas de cada base de datos es importante agregar una columna con la información de las diferentes bases de datos, es decir, el nombre de la base de datos, por lo que la siguiente tarea es agregar a cada base de datos una columna que se llame `DBName`.

In [87]:
# Para la base de CBIS_DDSM
CBIS_DDSM['DBName']='CBIS-DDSM'

In [107]:
# Para la base de Abdulaziz
abdulaziz['DBName']='Abdulaziz'

In [103]:
# Para la base de INbreast
inbreast['DBName']='INbreast'

In [105]:
# Base de datos MIAS
mias['DBName']='MIAS'

## Condiciones de combinación de tablas

Vamos a homogenizar los términos médicos para poder hacer la unión de las bases de datos, primero, vamos a verificar qué columnas almacenan la misma información, entre los términos médicos que deben de homogenizarse son:

* patient ID: Todas las bases de datos deben de contener el paciente ID sin modificarlas para conservar la información asociada a las mamografías originales, la columna debe de llamarse `patient_id`
* Breast Laterality: esta columna representa el lado de la mama que representa la mamografía la columna debe de llamarse `breast_laterality`
* View: representa las proyecciones, debe de llamarse `image_view`
* Assessment: representa la clasificación en BIRADS, debe de llamarse `assessment`
* pathology: representa si la anormalidad es benigna o maligna, debe de llamarse `pathology`

Dadas estas condiciones debe de cambiarse los nombres de las columnas para que exista una buena relación entre las tablas.

Antes de realizar el cambio de nombre notemos que existen tablas que no estan completamente atomizados, es decir, que contienen más de un datos dentro de las celdas lo que puede causar confución o ambigüedad por parete de los usuarios, para nuestro caso, la tabla que no cumple con una estructura del todo correcta es la `Abdulaziz data set` por lo que se cambiará para este caso es la información que se acumula en `right mammogram` y `left mammogram`

### Cambiar la estructura de la base de datos de abdulaziz

# Análisis de los datos