# Corrección de los índices de riesgo de malignidad

Autor: [Pedro Andrés Hernández Amador](https://www.linkedin.com/in/pedro-hdez/)

En esta libreta se corrigen los índices de riesgo de malignidad contenidos en el conjunto de datos `IndicesMalignidad.csv` de acuerdo a los criterios establecidos en el artículo [Comparison of four malignancy risk indices in the
detection of malignant ovarian masses (2011)](https://www.ejgo.org/Synapse/Data/PDFData/1114JGO/jgo-22-177.pdf).

## Fórmulas de los IRM

![](imgs/5.png)

## Variables de los ultrasonidos

![](imgs/a2.png)

## Lectura de los datos

In [1]:
# Librería para el manejo de los datos
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Se lee el conjunto de datos
df = pd.read_csv('data/IndicesMalignidad.csv')

# Se muestran las variables de los ultrasonidos de las primeras 5 observaciones
print('Variables de los ultrasonidos:')
print(df.iloc[:5, 7:12])

# Se muestra que las variables son booleanas
print('\nValores únicos para cada variable de los ultrasonidos:')
for c in df.columns[7:12]:
    print(c)
    print(df[c].unique())

Variables de los ultrasonidos:
   multilocularidad  bilateralidad  cmp_sol  ascitis  metastasis
0                 0              0        1        0           0
1                 1              0        1        0           0
2                 1              0        0        0           0
3                 0              0        0        0           0
4                 1              0        1        0           0

Valores únicos para cada variable de los ultrasonidos:
multilocularidad
[0 1]
bilateralidad
[0 1]
cmp_sol
[1 0]
ascitis
[0 1]
metastasis
[0 1]


## Funciones para calcular los IRM

In [2]:
def calcularIRM1(row):
    '''
        Esta función calcula el índice de riesgo de malignidad de Jacobs (1990)
        
        Argumentos
        ----------
        - row <pandas.core.series.Series>: Objeto que representa un renglón del
          conjunto de datos "IndicesMalignidad.csv" con columnas: ['id', 'edad', 
          'f_recoleccion', 'menopausica', 'paridad', 'ant_fam','grado', 
          'multilocularidad', 'bilateralidad', 'cmp_sol', 'ascitis',
          'metastasis', 'vascularidad', 'diam_lesion', 'ca125', 'cirugia', 'f_cirugia', 
          'resultado', 'IRM2', 'IRM1', 'IRM3', 'IRM4']
          
        Regresa
        -------
        - <int>: El valor del IRM
    '''
    # Se calcula el número de hallazgos en las variables de los ultrasonidos
    h = row.iloc[7:12].sum()
    # Se asigna un valor a M:
    if h == 0:
        U = 0
    if h == 1:
        U = 1
    if h >= 2:
        U = 3
    # En este caso, M se obtiene directamente
    M = row.menopausica
    # Se obtiene el índice:
    return U * M * row.ca125

def calcularIRM2(row):
    '''
        Esta función calcula el índice de riesgo de malignidad de Tingustald (1996)
        
        Argumentos
        ----------
        - row <pandas.core.series.Series>: Objeto que representa un renglón del
          conjunto de datos "IndicesMalignidad.csv" con columnas: ['id', 'edad', 
          'f_recoleccion', 'menopausica', 'paridad', 'ant_fam','grado', 
          'multilocularidad', 'bilateralidad', 'cmp_sol', 'ascitis',
          'metastasis', 'vascularidad', 'diam_lesion', 'ca125', 'cirugia', 'f_cirugia', 
          'resultado', 'IRM2', 'IRM1', 'IRM3', 'IRM4']
          
        Regresa
        -------
        - <int>: El valor del IRM
    '''
    # Se calcula el número de hallazgos en las variables de los ultrasonidos
    h = row.iloc[7:12].sum()
    # Se asigna un valor a M:
    U = 1 if h <= 1 else 4
    # Se obtiene el valor de M
    M = 1 if row.menopausica == 1 else 4
    # Se obtiene el índice:
    return U * M * row.ca125

def calcularIRM3(row):
    '''
        Esta función calcula el índice de riesgo de malignidad de Tingustald (1999)
        
        Argumentos
        ----------
        - row <pandas.core.series.Series>: Objeto que representa un renglón del
          conjunto de datos "IndicesMalignidad.csv" con columnas: ['id', 'edad', 
          'f_recoleccion', 'menopausica', 'paridad', 'ant_fam','grado', 
          'multilocularidad', 'bilateralidad', 'cmp_sol', 'ascitis',
          'metastasis', 'vascularidad', 'diam_lesion', 'ca125', 'cirugia', 'f_cirugia', 
          'resultado', 'IRM2', 'IRM1', 'IRM3', 'IRM4']
          
        Regresa
        -------
        - <int>: El valor del IRM
    '''
    # Se calcula el número de hallazgos en las variables de los ultrasonidos
    h = row.iloc[7:12].sum()
    # Se asigna un valor a M:
    U = 1 if h <= 1 else 3
    # Se obtiene el valor de M directamente
    M = row.menopausica
    # Se obtiene el índice:
    return U * M * row.ca125

def calcularIRM4(row):
    '''
        Esta función calcula el índice de riesgo de malignidad de Yamamoto (2009)
        
        Argumentos
        ----------
        - row <pandas.core.series.Series>: Objeto que representa un renglón del
          conjunto de datos "IndicesMalignidad.csv" con columnas: ['id', 'edad', 
          'f_recoleccion', 'menopausica', 'paridad', 'ant_fam','grado', 
          'multilocularidad', 'bilateralidad', 'cmp_sol', 'ascitis',
          'metastasis', 'vascularidad', 'diam_lesion', 'ca125', 'cirugia', 'f_cirugia', 
          'resultado', 'IRM2', 'IRM1', 'IRM3', 'IRM4']
          
        Regresa
        -------
        - <int>: El valor del IRM
    '''

    # Se calcula el número de hallazgos en las variables de los ultrasonidos
    h = row.iloc[7:12].sum()
    # Se asigna un valor a M:
    U = 1 if h <= 1 else 4
    # Se obtiene el valor de M
    M = 1 if row.menopausica == 1 else 4
    # Se obtiene eeeeel valor de S
    S = 1 if row.diam_lesion < 7 else 2
    # Se obtiene el índice:
    return U * M * row.ca125 * S

## Corrección de los índices

In [3]:
# Se crea un diccionario para almacenar e iterar cada función responsable
# del cálculo de un índice diferente
indices = {
    'IRM1_':calcularIRM1, 
    'IRM2_':calcularIRM2, 
    'IRM3_':calcularIRM3, 
    'IRM4_':calcularIRM4
}
# Se calcula cada índice
for i in indices.keys():
    df[i] = df.apply(indices[i], axis=1)
    
# Se ordenan las columnas
cols = [
    'id', 'edad', 'f_recoleccion', 'menopausica', 'paridad', 'ant_fam',
    'grado', 'multilocularidad', 'bilateralidad', 'cmp_sol', 'ascitis',
    'metastasis', 'vascularidad', 'diam_lesion', 'ca125', 'cirugia', 
    'f_cirugia', 'resultado', 'IRM1', 'IRM1_', 'IRM2', 'IRM2_', 'IRM3',
    'IRM3_', 'IRM4', 'IRM4_'
]

df = df[cols]
df.head()

Unnamed: 0,id,edad,f_recoleccion,menopausica,paridad,ant_fam,grado,multilocularidad,bilateralidad,cmp_sol,ascitis,metastasis,vascularidad,diam_lesion,ca125,cirugia,f_cirugia,resultado,IRM1,IRM1_,IRM2,IRM2_,IRM3,IRM3_,IRM4,IRM4_
0,1,46,19/02/18,1,0,0,0,0,0,1,0,0,0,21.0,53,laparotomia,13/10/11,benigno,53,53,53,53,53,53,1113.0,106
1,2,19,19/02/18,1,0,0,0,1,0,1,0,0,0,2.0,46,laparotomia,10/11/11,benigno,138,138,184,184,138,138,368.0,184
2,3,27,19/02/18,1,0,0,0,1,0,0,0,0,0,6.0,54,laparotomia,18/11/11,benigno,54,54,54,54,54,54,324.0,54
3,4,34,19/02/18,1,1,0,0,0,0,0,0,0,0,2.5,7,laparotomia,18/11/11,benigno,0,0,7,7,7,7,17.5,7
4,5,71,19/02/18,3,1,0,0,1,0,1,0,0,0,9.0,209,laparotomia,21/10/11,maligno,1881,1881,3344,3344,1254,1881,30096.0,6688


## Diferencias IRM1

In [4]:
df[df.IRM1 != df.IRM1_]

Unnamed: 0,id,edad,f_recoleccion,menopausica,paridad,ant_fam,grado,multilocularidad,bilateralidad,cmp_sol,ascitis,metastasis,vascularidad,diam_lesion,ca125,cirugia,f_cirugia,resultado,IRM1,IRM1_,IRM2,IRM2_,IRM3,IRM3_,IRM4,IRM4_


## Diferencias IRM2

In [5]:
df[df.IRM2 != df.IRM2_]

Unnamed: 0,id,edad,f_recoleccion,menopausica,paridad,ant_fam,grado,multilocularidad,bilateralidad,cmp_sol,ascitis,metastasis,vascularidad,diam_lesion,ca125,cirugia,f_cirugia,resultado,IRM1,IRM1_,IRM2,IRM2_,IRM3,IRM3_,IRM4,IRM4_


## Diferencias IRM3

In [6]:
df[df.IRM3 != df.IRM3_]

Unnamed: 0,id,edad,f_recoleccion,menopausica,paridad,ant_fam,grado,multilocularidad,bilateralidad,cmp_sol,ascitis,metastasis,vascularidad,diam_lesion,ca125,cirugia,f_cirugia,resultado,IRM1,IRM1_,IRM2,IRM2_,IRM3,IRM3_,IRM4,IRM4_
4,5,71,19/02/18,3,1,0,0,1,0,1,0,0,0,9.0,209,laparotomia,21/10/11,maligno,1881,1881,3344,3344,1254,1881,30096.0,6688
5,6,51,19/02/18,3,1,0,0,1,0,1,0,0,0,23.0,5,laparotomia,09/12/11,benigno,45,45,80,80,30,45,1840.0,160
14,15,57,22/02/18,3,1,0,0,0,0,1,1,0,0,7.0,1240,laparotomia,18/03/12,maligno,11160,11160,19840,19840,7440,11160,138880.0,39680
17,18,63,22/02/18,3,1,0,0,0,0,1,1,0,0,2.5,3592,laparotomia,07/03/12,maligno,32328,32328,57472,57472,21552,32328,143680.0,57472
18,19,61,22/02/18,3,1,0,0,0,0,1,0,0,0,14.0,10,laparotomia,19/04/12,benigno,30,30,40,40,20,30,560.0,80
20,21,55,22/02/18,3,1,0,0,1,0,1,0,0,0,35.0,24,laparotomia,08/05/12,benigno,216,216,384,384,144,216,13440.0,768
22,23,54,22/02/18,3,0,0,0,1,0,0,0,0,0,19.0,2630,laparotomia,26/09/12,maligno,7890,7890,10520,10520,5260,7890,199880.0,21040
24,25,74,22/02/18,3,0,0,0,1,0,0,0,0,1,21.0,133,laparotomia,25/07/12,benigno,399,399,532,532,266,399,11172.0,1064
25,26,57,13/11/17,3,1,0,0,1,0,0,0,0,0,8.0,8,laparotomia,17/08/11,benigno,24,24,32,32,16,24,256.0,64
31,32,55,13/11/17,3,1,0,0,0,0,1,0,0,0,7.0,24,laparotomia,09/02/11,maligno,72,72,96,96,48,72,672.0,192


## Diferencias IRM4

In [7]:
df[df.IRM4 != df.IRM4_]

Unnamed: 0,id,edad,f_recoleccion,menopausica,paridad,ant_fam,grado,multilocularidad,bilateralidad,cmp_sol,ascitis,metastasis,vascularidad,diam_lesion,ca125,cirugia,f_cirugia,resultado,IRM1,IRM1_,IRM2,IRM2_,IRM3,IRM3_,IRM4,IRM4_
0,1,46,19/02/18,1,0,0,0,0,0,1,0,0,0,21.0,53,laparotomia,13/10/11,benigno,53,53,53,53,53,53,1113.0,106
1,2,19,19/02/18,1,0,0,0,1,0,1,0,0,0,2.0,46,laparotomia,10/11/11,benigno,138,138,184,184,138,138,368.0,184
2,3,27,19/02/18,1,0,0,0,1,0,0,0,0,0,6.0,54,laparotomia,18/11/11,benigno,54,54,54,54,54,54,324.0,54
3,4,34,19/02/18,1,1,0,0,0,0,0,0,0,0,2.5,7,laparotomia,18/11/11,benigno,0,0,7,7,7,7,17.5,7
4,5,71,19/02/18,3,1,0,0,1,0,1,0,0,0,9.0,209,laparotomia,21/10/11,maligno,1881,1881,3344,3344,1254,1881,30096.0,6688
5,6,51,19/02/18,3,1,0,0,1,0,1,0,0,0,23.0,5,laparotomia,09/12/11,benigno,45,45,80,80,30,45,1840.0,160
6,7,21,19/02/18,1,0,0,0,0,0,0,0,0,0,15.0,10,laparotomia,20/12/11,benigno,0,0,10,10,10,10,150.0,20
7,8,42,28/02/18,1,1,0,0,0,0,1,0,0,0,6.0,20,laparotomia,18/05/12,benigno,20,20,20,20,20,20,120.0,20
8,9,27,22/02/18,1,1,0,0,1,0,1,0,0,0,30.0,24,laparotomia,28/09/12,benigno,72,72,96,96,72,72,2880.0,192
9,10,29,22/02/18,1,0,0,0,1,0,0,0,0,0,14.0,21,laparotomia,26/03/12,benigno,21,21,21,21,21,21,294.0,42


Finalmente, se eliminan los índices originales, se reemplazan por los que se acaban de calcular y se almacenan los nuevos resultados en el archivo `IndicesMalignidadV2.csv`

In [8]:
# Se eliminan los índices originales
df = df.drop(columns=['IRM1','IRM2','IRM3','IRM4'])

# Se reemplaza el nombre de las columnas
df = df.rename(columns={'IRM1_':'IRM1', 'IRM2_':'IRM2', 'IRM3_':'IRM3', 'IRM4_':'IRM4'})

# Se almacenan los datos actualizados
df.to_csv('data/IndicesMalignidadV2.csv', index=False)