### Protocolos Clínicos de ARIA
# Procesamiento de prescripciones
------
**Objeto**: Extraer los datos de las prescripciones de pacientes para generar protocolos clínicos

Importación de módulos

In [1]:
import pandas as pd
import io
import re

Cambiar el directorio de trabajo, asumimos que el cuaderno está en el directorio `tools` dentro de la carpeta del proyecto

In [2]:
%cd ..

/Users/cesar/Documents/Development/rtpros


Leer los datos de una prescripción exportada de ARIA en un DataFrame de Pandas

In [38]:
prdf = pd.read_csv('prescripciones/MamaDIBH.csv')

## Órganos de riesgo
Los campos relativos a los órganos de riesgo están contenidos en el campo `OrganAtRisk`

Los separamos por líneas. La información contenida en cada línea no sigue un patrón regular

In [4]:
oar_lines = prdf.OrgansAtRisk.values[0].split('\n')

Definir un diccionario de expresión regulares para identificar la línea que encabeza la información de un órgano concreto y filtrar el nombre del órgano, la dosis media y la dosis máxima

In [5]:
rx_dict = {
    'Organ': re.compile(r'Organ :(?P<Organ>.*) Mean'),
    'Dmean': re.compile(r'Mean :(?P<Dmean>.*) Max Dose'),
    'Dmax' : re.compile(r'Max Dose :(?P<Dmax>.*)$'),
}

Definir una función que identifica el encabezado de cada órgano

In [6]:
def _parse_line(line):
    """
    Do a regex search against all defined regexes and
    return the key and match result of the first matching regex

    """

    for key, rx in rx_dict.items():
        match = rx.search(line)
        if match:
            return key, match
    # if there are no matches
    return None, None

Definir una función que procesando la línea de encabezado de un órgano genera un diccionario con el nombre del órgano, y los objetivos de dosis media y dosis máxima

In [7]:
def _parse_organ(line):
    """
    Do a regex search against all defined regexes and
    return a dictionary the key and match result

    """

    matches = {}
    for key, rx in rx_dict.items():
        match = rx.search(line)
        if match:
            matches[key] = match.group(key)
        
    return matches

Procesar los órganos de riesgo generando una lista de sublistas.

Cada sublista commienza con la línea de encabezado de cada órgano. A continuación contiene una línea irrelevante con la indicación 'Constrains:' y depués una línea con cada restricción dosimétrica

In [16]:
_parse_line(oar_lines[-3:-2][0])

('Organ', <re.Match object; span=(0, 18), match='Organ :medula Mean'>)

In [37]:
oars, oar = [], None
for oar_line in oar_lines:
    oar_key, oar_name = _parse_line(oar_line)
    if oar_key:
        oars.append(oar)
        oar = [oar_line]
    else:
        oar.append(oar_line)
oars.append(oar)
oars.pop(0)
oars

[['Organ :mama derecha Mean :  Max Dose : 3.8 Gy',
  'Constraints : ',
  'V 2.4$5%'],
 ['Organ :PULMON IZDO Mean :  Max Dose : ',
  'Constraints : ',
  'V18$15%-20%',
  'V8$35-40%',
  'V4$50-55%'],
 ['Organ :PULMON DCHO Mean :  Max Dose : ', 'Constraints : ', 'V4$10-15%'],
 ['Organ :CORAZON Mean : 3.2 Gy Max Dose : ',
  'Constraints : ',
  'V8$30-35%',
  'V20$5%'],
 ['Organ :tiroides Mean : 0.96 Gy Max Dose : ', 'Constraints : ', ''],
 ['Organ :medula Mean :  Max Dose : 40 Gy', 'Constraints : ', 'V20$0.1%']]

In [19]:
oars_list = []
for oar in oars:
    oar_dict = _parse_organ(oar[0])
    oar_dict['DosimPars'] = oar[2:]
    oars_list.append(oar_dict)
oardf = pd.DataFrame(oars_list)
oardf

Unnamed: 0,Organ,Dmean,Dmax,DosimPars
0,mama derecha,,3.8 Gy,[V 2.4$5%]
1,PULMON IZDO,,,"[V18$15%-20%, V8$35-40%, V4$50-55%]"
2,PULMON DCHO,,,[V4$10-15%]
3,CORAZON,3.2 Gy,,"[V8$30-35%, V20$5%]"
4,tiroides,0.96 Gy,,[]


In [11]:
for dpar in oardf[oardf.Organ == 'tronco cerebral'].DosimPars.values[0]:
    print(dpar)

D53$100%
V60$30%


## Especificaciones de cobertura
Los campos relativos a las especificaciens de cobertura están contenidos en el campo `CoverageConstriants`

Toda la información se guarda en una única cadena. Cada campo está separado por '|'.

Separamos los campos por líneas. La información contenida en cada línea sigue un patrón regular:
* Nombre del volumen tras el texto *Volume / Structure :*
* Valor de la dosis mínima en Gy tras el texto *Min Dose:*
* Valor de la dosis máxima en Gy tras el texto *Max Dose:*
* Restricción de cobertura mínima tras el texto *At Least* en porcentaje de volumen para un porcentaje de dosis y una dosis absoluta
* Restricción sobre los máximos de dosis tras el texto *NoMore* en porcentaje de volumen para un porcentaje de dosis y una dosis absoluta

In [20]:
cc_lines = prdf.CoverageConstraints.values[0].split('|')

In [21]:
for cc_line in cc_lines:
    print(cc_line)

 Volume / Structure :PTV70 Min Dose:   Gy Max Dose:   Gy At Least 95 % of PTV70 at 95 % 55.195 Gy No More Than 5 % of PTV70 at 107 % 62.167 Gy
 Volume / Structure :PTV58.1 Min Dose:   Gy Max Dose:   Gy At Least 95 % of PTV58.1 at 95 % 66.5 Gy No More Than 5 % of PTV58.1 at 107 % 74.9 Gy


Definir un diccionario de expresiones regulares para analizar cada línea de especificación de restricciones y filtrar el nombre del volumen, la dosis mínima , la dosis máxima, la cobertura mínima y la restricción sobre el máximo volumen permitido con una dosis dada.

In [41]:
cc_rx_dict = {
    'Volume': re.compile(r'Volume / Structure :(?P<Volume>.*) Min Dose'),
    'Min': re.compile(r'Min Dose:(?P<Min>.*) Gy Max'),
    'Max': re.compile(r'Max Dose:(?P<Max>.*) Gy At'),
    'AtLeast': re.compile(r'At Least (?P<AtLeast>.*) % of (?P<Volume>.*) at (?P<Percentage>.*) % (?P<Dose>.*) Gy No More Than'),
    'NoMore': re.compile(r'No More Than (?P<NoMore>.*) % of (?P<Volume>.*) at (?P<Percentage>.*) % (?P<Dose>.*) Gy'),
}

Definir una función para procesar las líneas de especificaciones de restricciones

In [45]:
def _parse_volume(line):
    """
    Do a regex search against all defined regexes and
    return a dictionary the key and match result

    """

    matches = {}
    for key, rx in cc_rx_dict.items():
        match = rx.search(line)
        if match:
            if key == 'Volume':
                volume = match.group(key)
                matches[key] = match.group(key)
            elif key == 'AtLeast' and match.group('Volume') == volume:
                constraint = [match.group('AtLeast'), match.group('Percentage'), match.group('Dose')]
                matches[key] = constraint
            elif key == 'NoMore' and match.group('Volume') == volume:
                constraint = [match.group('NoMore'), match.group('Percentage'), match.group('Dose')]
                matches[key] = constraint
            else:
                matches[key] = match.group(key)
        
    return matches

In [49]:
pd.DataFrame([_parse_volume(cc_line) for cc_line in cc_lines])

Unnamed: 0,Volume,Min,Max,AtLeast,NoMore
0,PTV70,,,"[95, 95, 55.195]","[5, 107, 62.167]"
1,PTV58.1,,,"[95, 95, 66.5]","[5, 107, 74.9]"


## Volúmenes de prescripción
Los volúmenes de prescripción se registran en el campo `PrescribedTo`

Cada línea es una cadena con la misma estructura.

La información almacenada es: el nombre del volumen, la dosis total, y la dosis por sesión.

In [44]:
pv_lines = prdf.PrescribedTo.values[0].split('|')
pv_lines

['Volume PTV mama izqda  40.050 Gy  2.670 Gy/Frac',
 'Volume PTV boost izqdo  48.000 Gy  3.200 Gy/Frac']

Definir un diccionario de expresión regulares para identificar en cada de la línea de volúmenes de prescripción el nombre del volumen, la dosis total y la dosis por sesión.

In [46]:
pv_rx_dict = {
    'Volume': re.compile(r'Volume (?P<Volume>.*)  \d+'),
    'Dose': re.compile(r'  (?P<Dose>\d+\.\d+) Gy'),
    'FxDose' : re.compile(r'  (?P<FxDose>\d+\.\d+) Gy/Frac'),
}

Definir una función para procesar las líneas de los volúmenes de prescripción

In [43]:
def _parse_prescription_volume(line):
    """
    Do a regex search against all defined regexes and
    return a dictionary the key and match result

    """

    matches = {}
    for key, rx in pv_rx_dict.items():
        match = rx.search(line)
        if match:
            matches[key] = match.group(key)
        
    return matches

Generar un DataFrame con los volúmnes de prescripción, la dosis total y la dosis por sesion

In [49]:
pvdf = pd.DataFrame([_parse_prescription_volume(pv_line) for pv_line in pv_lines])
pvdf

Unnamed: 0,Volume,Dose,FxDose
0,PTV mama izqda 40.050 Gy,40.05,2.67
1,PTV boost izqdo 48.000 Gy,48.0,3.2
