# Proyecto de curso: Transcripciones medicas
Santiago Florian Bustamante - *santiflo17@gmail.com* - Universidad Nacional de Colombia

## 1. Definición de la propuesta.


### Planteamiento del problema
El siguiente proyecto de curso tiene como propósito aplicar los temas aprendidos durante el curso de **Big Data**. Para este propósito se desea almacenar una enorme base de datos de transcripciones médicas la cual contiene transcripciones de múltiples especialidades


### Definición del diseño
Con el fin de optimizar los tiempos de consulta de la base de datos se desea almacenar la información en MongoDB, ya que es una base de datos no relacional enfocada a documentos.


 

## 2. Declaracion del conjunto de datos

### Definicion de la fuente del conjunto de datos.
Estos datos fueron extraídos de **https://mtsamples.com/index.asp**

### Mecanismos de obtención de los datos
Los datos fueron obtenidos por la plataforma de kaggle los cuales se encontraban almacenados en formato CSV. Los datos médicos no cuentan con información sensible y son extremadamente difíciles de encontrar debido a las normas de privacidad de HIPAA. Este conjunto de datos ofrece una solución al proporcionar muestras de transcripciones médicas


### Descripción del conjunto de datos
Los campos con los que va a contar la tabla de historiales médicos van a ser los siguientes:
 - description (STR): Breve descripción de la transcripción.
 - medical_specialty (STR): Clasificación de especialidad médica de la transcripción.
 - sample_name (STR): Título de la transcripción
 - transcription (STR): Ejemplos de transcripciones médicas
 - keywords (STR): Palabras clave relevantes de la transcrpción


## 3. Defición de las tecnologias a implementar

### Justificación del uso de la tecnología
Se opta usar MongoDB ya que es una base de datos orientada a documento y al ser esta una base de datos con gran cantidad de texto y a su vez con datos faltantes en algunos campos se adapta bastante bien a esta tecnología.


### Descripción de las tecnologías a implementar
MongoDB está diseñado en torno a un modelo de datos orientada a documentos, lo que significa que almacena los datos en colecciones de documentos en lugar de tablas y filas. Cada documento puede contener cualquier número de campos.

La arquitectura de MongoDB incluye una interfaz de aplicación-cliente y un sistema de archivos que permiten a los usuarios interactuar con la base de datos utilizando lenguajes de programación compatibles como los son Java, JavaScript y Python. MongoDB también posee un lenguaje de consulta del lado del servidor, conocido como MongoDB Query Lenguaje (MQL).

Por último, MongoDB cuenta con varias funciones integradas para gestionar la replicación y fragmentación, que permite distribuir datos entre varios servidores para mayor escalabilidad y disponibildad.


## 4. Descripción de la implementación realizada

### Instalación de las herramientas
Para el desarrollo del proyecto, fue necesario realizar la instalación de las librerias siguientes librerias:
 - Pymongo: haciendo uso del comando: *pip install pymongo*
 - Pandas: haciendo uso del comando:  *pip install pandas*

### Lista de componentes, scripts o comandos empleados

In [17]:
# Imports
import pandas as pd
from pymongo import MongoClient
from json import loads, dumps
import timeit

In [24]:
# Lectura del conjunto de datos en formato CSV
df_medical = pd.read_csv('mtsamples.csv')

In [21]:
# Muestra de los primeros 10 registros leidos del conjunto de datos
df_medical.head(10)

Unnamed: 0,id,description,medical_specialty,sample_name,transcription,keywords
0,0,A 23-year-old white female presents with comp...,Allergy / Immunology,Allergic Rhinitis,"SUBJECTIVE:, This 23-year-old white female pr...","allergy / immunology, allergic rhinitis, aller..."
1,1,Consult for laparoscopic gastric bypass.,Bariatrics,Laparoscopic Gastric Bypass Consult - 2,"PAST MEDICAL HISTORY:, He has difficulty climb...","bariatrics, laparoscopic gastric bypass, weigh..."
2,2,Consult for laparoscopic gastric bypass.,Bariatrics,Laparoscopic Gastric Bypass Consult - 1,"HISTORY OF PRESENT ILLNESS: , I have seen ABC ...","bariatrics, laparoscopic gastric bypass, heart..."
3,3,2-D M-Mode. Doppler.,Cardiovascular / Pulmonary,2-D Echocardiogram - 1,"2-D M-MODE: , ,1. Left atrial enlargement wit...","cardiovascular / pulmonary, 2-d m-mode, dopple..."
4,4,2-D Echocardiogram,Cardiovascular / Pulmonary,2-D Echocardiogram - 2,1. The left ventricular cavity size and wall ...,"cardiovascular / pulmonary, 2-d, doppler, echo..."
5,5,Morbid obesity. Laparoscopic antecolic anteg...,Bariatrics,Laparoscopic Gastric Bypass,"PREOPERATIVE DIAGNOSIS: , Morbid obesity.,POST...","bariatrics, gastric bypass, eea anastomosis, r..."
6,6,"Liposuction of the supraumbilical abdomen, re...",Bariatrics,Liposuction,"PREOPERATIVE DIAGNOSES:,1. Deformity, right b...","bariatrics, breast reconstruction, excess, lma..."
7,7,2-D Echocardiogram,Cardiovascular / Pulmonary,2-D Echocardiogram - 3,"2-D ECHOCARDIOGRAM,Multiple views of the heart...","cardiovascular / pulmonary, 2-d echocardiogram..."
8,8,Suction-assisted lipectomy - lipodystrophy of...,Bariatrics,Lipectomy - Abdomen/Thighs,"PREOPERATIVE DIAGNOSIS: , Lipodystrophy of the...","bariatrics, lipodystrophy, abd pads, suction-a..."
9,9,Echocardiogram and Doppler,Cardiovascular / Pulmonary,2-D Echocardiogram - 4,"DESCRIPTION:,1. Normal cardiac chambers size....","cardiovascular / pulmonary, ejection fraction,..."


In [22]:
# Cantidad dimension del conjunto de datos
df_medical.shape

(4999, 6)

In [23]:
# Cantidad de datos faltantes para cada atributo
df_medical.isnull().sum()

id                      0
description             0
medical_specialty       0
sample_name             0
transcription          33
keywords             1068
dtype: int64

In [24]:
# Obtiene los indices de los registros que presentan datos falantes
nulos = df_medical[df_medical.isnull().any(axis=1)].index

In [25]:
# Muestra los registros con daltos faltantes
df_medical.loc[nulos]

Unnamed: 0,id,description,medical_specialty,sample_name,transcription,keywords
12,12,Cerebral Angiogram - moyamoya disease.,Neurology,Moyamoya Disease,"CC:, Confusion and slurred speech.,HX , (prima...",
24,24,Blood in urine - Transitional cell cancer of ...,Urology,Urology Consut - 1,"CHIEF COMPLAINT:,",
31,31,This is a 66-year-old male with signs and sym...,Urology,Urinary Retention,"CHIEF COMPLAINT:, Urinary retention.,HISTORY ...",
32,32,Right distal ureteral calculus. The patient ...,Urology,Ureteral Calculus - Consult,"CHIEF COMPLAINT: , Right distal ureteral calcu...",
39,39,The patient has a possibly torsion detorsion ...,Urology,Testicular Pain,"CHIEF COMPLAINT: , Testicular pain.,HISTORY OF...",
...,...,...,...,...,...,...
4992,4992,Autopsy - Ligature strangulation and cranioce...,Autopsy,Autopsy - 4,"FINAL DIAGNOSIS: ,I. Ligature strangulation.,A...",
4994,4994,Patient having severe sinusitis about two to ...,Allergy / Immunology,Chronic Sinusitis,"HISTORY:, I had the pleasure of meeting and e...",
4996,4996,A female for a complete physical and follow u...,Allergy / Immunology,Followup on Asthma,"SUBJECTIVE: , This is a 42-year-old white fema...",
4997,4997,Mother states he has been wheezing and coughing.,Allergy / Immunology,Asthma in a 5-year-old,"CHIEF COMPLAINT: , This 5-year-old male presen...",


In [33]:
# Transformacion del conjunto de datos de formato DataFrame a JSON
JSON_medical = df_medical.to_json(orient='records')

In [48]:
# Transforma los datos a una lista de objetos tipo JSON 
parsed = loads(JSON_medical)
j = 0
# Muestra los primero 5 registros en formato JSON
for i in parsed:
    if j==5:
        break
    print(dumps(i, indent=4))
    j+=1

{
    "id": 0,
    "description": " A 23-year-old white female presents with complaint of allergies.",
    "medical_specialty": " Allergy / Immunology",
    "sample_name": " Allergic Rhinitis ",
    "transcription": "SUBJECTIVE:,  This 23-year-old white female presents with complaint of allergies.  She used to have allergies when she lived in Seattle but she thinks they are worse here.  In the past, she has tried Claritin, and Zyrtec.  Both worked for short time but then seemed to lose effectiveness.  She has used Allegra also.  She used that last summer and she began using it again two weeks ago.  It does not appear to be working very well.  She has used over-the-counter sprays but no prescription nasal sprays.  She does have asthma but doest not require daily medication for this and does not think it is flaring up.,MEDICATIONS: , Her only medication currently is Ortho Tri-Cyclen and the Allegra.,ALLERGIES: , She has no known medicine allergies.,OBJECTIVE:,Vitals:  Weight was 130 poun

### Carga de datos

In [2]:
# Conexion con el servidor de MongoDB
connection_str = "mongodb+srv://santiflo:ClaveSecreta@mlds3.eldhfxk.mongodb.net/?retryWrites=true&w=majority"

In [3]:
# Crea el objeto cliente que contiene la conexion al servidor de MongoDB
client = MongoClient(connection_str)

In [4]:
# Crea el objeto de la base de datos a conectar
db = client["mlds3"]

In [44]:
# Verifica si la coleccion 'medical' se encuentra creada
if "medical" in db.list_collection_names():
    # Elimina la coleccion dado caso se encuentre creada
    db.drop_collection("medical")

In [5]:
# Define la coleccion donde se va a almacenar los datos
collection = db["medical"]

In [50]:
# Carga la lista JSON a la coleccion 'medical'
collection.insert_many(parsed)

InsertManyResult([ObjectId('657e7553a91c9bbd85f6070b'), ObjectId('657e7553a91c9bbd85f6070c'), ObjectId('657e7553a91c9bbd85f6070d'), ObjectId('657e7553a91c9bbd85f6070e'), ObjectId('657e7553a91c9bbd85f6070f'), ObjectId('657e7553a91c9bbd85f60710'), ObjectId('657e7553a91c9bbd85f60711'), ObjectId('657e7553a91c9bbd85f60712'), ObjectId('657e7553a91c9bbd85f60713'), ObjectId('657e7553a91c9bbd85f60714'), ObjectId('657e7553a91c9bbd85f60715'), ObjectId('657e7553a91c9bbd85f60716'), ObjectId('657e7553a91c9bbd85f60717'), ObjectId('657e7553a91c9bbd85f60718'), ObjectId('657e7553a91c9bbd85f60719'), ObjectId('657e7553a91c9bbd85f6071a'), ObjectId('657e7553a91c9bbd85f6071b'), ObjectId('657e7553a91c9bbd85f6071c'), ObjectId('657e7553a91c9bbd85f6071d'), ObjectId('657e7553a91c9bbd85f6071e'), ObjectId('657e7553a91c9bbd85f6071f'), ObjectId('657e7553a91c9bbd85f60720'), ObjectId('657e7553a91c9bbd85f60721'), ObjectId('657e7553a91c9bbd85f60722'), ObjectId('657e7553a91c9bbd85f60723'), ObjectId('657e7553a91c9bbd85f607

In [22]:
''' Agrupa las transcripciones medicas por el campo medical_specialty y cuenta la cantidad de registros 
    consultando la base de datos de MongoDB'''
def consulta_MongoDB():
    pipeline = [{'$group':{
                 '_id': '$medical_specialty',
                 'count': {'$sum':1}
             }
            }]
    projection = {'_id':0, 'medical_specialty':1}
    return list(collection.aggregate(pipeline))

In [31]:
consulta_MongoDB()

[{'_id': ' IME-QME-Work Comp etc.', 'count': 16},
 {'_id': ' Gastroenterology', 'count': 230},
 {'_id': ' Letters', 'count': 23},
 {'_id': ' Endocrinology', 'count': 19},
 {'_id': ' Speech - Language', 'count': 9},
 {'_id': ' ENT - Otolaryngology', 'count': 98},
 {'_id': ' Obstetrics / Gynecology', 'count': 160},
 {'_id': ' Hospice - Palliative Care', 'count': 6},
 {'_id': ' Podiatry', 'count': 47},
 {'_id': ' Sleep Medicine', 'count': 20},
 {'_id': ' SOAP / Chart / Progress Notes', 'count': 166},
 {'_id': ' Cardiovascular / Pulmonary', 'count': 372},
 {'_id': ' Rheumatology', 'count': 10},
 {'_id': ' Surgery', 'count': 1103},
 {'_id': ' Consult - History and Phy.', 'count': 516},
 {'_id': ' Bariatrics', 'count': 18},
 {'_id': ' Pain Management', 'count': 62},
 {'_id': ' Orthopedic', 'count': 355},
 {'_id': ' Office Notes', 'count': 51},
 {'_id': ' Neurology', 'count': 223},
 {'_id': ' Pediatrics - Neonatal', 'count': 70},
 {'_id': ' Emergency Room Reports', 'count': 75},
 {'_id': ' Di

In [29]:
''' Agrupa las transcripciones medicas por el campo medical_specialty y cuenta la cantidad de registros 
    consultando el dataframe'''
def consulta_pandas():
    return df_medical.groupby('medical_specialty')['medical_specialty'].count()

In [32]:
consulta_pandas()

medical_specialty
 Allergy / Immunology                7
 Autopsy                             8
 Bariatrics                         18
 Cardiovascular / Pulmonary        372
 Chiropractic                       14
 Consult - History and Phy.        516
 Cosmetic / Plastic Surgery         27
 Dentistry                          27
 Dermatology                        29
 Diets and Nutritions               10
 Discharge Summary                 108
 ENT - Otolaryngology               98
 Emergency Room Reports             75
 Endocrinology                      19
 Gastroenterology                  230
 General Medicine                  259
 Hematology - Oncology              90
 Hospice - Palliative Care           6
 IME-QME-Work Comp etc.             16
 Lab Medicine - Pathology            8
 Letters                            23
 Nephrology                         81
 Neurology                         223
 Neurosurgery                       94
 Obstetrics / Gynecology           160
 Office

In [33]:
timeit.timeit(lambda: consulta_MongoDB(), number=1)

0.1904215000104159

In [34]:
timeit.timeit(lambda: consulta_pandas(), number=1)

0.001479099999414757

In [44]:
def consulta_palabra_MongoDB(palabra):
    query = {
        'transcription': {
            '$regex': f'{palabra}',
            '$options': 'i'
        }
    }
    projection = {
        '_id':0,
        'id':1,
        'transcription':1
    }
    return list(collection.find(query, projection))

In [45]:
len(consulta_palabra_MongoDB('testicular'))

40

In [55]:
def consulta_palabra_MongoDB(palabra):
    return df_medical[df_medical['transcription'].str.contains(f'{palabra}', case=False, na=False)]

In [56]:
consulta_palabra_MongoDB('testicular').shape

(40, 6)

In [57]:
timeit.timeit(lambda: len(consulta_palabra_MongoDB('testicular')), number=1)

0.1364455999864731

In [58]:
timeit.timeit(lambda: consulta_palabra_MongoDB('testicular').shape, number=1)

0.13841359998332337

## Resultados del analisis

Se obtienen resultados positivos al tomar el conjunto de datos y transformarlos a formato JSON para luego subirlos a la base de datos de MongoDB. En donde se puede usar el lenguaje MQL para realizar consultas sobre la base de datos.
Se puede notar una diferencia a la hora realizar operaciones de agregación entre la MongoDB y los DataFrames de pandas, donde es evidentemente más eficiente los DataFrames a la hora de agrupar y contar los tipos de *'medical_specialty'* que la misma labor en MongoDB. Pero al buscar una palabra en el campo *'transcription'* resulta ser más eficiente MongoDB que pandas, esto es gracias a que los datos están fragmentados y puede realizar la búsqueda de manera paralela.