# **Análisis y Curación de Datos**

## **Actividades**

En este práctico partiremos de datos un poco más crudos que los que usamos para el práctico de visualización, e incluiremos algunos más. La idea general es dejar preparado un único dataset que nos permita alimentar futuros modelos de aprendizaje automático. 

En primer lugar, partiremos de tres datasets diferentes. Dos de ellos corresponden a información obtenida de la institución médica. Cada uno de ellos consiste en un reporte distinto, que ustedes tendrán que unificar. El tercer dataset contiene información meteorológica, que usaremos en forma complementaria a los datos clínicos. La idea es que una vez que hayan unificado los dos reportes, incluyan la información meteorológica pertinente en el dataset final.

Es importante que cada decisión que tomen sobre los datos quede debidamente documentada.

Se recomienda trabajar empleando algún checklist para asegurarse de cumplir todas las etapas del proceso de curación. Pueden utilizar el checklist que vieron en clase, o algún otro que consideren más apropiado (en las referencias tienen uno a modo de ejemplo).

### **1. Unificación de los reportes**

La información clínica está dividida en los datasets "turnos_sin_pacientes_2018-2019_despersonalizado.csv" y "turnos_con_pacientes_2018-2019_despersonalizado.csv". Como el nombre lo indica, el primer reporte no contiene información de pacientes, sino sólo información correspondiente a los turnos. El segundo, en cambio, contiene datos de pacientes, pero tiene a su vez menos información sobre los turnos con respecto al primero. Los nombres de los campos en los dos reportes no siempre coinciden. Deberán renombrarlos para que coincidan antes de realizar la unificación. Para unificar los reportes, se recomienda utilizar el método "merge" de pandas. 

Nota: En lugar del nombre del paciente, como teníamos en el práctico anterior, ahora contamos con el campo **"HC"** (historia clínica), el cual es un ID único para cada paciente. 

#### **Chequeos puntuales por campo**

- Campo **"Estado del Turno"**: Verán que en este campo aparecen categorías que no estaban presentes en el práctico de visualización. Las categorías "Atendidendo", "Asignado" y "Receptado" están asociadas a turnos que estuvieron teniendo lugar en el momento en que se realizó el reporte, o bien, son defectos del sistema. Todas ellas deberán ser recategorizadas como "Atendido". Por otro lado, como nuestro objetivo final es estudiar el ausentismo en pacientes, el cual se define a partir del cociente "Ausentes" / ("Ausentes" + "Atendidos"), sólo nos quedaremos con los turnos que contengan alguna de estas dos categorías. 

- Campo **"Edad"**: Este campo puede contiene outliers. Deberán determinarlos y decidir qué hacer con ellos. Por ejemplo, una opción sería descartar los valores que no se encuentren en un determinado rango. Sea cual sea la decisión tomada, es importante que dejen clara cuál es su justificación para tomarla.

- Campo **"Sexo"**: Este campo sólo debería contener las categorías "M" y "F". En caso de que exista otra categoría (por ejemplo, "I"), se la considera un error en la carga de datos, y se le dará el mismo tratamiento que si fuera un valor nulo.

- Campos **"Dirección (localidad y provincia)"**: Van a ver que estos campos son muy sucios (la carga se efectúa manualmente). Acá la recomendación es distinguir sólo si pertenece a la localidad de Córdoba o no, y hacer lo mismo con la provincia de Córdoba.

- Campo **"Nombre del canal"**: Las categorías "Teléfono" y "Call Center" deben ser unificadas, ya que representan lo mismo. La categoría "No definido" debe tratarse de la misma manera que los valores nulos (noten que este campo en particular contiene muchos valores nulos).

- Campo **"Prestador"**: Verificar si hay obras sociales o prepagas que aparezcan con distintos nombres, identificar si hay una categoría que represente a pacientes que no tiene obra social/prepaga, y si hay alguna categoría dudosa.

- Campo **"Fecha"**: Verificar que las fechas pertenecen al rango temporal correspondiente (en este caso, años 2018 y 2019).

- Campo **"Fecha otorgado"**: Esta es la fecha en la que se otorgó el turno. Corroborar que la misma es anterior a la fecha correspondiente al turno.

- Campo **"Prestación Asignada"**: Como vimos en el práctico anterior, este campo tiene categorías con frecuencias muy heterogéneas. La categoría "CONSULTA MEDICA" es por lejos la más frecuente, seguida por "Prestaciones múltiples". Acá deberán evaluar si conviene modificar el campo. Por ejemplo, mantener las categorías más frecuentes y recategorizar las demás como "Otras". En cualquier caso, justifiquen la decisión tomada. 

- Campo **"Servicio"**: Identificar los registros correspondientes a consultas de guardia y descartarlos. Explicitar cuál fue el criterio empleado para identificar estos registros.


#### **Tests de integridad**

Escriban una función que realice los tests de integridad descriptos anteriormente, y otros que crean correspondientes. La función deberá tomar un dataset, realizar uno por uno los tests, e informar cuáles de ellos fueron exitosos y cuáles no. En el código más adelante hay un template para que les sirva de guía, pero pueden modificarlo a gusto.

#### **Creación de campos nuevos**

Deberán incorporar al dataset al menos un campo nuevo, que crean relevante a la hora de abordar la problemática de la mentoría. Por ejemplo, día de la semana que corresponde al turno, si el paciente es consumidor final o cuenta con obra social/prepaga, etc.

### **2. Incorporación de información climática**

Los datasets "clima_2018.csv" y "clima_2019.csv" contienen información climática segmentada por día. Esta información es de carácter público y fue obtenida realizando webscrapping del dominio Ogimet (https://www.ogimet.com/gsynres.phtml). Determinen qué información puede ser relevante para la problemática de la mentoría (al menos un campo) e incorporenla al dataset clínico unificado. 

### **3. Opcional**

Los campos **"Recurso"** y **"HC"** en la base de datos original contienen información sensible. En el primer caso, pueden aparecer nombres de personal médico, mientras que el segundo permite identificar unívocamente a los pacientes. En la versión del dataset que tienen ustedes, ambos campos se encuentran codificados. La idea de este opcional es que hagan de cuenta que no están codificados, y que les apliquen algún método de despersonalización. Además de eso, sería bueno que chequeen que no haya otros datos sensibles en otras columnas del dataset.


## Referencias

https://dimewiki.worldbank.org/wiki/Checklist:_Data_Cleaning

### Template para tests de integridad

In [5]:
def test1(df):
    """
    Devuelve 0 si el test es exitoso, y 1 si el test falla
    """
    
    return 1

def test2(df):
    """
    Devuelve 0 si el test es exitoso, y 1 si el test falla
    """
    return 0

def test_integridad(df):
    """
    Ejecuta uno por uno los tests e informa el resultado
    """
        
    print('Test 1: %s' % ('ERROR' if test1(df) else 'EXITOSO'))
    print('Test 2: %s' % ('ERROR' if test2(df) else 'EXITOSO'))
        
    return

test_integridad(1)

Test 1: ERROR
Test 2: EXITOSO


### Importamos paquetes

In [1]:
import os
import numpy as np
import pandas as pd

np.random.seed(0)

### Cargamos los datasets clínicos

In [5]:
data_dir = os.path.join('..', 'data')

dataset_con_paciente = os.path.join(data_dir, 'turnos_con_paciente_2018-2019_despersonalizado.csv')
dataset_sin_paciente = os.path.join(data_dir, 'turnos_sin_paciente_2018-2019_despersonalizado.csv')

dfp = pd.read_csv(dataset_con_paciente, sep=';')
dfsp = pd.read_csv(dataset_sin_paciente, sep=';')

In [6]:
print(dfp.shape)
dfp.sample(5)

(2762590, 14)


Unnamed: 0,CentroAtencion_Nombre,Prestador,Recurso,Servicio_Nombre,FechaTurno,TurnoEstado_Nombre,Sexo,Edad,HC,TipoTurno,Prestacion,FechaOtrogado,Dirección (localidad),Dirección (provincia)
290787,1,-,104,PEDIATRÍA,2018-03-26 18:00:00,Libre,,0,,,,,-,-
2195345,1,SANCOR,91,UROLOGÍA,2019-08-26 15:00:00,Atendido,M,67,42267.0,Ulterior / Control,CONSULTA MEDICA,2019-08-21 16:37:43.857000,,
1823536,1,IOSFA,467,GINECO Y OBSTETRICIA,2019-06-04 17:03:00,Atendido,F,35,104715.0,Ulterior / Control,CONSULTA MEDICA,2019-06-04 17:04:10.863000,,
2639560,2,ACA SALUD,28,GINECOLOGIA PRACTICAS CP,2019-12-03 12:15:00,Ausente,F,24,96284.0,Práctica,COLPOSCOPIA -TRAQUELOSCOPIA,2019-11-21 10:14:29.547000,,
332405,1,I.O.S.E.,388,NEUROCIRUGÍA,2018-04-06 15:00:00,Atendido,F,28,20953.0,Ulterior / Control,CONSULTA MEDICA,2018-03-22 14:06:15.673000,,


In [7]:
print(dfsp.shape)
dfsp.sample(5)

(2196779, 10)


Unnamed: 0,Centro de atención,Servicio,Recurso,Prestación asignada,Estado del turno,Nombre del canal,Fecha del turno,Hora del turno,Es sobre turno,Tipo de turno asignado
812646,1,OTORRINOLARINGOLOGÍA,130,CONSULTA MEDICA,Anulado,,2018-10-25,10:30,NO,Primera Vez
495619,1,ALERGIA E INMUNOLOGÍA,405,,Libre,,2018-07-06,10:00,NO,
391525,1,ALERGIA E INMUNOLOGÍA,250,CONSULTA MEDICA,Atendido,Call Center,2018-05-30,16:40,NO,Primera Vez
1190061,4,KINESIOL Y FISIOTERAPIA,213,MODULO KINESIO-FISIOTERAPIA,Atendido,,2019-03-06,15:10,NO,Práctica
1299560,1,CLÍNICA MÉDICA,221,CONSULTA MEDICA,Atendido,Call Center,2019-04-10,13:00,NO,Ulterior / Control


### Cargamos los datasets de información climática

In [48]:
dataset_clima_2018 = os.path.join(data_dir, 'clima_2018.csv')
dataset_clima_2019 = os.path.join(data_dir, 'clima_2019.csv')

df_clima2018 = pd.read_csv(dataset_clima_2018)
df_clima2019 = pd.read_csv(dataset_clima_2019)

In [49]:
df_clima2018.head()

Unnamed: 0,Fecha,Hr.Med(%),NubTotOct,NubbajOct,Prec.(mm),Pres.n. mar(Hp),TdMed(C),Tmax,Tmed,Tmin,Dir.,Rch.,Vel.,VisKm
0,01/01/2018,87.6,7.4,5.4,----,1012.2,16.9,24.2,18.9,16.3,SE,----,9.3,9.1
1,02/01/2018,63.8,3.1,2.3,0.0,1009.1,13.3,31.1,22.2,15.6,NNW,----,7.6,11.4
2,03/01/2018,63.7,2.5,1.1,0.0,1008.6,15.1,33.0,23.4,15.5,NNE,----,9.0,14.6
3,04/01/2018,43.6,0.6,0.2,0.0,1003.1,12.2,35.6,26.9,17.9,N,----,19.7,12.5
4,05/01/2018,55.3,2.6,4.8,0.0,1003.6,12.6,37.3,24.3,15.5,S,57.4,22.7,10.5


In [50]:
df_clima2019.head()

Unnamed: 0,Fecha,Tmax,Tmin,Tmed,TdMed(C),Hr.Med(%),Dir.,Vel.,Rch.,Pres.n. mar(Hp),Prec.(mm),NubTotOct,NubbajOct,VisKm
0,01/01/2019,33.5,20.2,26.1,22.0,77.5,NE,10.6,----,1006.1,----,5.1,3.3,13.9
1,02/01/2019,38.1,23.0,29.8,22.4,66.4,NE,11.6,----,1002.4,0.0,4.8,2.6,12.5
2,03/01/2019,38.1,13.7,22.9,14.9,67.6,SSW,17.6,----,1011.1,9.0,7.0,3.5,9.4
3,04/01/2019,28.2,18.4,22.3,18.0,78.9,NE,14.1,----,1011.5,Ip,4.6,4.6,10.9
4,05/01/2019,32.1,19.5,25.0,20.1,75.0,NE,19.5,----,1009.6,0.0,5.6,2.6,13.5
