# **Análisis y Curación de Datos**

## **Actividades**

En este práctico partiremos de datos un poco más crudos que los que usamos para el práctico de visualización, e incluiremos algunos más. La idea general es dejar preparado un único dataset que nos permita alimentar futuros modelos de aprendizaje automático. 

En primer lugar, partiremos de tres datasets diferentes. Dos de ellos corresponden a información obtenida de la institución médica. Cada uno de ellos consiste en un reporte distinto, que ustedes tendrán que unificar. El tercer dataset contiene información meteorológica, que usaremos en forma complementaria a los datos clínicos. La idea es que una vez que hayan unificado los dos reportes, incluyan la información meteorológica pertinente en el dataset final.

Es importante que cada decisión que tomen sobre los datos quede debidamente documentada.

Se recomienda trabajar empleando algún checklist para asegurarse de cumplir todas las etapas del proceso de curación. Pueden utilizar el checklist que vieron en clase, o algún otro que consideren más apropiado (en las referencias tienen uno a modo de ejemplo).

### **1. Unificación de los reportes**

La información clínica está dividida en los datasets "turnos_sin_pacientes_2018-2019_despersonalizado.csv" y "turnos_con_pacientes_2018-2019_despersonalizado.csv". Como el nombre lo indica, el primer reporte no contiene información de pacientes, sino sólo información correspondiente a los turnos. El segundo, en cambio, contiene datos de pacientes, pero tiene a su vez menos información sobre los turnos con respecto al primero. Los nombres de los campos en los dos reportes no siempre coinciden. Deberán renombrarlos para que coincidan antes de realizar la unificación. Para unificar los reportes, se recomienda utilizar el método "merge" de pandas. 

Nota: En lugar del nombre del paciente, como teníamos en el práctico anterior, ahora contamos con el campo **"HC"** (historia clínica), el cual es un ID único para cada paciente. 

#### **Chequeos puntuales por campo**

- Campo **"Estado del Turno"**: Verán que en este campo aparecen categorías que no estaban presentes en el práctico de visualización. Las categorías "Atendidendo", "Asignado" y "Receptado" están asociadas a turnos que estuvieron teniendo lugar en el momento en que se realizó el reporte, o bien, son defectos del sistema. Todas ellas deberán ser recategorizadas como "Atendido". Por otro lado, como nuestro objetivo final es estudiar el ausentismo en pacientes, el cual se define a partir del cociente "Ausentes" / ("Ausentes" + "Atendidos"), sólo nos quedaremos con los turnos que contengan alguna de estas dos categorías. 

- Campo **"Edad"**: Este campo puede contiene outliers. Deberán determinarlos y decidir qué hacer con ellos. Por ejemplo, una opción sería descartar los valores que no se encuentren en un determinado rango. Sea cual sea la decisión tomada, es importante que dejen clara cuál es su justificación para tomarla.

- Campo **"Sexo"**: Este campo sólo debería contener las categorías "M" y "F". En caso de que exista otra categoría (por ejemplo, "I"), se la considera un error en la carga de datos, y se le dará el mismo tratamiento que si fuera un valor nulo.

- Campos **"Dirección (localidad y provincia)"**: Van a ver que estos campos son muy sucios (la carga se efectúa manualmente). Acá la recomendación es distinguir sólo si pertenece a la localidad de Córdoba o no, y hacer lo mismo con la provincia de Córdoba.

- Campo **"Nombre del canal"**: Las categorías "Teléfono" y "Call Center" deben ser unificadas, ya que representan lo mismo. La categoría "No definido" debe tratarse de la misma manera que los valores nulos (noten que este campo en particular contiene muchos valores nulos).

- Campo **"Prestador"**: Verificar si hay obras sociales o prepagas que aparezcan con distintos nombres, identificar si hay una categoría que represente a pacientes que no tiene obra social/prepaga, y si hay alguna categoría dudosa.

- Campo **"Fecha"**: Verificar que las fechas pertenecen al rango temporal correspondiente (en este caso, años 2018 y 2019).

- Campo **"Fecha otorgado"**: Esta es la fecha en la que se otorgó el turno. Corroborar que la misma es anterior a la fecha correspondiente al turno.

- Campo **"Prestación Asignada"**: Como vimos en el práctico anterior, este campo tiene categorías con frecuencias muy heterogéneas. La categoría "CONSULTA MEDICA" es por lejos la más frecuente, seguida por "Prestaciones múltiples". Acá deberán evaluar si conviene modificar el campo. Por ejemplo, mantener las categorías más frecuentes y recategorizar las demás como "Otras". En cualquier caso, justifiquen la decisión tomada. 

- Campo **"Servicio"**: Identificar los registros correspondientes a consultas de guardia y descartarlos. Explicitar cuál fue el criterio empleado para identificar estos registros.


#### **Tests de integridad**

Escriban una función que realice los tests de integridad descriptos anteriormente, y otros que crean correspondientes. La función deberá tomar un dataset, realizar uno por uno los tests, e informar cuáles de ellos fueron exitosos y cuáles no. En el código más adelante hay un template para que les sirva de guía, pero pueden modificarlo a gusto.

#### **Creación de campos nuevos**

Deberán incorporar al dataset al menos un campo nuevo, que crean relevante a la hora de abordar la problemática de la mentoría. Por ejemplo, día de la semana que corresponde al turno, si el paciente es consumidor final o cuenta con obra social/prepaga, etc.

### **2. Incorporación de información climática**

Los datasets "clima_2018.csv" y "clima_2019.csv" contienen información climática segmentada por día. Esta información es de carácter público y fue obtenida realizando webscrapping del dominio Ogimet (https://www.ogimet.com/gsynres.phtml). Determinen qué información puede ser relevante para la problemática de la mentoría (al menos un campo) e incorporenla al dataset clínico unificado. 

### **3. Opcional**

Los campos **"Recurso"** y **"HC"** en la base de datos original contienen información sensible. En el primer caso, pueden aparecer nombres de personal médico, mientras que el segundo permite identificar unívocamente a los pacientes. En la versión del dataset que tienen ustedes, ambos campos se encuentran codificados. La idea de este opcional es que hagan de cuenta que no están codificados, y que les apliquen algún método de despersonalización. Además de eso, sería bueno que chequeen que no haya otros datos sensibles en otras columnas del dataset.


## Referencias

https://dimewiki.worldbank.org/wiki/Checklist:_Data_Cleaning

### Template para tests de integridad

In [1]:
def test1(df):
    """
    Devuelve 0 si el test es exitoso, y 1 si el test falla
    """
    
    return 1

def test2(df):
    """
    Devuelve 0 si el test es exitoso, y 1 si el test falla
    """
    return 0

def test_integridad(df):
    """
    Ejecuta uno por uno los tests e informa el resultado
    """
        
    print('Test 1: %s' % ('ERROR' if test1(df) else 'EXITOSO'))
    print('Test 2: %s' % ('ERROR' if test2(df) else 'EXITOSO'))
        
    return

test_integridad(1)

Test 1: ERROR
Test 2: EXITOSO


#### Importamos paquetes

In [1]:
import os
import numpy as np
import pandas as pd
import chardet
import string
np.random.seed(0)
import seaborn as sn
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

#### Cargamos los datasets de información climática

In [5]:
df_clima2018 = pd.read_csv('clima_2018.csv')
df_clima2019 = pd.read_csv('clima_2019.csv')

#df_clima2018 = pd.read_csv(r'E:\anaconda3\envs\mentoria_ausentismo\analisisycuracion\clima_2018.csv')
#df_clima2019 = pd.read_csv(r'E:\anaconda3\envs\mentoria_ausentismo\analisisycuracion\clima_2019.csv')

#### Concatenamos los dataframes de los años 2018 y 2019

In [6]:
df_clima = pd.concat([df_clima2018, df_clima2019], ignore_index=True, sort=False)

In [7]:
df_clima_1 = pd.concat([df_clima2018, df_clima2019], ignore_index=True, sort=False)

In [8]:
df_clima

Unnamed: 0,Fecha,Hr.Med(%),NubTotOct,NubbajOct,Prec.(mm),Pres.n. mar(Hp),TdMed(C),Tmax,Tmed,Tmin,Dir.,Rch.,Vel.,VisKm
0,01/01/2018,87.6,7.4,5.4,----,1012.2,16.9,24.2,18.9,16.3,SE,----,9.3,9.1
1,02/01/2018,63.8,3.1,2.3,0.0,1009.1,13.3,31.1,22.2,15.6,NNW,----,7.6,11.4
2,03/01/2018,63.7,2.5,1.1,0.0,1008.6,15.1,33.0,23.4,15.5,NNE,----,9.0,14.6
3,04/01/2018,43.6,0.6,0.2,0.0,1003.1,12.2,35.6,26.9,17.9,N,----,19.7,12.5
4,05/01/2018,55.3,2.6,4.8,0.0,1003.6,12.6,37.3,24.3,15.5,S,57.4,22.7,10.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
725,27/12/2019,69.4,5.4,5.4,0.0,1009.7,19.1,34.0,25.2,17.0,NE,----,9.0,10.9
726,28/12/2019,61.3,3.0,2.9,0.0,1006.3,21.1,36.3,30.0,23.1,NE,----,15.2,10.9
727,29/12/2019,87.9,8.0,4.2,10.0,1010.9,21.6,35.1,23.9,20.4,S,----,8.0,9.6
728,30/12/2019,90.3,7.2,5.6,130.0,1008.3,21.5,29.6,23.5,20.8,SSW,51.9,9.3,8.2


#### Renombramos las columnas ya que presentan caracteres especiales en los nombres

In [9]:
to_rename = {
    'Fecha' : 'FechaDiaDelTurno' ,
    'Hr.Med(%)': 'HrMedPorcentaje',
    'Prec.(mm)': 'PrecipMM',
    'Pres.n. mar(Hp)': 'PresionHp',
    'TdMed(C)': 'TempMedCentigrados',
    'Dir.': 'Direccion',
    'Rch.': 'Rch',
    'Vel.': 'Vel',
            }
df_clima_r = df_clima.rename(columns=to_rename)


In [10]:
df_clima_r.PrecipMM.unique()

array(['----', '0.0', 'Ip', '8.3', '12.0', '4.3', '19.0', '8.9', '1.0',
       '4.0', '15.0', '33.5', '14.0', '3.0', '0.8', '0.7', '11.0', '3.8',
       '3.7', '1.1', '2.0', '10.7', '4.9', '50.0', '26.7', '23.0', '10.0',
       '0.2', '1.6', '8.0', '6.3', '0.9', '0.5', '6.0', '1.3', '0.6',
       '7.0', '24.0', '5.0', '18.0', '20.0', '7.1', '15.4', '9.0', '5.5',
       '11.6', '57.0', '13.0', '20.3', '31.0', '29.0', '32.0', '96.0',
       '16.7', '0.4', '16.0', '33.0', '6.2', '0.3', '0.1', '13.3', '17.0',
       '13.7', '15.9', '2.2', '25.0', '9.8', '3.1', '1.7', '5.3', '2.6',
       '39.0', '1.5', '1.2', '12.7', '62.0', '16.2', '28.0', '130.0'],
      dtype=object)

In [11]:
df_clima_r.dtypes

FechaDiaDelTurno       object
HrMedPorcentaje       float64
NubTotOct             float64
NubbajOct              object
PrecipMM               object
PresionHp             float64
TempMedCentigrados    float64
Tmax                  float64
Tmed                  float64
Tmin                  float64
Direccion              object
Rch                    object
Vel                   float64
VisKm                 float64
dtype: object

#### Nos quedamos solamente con la columna de precipitaciones para incluirla en el data frame final

In [12]:
df_clima_r = df_clima_r.drop(['HrMedPorcentaje', 'NubTotOct', 'NubbajOct', 'PresionHp', 
             'TempMedCentigrados', 'Tmax', 'Tmed', 'Tmin', 'Direccion', 
             'Rch', 'Vel', 'VisKm'], axis=1)

In [13]:
df_clima_r

Unnamed: 0,FechaDiaDelTurno,PrecipMM
0,01/01/2018,----
1,02/01/2018,0.0
2,03/01/2018,0.0
3,04/01/2018,0.0
4,05/01/2018,0.0
...,...,...
725,27/12/2019,0.0
726,28/12/2019,0.0
727,29/12/2019,10.0
728,30/12/2019,130.0


#### Cargamos los datasets clínicos

In [15]:
dfp = pd.read_csv('turnos_con_paciente_2018-2019_despersonalizado.csv', sep=';')
dfsp = pd.read_csv('turnos_sin_paciente_2018-2019_despersonalizado.csv', sep=';')

#dfp = pd.read_csv(r'E:\anaconda3\envs\mentoria_ausentismo\analisisycuracion\turnos_con_paciente_2018-2019_despersonalizado.csv', sep=';')
#dfsp = pd.read_csv(r'E:\anaconda3\envs\mentoria_ausentismo\analisisycuracion\turnos_sin_paciente_2018-2019_despersonalizado.csv', sep=';')

#### Renombramos columnas dfsp

In [16]:
## Renombramos columnas
to_rename = {
    'Centro de atención': 'CentroDeAtencion',
    'Prestación asignada': 'Prestacion',
    'Estado del turno': 'EstadoDelTurno',
    'Nombre del canal': 'Canal',
    'Fecha del turno': 'FechaDelTurno',
    'Hora del turno': 'HoraDelTurno',
    'Es sobre turno': 'EsSobreTurno',
    'Tipo de turno asignado': 'TipoDeTurno'
        }
dfsp_r = dfsp.rename(columns=to_rename)


In [17]:
## Parseamos fechas
dfsp_r.FechaDelTurno = dfsp_r.FechaDelTurno + ' ' + dfsp_r.HoraDelTurno
dfsp_r.FechaDelTurno = pd.to_datetime(dfsp_r.FechaDelTurno)
dfsp_r = dfsp_r.drop(columns=['HoraDelTurno'])


In [18]:
dfsp_r.dtypes

CentroDeAtencion             int64
Servicio                    object
Recurso                      int64
Prestacion                  object
EstadoDelTurno              object
Canal                       object
FechaDelTurno       datetime64[ns]
EsSobreTurno                object
TipoDeTurno                 object
dtype: object

#### Renombramos columnas dfp

In [19]:
## Renombramos columnas
to_rename = {
    'CentroAtencion_Nombre': 'CentroDeAtencion',
    'Servicio_Nombre': 'Servicio',
    'TurnoEstado_Nombre': 'EstadoDelTurno',
    'FechaTurno': 'FechaDelTurno',
    'TipoTurno': 'TipoDeTurno',
    'Dirección (localidad)' : 'Localidad',
    'Dirección (provincia)' : 'Provincia',
    'FechaOtrogado' : 'FechaOtorgado'
    }
dfp_r = dfp.rename(columns=to_rename)

In [20]:
## Parseamos fechas
dfp_r.FechaDelTurno = pd.to_datetime(dfp_r.FechaDelTurno)

In [21]:
dfp_r.dtypes

CentroDeAtencion             int64
Prestador                   object
Recurso                      int64
Servicio                    object
FechaDelTurno       datetime64[ns]
EstadoDelTurno              object
Sexo                        object
Edad                         int64
HC                         float64
TipoDeTurno                 object
Prestacion                  object
FechaOtorgado               object
Localidad                   object
Provincia                   object
dtype: object

### Chequeo puntual de localidad y provincia

#### Mostramos los valores posibles de localidad

In [22]:
dfp_r['Localidad'].value_counts()

-                              1001679
CORDOBA                         447738
CORDOBA CAPITAL                  25844
MONTE CRISTO                      5989
RIO CEBALLOS                      5793
                                ...   
AHIMOGASTA                           1
MARHUL                               1
MORON                                1
DALMACIO VELEZ SARSFIELD             1
PRESIDENTE ROQUE SAENZ PEÑA          1
Name: Localidad, Length: 849, dtype: int64

#### Mostramos los valores posibles de provincia

In [23]:
dfp_r['Provincia'].unique()

array(['-', nan, 'CORDOBA', 'CÓRDOBA', 'RIO NEGRO', 'LA RIOJA',
       'SANTA FE', 'MENDOZA', 'SANTIAGO DEL ESTERO', 'TIERRA DEL FUEGO',
       'SANTA CRUZ', 'TIRRA DEL FUEGO', 'JUJUY', 'SALTA', 'BAHIA BLANCA',
       'SAN JUAN', 'SAN LUIS', 'TUCUMAN', 'BUENOS AIRES', 'ENTRE RIOS',
       'LA PAMPA', 'MISIONES', 'GOLF (ALTA GRACIA)', 'CORRIENTES',
       'CATAMARCA', 'Córdoba', 'NEUQUEN', 'CORODBA', 'FORMOSA',
       'SAN FRANCISCO', 'CORDOBA CAPITAL', 'RIO GALLEGOS',
       'SANTIAGO  DEL ESTERO', 'STA CRUZ', 'CHILECITO LA RIOJA', 'CHUBUT',
       'VALLE CERCANOAÇ', 'BS.AS', 'CORDO', 'SANTIGO DEL ESTERO',
       'LABOULAYE', 'BOLIVIA', 'STA FE', 'ADELIA MARIA',
       'SAN SALVADOR DE JUJUY', 'LARIOJA', 'VILLA ALLENDE', 'CHACO',
       'CRUZ DEL EJE', 'RIO TERCERO', 'RIO CUARTO', 'FRONTERA-SANTA FE',
       'SAN  LUIS', 'SUNCHALES', 'SANB LUIS', 'BS AS', 'CORDOBA.',
       'CAPITAL FEDERAL', 'FREYRE', 'STO DEL ESTERO'], dtype=object)

#### Convertimos las diferentes formas de escribir Cordoba por cordoba

In [24]:
import re
import unidecode
##Hacemos minúscula todo
dfp_r.Localidad = dfp_r.Localidad.str.lower()
dfp_r.Provincia = dfp_r.Provincia.str.lower()

In [25]:
dfp_r.Localidad.replace(['-', ' '], 'No definido', inplace=True)
dfp_r.loc[dfp_r.Localidad.isnull(), 'Localidad'] = 'No definido'
dfp_r.Provincia.replace(['-', ' '], 'No definido', inplace=True)
dfp_r.loc[dfp_r.Provincia.isnull(), 'Provincia'] = 'No definido'

In [26]:
##Reemplazamos todos los _Córdoba_ mal escritos (ya revisados) por "cordoba"
Mal_Escrito = ['cba', 'cordiba', 'cordo', 'cordobacapital', 'cordobacapitral', 'cordonba', 'corodba', 'crdoba', 'ordoba']
dfp_r.Localidad.replace(Mal_Escrito,'cordoba', inplace=True)
dfp_r.Provincia.replace(Mal_Escrito,'cordoba', inplace=True)

In [27]:
#Localidad
##Evaluamos y reemplazamos los que tenemos dudas (ya revisados), por "cordoba" 
Duda = ['capital', 'centro']
dfp_r.loc[(dfp_r.Provincia == 'cordoba') & (dfp_r.Localidad.isin(Duda)), 'Localidad'] = 'cordoba'

In [28]:
#Provincia
##Reemplazamos los posibles "nodefinido" por "cordoba" en Provincia, cuando Localidad='cordoba'
dfp_r.loc[dfp_r.Localidad == 'cordoba', 'Provincia'] = 'cordoba'

In [29]:
##Reemplazamos todo lo que no es "cordoba" por "otro"
dfp_r.loc[(dfp_r.Provincia != 'cordoba') , 'Provincia'] = 'otro'
dfp_r.loc[(dfp_r.Provincia == 'nodefinido'), 'Provincia'] = 'otro'
dfp_r.loc[(dfp_r.Localidad != 'cordoba') , 'Localidad'] = 'otro'
dfp_r.loc[(dfp_r.Localidad == 'nodefinido'), 'Localidad'] = 'otro'

In [30]:
dfp_r['Localidad'].value_counts()

otro       2313324
cordoba     449266
Name: Localidad, dtype: int64

In [31]:
dfp_r['Provincia'].value_counts()

otro       2076294
cordoba     686296
Name: Provincia, dtype: int64

### Chequeo puntual de Estado del Turno

#### dfp_r: cambiamos el contenido de EstadoDelTurno para que "Asignado", "Receptado" y "Atendiendo" tengan el valor Atendido

In [32]:
dfp_r.EstadoDelTurno= dfp_r.EstadoDelTurno.replace ({'Atendiendo' :'Atendido','Asignado':'Atendido','Receptado':'Atendido'})

In [33]:
dfp_r.sample(10)

Unnamed: 0,CentroDeAtencion,Prestador,Recurso,Servicio,FechaDelTurno,EstadoDelTurno,Sexo,Edad,HC,TipoDeTurno,Prestacion,FechaOtorgado,Localidad,Provincia
2516415,2,OMINT S. A. DE SERVICIOS,48,REUMATOLOGÍA,2019-11-06 18:00:00,Ausente,F,49,20195.0,Ulterior / Control,CONSULTA MEDICA,2019-10-23 18:43:28.723000,cordoba,cordoba
1880274,2,CONSUMIDOR FINAL,171,ECOGRAFIA,2019-06-19 15:45:00,Anulado,F,38,104881.0,Práctica,ECOGRAFIA TOCOGINECOLÓGICA,2019-06-13 11:09:50.080000,otro,otro
905507,1,-,517,GINECOLOGÍA,2018-09-25 15:45:00,Inactivo,,0,,,,,otro,otro
899189,1,-,119,DEMANDA DE PEDIATRÍA,2018-09-24 13:45:00,Libre,,0,,,,,otro,otro
2755412,2,OSDE,173,ECOGRAFIA,2019-12-30 08:00:00,Atendido,M,43,13584.0,Práctica,ECO DOPPLER MMII,2019-12-27 13:48:06.003000,otro,cordoba
462562,1,FEDERADA SALUD,98,GINECOLOGIA PRACTICAS CP,2018-05-18 18:00:00,Anulado,F,40,7142.0,Práctica,COLPOSCOPIA -TRAQUELOSCOPIA,2018-05-09 13:46:57.913000,otro,otro
395052,4,NOBIS S.A. MEDICINA PRIVADA,506,KINESIOL Y FISIOTERAPIA,2018-04-25 15:50:00,Anulado,M,33,13928.0,Práctica,REHABILITACION DE RODILLA,2018-04-10 16:20:36.957000,cordoba,cordoba
796923,3,IOSFA,134,PEDIATRÍA,2018-08-27 15:20:00,Anulado,F,1,80661.0,Primera Vez,CONSULTA MEDICA,2018-08-22 13:57:17.373000,otro,otro
2056773,1,SANCOR,271,HOSPITAL DE DÍA,2019-07-26 17:15:00,Atendido,F,36,545.0,Práctica,QUIMIOTERAPIA AMBULATORIA,2019-07-24 14:44:10.493000,otro,otro
22285,1,OMINT S. A. DE SERVICIOS,124,CIRUGÍA GENERAL INF,2018-01-08 21:41:00,Atendido,M,17,6455.0,Primera Vez,Prestaciones multiples,2018-01-08 21:41:43.337000,otro,cordoba


#### Nos quedamos solo con Estados del Turno Atendido y Ausente

In [34]:
dfsp_r_t= dfsp_r[dfsp_r.EstadoDelTurno.isin (['Atendido','Ausente'])]

In [35]:
dfsp_r_t

Unnamed: 0,CentroDeAtencion,Servicio,Recurso,Prestacion,EstadoDelTurno,Canal,FechaDelTurno,EsSobreTurno,TipoDeTurno
0,1,GUARDIA DE PEDIATRIA,253,CONSULTA MEDICA,Atendido,,2018-01-01 02:31:00,SI,Ulterior / Control
1,1,GUARDIA DE PEDIATRIA,253,CONSULTA MEDICA,Atendido,,2018-01-01 03:09:00,SI,Ulterior / Control
2,1,GUARDIA DE PEDIATRIA,253,CONSULTA MEDICA,Atendido,,2018-01-01 03:23:00,SI,Ulterior / Control
3,1,GUARDIA DE PEDIATRIA,253,COLOCACION DE INYECTABLES,Atendido,,2018-01-01 03:47:00,SI,Ulterior / Control
4,1,GUARDIA DE PEDIATRIA,253,CONSULTA MEDICA,Atendido,,2018-01-01 03:51:00,SI,Ulterior / Control
...,...,...,...,...,...,...,...,...,...
2196194,1,RADIOGRAFIA,454,Prestaciones multiples,Atendido,,2019-12-30 23:30:00,SI,Práctica
2196269,1,ECOGRAFIA,174,ECOGRAFIA COMPLETA DE ABDOMEN,Atendido,,2019-12-31 09:24:00,SI,Práctica
2196272,1,ECOGRAFIA,174,ECOGRAFIA DE PARTES BLANDAS,Atendido,,2019-12-31 09:27:00,SI,Práctica
2196401,1,ECOGRAFIA,174,ECOGRAFIA TRANSVAGINAL,Atendido,,2019-12-31 11:29:00,SI,Práctica


### Hacemos el merge de los dos dataframes

In [36]:
dfp_r.dtypes

CentroDeAtencion             int64
Prestador                   object
Recurso                      int64
Servicio                    object
FechaDelTurno       datetime64[ns]
EstadoDelTurno              object
Sexo                        object
Edad                         int64
HC                         float64
TipoDeTurno                 object
Prestacion                  object
FechaOtorgado               object
Localidad                   object
Provincia                   object
dtype: object

In [37]:
dfsp_r_t.dtypes

CentroDeAtencion             int64
Servicio                    object
Recurso                      int64
Prestacion                  object
EstadoDelTurno              object
Canal                       object
FechaDelTurno       datetime64[ns]
EsSobreTurno                object
TipoDeTurno                 object
dtype: object

In [38]:
cols = [
    'CentroDeAtencion', 'Servicio', 'Recurso', 'FechaDelTurno', 
    'EstadoDelTurno', 'Prestacion', 'TipoDeTurno'
]
df = dfp_r.merge(dfsp_r_t, on=cols)
df.head()

Unnamed: 0,CentroDeAtencion,Prestador,Recurso,Servicio,FechaDelTurno,EstadoDelTurno,Sexo,Edad,HC,TipoDeTurno,Prestacion,FechaOtorgado,Localidad,Provincia,Canal,EsSobreTurno
0,1,MEDIFE ASOCIACIÓN CIVIL,253,GUARDIA DE PEDIATRIA,2018-01-01 11:57:00,Atendido,F,4,0.0,Ulterior / Control,CONSULTA MEDICA,2018-01-01 11:58:10.047000,otro,otro,,SI
1,1,MEDIFE ASOCIACIÓN CIVIL,253,GUARDIA DE PEDIATRIA,2018-01-01 12:20:00,Atendido,M,3,1.0,Ulterior / Control,CONSULTA MEDICA,2018-01-01 12:20:46.097000,otro,otro,,SI
2,1,DASPU,253,GUARDIA DE PEDIATRIA,2018-01-01 12:23:00,Atendido,M,3,2.0,Ulterior / Control,CONSULTA MEDICA,2018-01-01 12:25:39.333000,otro,otro,,SI
3,1,SWISS MEDICAL S.A.,253,GUARDIA DE PEDIATRIA,2018-01-01 12:27:00,Atendido,M,3,3.0,Ulterior / Control,CONSULTA MEDICA,2018-01-01 12:27:55.193000,otro,otro,,SI
4,1,PARQUE SALUD S.A.,253,GUARDIA DE PEDIATRIA,2018-01-01 12:38:00,Atendido,F,3,4.0,Ulterior / Control,CONSULTA MEDICA,2018-01-01 12:39:04.563000,otro,otro,,SI


In [39]:
df.dtypes

CentroDeAtencion             int64
Prestador                   object
Recurso                      int64
Servicio                    object
FechaDelTurno       datetime64[ns]
EstadoDelTurno              object
Sexo                        object
Edad                         int64
HC                         float64
TipoDeTurno                 object
Prestacion                  object
FechaOtorgado               object
Localidad                   object
Provincia                   object
Canal                       object
EsSobreTurno                object
dtype: object

### Chequeo puntual del Canal

#### Unificamos en canal teléfono y call center como teléfono

In [40]:
df.loc[(df.Canal == 'Teléfono'), 'Canal'] = 'Telefono'

In [41]:
df.loc[(df.Canal == 'Call Center'), 'Canal'] = 'Telefono'

In [42]:
df.Canal.unique()

array([nan, 'Recepción', 'Telefono', 'Turnos Online', 'No Definido',
       'Chat/Redes Sociales'], dtype=object)

### Chequeo puntual de los valores de la variable Sexo

#### Dejamos solo F y M como valores posibles de sexo

In [43]:
df_1= df[df.Sexo.isin (['F','M'])]

In [44]:
df_1['Sexo'].value_counts()

F    781969
M    528531
Name: Sexo, dtype: int64

#### Convertimos HC de float a integer

In [45]:
df_1.HC = df_1.HC.astype(int)

In [46]:
df_1.HC.unique()

array([     0,      1,      2, ..., 169378, 169487, 169488])

### Chequeo puntual de la variable Edad

#### Edad

In [47]:
print (df_1.Edad.min())
print (df_1.Edad.max())

0
120


#### Sacamos outliers el caso de edad = 120

In [48]:
df_1.loc[(df_1.Edad == 120)] 

Unnamed: 0,CentroDeAtencion,Prestador,Recurso,Servicio,FechaDelTurno,EstadoDelTurno,Sexo,Edad,HC,TipoDeTurno,Prestacion,FechaOtorgado,Localidad,Provincia,Canal,EsSobreTurno
7050,1,CONSUMIDOR FINAL,497,ANATOMÍA PATOLÓGICA B,2018-01-08 08:32:00,Atendido,M,120,6076,Práctica,ESTUDIO HISTOPATOLOGICO DE PIEZA OPERATORIA SNC,2018-01-08 08:34:58.490000,otro,otro,,SI
11329,1,DASPU,511,NUTRICIÓN,2018-01-10 15:00:00,Ausente,M,120,8964,Práctica,CONTROL DIETA DIABETES GESTACIONAL,2017-12-26 15:19:43.773000,cordoba,cordoba,Recepción,NO
11987,1,CONSUMIDOR FINAL,497,ANATOMÍA PATOLÓGICA B,2018-01-10 10:48:00,Atendido,M,120,9390,Práctica,ESTUDIO CITOLOGICO DE LCR,2018-01-10 10:50:40.477000,otro,otro,,SI
14753,1,CONSUMIDOR FINAL,315,DIABETOLOGIA Y NUTRIC,2018-01-11 17:00:00,Ausente,M,120,10942,Primera Vez,CONSULTA MEDICA,2017-12-15 08:44:17.427000,otro,otro,Recepción,NO
15755,1,CONSUMIDOR FINAL,505,GASTROENTEROLOGÍA,2018-01-12 12:00:00,Ausente,M,120,11501,Primera Vez,CONSULTA MEDICA,2018-01-12 11:28:48.173000,otro,otro,Recepción,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1294233,1,CONSUMIDOR FINAL,243,OTORRINOLARINGOLOGÍA,2019-12-19 18:00:00,Atendido,M,120,168511,Primera Vez,CONSULTA MEDICA,2019-12-12 18:26:38.430000,cordoba,cordoba,Telefono,NO
1298139,3,CONSEJO PROF. CS. ECONOMICAS,423,DERMATOLOGÍA,2019-12-20 09:00:00,Atendido,M,120,168699,Primera Vez,CONSULTA MEDICA,2019-11-29 11:48:09.193000,cordoba,cordoba,Recepción,NO
1298851,1,OMINT S. A. DE SERVICIOS,341,MICOLOGIA,2019-12-21 10:17:00,Atendido,F,120,168734,Primera Vez,CONSULTA MEDICA,2019-12-20 17:17:37.237000,cordoba,cordoba,,SI
1301914,3,MEDIFE ASOCIACIÓN CIVIL,511,NUTRICIÓN,2019-12-23 14:45:00,Atendido,M,120,159048,Práctica,PLAN NUTRICIONAL,2019-12-13 11:14:45.160000,otro,otro,Recepción,NO


In [49]:
df_1 = df_1.drop(df_1[df_1['Edad'] == 120].index)

In [50]:
print (df_1.Edad.min())
print (df_1.Edad.max())

0
102


In [51]:
df_1.loc[(df_1.Edad == 102)] 

Unnamed: 0,CentroDeAtencion,Prestador,Recurso,Servicio,FechaDelTurno,EstadoDelTurno,Sexo,Edad,HC,TipoDeTurno,Prestacion,FechaOtorgado,Localidad,Provincia,Canal,EsSobreTurno
48279,1,CONSUMIDOR FINAL,256,CLÍNICA MÉDICA,2018-02-06 15:45:00,Atendido,F,102,25522,Ulterior / Control,CONSULTA MEDICA,2018-02-06 15:39:01.840000,otro,otro,,SI
70459,1,CONSUMIDOR FINAL,256,CLÍNICA MÉDICA,2018-02-22 14:10:00,Atendido,F,102,25522,Ulterior / Control,CONSULTA MEDICA,2018-02-20 15:03:00.660000,otro,otro,,SI
109856,1,CONSUMIDOR FINAL,256,CLÍNICA MÉDICA,2018-03-19 16:10:00,Atendido,F,102,25522,Ulterior / Control,CONSULTA MEDICA,2018-03-12 14:26:00.730000,otro,otro,,SI
124043,1,CONSUMIDOR FINAL,347,HEMATOLOGÍA,2018-03-27 14:40:00,Atendido,F,102,25522,Ulterior / Control,CONSULTA MEDICA,2018-03-19 17:00:24.720000,otro,otro,,SI
176898,1,CONSUMIDOR FINAL,256,CLÍNICA MÉDICA,2018-05-04 13:30:00,Atendido,F,102,25522,Ulterior / Control,CONSULTA MEDICA,2018-05-04 13:32:26.623000,otro,otro,,SI
276974,1,CONSUMIDOR FINAL,256,CLÍNICA MÉDICA,2018-07-10 17:00:00,Atendido,F,102,25522,Ulterior / Control,CONSULTA MEDICA,2018-06-27 19:12:47.060000,otro,otro,Telefono,NO
419448,1,CONSUMIDOR FINAL,256,CLÍNICA MÉDICA,2018-10-01 15:55:00,Atendido,F,102,25522,Primera Vez,CONSULTA MEDICA,2018-10-01 15:36:08.403000,otro,otro,,SI
452464,1,CONSUMIDOR FINAL,256,CLÍNICA MÉDICA,2018-10-19 15:39:00,Atendido,F,102,25522,Ulterior / Control,CONSULTA MEDICA,2018-10-19 15:40:03.713000,otro,otro,,SI
740396,1,CONSUMIDOR FINAL,256,CLÍNICA MÉDICA,2019-04-05 16:20:00,Atendido,F,102,25522,Ulterior / Control,CONSULTA MEDICA,2019-03-13 11:36:02.110000,otro,otro,Telefono,NO
742473,1,CONSUMIDOR FINAL,490,NEUROLOGÍA,2019-04-05 11:45:00,Atendido,F,102,25522,Primera Vez,CONSULTA MEDICA,2019-03-28 19:29:30.157000,otro,otro,Telefono,NO


### Chequeo puntual Prestador

#### En Prestador solo dejamos los valores Consumidor Final y Otro

In [52]:
df_1.Prestador.value_counts()

OSDE                           173696
SWISS MEDICAL S.A.             138362
OMINT S. A. DE SERVICIOS       135427
MEDIFE ASOCIACIÓN CIVIL        108408
SANCOR                         104293
                                ...  
PREMED                            104
HOSPITAL ALEMÁN ASOC.CIVIL         98
ECCO S.A.                          29
HOPE                                3
MINISTERIO DE SALUD DE CBA.         3
Name: Prestador, Length: 74, dtype: int64

In [53]:
##Reemplazamos todo lo que no es "consumidor final" por "otro"
df_1.loc[(df_1.Prestador != 'CONSUMIDOR FINAL') , 'Prestador'] = 'OTRO'

In [54]:
df_1.Prestador.value_counts()

OTRO                1206247
CONSUMIDOR FINAL     103765
Name: Prestador, dtype: int64

### Chequeo puntual de la fecha del turno

#### Controlamos que la fecha del turno este entre 2018 y 2019

In [55]:
df_1.FechaDelTurno.min()

Timestamp('2018-01-01 02:31:00')

In [56]:
df_1.FechaDelTurno.max()

Timestamp('2019-12-31 14:23:00')

In [57]:
df_1.FechaDelTurno.value_counts()

2018-09-25 15:30:00    135
2019-12-04 14:30:00    123
2019-10-30 10:00:00    121
2019-10-31 16:30:00    120
2018-10-09 15:30:00    119
                      ... 
2019-10-24 08:57:00      1
2018-10-10 10:48:00      1
2018-10-08 19:44:00      1
2019-11-11 11:58:00      1
2018-10-24 09:57:00      1
Name: FechaDelTurno, Length: 167577, dtype: int64

####  Controlamos que la fecha otorgado del turno sea menor que la fecha del turno 

In [58]:
df_1['FechaOtorgado'] = pd.to_datetime(df.FechaOtorgado)

In [59]:
df_1['FechaOtorgado'].min()

Timestamp('2017-11-29 14:36:56.490000')

In [60]:
df_1['FechaOtorgado'].max()

Timestamp('2019-12-31 14:23:49.333000')

In [61]:
df_1['FechaDiaDelTurno'] = [d.date() for d in df_1['FechaDelTurno']]
df_1['HoraTurno'] = [d.time() for d in df_1['FechaDelTurno']]

In [62]:
df_1['FechaDiaOtorgado'] = [d.date() for d in df_1['FechaOtorgado']]
df_1['HoraOtorgado'] = [d.time() for d in df_1['FechaOtorgado']]

In [63]:
df_1['DifDias'] = df_1.FechaDiaDelTurno - df_1.FechaDiaOtorgado

In [64]:
x=pd.Timedelta(0,'d')

In [65]:
df_1.loc[(df_1.DifDias < x)] 

Unnamed: 0,CentroDeAtencion,Prestador,Recurso,Servicio,FechaDelTurno,EstadoDelTurno,Sexo,Edad,HC,TipoDeTurno,...,FechaOtorgado,Localidad,Provincia,Canal,EsSobreTurno,FechaDiaDelTurno,HoraTurno,FechaDiaOtorgado,HoraOtorgado,DifDias
871009,1,OTRO,174,ECOGRAFIA,2019-06-11 13:05:00,Atendido,M,14,139195,Práctica,...,2019-06-12 13:06:29.367,otro,otro,,SI,2019-06-11,13:05:00,2019-06-12,13:06:29.367000,-1 days
969969,1,CONSUMIDOR FINAL,456,RADIOGRAFIA,2019-07-31 15:00:00,Atendido,M,3,123800,Práctica,...,2019-08-07 10:46:01.643,otro,otro,,SI,2019-07-31,15:00:00,2019-08-07,10:46:01.643000,-7 days
973213,1,CONSUMIDOR FINAL,456,RADIOGRAFIA,2019-08-02 11:42:00,Atendido,F,79,22860,Práctica,...,2019-08-05 11:43:20.167,cordoba,cordoba,,SI,2019-08-02,11:42:00,2019-08-05,11:43:20.167000,-3 days
974086,1,CONSUMIDOR FINAL,499,TOMOGRAFIA,2019-08-01 18:40:00,Atendido,F,79,22860,Práctica,...,2019-08-02 18:41:01.573,cordoba,cordoba,,SI,2019-08-01,18:40:00,2019-08-02,18:41:01.573000,-1 days
1011569,1,OTRO,499,TOMOGRAFIA,2019-08-19 12:52:00,Atendido,M,67,44687,Práctica,...,2019-08-20 12:53:10.350,otro,cordoba,,SI,2019-08-19,12:52:00,2019-08-20,12:53:10.350000,-1 days
1124223,2,OTRO,172,ECOGRAFIA,2019-10-07 11:16:00,Atendido,M,76,37665,Práctica,...,2019-10-08 08:16:50.597,cordoba,cordoba,,SI,2019-10-07,11:16:00,2019-10-08,08:16:50.597000,-1 days
1199440,1,OTRO,499,TOMOGRAFIA,2019-11-10 10:00:00,Atendido,M,63,162700,Práctica,...,2019-11-20 10:54:27.297,otro,otro,,SI,2019-11-10,10:00:00,2019-11-20,10:54:27.297000,-10 days
1223458,2,OTRO,173,ECOGRAFIA,2019-11-19 16:01:00,Atendido,M,63,162484,Práctica,...,2019-11-21 13:37:06.597,otro,otro,,SI,2019-11-19,16:01:00,2019-11-21,13:37:06.597000,-2 days


**Se observa que en los casos donde la fecha otorgado es anterior a la fecha del turno el tipo de turno es práctica, el servicio es diagnóstico por imágenes y es sobreturno**

In [66]:
df_1 = df_1.drop(df_1[df_1.DifDias < x].index)

In [67]:
df_1.loc[(df_1.DifDias < x)] 

Unnamed: 0,CentroDeAtencion,Prestador,Recurso,Servicio,FechaDelTurno,EstadoDelTurno,Sexo,Edad,HC,TipoDeTurno,...,FechaOtorgado,Localidad,Provincia,Canal,EsSobreTurno,FechaDiaDelTurno,HoraTurno,FechaDiaOtorgado,HoraOtorgado,DifDias


### Creacion de campos nuevos

#### Agregamos al data frame el día de la semana de la fecha del turno

In [68]:
df_1['DiaTurno'] = df_1['FechaDelTurno'].apply(lambda time: time.dayofweek)
df_1['MesTurno'] = df_1['FechaDelTurno'].apply(lambda time: time.month)
df_1['DiaTurnoNombre'] = df_1['DiaTurno'].apply(lambda x: 'Lunes' if x == 0 else 'Martes' if x == 1
                                 else 'Miercoles' if x == 2 else 'Jueves' if x == 3
                                 else 'Viernes' if x== 4 else 'Sabado' if x == 5
                                 else 'Domingo' )

In [69]:
df_1.dtypes

CentroDeAtencion              int64
Prestador                    object
Recurso                       int64
Servicio                     object
FechaDelTurno        datetime64[ns]
EstadoDelTurno               object
Sexo                         object
Edad                          int64
HC                            int32
TipoDeTurno                  object
Prestacion                   object
FechaOtorgado        datetime64[ns]
Localidad                    object
Provincia                    object
Canal                        object
EsSobreTurno                 object
FechaDiaDelTurno             object
HoraTurno                    object
FechaDiaOtorgado             object
HoraOtorgado                 object
DifDias             timedelta64[ns]
DiaTurno                      int64
MesTurno                      int64
DiaTurnoNombre               object
dtype: object

In [70]:
df_1

Unnamed: 0,CentroDeAtencion,Prestador,Recurso,Servicio,FechaDelTurno,EstadoDelTurno,Sexo,Edad,HC,TipoDeTurno,...,Canal,EsSobreTurno,FechaDiaDelTurno,HoraTurno,FechaDiaOtorgado,HoraOtorgado,DifDias,DiaTurno,MesTurno,DiaTurnoNombre
0,1,OTRO,253,GUARDIA DE PEDIATRIA,2018-01-01 11:57:00,Atendido,F,4,0,Ulterior / Control,...,,SI,2018-01-01,11:57:00,2018-01-01,11:58:10.047000,0 days,0,1,Lunes
1,1,OTRO,253,GUARDIA DE PEDIATRIA,2018-01-01 12:20:00,Atendido,M,3,1,Ulterior / Control,...,,SI,2018-01-01,12:20:00,2018-01-01,12:20:46.097000,0 days,0,1,Lunes
2,1,OTRO,253,GUARDIA DE PEDIATRIA,2018-01-01 12:23:00,Atendido,M,3,2,Ulterior / Control,...,,SI,2018-01-01,12:23:00,2018-01-01,12:25:39.333000,0 days,0,1,Lunes
3,1,OTRO,253,GUARDIA DE PEDIATRIA,2018-01-01 12:27:00,Atendido,M,3,3,Ulterior / Control,...,,SI,2018-01-01,12:27:00,2018-01-01,12:27:55.193000,0 days,0,1,Lunes
4,1,OTRO,253,GUARDIA DE PEDIATRIA,2018-01-01 12:38:00,Atendido,F,3,4,Ulterior / Control,...,,SI,2018-01-01,12:38:00,2018-01-01,12:39:04.563000,0 days,0,1,Lunes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1311778,1,OTRO,180,UROLOGÍA,2019-12-30 19:45:00,Atendido,M,18,169488,Primera Vez,...,Telefono,NO,2019-12-30,19:45:00,2019-12-30,19:26:27.157000,0 days,0,12,Lunes
1311779,2,OTRO,168,ECOGRAFIA,2019-12-30 19:45:00,Atendido,M,9,154994,Práctica,...,Telefono,NO,2019-12-30,19:45:00,2019-12-16,18:10:37.720000,14 days,0,12,Lunes
1311780,3,OTRO,367,CARDIOLOGÍA,2019-12-30 19:45:00,Atendido,F,41,7332,Primera Vez,...,Telefono,NO,2019-12-30,19:45:00,2019-12-30,14:50:02.807000,0 days,0,12,Lunes
1311781,1,OTRO,174,ECOGRAFIA,2019-12-31 11:29:00,Atendido,F,28,48486,Práctica,...,,SI,2019-12-31,11:29:00,2019-12-31,11:29:53.007000,0 days,1,12,Martes


In [71]:
df_1.Prestacion.value_counts()

CONSULTA MEDICA                                        780894
Prestaciones multiples                                  94027
MODULO KINESIO-FISIO + MAGNETO Y/O LASER                90177
TERAPIA OCUPACIONAL                                     40688
CONSULTA OFTALMOLOGICA VESTIDA                          25895
                                                        ...  
CONSULTA DIFERENCIADA MEDICINA REPRODUCTIVA                 1
RADIOGRAFIA CLAVICULA IZQUIERDA FRENTE 30º CEFALICO         1
RADIOGRAFIA DE MANO IZQUIERDA OBLICUA                       1
RADIOGRAFIA DE MUÑECA DERECHA PERFIL ESTRICTO               1
ANGIORESONANCIA CEREBRAL VENOSA                             1
Name: Prestacion, Length: 756, dtype: int64

In [72]:
df_1.loc[(df_1.Prestacion != 'CONSULTA MEDICA'), 'Prestacion'] = 'OTRA'

In [73]:
df_1.Prestacion.value_counts()

CONSULTA MEDICA    780894
OTRA               529110
Name: Prestacion, dtype: int64

### Chequeo puntual del Servicio

#### Descartamos los registros de Servicio = demanda chequeo o guardia

In [74]:
df_1.Servicio.unique()

array(['GUARDIA DE PEDIATRIA', 'CARDIOLOGÍA', 'KINESIOL Y FISIOTERAPIA',
       'GINECO Y OBSTETRICIA', 'DEMANDA DE PEDIATRÍA', 'HEMOSTASIA',
       'ANESTESIA', 'HEMATOLOGIA PRACTICAS', 'ENDOCRINOLOGÍA',
       'ORTOPEDIA Y TRAUMATO', 'REUMATOLOGÍA', 'DERMATOLOGÍA',
       'NUTRICIÓN', 'UROLOGÍA', 'PEDIATRÍA', 'AUDIOLOGÍA',
       'GUARDIA DE TRAUMATO DIA', 'NEUROCIRUGÍA', 'GASTROENTEROLOGÍA',
       'OTORRINOLARINGOLOGÍA', 'NEUROLOGÍA', 'HEMATOLOGÍA',
       'ANATOMÍA PATOLÓGICA B', 'ONCOLOGÍA', 'OTORRINOLARINGOLOGIA INF',
       'INFECTOLOGÍA', 'CLÍNICA MÉDICA', 'DEMANDA DE ORL INF',
       'GASTROENTEROLOGÍA INF', 'DEMANDA DE ORL', 'NEONATOLOGÍA',
       'GOTEO DE HIERRO', 'DIABETOLOGIA Y NUTRIC', 'CIRUGÍA DE TÓRAX',
       'NUTRICIÓN INFANTIL', 'DERMATOLOGÍA INF',
       'GINECOLOGIA PRACTICAS CP', 'GINECOLOGÍA', 'NEUMONOLOGÍA INF',
       'CIRUGÍA GENERAL', 'CARDIOLOGÍA INF', 'ALERGIA E INMUNOLOGÍA INF',
       'ALERGIA E INMUNOLOGÍA ', 'HEMATOLOGÍA INF', 'CIRUGÍA PLÁSTICA',
    

In [75]:
for i in ['REUMATOLOGÍA INF','ENDOCRINOLOGÍA INF',
          'DERMATOLOGÍA INF', 'DIABETOLOGIA Y NUTRIC INF',
          'NEUMONOLOGÍA INF', 'NEFROLOGÍA INF', 'ALERGIA E INMUNOLOGÍA INF',
          'ORTOPEDIA Y TRAUMATO INF','DIABETOLOGIA Y NUTRIC INF',
          'OTORRINOLARINGOLOGIA INF','NEUROLOGÍA INF', 
          'HEMATOLOGÍA INF', 'NUTRICIÓN INFANTIL',
          'CARDIOLOGÍA INF', 'GASTROENTEROLOGÍA INF'
          'DEMANDA DE GASTRO INF', 'INFECTOLOGÍA INF'
          'PSICOLOGÍA INF', 'CIRUGÍA PLÁSTICA INF',
          'CIRUGÍA GENERAL INF', 'UROLOGÍA INF',
          'FONOAUDIOLOGIA INF', 'NEUROCIRUGÍA INF',
          'GUARDIA DE TRAUMATO DIA', 
          'OTORRINOLARINGOLOGIA INF', 'DEMANDA DE PEDIATRÍA',
          'PEDIATRÍA', 'DEMANDA DE ORL INF',
          'GUARDIA DE PEDIATRIA', 'CHEQUEO PEDIATRICO']:
    df_1 = df_1.drop(df_1[df_1['Servicio'] == i].index)

## Incorporacion de la información climática al data frame

#### Agregamos la columna de precipitación del data frame clima

In [76]:
df_clima_r

Unnamed: 0,FechaDiaDelTurno,PrecipMM
0,01/01/2018,----
1,02/01/2018,0.0
2,03/01/2018,0.0
3,04/01/2018,0.0
4,05/01/2018,0.0
...,...,...
725,27/12/2019,0.0
726,28/12/2019,0.0
727,29/12/2019,10.0
728,30/12/2019,130.0


In [77]:
 df_clima_r['FechaDiaDelTurno'] = pd.to_datetime(df_clima_r.FechaDiaDelTurno)

In [78]:
df_1['FechaDiaDelTurno'] = pd.to_datetime(df_1.FechaDiaDelTurno)

In [79]:
df_1_1= df_clima_r.merge(df_1, on=['FechaDiaDelTurno'])
df_1_1.head()

Unnamed: 0,FechaDiaDelTurno,PrecipMM,CentroDeAtencion,Prestador,Recurso,Servicio,FechaDelTurno,EstadoDelTurno,Sexo,Edad,...,Provincia,Canal,EsSobreTurno,HoraTurno,FechaDiaOtorgado,HoraOtorgado,DifDias,DiaTurno,MesTurno,DiaTurnoNombre
0,2018-02-01,0.0,4,OTRO,213,KINESIOL Y FISIOTERAPIA,2018-02-01 07:30:00,Ausente,F,50,...,otro,,NO,07:30:00,2018-01-12,07:27:28.427000,20 days,3,2,Jueves
1,2018-02-01,0.0,4,OTRO,506,KINESIOL Y FISIOTERAPIA,2018-02-01 07:30:00,Atendido,M,36,...,otro,,NO,07:30:00,2018-01-16,10:01:43.983000,16 days,3,2,Jueves
2,2018-02-01,0.0,4,OTRO,213,KINESIOL Y FISIOTERAPIA,2018-02-01 07:30:00,Atendido,F,69,...,otro,,NO,07:30:00,2018-01-24,13:01:56.890000,8 days,3,2,Jueves
3,2018-02-01,0.0,4,OTRO,213,KINESIOL Y FISIOTERAPIA,2018-02-01 07:30:00,Ausente,M,35,...,cordoba,,NO,07:30:00,2018-01-23,17:23:36.427000,9 days,3,2,Jueves
4,2018-02-01,0.0,4,OTRO,506,KINESIOL Y FISIOTERAPIA,2018-02-01 07:30:00,Ausente,M,45,...,cordoba,,NO,07:30:00,2018-01-23,09:02:10.713000,9 days,3,2,Jueves


## Opcional

#### Despersonalizacion HC

In [80]:
from hashlib import md5

In [81]:
def hashit(val):
    if isinstance(val, float): 
        return  md5(str(val).encode('utf-8')).hexdigest() 
    elif isinstance(val, int): 
        return  md5(str(val).encode('utf-8')).hexdigest() 
    return md5(val.encode('utf-8')).hexdigest()


In [None]:
df_1_1['HC_hash']=df_1['HC'].apply(hashit)

In [None]:
df_1_1.HC_hash.unique()

#### Despersonalizacion Recurso

In [None]:
df_1_1['Recurso_hash']=df_1['Recurso'].apply(hashit)

In [None]:
df_1_1.Recurso_hash.value_counts()

In [None]:
df_1_1

# Test de Integridad

In [None]:
def test1(df_1):
    """
    Devuelve 0 si el test es exitoso, y 1 si el test falla
    """
    data_filter1 = df_1[(df_1.CentroDeAtencion < 0)]
    if len(data_filter1) == 0: 
        return 0 
    else:  return 1   

In [None]:
def test2(df_1):
    """
    Devuelve 0 si el test es exitoso, y 1 si el test falla
    """
    data_filter1 = df_1[(df_1.Recurso < 0)]
    if len(data_filter1) == 0: 
        return 0 
    else:  return 1   

In [None]:
def test3(df_1):
    """
    Devuelve 0 si el test es exitoso, y 1 si el test falla
    """
    data_filter1 = df_1[(df_1.Edad < 0)]
    if len(data_filter1) == 0: 
        return 0 
    else:  return 1   

In [None]:
def test4(df_1):
    """
    Devuelve 0 si el test es exitoso, y 1 si el test falla
    """
    data_filter1 = df_1[(df_1.HC < 0)]
    if len(data_filter1) == 0: 
        return 0 
    else:  return 1   

In [None]:
 def test_integridad(df):
    """
    Ejecuta uno por uno los tests e informa el resultado
    """
    print('Test 1: %s' % ('ERROR' if test1(df) else 'EXITOSO'))
    print('Test 2: %s' % ('ERROR' if test2(df) else 'EXITOSO'))
    print('Test 3: %s' % ('ERROR' if test2(df) else 'EXITOSO'))  
    print('Test 4: %s' % ('ERROR' if test2(df) else 'EXITOSO'))
    return

In [None]:
test_integridad(df_1)

In [None]:
df_1_1.EsSobreTurno.unique()