<a href="https://colab.research.google.com/github/manufabregas/Dataset-Asistencia-a-turnos-m-dicos/blob/main/Pr%C3%A1ctico_1_An%C3%A1lisis_y_visualizaci%C3%B3n_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción
### **Descripción del problema**
En una clínica hay tareas que son rutinarias y automatizables y otras que no. La gente que va a una clínica llega con distintos problemas a resolver, con distintos grados de urgencia.
En mi equipo de la empresa Kunan pensamos una solución para las tareas de urgencia baja y que tienen gran potencial de automatización, con el espíritu de que eso libere la carga a personas de tener trabajos repetitivos, para que estas personas se puedan enfocar en los casos más urgentes o que necesiten expertise humano.

Un trabajo repetitivo que se presenta en un entorno clínica es el de atender a pedidos por:
*   **sacar un turno** para un médico de una especialidad, en una sede, en un horario.
*   **consultar los turnos** vigentes que un paciente tiene.
*   **cancelar un turno vigente**

Nosotrxs ofrecemos como producto un chatbot, o asistente conversacional, que usa Machine Learning para poder mantener una conversación y realizar acciones. Además de ocuparse de esas tres tareas principales, se le agregan
*  hablar con un humano (lo que nosotres llamamos handoff) a través del mismo canal de comunicación.
*  responder preguntas frecuentes (¿dónde queda la clínica? ¿qué horarios de atención tienen? ¿qué médicos hay?)
*  poner en contacto con un agente humano ante una emergencia
*  brindar un espacio para dejar sugerencias y reclamos
*  brindar videos instructivos sobre las distintas funciones a partir de la solicitud de **ayuda**

La funcionalidad de handoff es muy importante ya que una de las características innatas de los modelos de Machine Learning es que pueden fallar. Un fallo en un bot conversacional se ve como: no entender la intención detrás de una expresión del usuarie, no poder reconocer y extraer correctamente entidades (como lo son nombres de personas, dnis, teléfonos, especialidades médicas, etc), o perder el hilo de una conversación. Para que en estos casos la persona usuaria tenga una forma de suplir la necesidad que la llevó a hablar con el bot, ofrecemos una integración con un sistema de mensajería directo con operadores humanos.

En la mayoría de las clínicas la gente realiza estas acciones enlistadas hablando con un asistente directamente, a travésen términos de interfaces gráficas como la de un sitio web es algo con un poco más de tradición dentro del desarrollo de productos de software, sobre todo en comparación a las interfaces conversacionales. Whatsapp tiene, especialmente en latinomérica, gran adopción por parte de las personas, que están acostumbradas a usarlo como una interfaz conversacional para el acceso a múltiples servicios.

Un asistente conversacional ofrece una interfaz textual conversacional para la toma de acciones. En vez de apretar botones las personas van guiando a un chatbot a través de opciones en formularios.

Este producto tiene ese desafío doble: ser un producto de NLP en español y ser un producto de Datos en la industria.


### **Motivación**
La asistencia a turnos médicos es esencial para la calidad del cuidado del paciente y la eficiencia de los recursos médicos. La no asistencia puede desperdiciar tiempo y recursos, y afectar negativamente la salud de los pacientes.

Con el avance en análisis de datos y técnicas de predicción, es posible anticipar la probabilidad de que un paciente falte a su cita. Predecir estas ausencias permite implementar estrategias como recordatorios personalizados y reprogramación proactiva, beneficiando tanto a pacientes como a proveedores de servicios de salud.

En esta serie de prácticos, desarrollaremos y evaluaremos modelos predictivos utilizando datos históricos de citas médicas. Exploraremos y prepararemos estos datos, construyendo modelos para predecir la asistencia y evaluando su efectividad. Nuestro objetivo es mejorar la gestión de citas médicas, reducir ausencias y contribuir a un sistema de salud más eficiente.

### **Descripción del dataset**
El dataset con el que trabajaremos este práctico consta de 47k filas (47088 para ser específicos) y 21 columnas. Corresponde a datos provenientes de turnos médicos, con el comportamiento final de si la persona asistió o no (attendance). Estos datos fueron extraídos a partir de las conversaciones que tienen las personas con el asistente conversacional, a partir del canal de Whatsapp. El dataset presentado corresponde al periodo desde el 11 de abril de 2023 al 30 de noviembre.

El significado de cada columna es el siguiente:
*  **doc_id**: Es el ID único que tiene cada médicx en cada clínica y sede.
*  **doc_full_name**: Nombre y apellido de cada especialista anonimizado.
*  **msp_name**: Nombre de la especialidad médica.
*  **msp_id**: ID de la especialidad médica único en cada clínica y sede.
*  **hos_id**: Nombre de la clínica anonimizado.
*  **heq_id**: ID de la sede de cada clínica. Hay algunos centros médicos que son monosede y otros multisede.
*  **hin_name**: Nombre de la obra social, particular o servicio de seguro de salud con el cual realiza la consulta médica.
*  **hin_id**: ID del hin_name el cual resulta único en cada clínica y sede.
*  **age_avg**: Estimación del promedio de edad calculado a partir del DNI de lxs pacientes.
*  **dni_asistance_rate**: Tasa de asistencia de cada paciente. Cantidad de turnos que ha asistido cada paciente históricamente/Cantidad de turnos que ha sacado cada paciente históricamente*100.
*  **doc_asistance_rate**: Tasa de asistencia de cada especialista por hospital y sede. Cantidad de pacientes que han asistido históricamente por especialista/Cantidad de pacientes que han sacado turno históricamente por especialista*100.
*  **msp_asistance_rate**: Tasa de asistencia de cada especialidad médica por hospital y sede. Cantidad de pacientes que han asistido históricamente por especialidad/Cantidad de pacientes que han sacado turno históricamente por especialidad*100.
*  **hosheq_asistance_rate**: Tasa de asistencia global de cada hospital y sede. Cantidad de pacientes que han asistido históricamente por hospital y sede/Cantidad de pacientes que han sacado turno históricamente por hospital y sede*100.
*  **app_start_dt**: Fecha del turno médico.
*  **action_A_count**: Cantidad de turnos sacados históricamente por el paciente a través del asistente conversacional.
*  **action_B_count**: Cantidad de turnos cancelados históricamente por el paciente a através del asistente conversacional.
*  **action_C_count**: Cantidad de veces que el paciente consultó su turno (ver citas pendientes).
*  **app_days_gap**: Distancia en días entre la fecha en que la persona realizó la solicitud del turno y la fecha del turno efectivamente.
*  **patient_id**: ID único de cada paciente dentro de cada clínica y sede.
*  **event_id**: ID **único** de cada turno médico global.  
*  **attendance**: Variable que indica 0 si la persona no asistió a su turno programado y 1 si la persona asistió.

### **Cargando el dataset**

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import missingno as msno
%matplotlib inline

In [2]:
df=pd.read_csv("https://raw.githubusercontent.com/kunan-sa/mentoria_2024/master/dataset/base_asistencia_anon.csv", encoding='utf8')
df=df.drop(columns=['Unnamed: 0'])
df_orignial = df.copy()

### Viendo un par de ejemplos para conocer la base

In [3]:
#Revisando la base
df.head(5)

Unnamed: 0,doc_id,doc_full_name,msp_name,msp_id,hos_id,heq_id,hin_name,hin_id,age_avg,dni_asistance_rate,...,msp_asistance_rate,hosheq_asistance_rate,app_start_dt,action_A_count,action_B_count,action_C_count,app_days_gap,patient_id,event_id,attendance
0,215,Carmen Sánchez,Neurologa,159,Hospital Dragonstone,3,PAMI INSTNACSERVSOCJUBY PENSPAMI,0,77.0,72.727273,...,71.085359,69.875045,2023-06-23 15:40:00.000,11,2,4,39,75571,290588,0
1,1855,Sofía García,CARDIOLOGIA INFANTIL,141,Instituto Harrenhal,12,OSDE,0,7.0,50.0,...,75.919732,85.898672,2023-07-18 09:00:00.000,1,0,0,48,374820,3590242,0
2,215,Carmen Sánchez,Neurologa,159,Hospital Dragonstone,3,PAMI INSTNACSERVSOCJUBY PENSPAMI,0,60.0,37.5,...,71.085359,69.875045,2023-10-10 13:40:00.000,10,0,2,33,72497,320006,0
3,3,Arizona Robbins,GINECOLOGIA Y OBSTETRICIA,14,Centro médico Casterly Rock,5,OSDE,0,34.0,50.0,...,86.914721,84.586035,2023-08-23 18:20:00.000,11,0,0,1,12341,597903,1
4,43,Graham Pritchard,Ginecologa,151,Hospital Dragonstone,3,PAMI INSTNACSERVSOCJUBY PENSPAMI,0,60.0,100.0,...,71.529776,69.875045,2023-07-27 16:15:00.000,4,0,0,13,86202,305566,1


In [4]:
# #Revisando tipos de datos en cada columna
df.dtypes

doc_id                     int64
doc_full_name             object
msp_name                  object
msp_id                     int64
hos_id                    object
heq_id                     int64
hin_name                  object
hin_id                     int64
age_avg                  float64
dni_asistance_rate       float64
doc_asistance_rate       float64
msp_asistance_rate       float64
hosheq_asistance_rate    float64
app_start_dt              object
action_A_count             int64
action_B_count             int64
action_C_count             int64
app_days_gap               int64
patient_id                 int64
event_id                   int64
attendance                 int64
dtype: object

In [5]:
#Panorama rápido del dataset
df.describe(include='all')

Unnamed: 0,doc_id,doc_full_name,msp_name,msp_id,hos_id,heq_id,hin_name,hin_id,age_avg,dni_asistance_rate,...,msp_asistance_rate,hosheq_asistance_rate,app_start_dt,action_A_count,action_B_count,action_C_count,app_days_gap,patient_id,event_id,attendance
count,47088.0,47088,47088,47088.0,47088,47088.0,47088,47088.0,47088.0,47034.0,...,47086.0,47088.0,47088,47088.0,47088.0,47088.0,47088.0,47088.0,47088.0,47088.0
unique,,612,107,,6,,224,,,,...,,,10164,,,,,,,
top,,Carmen Sánchez,TRAUMATOLOGIA,,Centro Winterfell,,PAMI INSTNACSERVSOCJUBY PENSPAMI,,,,...,,,2023-07-11 10:00:00.000,,,,,,,
freq,,789,4212,,13751,,7103,,,,...,,,24,,,,,,,
mean,993.035487,,,151.059166,,4.369882,,2828.434782,78.955212,69.136019,...,73.432499,73.737895,,7.616081,1.561374,1.410911,21.103317,272103.011319,2067244.0,0.682552
std,761.043398,,,54.922554,,3.905375,,3861.789238,268.812266,35.54574,...,16.100785,15.216013,,7.54479,3.318205,3.897998,18.259299,255599.375664,1451172.0,0.465488
min,2.0,,,6.0,,1.0,,0.0,7.0,0.0,...,0.0,20.803002,,1.0,0.0,0.0,0.0,6.0,272842.0,0.0
25%,130.0,,,143.0,,2.0,,0.0,30.0,50.0,...,70.071648,69.875045,,3.0,0.0,0.0,6.0,55443.0,331780.5,0.0
50%,1016.0,,,150.0,,3.0,,0.0,44.0,80.0,...,78.256071,78.480204,,5.0,0.0,0.0,15.0,137476.5,2951014.0,1.0
75%,1583.0,,,167.0,,4.0,,8068.0,60.0,100.0,...,83.118866,81.196569,,10.0,2.0,1.0,34.0,481387.0,3099168.0,1.0


### Conociendo los turnos por hospital

In [6]:
#Nombres de hospitales
df.hos_id.unique()

array(['Hospital Dragonstone', 'Instituto Harrenhal',
       'Centro médico Casterly Rock', 'Centro Winterfell',
       'Consultorios Poniente', 'Dorne'], dtype=object)

In [7]:
#Turnos médicos en Dorne
df[df['hos_id']=='Dorne'].head(3)

Unnamed: 0,doc_id,doc_full_name,msp_name,msp_id,hos_id,heq_id,hin_name,hin_id,age_avg,dni_asistance_rate,...,msp_asistance_rate,hosheq_asistance_rate,app_start_dt,action_A_count,action_B_count,action_C_count,app_days_gap,patient_id,event_id,attendance
92,1817,Marcus Belby,GASTROENTEROLOGIA,196,Dorne,3,GALENO,0,30.0,50.0,...,73.595506,77.426536,2023-08-03 19:50:00.000,8,2,5,48,621323,2944247,1
94,1656,Teddy Altman,TRAUMATOLOGIA INFANTIL,252,Dorne,3,PARTICULAR,0,7.0,100.0,...,89.198606,77.426536,2023-07-11 17:30:00.000,3,0,0,8,694337,2959496,1
95,1712,Jaqen H'ghar,CARDIOLOGIA PEDIATRICA,231,Dorne,3,OSPE,0,7.0,100.0,...,77.0,77.426536,2023-07-26 16:10:00.000,1,0,0,22,751765,2960684,1


In [8]:
#Cantidad de sedes de Dorne
df[df['hos_id']=='Dorne'].heq_id.unique()

array([3])

## **Ejercicios propuestos**

### Ejercicio 1: Descripción y visualización del dataset
Describa el dataset con sus propias palabras. ¿Cuáles son los tipos de datos que hay en el dataset? ¿Hay columnas derivadas de otras? ¿Encuentra dificultades a priori para entender alguna de las columnas del dataset? ¿Existen valores nulos o que no correspondan dentro de cada feature?
¿Cuántos y cuáles son los hospitales que se encuentran en el dataset?¿Cuántas sedes? ¿Están los mismos hospitales a lo largo del tiempo? ¿Todos los hospitales atienden las mismas especialidades?
Argumente sus respuestas con ejemplos concretos y gráficos.

In [9]:
#Analizaremos los tipo de datos de las columnas:
df.dtypes

doc_id                     int64
doc_full_name             object
msp_name                  object
msp_id                     int64
hos_id                    object
heq_id                     int64
hin_name                  object
hin_id                     int64
age_avg                  float64
dni_asistance_rate       float64
doc_asistance_rate       float64
msp_asistance_rate       float64
hosheq_asistance_rate    float64
app_start_dt              object
action_A_count             int64
action_B_count             int64
action_C_count             int64
app_days_gap               int64
patient_id                 int64
event_id                   int64
attendance                 int64
dtype: object

In [10]:
#Analizaremos los valores faltantes
df.isnull().sum()

doc_id                    0
doc_full_name             0
msp_name                  0
msp_id                    0
hos_id                    0
heq_id                    0
hin_name                  0
hin_id                    0
age_avg                   0
dni_asistance_rate       54
doc_asistance_rate        3
msp_asistance_rate        2
hosheq_asistance_rate     0
app_start_dt              0
action_A_count            0
action_B_count            0
action_C_count            0
app_days_gap              0
patient_id                0
event_id                  0
attendance                0
dtype: int64

In [11]:
#Observamos algunos datos en la col doc_full_name que fueron rellenados con "NaN" (No nos afecta porque tenemos los doc_id completos)
df['doc_full_name']="NaN"
df.tail(5)

Unnamed: 0,doc_id,doc_full_name,msp_name,msp_id,hos_id,heq_id,hin_name,hin_id,age_avg,dni_asistance_rate,...,msp_asistance_rate,hosheq_asistance_rate,app_start_dt,action_A_count,action_B_count,action_C_count,app_days_gap,patient_id,event_id,attendance
47083,1617,,GINECOLOGIA Y OBSTETRICIA,158,Instituto Harrenhal,19,IAPOS,0,24.0,83.333333,...,79.289971,77.06125,2023-08-31 18:15:00.000,2,1,0,15,396416,3699737,1
47084,130,,Holter,129,Hospital Dragonstone,3,POLICIA FEDERAL SUPERINTENDENCIA POLICIA FEDE...,0,50.0,66.666667,...,84.216867,69.875045,2023-07-31 13:30:00.000,10,1,0,16,5963,305688,1
47085,1624,,REUMATOLOGIA,160,Dorne,3,POLICIA FEDERAL,0,54.0,100.0,...,64.864865,77.426536,2023-08-14 13:40:00.000,3,0,1,51,736981,2950263,1
47086,52,,OFTALMOLOGIA,30,Centro médico Casterly Rock,2,PREVENCION SALUD,0,24.0,50.0,...,78.624535,84.931412,2023-07-24 17:20:00.000,2,0,0,4,40627,583923,1
47087,1722,,CLINICA MEDICA,148,Instituto Harrenhal,4,PLAN DE SALUD SSF,0,17.0,80.0,...,79.583333,79.405091,2023-08-15 11:15:00.000,8,2,4,19,370340,3669686,1


In [12]:
#Observamos que se rellenan con 0 muchas veces la obra social por error o por desconocimiento. Mencionamos algunos ejemplos
grouped_hin=df[['hin_id',"hin_name"]]
grouped_hin = grouped_hin.groupby(['hin_id', 'hin_name'],as_index=False).count()
# grouped_hin.head(5)

grouped_hin[grouped_hin['hin_name']=='APROSS']
# grouped_hin[grouped_hin['hin_name']=='OSPM']
# grouped_hin[grouped_hin['hin_name']=='BOREAL']

Unnamed: 0,hin_id,hin_name
14,0,APROSS
228,8070,APROSS


In [13]:
cant_hosp = df['hos_id'].unique()

print(f'La cantidad de hospitales son: {len(cant_hosp)}')
print(f'Los nombres de los hospitales son: {cant_hosp.tolist()}')

# Agrupamos los hospitales y sedes
sedes_hosp = df.copy()[["hos_id", 'heq_id']].drop_duplicates()
hospital_counts = sedes_hosp.groupby('hos_id', as_index=False)['heq_id'].count()

hospital_counts.rename(columns={'heq_id': 'count_heq_id'}, inplace=True)

# Hospitales con una sede vs hospital con más sedes
hospital_con_1_heq_id = hospital_counts[hospital_counts['count_heq_id'] == 1]
hospital_mas_heq_id = hospital_counts.loc[hospital_counts['count_heq_id'].idxmax()]

print(f'Hospitales con solo un heq_id: {hospital_con_1_heq_id["hos_id"].tolist()}')
print(f'El hospital con más sedes es el: {hospital_mas_heq_id["hos_id"]} con {hospital_mas_heq_id["count_heq_id"]} sedes.')

#Volvemos a agrupar para visualizar los hospitales y cantidad de sedes
sedes_hosp=sedes_hosp.groupby(["hos_id"],as_index=False)['heq_id'].count()
sedes_hosp.sort_values('heq_id',ascending=False)

La cantidad de hospitales son: 6
Los nombres de los hospitales son: ['Hospital Dragonstone', 'Instituto Harrenhal', 'Centro médico Casterly Rock', 'Centro Winterfell', 'Consultorios Poniente', 'Dorne']
Hospitales con solo un heq_id: ['Consultorios Poniente', 'Dorne', 'Hospital Dragonstone']
El hospital con más sedes es el: Instituto Harrenhal con 10 sedes.


Unnamed: 0,hos_id,heq_id
5,Instituto Harrenhal,10
0,Centro Winterfell,3
1,Centro médico Casterly Rock,2
2,Consultorios Poniente,1
3,Dorne,1
4,Hospital Dragonstone,1


In [14]:
#A partir de las fechas del turno y los hospitales, analizaremos el comportamiento de los turnos a lo largo de los meses.

import plotly.express as px

base_turnos=df.copy()[['hos_id','app_start_dt','msp_name']]
base_turnos['app_start_dt'] = pd.to_datetime(base_turnos['app_start_dt'])
base_turnos['periodo'] = base_turnos['app_start_dt'].dt.to_period('M').astype(str)
base_turnos#['msp_name'].unique()

Unnamed: 0,hos_id,app_start_dt,msp_name,periodo
0,Hospital Dragonstone,2023-06-23 15:40:00,Neurologa,2023-06
1,Instituto Harrenhal,2023-07-18 09:00:00,CARDIOLOGIA INFANTIL,2023-07
2,Hospital Dragonstone,2023-10-10 13:40:00,Neurologa,2023-10
3,Centro médico Casterly Rock,2023-08-23 18:20:00,GINECOLOGIA Y OBSTETRICIA,2023-08
4,Hospital Dragonstone,2023-07-27 16:15:00,Ginecologa,2023-07
...,...,...,...,...
47083,Instituto Harrenhal,2023-08-31 18:15:00,GINECOLOGIA Y OBSTETRICIA,2023-08
47084,Hospital Dragonstone,2023-07-31 13:30:00,Holter,2023-07
47085,Dorne,2023-08-14 13:40:00,REUMATOLOGIA,2023-08
47086,Centro médico Casterly Rock,2023-07-24 17:20:00,OFTALMOLOGIA,2023-07


In [15]:
#Visualizamos la cantidad de turnos por Hospital
mayores_turnos=base_turnos.copy()
mayores_turnos=mayores_turnos.groupby(['hos_id'],as_index=False)['msp_name'].count().sort_values('msp_name',ascending=False)
mayores_turnos

Unnamed: 0,hos_id,msp_name
0,Centro Winterfell,13751
4,Hospital Dragonstone,11987
5,Instituto Harrenhal,10377
1,Centro médico Casterly Rock,4650
2,Consultorios Poniente,3167
3,Dorne,3156


In [16]:
#Visualizamos la cantidad de turnos por Hospital a lo largo de los periodos del dataset
import plotly.express as px

fechas_turnos=base_turnos.copy().groupby(['hos_id','periodo'],as_index=False)['app_start_dt'].count()

fig = px.bar(fechas_turnos, x='periodo', y='app_start_dt', color='hos_id',
             labels={'periodo': 'Mes', 'app_start_dt': 'Cantidad de Turnos', 'hos_id': 'ID del Hospital'},
             title='Turnos por Mes por Hospital',
             color_discrete_sequence=px.colors.qualitative.Pastel)
fig.update_traces(texttemplate='%{y}', textposition='outside')

fig.show()


In [17]:
#Ahora analizaremos las especialidades de los hospitales
especialidad_turnos=base_turnos.copy().groupby(['hos_id','msp_name'],as_index=False)['app_start_dt'].count()
print(f'La cantidad de especialidades en total son: {especialidad_turnos["msp_name"].nunique()}')
# especialidad_turnos.head(2)


La cantidad de especialidades en total son: 107


In [18]:
#Analizaremos los hospitales y sus especialidades en detalle
cant_especialidad=especialidad_turnos.copy().groupby(['hos_id','msp_name'],as_index=False)['app_start_dt'].count()
cant_especialidad=cant_especialidad.groupby(['hos_id'],as_index=False)['msp_name'].count()
cant_especialidad.head(5)

Unnamed: 0,hos_id,msp_name
0,Centro Winterfell,49
1,Centro médico Casterly Rock,21
2,Consultorios Poniente,19
3,Dorne,33
4,Hospital Dragonstone,29


In [64]:
#Analizaremos las especialidades por cada hospital
espec_unicas = especialidad_turnos.copy()[['hos_id', 'msp_name']]
# espec_unicas.head(2)

In [27]:
#Analizaremos las especialidades de cada hospital
espec_unicas_por_hospital = espec_unicas.groupby('hos_id')['msp_name'].unique().reset_index()
espec_unicas_por_hospital

Unnamed: 0,hos_id,msp_name
0,Centro Winterfell,"[ALERGIA, CARDIOLOGIA, CARDIOLOGIA PEDIATRICA,..."
1,Centro médico Casterly Rock,"[CARDIOLOGIA, CARDIOLOGIA ERGOMETRIA, CARDIOLO..."
2,Consultorios Poniente,"[CARDIOLOGIA, CIRUGIA, CLINICA MEDICA, DIABETO..."
3,Dorne,"[ALERGIA, CARDIOLOGIA, CARDIOLOGIA PEDIATRICA,..."
4,Hospital Dragonstone,"[Alergia, Cabeza y Cuello, Cardiologa, Ciruga ..."
5,Instituto Harrenhal,"[ALERGIA, CARDIOLOGIA, CARDIOLOGIA INFANTIL, C..."


In [32]:
#Contamos las especialidades únicas como están en el dataframe y nos quedamos con las que sean únicas (igual a 1) y las hacemos lista, para luego filtrarlas del df:
especialidades_conteo = espec_unicas['msp_name'].value_counts()
especialidades_unicas = especialidades_conteo[especialidades_conteo == 1].index
espec_unicas = espec_unicas[espec_unicas['msp_name'].isin(especialidades_unicas)]

# Agrupamos por hospital las especialidades únicas
espec_unicas_por_hospital = espec_unicas.groupby('hos_id')['msp_name'].unique().reset_index()
espec_unicas_por_hospital['cantidad_unicas'] = espec_unicas_por_hospital['msp_name'].apply(len)
espec_unicas_por_hospital.sort_values("cantidad_unicas",ascending=False)

Unnamed: 0,hos_id,msp_name,cantidad_unicas
4,Hospital Dragonstone,"[Alergia, Cabeza y Cuello, Cardiologa, Ciruga ...",29
0,Centro Winterfell,"[CIRUGA BARIATRICA, CIRUGA GINECOLGICA, CIRUGA...",15
5,Instituto Harrenhal,"[CIRUGA INFANTIL, CIRUGA VASCULAR, CIRUGIA PLA...",8
2,Consultorios Poniente,"[DIABETOLOGIA, ECOCARDIOGRAMA, FISIATRIA, MAMO...",6
3,Dorne,"[ENDOCRINOLOGA, FLEBOLOGA CONS EXT, NEUROCIRUG...",6
1,Centro médico Casterly Rock,"[CARDIOLOGIA ERGOMETRIA, FONOAUD OTOEMISIONES ...",5


### **msp_name revisar existe Nutricin, NUTRICION, NUTRICIN INFANTIL, NUTRICION INFANTIL------------- tmb pasa: NEUMONOLOGIA, Neumonologa**

**En el dataset, existen todo tipo de datos desde campos numéricos enteros como los id de los doctores u hospitales, numéricos flotantes como las distintas tasas de asistencia o no asistencia y por último, campos de tipo texto/string como nombres de hospitales y obras sociales**

**Existen varias columnas relacionadas como códigos únicos (id) y nombres relacionados de los id.**

**En general, se entienden bien las columnas y descripcions, aunque existen algunas con nombres que no representan mucho a los valores como action_A_count, action_B_count y action_C_count, que creemos que serían convenientes de renombrar.**

**A priori creemos que existen "NaN" en la columna doc_full_name, pero entendemos que no es tan relevante saber el nombre del médico, pero sí tener aunque sea el ID del mismo. A priori creemos que la col hin_id se encuentra rellena de muchos  0 lo cual no condicen con hin_name. Es algo que averiguaremos en el desarrollo.**




### Ejercicio 2: Exploración
Explorando el dataset, puede reconocer a priori "clases/categorías de datos", que podrían considerar de importancia? Por dar un ejemplo: turnos durante la mañana y turnos durante la tarde. Otro ejemplo: turnos sacados por personas mayores a 60 y menores a 60. Intente reconocer al menos tres categorías y a partir de estas responder para cada una: ¿está representada esta categoría de forma balanceada en el dataset? Para argumentar su respuesta realice un gráfico que muestre la distribución de esta clase. ¿Qué hipótesis puede generar a partir de estas observaciones? ¿Qué consecuencias a nivel investigación puede tener si esta clase reconocida tiene esa distribución en el dataset?

Además, en este ejercicio es importante que formule preguntas que puedan responderse a partir de los datos presentados, por ejemplo:
-  ¿Hay hospitales que le dé la sensación de que son más grandes y otros más pequeños? ¿Por qué?
-  ¿Hay especialidades que presentan mayor tasa de asistencia que otras? ¿A qué puede deberse?
-  ¿Hay especialistas que presenten menor tasa de asistencia que otras?

Estas preguntas son disparadoras para que sigan explorando el dataset y puedan contestar. Además, se espera que puedan formular una nueva pregunta o hipótesis a partir de lo observado en el dataset o respondido en las preguntas anteriores.

Antes de comenzar y a partir de las visualizaciones del punto anterior, comenzaremos a realizar un análisis en profundidad, por lo que haremos algunas modificaciones al df original para obtener mejores resultados

In [61]:
#Chequeamos que se puede eliminar la col check_doc, ya que solo contiene NaN
check_doc=df.copy().groupby(['doc_id','doc_full_name'])['msp_name'].count().reset_index()
check_doc=check_doc[check_doc['doc_full_name']!='NaN']
check_doc

Unnamed: 0,doc_id,doc_full_name,msp_name


In [63]:
#Transformaciones df original
df_exp_base=df.copy()

#Drop cols doc_full_name (vacío) y msp_id	(id propio de cada clínica)
df_exp_base=df_exp_base.drop(['doc_full_name','mesp_id'],axis=1)

#Rename
df_exp_base=df_exp_base.rename(columns={'action_A_count':'qt_sac_pac_asis',"action_B_count":"qt_canc_pac_asis",'action_C_count':'qt_cons'})

#Correcciones




df_exp_base.head(5)



Unnamed: 0,doc_id,msp_name,msp_id,hos_id,heq_id,hin_name,hin_id,age_avg,dni_asistance_rate,doc_asistance_rate,msp_asistance_rate,hosheq_asistance_rate,app_start_dt,qt_sac_pac_asis,qt_canc_pac_asis,qt_cons,app_days_gap,patient_id,event_id,attendance
0,215,Neurologa,159,Hospital Dragonstone,3,PAMI INSTNACSERVSOCJUBY PENSPAMI,0,77.0,72.727273,72.831978,71.085359,69.875045,2023-06-23 15:40:00.000,11,2,4,39,75571,290588,0
1,1855,CARDIOLOGIA INFANTIL,141,Instituto Harrenhal,12,OSDE,0,7.0,50.0,71.698113,75.919732,85.898672,2023-07-18 09:00:00.000,1,0,0,48,374820,3590242,0
2,215,Neurologa,159,Hospital Dragonstone,3,PAMI INSTNACSERVSOCJUBY PENSPAMI,0,60.0,37.5,72.831978,71.085359,69.875045,2023-10-10 13:40:00.000,10,0,2,33,72497,320006,0
3,3,GINECOLOGIA Y OBSTETRICIA,14,Centro médico Casterly Rock,5,OSDE,0,34.0,50.0,89.130435,86.914721,84.586035,2023-08-23 18:20:00.000,11,0,0,1,12341,597903,1
4,43,Ginecologa,151,Hospital Dragonstone,3,PAMI INSTNACSERVSOCJUBY PENSPAMI,0,60.0,100.0,76.271186,71.529776,69.875045,2023-07-27 16:15:00.000,4,0,0,13,86202,305566,1


### Ejercicio 3: Generación-Construcción en el dataset

- Calcule la cantidad de turnos sacados, consultados y cancelados por mes, por hospital y sede. Realice un gráfico con los resultados de estas cantidades. Interprete los resultados intentando esbozar hipótesis en el uso del asistente conversacional así como propios de cada hospital y contexto. Dado que los nombres de los hospitales están anonimizados y han sido reemplazados por lugares ficticios de "juego de tronos" le invitamos a qué, si así lo desea, pueda utilizar su creatividad para hipotetizar el por qué tales comportamientos.

- Calcular la cantidad deturnos sacados, consultados y cancelados por mes, por especialidad en el *Centro Winterfell*. Realice un gráfico con los resultados de estas cantidades. Interprete los resultados intentando esbozar hipótesis en el uso del asistente conversacional así como propios del hospital y contexto.

### Ejercicio 4: Investigación
Planteénse como grupo al menos una pregunta de investigación concreta que crean que el dataset dado puede responder, ¿Qué creen que podrían predecir con el dataset presentado?¿se les ocurre más de una idea? Es importante responder estas preguntas y desarrollarlas además de identificar la variable target para cada caso.
