# Objetivo y alcance
En esta segunda aproximación (que suele ir de la mano con el análisis exploratorio y visualización) se pretende empezar a transformar el dataset para los primeros experimentos de aprendedores en las siguientes materias.

En este laboratorio el primer gran objetivo va a ser lograr un único dataset con columnas nuevas, que condense toda la información importante para el posterior entrenamiento y aprendizaje que permitirá conocer si algunas de las variables incluidas en el mismo tienen influencia sobre la problemática que nos atañe.

## Lista de tareas

1.   Verificar la información brindada por el dataset a partir del práctico n°1. ¿Hay algo que les haya llamado la atención y consideran que puede estar mal tomado el dato, o sesgado? La inclusión del mismo, ¿podría generar problemas a futuro? Tomar una decisión por cada dato o información que consideren no fiable y justificar su respuesta.
2.   Verificar y asegurar que no existan datos duplicados.
3.   Verificar que no existan caracteres "raros" para los datos de las variables de especialidad (msp_name) y nombre de especialistas (doc_full_name).
4.   A partir de los valores faltantes reconocidos en el práctico N° 1 se deberán proponer dos soluciones posibles para trabajar con estos datos. En este punto deberán ejecutar ambas soluciones y fundamentar su aplicación. Además, deberán elegir una para obtener su dataset final, explicando su elección.
5.   Hay algunas variables que contienen datos de texto pero no están normalizados, como por ejemplo "msp_name", donde encontramos que ginecología puede estar escrita como "GINECOLOGÍA", "ginecologia", "ginecologa", entre otras variantes. Es importante aplicar alguna técnica para unificar estos datos. Se recomienda el uso de [regex](https://regexr.com/).
6.   Outliers: ¿Existen valores atípicos en las columnas del dataset? A partir del análisis del práctico n°1 aplicar una solución para manejar solo esos outliers.
7.   A partir de la exploración del práctico n°1, ¿qué variables nuevas se les ocurre que pueden generar y sean de importancia pensando en el problema de investigación planteado?. Se espera que puedan construir al menos 3 variables nuevas a partir de la información contenida en la base de datos (pueden usar las generadas en el práctico 1 pero es importante que se justifique por qué son interesantes de considerar respecto al problema).
8.   Reconocer las relaciones entre las distintas variables con la feature target del problema a resolver en el práctico 3.
9.   Si tuvieran que agregar datos que no son posibles de extraer a partir de la información que brinda el dataset, y que pueden suponer una gran influencia en nuestra variable objetivo, ¿Qué datos utilizarían? ¿Cómo plantearían su obtención? (teórico)
10.  A partir del práctico n°1 pudieron observar algunas clases que se encuentran desbalanceadas en el dataset. Pensando en el práctico siguiente y la variable target para predecir la asistencia de turnos médicos (attendance), ¿Consideran que la misma se encuentra desbalanceada? ¿Creen que esto podría afectar de alguna manera la predicción? En el caso de estar desbalanceada, ¿Tratarían de aplicar alguna técnica de balanceo? De ser positiva la respuesta se les invita a explorar las diversas técnicas de balanceo de datos y elegir la que consideren más adecuada para este caso justificando su respuesta. (sólo dejar en el práctico la técnica elegida)
11.   Para trabajar con datos sensibles y confidenciales es de gran importancia utilizar técnicas de despersonalización o anonimización de datos. Si quisieran proteger los nombres de especialistas y hospitales, ¿qué técnicas se les ocurren? Pueden mencionar varias, pero es de gran importancia que pueden aplicar al menos una sobre el dataset (es solo a fines de poner en práctica lo aprendido en clase, luego ese dataset anonimizado no será utilizado para el práctico 3)
12.   Guardar el dataset resultante con un nuevo nombre (sin la técnica de anonimización aplicada en el punto 11) para trabajarlo más adelante.

# Se evaluarán los siguientes aspectos:
  
1- Que se apliquen los conceptos vistos con los profes en el teórico y en el práctico.

2- Que el entregable no sea solo la notebook. El informe debe tener un mensaje claro y debe presentarse en un formato legible para cualquier tipo de stakeholder. Además, se deberá entregar el dataset trabajado.

3- Capacidad de Análisis y justificación. Proactividad en la profundización de los análisis.

4- Criterio para elegir que solución aplicar en cada caso y con qué método implementarla.

5- Calidad y estilo de código.


Deadline tentativo para la entrega 29/07/2024

### **Cargando el dataset**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import missingno as msno
%matplotlib inline

In [None]:
df=pd.read_csv("https://raw.githubusercontent.com/kunan-sa/mentoria_2024/master/dataset/base_asistencia_anon.csv", encoding='utf8')
df=df.drop(columns=['Unnamed: 0'])
df_original = df.copy()
df_original

Unnamed: 0,doc_id,doc_full_name,msp_name,msp_id,hos_id,heq_id,hin_name,hin_id,age_avg,dni_asistance_rate,...,msp_asistance_rate,hosheq_asistance_rate,app_start_dt,action_A_count,action_B_count,action_C_count,app_days_gap,patient_id,event_id,attendance
0,215,Carmen Sánchez,Neurologa,159,Hospital Dragonstone,3,PAMI INSTNACSERVSOCJUBY PENSPAMI,0,77.0,72.727273,...,71.085359,69.875045,2023-06-23 15:40:00.000,11,2,4,39,75571,290588,0
1,1855,Sofía García,CARDIOLOGIA INFANTIL,141,Instituto Harrenhal,12,OSDE,0,7.0,50.000000,...,75.919732,85.898672,2023-07-18 09:00:00.000,1,0,0,48,374820,3590242,0
2,215,Carmen Sánchez,Neurologa,159,Hospital Dragonstone,3,PAMI INSTNACSERVSOCJUBY PENSPAMI,0,60.0,37.500000,...,71.085359,69.875045,2023-10-10 13:40:00.000,10,0,2,33,72497,320006,0
3,3,Arizona Robbins,GINECOLOGIA Y OBSTETRICIA,14,Centro médico Casterly Rock,5,OSDE,0,34.0,50.000000,...,86.914721,84.586035,2023-08-23 18:20:00.000,11,0,0,1,12341,597903,1
4,43,Graham Pritchard,Ginecologa,151,Hospital Dragonstone,3,PAMI INSTNACSERVSOCJUBY PENSPAMI,0,60.0,100.000000,...,71.529776,69.875045,2023-07-27 16:15:00.000,4,0,0,13,86202,305566,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
47083,1617,Freya Turner Wood,GINECOLOGIA Y OBSTETRICIA,158,Instituto Harrenhal,19,IAPOS,0,24.0,83.333333,...,79.289971,77.061250,2023-08-31 18:15:00.000,2,1,0,15,396416,3699737,1
47084,130,Antonio Acosta,Holter,129,Hospital Dragonstone,3,POLICIA FEDERAL SUPERINTENDENCIA POLICIA FEDE...,0,50.0,66.666667,...,84.216867,69.875045,2023-07-31 13:30:00.000,10,1,0,16,5963,305688,1
47085,1624,Catelyn Stark,REUMATOLOGIA,160,Dorne,3,POLICIA FEDERAL,0,54.0,100.000000,...,64.864865,77.426536,2023-08-14 13:40:00.000,3,0,1,51,736981,2950263,1
47086,52,Marietta Edgecombe,OFTALMOLOGIA,30,Centro médico Casterly Rock,2,PREVENCION SALUD,0,24.0,50.000000,...,78.624535,84.931412,2023-07-24 17:20:00.000,2,0,0,4,40627,583923,1
