# <img style="float: left; padding-right: 20px; width: 200px" src="attachment:logo.jpg">  IMT 2200 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Instituto de Ingeniería Matemática y Computacional**<br>
**Semestre:** 2024-2<br>
**Profesor:** Rodrigo A. Carrasco <br>

# <h1><center>Interrogación 2</center></h1>

## Instrucciones

* Esta parte de la Interrogación debe ser desarrollada completamente en lenguaje de programación Python en este Notebook de Jupyter.

* El desarrollo del Notebook debe ser claro y ordenado, incluyendo anotaciones (markdown) y comentarios que permitan seguir fácilmente el código y los pasos implementados, y siguiendo buenas prácticas de programación. <br>
* La entrega de la interrogación se realizará a través de Canvas en la actividad `I2 Desarrollo`.
* Esta Interrogación debe desarrollarse de manera totalmente *individual*, de acuerdo a lo establecido en la sección de Integridad Académica en el programa del curso.
* Está **estrictamente prohibido comunicarse con sus compañeros de curso o terceras personas** durante el desarrollo de esta interrogación.
* Puede consultar documentación online y apuntes del curso de todo tipo.
* Habrá sólo dos instancias para hacer preguntas, una al inicio de la prueba y otra a los 30 minutos de avance.<br>


* Ud. dispone de 1 hora para desarrollar esta interrogación.
* Recuerde **guardar frecuentemente sus avances** para evitar pérdidas de trabajo o problemas de envío.<br>

*** 
## Parte 2: Trabajo de Desarrollo (60 min y 100 puntos)

Esta parte de la Interrogación es un trabajo práctico con datos. En esta parte, cada pregunta debe ser respondida desarrollando un código por usted que le permita entregar una respuesta. **No se evaluarán respuestas sin código**.

En la siguiente celda puede poner las librerías que necesita para ir contestando las siguientes preguntas. No es obligatorio usar esta celda para ello, pero se deja disponible en caso que sea de utilidad. Siéntase libre de agregar celdas en cada pregunta según necesite.

In [1]:
import numpy as np
import numpy.random as rnd
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

## Datos

Para esta parte de la Interrogación estaremos usando dos bases de datos públicas del Gobierno de Chile.

Primero, usaremos una base de datos con la información de atenciones de urgencia en la Región del Maule para todo el 2023 (`AtencionesUrgenciaMaule2023.csv`).

Como segunda base, usaremos con una base de datos de información ambiental proveniente del Sistema de Información Nacional de Calidad del Aire (SINCA) que pueden encontrar acá https://sinca.mma.gob.cl/ (`datos_230101_231231.csv`), que tiene la calidad del aire para la ciudad de Cauquenes, en la Región del Maule, durante todo el 2023.

## 1. Limpieza y transformación

Realice las siguientes actividades para terminar con un DataFrames que estén limpios y listos para poder hacer las actividades posteriores.

### (*2 pt*) 1.1 Preparación DataFrame de Urgencias

Cargue los datos del archivo `AtencionesUrgenciaMaule2023.csv` en un DataFrame de pandas llamado `urgencias`. Revise el separador usado en el archivo para leerlo correctamente. Si obtiene un mensaje de error al leer el archivo (dependiendo de su sistema operativo y la configuración) puede usar el parámetro `encoding = "latin"` como parámetro en la lectura del archivo.

In [2]:
urgencias = pd.read_csv('data_2024\\AtencionesUrgenciaMaule2023.csv', sep = ',', encoding = "latin")
urgencias.head(5)

Unnamed: 0,IdEstablecimiento,NEstablecimiento,IdCausa,GlosaCausa,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas,...,semana,GLOSATIPOESTABLECIMIENTO,GLOSATIPOATENCION,GlosaTipoCampana,CodigoRegion,NombreRegion,CodigoDependencia,NombreDependencia,CodigoComuna,NombreComuna
0,16-107,Hospital de ConstituciÃ³n,40,"Trastornos neurÃ³ticos, trastornos relacionado...",0,0,0,0,0,0,...,27,Hospital,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7102,ConstituciÃ³n
1,16-954,SUR Mercedes,18,TOTAL TRAUMATISMOS Y ENVENENAMIENTO,0,0,0,0,0,0,...,27,SUR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7101,Talca
2,16-831,SAPU Carlos Trupp,35,Lesiones autoinfligidas intencionalmente (X60-...,0,0,0,0,0,0,...,27,SAPU,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7101,Talca
3,16-813,SAR Luis Tobar Rojas,40,"Trastornos neurÃ³ticos, trastornos relacionado...",3,0,0,0,3,0,...,27,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7109,San Clemente
4,16-954,SUR Mercedes,35,Lesiones autoinfligidas intencionalmente (X60-...,0,0,0,0,0,0,...,27,SUR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7101,Talca


### (*2 pt*) 1.2 Filtrado

Estamos interesados en conectar ambas bases de datos, por lo que debemos filtrar la base de Urgencias para dejar sólo la información de la ciudad de Cauquenes. Filtre el DataFrame anterior para dejar sólo las filas que tienen `Cauquenes` como `NombreComuna`. Mantengan el mismo nombre `urgencias` al DataFrame.

In [3]:
urgencias = urgencias[urgencias['NombreComuna']=='Cauquenes']
urgencias.head(5)

Unnamed: 0,IdEstablecimiento,NEstablecimiento,IdCausa,GlosaCausa,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas,...,semana,GLOSATIPOESTABLECIMIENTO,GLOSATIPOATENCION,GlosaTipoCampana,CodigoRegion,NombreRegion,CodigoDependencia,NombreDependencia,CodigoComuna,NombreComuna
25,16-829,SAR Dr. Juan Saavedra Macaya,20,Otras causas externas,6,1,0,0,5,0,...,27,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
26,16-111,Hospital San Juan de Dios (Cauquenes),20,Otras causas externas,9,0,0,0,7,2,...,27,Hospital,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
44,16-829,SAR Dr. Juan Saavedra Macaya,33,"- COVID-19, VIRUS NO IDENTIFICADO U07.2",0,0,0,0,0,0,...,27,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
45,16-111,Hospital San Juan de Dios (Cauquenes),33,"- COVID-19, VIRUS NO IDENTIFICADO U07.2",0,0,0,0,0,0,...,27,Hospital,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
66,16-829,SAR Dr. Juan Saavedra Macaya,42,- CAUSAS POR TRASTORNOS MENTALES (F00-F99),0,0,0,0,0,0,...,27,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes


### (*6 pts*) 1.3 Limpieza básica de `urgencias`

En la siguientes celdas (puede agregar celdas si lo necesita) revise el DataFrame `urgencias` y realice las siguientes transformaciones:

- Elimine todas las muestras que tengan algún dato nulo entre sus columnas.
- Identifique y luego eliminar los datos que estés duplicados.
- Verifique que los tipos de datos sean adecuados para cada columna y corrija si no están correctos. Asegure que la columna `fecha` este en el formato adecuado.

In [4]:
# revisamos los datos para ver qué columnas tienen muchos datos nulos o vacíos
urgencias.info()

<class 'pandas.core.frame.DataFrame'>
Index: 29200 entries, 25 to 859807
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   IdEstablecimiento         29200 non-null  object
 1   NEstablecimiento          29200 non-null  object
 2   IdCausa                   29200 non-null  int64 
 3   GlosaCausa                29200 non-null  object
 4   Total                     29200 non-null  int64 
 5   Menores_1                 29200 non-null  int64 
 6   De_1_a_4                  29200 non-null  int64 
 7   De_5_a_14                 29200 non-null  int64 
 8   De_15_a_64                29200 non-null  int64 
 9   De_65_y_mas               29200 non-null  int64 
 10  fecha                     29200 non-null  object
 11  semana                    29200 non-null  int64 
 12  GLOSATIPOESTABLECIMIENTO  29200 non-null  object
 13  GLOSATIPOATENCION         29200 non-null  object
 14  GlosaTipoCampana         

In [5]:
urgencias = urgencias.dropna(axis=0, how='any')
urgencias.info()

<class 'pandas.core.frame.DataFrame'>
Index: 29200 entries, 25 to 859807
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   IdEstablecimiento         29200 non-null  object
 1   NEstablecimiento          29200 non-null  object
 2   IdCausa                   29200 non-null  int64 
 3   GlosaCausa                29200 non-null  object
 4   Total                     29200 non-null  int64 
 5   Menores_1                 29200 non-null  int64 
 6   De_1_a_4                  29200 non-null  int64 
 7   De_5_a_14                 29200 non-null  int64 
 8   De_15_a_64                29200 non-null  int64 
 9   De_65_y_mas               29200 non-null  int64 
 10  fecha                     29200 non-null  object
 11  semana                    29200 non-null  int64 
 12  GLOSATIPOESTABLECIMIENTO  29200 non-null  object
 13  GLOSATIPOATENCION         29200 non-null  object
 14  GlosaTipoCampana         

In [6]:
urgencias[urgencias.duplicated()]

Unnamed: 0,IdEstablecimiento,NEstablecimiento,IdCausa,GlosaCausa,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas,...,semana,GLOSATIPOESTABLECIMIENTO,GLOSATIPOATENCION,GlosaTipoCampana,CodigoRegion,NombreRegion,CodigoDependencia,NombreDependencia,CodigoComuna,NombreComuna


In [7]:
urgencias['fecha']

25        04/07/2023
26        04/07/2023
44        04/07/2023
45        04/07/2023
66        04/07/2023
             ...    
859743    19/02/2023
859760    19/02/2023
859790    06/01/2023
859792    06/01/2023
859807    17/03/2023
Name: fecha, Length: 29200, dtype: object

In [8]:
urgencias['fecha'] = pd.to_datetime(urgencias['fecha'], format='%d/%m/%Y')
urgencias.info()

<class 'pandas.core.frame.DataFrame'>
Index: 29200 entries, 25 to 859807
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   IdEstablecimiento         29200 non-null  object        
 1   NEstablecimiento          29200 non-null  object        
 2   IdCausa                   29200 non-null  int64         
 3   GlosaCausa                29200 non-null  object        
 4   Total                     29200 non-null  int64         
 5   Menores_1                 29200 non-null  int64         
 6   De_1_a_4                  29200 non-null  int64         
 7   De_5_a_14                 29200 non-null  int64         
 8   De_15_a_64                29200 non-null  int64         
 9   De_65_y_mas               29200 non-null  int64         
 10  fecha                     29200 non-null  datetime64[ns]
 11  semana                    29200 non-null  int64         
 12  GLOSATIPOESTABLECIMIE

In [9]:
urgencias.head()

Unnamed: 0,IdEstablecimiento,NEstablecimiento,IdCausa,GlosaCausa,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas,...,semana,GLOSATIPOESTABLECIMIENTO,GLOSATIPOATENCION,GlosaTipoCampana,CodigoRegion,NombreRegion,CodigoDependencia,NombreDependencia,CodigoComuna,NombreComuna
25,16-829,SAR Dr. Juan Saavedra Macaya,20,Otras causas externas,6,1,0,0,5,0,...,27,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
26,16-111,Hospital San Juan de Dios (Cauquenes),20,Otras causas externas,9,0,0,0,7,2,...,27,Hospital,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
44,16-829,SAR Dr. Juan Saavedra Macaya,33,"- COVID-19, VIRUS NO IDENTIFICADO U07.2",0,0,0,0,0,0,...,27,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
45,16-111,Hospital San Juan de Dios (Cauquenes),33,"- COVID-19, VIRUS NO IDENTIFICADO U07.2",0,0,0,0,0,0,...,27,Hospital,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
66,16-829,SAR Dr. Juan Saavedra Macaya,42,- CAUSAS POR TRASTORNOS MENTALES (F00-F99),0,0,0,0,0,0,...,27,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes


### (*2 pt*) 1.4 Preparación DataFrame `SINCA`

Cargue los datos del archivo `datos_230101_231231.csv` en un DataFrame de pandas llamado `sinca`. Igual que en el caso anterior, revise el separador usado por el archivo para leerlo correctamente. 

In [10]:
sinca = pd.read_csv('data_2024\\datos_230101_231231.csv', sep = ';', encoding = "latin")
sinca.head(10)

Unnamed: 0,FECHA (YYMMDD),HORA (HHMM),Registros validados,Registros preliminares,Registros no validados,Unnamed: 5
0,230101,0,7.0,,,
1,230102,0,5.0,,,
2,230103,0,6.0,,,
3,230104,0,5.0,,,
4,230105,0,4.0,,,
5,230106,0,6.0,,,
6,230107,0,7.0,,,
7,230108,0,5.0,,,
8,230109,0,8.0,,,
9,230110,0,5.0,,,


### (*5 pts*) 1.5 Limpieza básica de `SINCA`

Al igual que con el DataFrame `urgencias`, revise este nuevo DataFrame y realice las siguientes transformaciones:

- Elimine todas las columnas que tengan más de 200 datos nulos entre sus muestras.
- Si hay muestras que tengan algún dato nulo, impute ese valor usando el promedio de los datos cercanos.
- Identifique y luego elimine los datos que estés duplicados.
- Verifique que los tipos de datos sean adecuados para cada columna y corrija si no están correctos. Si hay fechas, deben quedar en formato `datetime64`
- Cambie el nombre de la columna `FECHA (YYMMDD)` por `fecha` para que ambas bases queden con el mismo nombre en la columna de fecha.

In [11]:
# revisamos los datos para ver qué columnas tienen datos nulos o vacíos
sinca.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 364 entries, 0 to 363
Data columns (total 6 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   FECHA (YYMMDD)          364 non-null    int64  
 1   HORA (HHMM)             364 non-null    int64  
 2   Registros validados     355 non-null    float64
 3   Registros preliminares  0 non-null      float64
 4   Registros no validados  5 non-null      float64
 5   Unnamed: 5              0 non-null      float64
dtypes: float64(4), int64(2)
memory usage: 17.2 KB


In [12]:
sinca = sinca.dropna(axis=1, thresh=200)
sinca.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 364 entries, 0 to 363
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   FECHA (YYMMDD)       364 non-null    int64  
 1   HORA (HHMM)          364 non-null    int64  
 2   Registros validados  355 non-null    float64
dtypes: float64(1), int64(2)
memory usage: 8.7 KB


In [13]:
sinca = sinca.dropna(axis=0, how='any')
sinca.info()

<class 'pandas.core.frame.DataFrame'>
Index: 355 entries, 0 to 363
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   FECHA (YYMMDD)       355 non-null    int64  
 1   HORA (HHMM)          355 non-null    int64  
 2   Registros validados  355 non-null    float64
dtypes: float64(1), int64(2)
memory usage: 11.1 KB


In [14]:
sinca[sinca.duplicated()]

Unnamed: 0,FECHA (YYMMDD),HORA (HHMM),Registros validados


In [15]:
sinca['fecha'] = pd.to_datetime(sinca['FECHA (YYMMDD)'], format='%y%m%d') 
sinca.head(10)

Unnamed: 0,FECHA (YYMMDD),HORA (HHMM),Registros validados,fecha
0,230101,0,7.0,2023-01-01
1,230102,0,5.0,2023-01-02
2,230103,0,6.0,2023-01-03
3,230104,0,5.0,2023-01-04
4,230105,0,4.0,2023-01-05
5,230106,0,6.0,2023-01-06
6,230107,0,7.0,2023-01-07
7,230108,0,5.0,2023-01-08
8,230109,0,8.0,2023-01-09
9,230110,0,5.0,2023-01-10


In [16]:
sinca.info()

<class 'pandas.core.frame.DataFrame'>
Index: 355 entries, 0 to 363
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   FECHA (YYMMDD)       355 non-null    int64         
 1   HORA (HHMM)          355 non-null    int64         
 2   Registros validados  355 non-null    float64       
 3   fecha                355 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 13.9 KB


In [17]:
sinca.describe()

Unnamed: 0,FECHA (YYMMDD),HORA (HHMM),Registros validados,fecha
count,355.0,355.0,355.0,355
mean,230673.143662,0.0,16.980282,2023-07-03 10:24:40.563380480
min,230101.0,0.0,1.0,2023-01-01 00:00:00
25%,230406.5,0.0,6.0,2023-04-06 12:00:00
50%,230704.0,0.0,10.0,2023-07-04 00:00:00
75%,231002.5,0.0,23.0,2023-10-02 12:00:00
max,231230.0,0.0,159.0,2023-12-30 00:00:00
std,344.04227,0.0,18.353471,


## 2. EDA

En esta pregunta exploraremos los dos DataFrames de la Pregunta 1. 

Comenzaremos por el DataFrame de `urgencias` que tiene, para cada establecimiento, día y causa, la cantidad de pacientes que vistó el establecimiento en la columna `Total`. Además, las columnas `[Menores_1, De_1_a_4, De_5_a_14, De_15_a_64, De_65_y_mas]` tiene la distribución por del `Total` de visitas por cada grupo de edad.

### (*2 pts*) 2.1 Filtrando datos

El dataframe `urgencias` tiene una columna llamada `GlosaCausa` que identifica la causa de cada visita. Genere un listado de los valores únicos que tiene esa columna para que podamos identificar los nombres de las patologías por las que han ido los pacientes a cada lugar.

In [18]:
causas = urgencias['GlosaCausa'].unique()
causas

array(['Otras causas externas',
       ' - COVID-19, VIRUS NO IDENTIFICADO U07.2',
       ' - CAUSAS POR TRASTORNOS MENTALES (F00-F99)',
       'CIRUGÃ\x8dAS DE URGENCIA',
       'Trastornos mentales y del comportamiento debidos al uso de sustancias psicoactivas (F10-F19)',
       'Otros trastornos mentales no contenidos en las categorÃ\xadas anteriores',
       'CAUSAS SISTEMA RESPIRATORIO', 'IRA Alta (J00-J06)',
       'Bronquitis/bronquiolitis aguda (J20-J21)',
       'Crisis obstructiva bronquial (J40-J46)',
       'Covid-19, Virus identificado U07.1',
       'Accidente vascular encefÃ¡lico', 'Crisis hipertensiva',
       'TOTAL TRAUMATISMOS Y ENVENENAMIENTO',
       'Lesiones autoinfligidas intencionalmente (X60-X84)',
       'TOTAL CAUSAS DE TRASTORNOS MENTALES (F00-F99)',
       'Influenza (J09-J11)', 'Covid-19, Virus no identificado U07.2',
       'Arritmia grave', 'Otras causas circulatorias',
       'IdeaciÃ³n Suicida (R45.8)',
       'Trastornos del Humor (Afectivos) (F30-F3

### (*2 pts*) 2.2 Identificando enfermedades respiratorias

Como verá en el listado creado, hay un conjunto de causas asociadas a enfermedades respiratorias. Revisando en detalle podrá notar que las causas con `IdCausa` en el siguiente listado están asociados a enfermedades respiratorias:
`causas = [3,4,6,5,2,7,11,10,30,31]`. 

Genere un nuevo DataFrame llamado `urgenciasRespiratorias` que tenga sólo las columnas 

`['fecha', 'GlosaCausa', 'Total', 'Menores_1', 'De_1_a_4', 'De_5_a_14', 'De_15_a_64', 'De_65_y_mas']`

con las visitas sólo bajo los `IdCausa` antes mencionados y que agrupe la cantidad de eventos para toda la comuna, sin importar el establecimiento de salud en el que ocurrió.

In [19]:
causas = [3,4,6,5,2,7,11,10,30,31]
urgenciasRespiratorias = urgencias[urgencias['IdCausa'].isin(causas)]
urgenciasRespiratorias

Unnamed: 0,IdEstablecimiento,NEstablecimiento,IdCausa,GlosaCausa,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas,...,semana,GLOSATIPOESTABLECIMIENTO,GLOSATIPOATENCION,GlosaTipoCampana,CodigoRegion,NombreRegion,CodigoDependencia,NombreDependencia,CodigoComuna,NombreComuna
358,16-111,Hospital San Juan de Dios (Cauquenes),7,CAUSAS SISTEMA RESPIRATORIO,1,1,0,0,0,0,...,27,Hospital,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
373,16-829,SAR Dr. Juan Saavedra Macaya,7,CAUSAS SISTEMA RESPIRATORIO,0,0,0,0,0,0,...,27,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
401,16-111,Hospital San Juan de Dios (Cauquenes),10,IRA Alta (J00-J06),3,1,0,0,1,1,...,27,Hospital,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
403,16-829,SAR Dr. Juan Saavedra Macaya,10,IRA Alta (J00-J06),31,0,2,8,19,2,...,27,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
424,16-111,Hospital San Juan de Dios (Cauquenes),3,Bronquitis/bronquiolitis aguda (J20-J21),3,2,0,1,0,0,...,27,Hospital,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859316,16-829,SAR Dr. Juan Saavedra Macaya,30,"Covid-19, Virus identificado U07.1",4,0,0,0,3,1,...,7,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
859487,16-829,SAR Dr. Juan Saavedra Macaya,5,NeumonÃ­a (J12-J18),0,0,0,0,0,0,...,8,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
859743,16-829,SAR Dr. Juan Saavedra Macaya,6,"Otra causa respiratoria (J22, J30-J39, J47, J6...",1,0,0,1,0,0,...,8,SAR,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes
859790,16-111,Hospital San Juan de Dios (Cauquenes),31,"Covid-19, Virus no identificado U07.2",11,0,0,1,7,3,...,1,Hospital,Indiferenciado,Ninguna,7,Del Maule,16,Del Maule,7201,Cauquenes


In [20]:
urgenciasRespiratorias = urgenciasRespiratorias[['fecha', 'GlosaCausa', 'Total', 'Menores_1', 'De_1_a_4', 'De_5_a_14', 'De_15_a_64', 'De_65_y_mas']].groupby(['GlosaCausa', 'fecha']).sum()
urgenciasRespiratorias

Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas
GlosaCausa,fecha,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Bronquitis/bronquiolitis aguda (J20-J21),2023-01-01,2,0,0,0,1,1
Bronquitis/bronquiolitis aguda (J20-J21),2023-01-02,0,0,0,0,0,0
Bronquitis/bronquiolitis aguda (J20-J21),2023-01-03,7,0,2,0,3,2
Bronquitis/bronquiolitis aguda (J20-J21),2023-01-04,5,0,0,1,4,0
Bronquitis/bronquiolitis aguda (J20-J21),2023-01-05,7,1,2,1,3,0
...,...,...,...,...,...,...,...
TOTAL CAUSAS SISTEMA RESPIRATORIO,2023-12-27,64,2,8,11,34,9
TOTAL CAUSAS SISTEMA RESPIRATORIO,2023-12-28,34,1,4,10,15,4
TOTAL CAUSAS SISTEMA RESPIRATORIO,2023-12-29,41,1,5,9,18,8
TOTAL CAUSAS SISTEMA RESPIRATORIO,2023-12-30,44,1,6,10,22,5


### (*15 pts*) 2.3 EDA sobre enfermedades respiratorias

Analice ahora el DataFrame `urgenciasRespiratorias` haciendo lo siguiente:
- Haga un gráfico que muestre los totales anuales (cantidad total de visitas a todos los establecimientos de salud de Cauquenes) para cada tipo de enfermedad respiratoria.
- Haga un gráfico que muestre los totales anuales para cada grupo de edad.

### (*10 pts*) 2.4 EDA sobre contaminación

Analice ahora el DataFrame `sinca` haciendo lo siguiente que posee en la columna `Registros validados` el nivel de contaminación por mp2.5 para cada día en la comuna de Cauquenes:
- Haga un gráfico que muestre la evolución del nivel de contaminación a lo largo del año.
- Calcule la media y la varianza del nivel de contaminación a lo largo del año.

### (*5 pts*) 2.5 Casos de contaminación elevada

Se considera que un nivel de contaminación por mp2.5 superior o igual a 80 ug/m³ es de importancia para la salud. Identifique la cantidad de días en los que se superó ese umbral.

In [21]:
len(sinca[sinca['Registros validados']>=80])

6

## 3. Aprendiendo relaciones

En esta pregunta usaremos herramientas de ML para ver si podemos identificar si hay alguna relación entre el nivel de contaminación y las consultas por enfermedades respiratorias.

Dado que esta es una Interrogación y no tenemos mucho tiempo, para esta sección no necesita hacer validación cruzada cuando haya que entrenar un modelo; sólo separar una única vez entre datos de prueba y entrenamiento y usar eso para contestar las preguntas.

### (*10 pts*) 3.1 Preparando los datos

Nos interesan todas las enfermedades respiratorias, sin importar el tipo, así que agrupe el DataFrame `urgenciasRespiratorias` para que este tenga todas las visitas médicas, sin importar la `GlosaCausa`.

Luego, concatene ambos DataFrames, agregando al DataFrame de `urgenciasRespiratorias`, la contaminación del día correspondiente. Para ello deberá agregar una nueva columna, llamada `mp25` que tenga el valor del DataFrame `sinca` para el día correspondiente.

Haga un scatter plot que muestre la cantidad de casos respiratorios en un eje y el nivel de contaminación en el otro. ¿Observa alguna relación?

In [22]:
causas = [3,4,6,5,2,7,11,10,30,31]
urgenciasRespiratorias = urgencias[urgencias['IdCausa'].isin(causas)]
urgenciasRespiratorias = urgenciasRespiratorias[['fecha', 'Total', 'Menores_1', 'De_1_a_4', 'De_5_a_14', 'De_15_a_64', 'De_65_y_mas']].groupby(['fecha']).sum()
urgenciasRespiratorias

Unnamed: 0_level_0,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-01-01,48,1,2,5,23,17
2023-01-02,73,8,15,7,37,6
2023-01-03,126,6,27,11,59,23
2023-01-04,87,7,4,15,47,14
2023-01-05,89,3,14,7,47,18
...,...,...,...,...,...,...
2023-12-27,133,5,16,22,70,20
2023-12-28,70,3,8,20,30,9
2023-12-29,82,2,10,18,36,16
2023-12-30,89,2,12,20,44,11


In [23]:
urgenciasRespiratorias = pd.merge(urgenciasRespiratorias, sinca[['fecha', 'Registros validados']], on="fecha")
urgenciasRespiratorias = urgenciasRespiratorias.rename(columns={"Registros validados": "mp25"})
urgenciasRespiratorias

Unnamed: 0,fecha,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas,mp25
0,2023-01-01,48,1,2,5,23,17,7.0
1,2023-01-02,73,8,15,7,37,6,5.0
2,2023-01-03,126,6,27,11,59,23,6.0
3,2023-01-04,87,7,4,15,47,14,5.0
4,2023-01-05,89,3,14,7,47,18,4.0
...,...,...,...,...,...,...,...,...
350,2023-12-26,86,0,8,20,41,17,8.0
351,2023-12-27,133,5,16,22,70,20,8.0
352,2023-12-28,70,3,8,20,30,9,4.0
353,2023-12-29,82,2,10,18,36,16,5.0


### (*4 pts*) 3.2 Relación

Calcule la correlación entre la cantidad de casos respiratorios totales y por grupo de edad, y el nivel de contaminación. ¿Qué nos dice ese número?

Además de mostrar la matriz de correlación, use un gráfico adecuado para visualizar estos valores.

In [24]:
urgenciasRespiratorias.corr(numeric_only=True)

Unnamed: 0,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas,mp25
Total,1.0,0.548381,0.824162,0.92534,0.873962,0.444649,-0.055198
Menores_1,0.548381,1.0,0.450505,0.450666,0.400214,0.219843,0.033825
De_1_a_4,0.824162,0.450505,1.0,0.772283,0.543426,0.232183,-0.001756
De_5_a_14,0.92534,0.450666,0.772283,1.0,0.713879,0.23286,-0.036348
De_15_a_64,0.873962,0.400214,0.543426,0.713879,1.0,0.406084,-0.096771
De_65_y_mas,0.444649,0.219843,0.232183,0.23286,0.406084,1.0,-0.056759
mp25,-0.055198,0.033825,-0.001756,-0.036348,-0.096771,-0.056759,1.0


### (*5 pts*) 3.3 Desfase

Al parecer existe un desfase temporal entre un evento de contaminación y las consultas por enfermedades respiratorias. En general, se estima que el desfase es de 5 días, es decir que, 5 días despúes de un evento de contaminación, una persona muestra síntomas asociados a algún problema respiratorio. 

Tratemos de validar esa hipótesis.

Para ello, crearemos un nuevo DataFrame llamado `sinca_menos_5` que tendrá la fecha desfasada en 5 días. El siguiente código hace eso para usted.

In [25]:
from datetime import timedelta

sinca_menos_5 = sinca.copy(deep=True)
sinca_menos_5['fecha'] = sinca['fecha'] - timedelta(days=5)
sinca_menos_5

Unnamed: 0,FECHA (YYMMDD),HORA (HHMM),Registros validados,fecha
0,230101,0,7.0,2022-12-27
1,230102,0,5.0,2022-12-28
2,230103,0,6.0,2022-12-29
3,230104,0,5.0,2022-12-30
4,230105,0,4.0,2022-12-31
...,...,...,...,...
359,231226,0,8.0,2023-12-21
360,231227,0,8.0,2023-12-22
361,231228,0,4.0,2023-12-23
362,231229,0,5.0,2023-12-24


Ahora agregue la columna `mp25_menos_5` al DataFrame `urgenciasRespiratorias`, con el valor del registro de contaminación para la fecha `t_menos_5`. Esto hará que la columna tenga el valor de la contaminación por material particulado 2.5 de 5 días antes del día de la consulta médica.

In [26]:
urgenciasRespiratorias = pd.merge(urgenciasRespiratorias, sinca_menos_5[['fecha', 'Registros validados']], on="fecha")
urgenciasRespiratorias = urgenciasRespiratorias.rename(columns={"Registros validados": "mp25_menos_5"})
urgenciasRespiratorias

Unnamed: 0,fecha,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas,mp25,mp25_menos_5
0,2023-01-01,48,1,2,5,23,17,7.0,6.0
1,2023-01-02,73,8,15,7,37,6,5.0,7.0
2,2023-01-03,126,6,27,11,59,23,6.0,5.0
3,2023-01-04,87,7,4,15,47,14,5.0,8.0
4,2023-01-05,89,3,14,7,47,18,4.0,5.0
...,...,...,...,...,...,...,...,...,...
336,2023-12-21,111,4,17,23,53,14,7.0,8.0
337,2023-12-22,79,12,6,18,32,11,5.0,8.0
338,2023-12-23,90,4,13,21,37,15,4.0,4.0
339,2023-12-24,96,2,8,11,55,20,6.0,5.0


### (*5 pts*) 3.4 Relación

Haga lo siguiente para analizar la relación entre el nivel de consultas médicas y el nivel de contaminación de 5 días antes:
- Calcule nuevamente la correlación entre los de urgencia respiratoria (totales y por edad) y el nivel de contaminación 5 días antes. ¿Cómo es ese nivel en comparación al calculado antes?
- Haga un scatter plot que muestre la cantidad de casos respiratorios en un eje y el nivel de contaminación de 5 días antes en el otro. ¿Observa alguna relación?
- ¿Confirma o no la hipótesis planteada?

In [27]:
urgenciasRespiratorias.corr(numeric_only=True)

Unnamed: 0,Total,Menores_1,De_1_a_4,De_5_a_14,De_15_a_64,De_65_y_mas,mp25,mp25_menos_5
Total,1.0,0.548445,0.821433,0.926762,0.872561,0.439134,-0.071014,-0.023148
Menores_1,0.548445,1.0,0.449298,0.454432,0.398327,0.212908,0.019227,0.033837
De_1_a_4,0.821433,0.449298,1.0,0.770045,0.537176,0.224789,-0.01594,0.066233
De_5_a_14,0.926762,0.454432,0.770045,1.0,0.715303,0.229411,-0.045721,-0.022176
De_15_a_64,0.872561,0.398327,0.537176,0.715303,1.0,0.399943,-0.113496,-0.070334
De_65_y_mas,0.439134,0.212908,0.224789,0.229411,0.399943,1.0,-0.066832,-0.056291
mp25,-0.071014,0.019227,-0.01594,-0.045721,-0.113496,-0.066832,1.0,0.254007
mp25_menos_5,-0.023148,0.033837,0.066233,-0.022176,-0.070334,-0.056291,0.254007,1.0


### (*10 pts*) 3.5 Regresión Lineal

Consideremos sólo los casos de enfermedades respiratorias de niños entre 1 y 4 años y el nivel de contaminación 5 días antes. Entrene una regresión lineal que tenga como variable independiente el nivel de contaminación 5 días antes y, como variable dependiente, la cantidad de consultas de niños entre 1 y 4 años por enfermedades respiratorias.

Calcule la Raiz Error Cuadrático Medio (rmse) y el r² para su regresión. ¿Es un buen modelo?

### (*15 pts*) 3.6 Regresión Polinomial

Dada la aparente relación nolineal entre las variables, suena lógico probar con modelos de regresión polinomial para conectar temperatura y salinidad.

Haga una regresión de polinomial de grados 2 y 3 y muestre los dos siguientes gráficos:
- Un gráfico que muestre los datos y los 2 modelos de regresión entrenados.
- Un gráfico que muestre el RMSE de entrenamiento y de prueba con respecto al grado del polinomio del modelo de regresión.
- ¿Cuál de los modelos eligiría? Justifique su respuesta.