<center>
    <img src="http://sct.inf.utfsm.cl/wp-content/uploads/2020/04/logo_di.png" style="width:60%">
    <h1> INF-280 - Estadística Computacional </h1>
    <h2> Análisis de datos exploratorio </h2>
</center>

## Contenidos

* [Introducción](#intro)
* [Reglamento](#rules)
* [Contexto Data Science](#ds)
* [Toolbox](#toolbox)
* [Experiencia](#experience)

<div id='intro' />

## Introducción

Los laboratorios de estadística computacional (LEC) tienen como objetivo principal analizar datos utilizando técnicas de visualización y evidenciar el comportamiento estocástico de experimentos aleatorios mediante simulaciones computacionales. 

Las experiencias buscan medir la habilidad de programación en Python, la capacidad de análisis y la comprensión de docs/artículos/papers/.

Recuerde que los laboratorios tienen una ponderación de 40% en la nota final del ramo.

<div id='reglamento' />

## Reglamento

1. El desarrollo de los laboratorios debe ser en **Python**.
2. El formato de entrega es un **archivo .ipynb**, es decir, un jupyter notebook.
3. El nombre del archivo de entrega del laboratorio $i$ debe seguir el siguiente formato: *lec-i-nombregrupo.ipynb*.
4. Se recomienda seguir las recomendaciones de estilo descritas en [PEP 8](https://www.python.org/dev/peps/pep-0008/) para su codigo.
5. El tiempo para la realización de los laboratorios es extenso, por lo que solo se recibirán entregas hasta las 23:59 del día de entrega **a menos que se especifique lo contrario**. Entregas fuera del plazo serán calificadas con nota 0.
6. Antes de entregar su laboratorio verifique su **reproducibilidad**. Laboratorios con errores a la hora de ejecutarse serán penalizados con descuentos.

<div id='ds' />

## Contexto Ciencia de datos

La ciencia de datos es un **campo interdisciplinario** que mediante un conjunto de principios, definiciones de problemas, algoritmos y procesos busca **extraer patrones no obvios** de grandes conjuntos de datos. Las habilidades más demandadas en el contexto de la ciencia de datos son:

1. Programación.
2. Bases de datos.
3. Estadística.
4. Probabilidad.
5. Machine learning.

A lo largo de los laboratorios se experimentará computacionalmente con la **estadística** y la **probablidad**, además se desarrollara un nivel más avanzado de **programacion** en Python mediante algunas poderosas librerías.

El análisis de datos es una tarea crucial en todo proyecto de ciencia de datos, generalmente consiste en las siguientes tareas:

1. Data collection.
2. Data preprocessing.
3. Exploratory data analysis.
4. Communication.

Es importante recalcar que este proceso no es lineal, sino que más bien iterativo. A lo largo de los laboratorios, y en particular en este, realizaremos múltiples análisis de datos.

Los LEC conforman una importante instancia de acercamiento a la ciencia de datos. Espero la disfruten.

<div id='toolbox' />

## Toolbox

La caja de herramientas (stack de tecnologias) está conformada por:
1. [Python](https://www.python.org/doc/).
2. [Numpy](https://numpy.org/doc/stable/).
3. [Pandas](https://pandas.pydata.org/docs/).
4. [SciPy](https://docs.scipy.org/doc/scipy/reference/stats.html).
5. [Matplotlib](https://matplotlib.org/stable/contents.html).
6. [Plotly](https://plotly.com/python/).
7. [Deep note](https://deepnote.com) (*).

(*) Deep note es un poderoso notebook (a pesar de estar en versión Beta) que permite el trabajo colaborativo sin los problemas de Google Colab asociados a la edición simultánea. Usted es libre de utilizar o no Deep note. Algunas interesantes alternativas son [Cocalc](https://cocalc.com/), [Colab](https://colab.research.google.com/) y por supuesto [Anaconda](https://www.anaconda.com/products/individual#Downloads). En el caso de trabajar remotamente utilizando Anaconda, se recomienda utilizar un sistema de control de versiones como Github.

Las librerías se introducirán amigablemente, no se asume ningún tipo de conocimiento previo en las tecnologías presentes en nuestra toolbox salvo por Python (IWI-131), sin embargo, se busca promover la lectura de documentaciones de librerías.

<div id='experience' />

## Experiencia

En el presente laboratorio realizaremos un análisis de datos asociado a la pandemia de COVID-19 en Chile. El objetivo es realizar un **reporte estadistico** que evidencie la **evolución de la pandemia en Chile** a través de datos y que permita **describir la situación actual del país*.

### 1. Importacion de librerias

In [1]:
import pandas as pd

### 2. Data collection

Los datos se han obtenido directamente desde el [repositorio](https://github.com/MinCiencia/Datos-COVID19.git) de la **Mesa de Datos COVID-19** liderada por el Ministerio de Ciencia, Tecnología, Conocimiento e Innovación de Chile, con el objetivo realizar un reporte estadistico utilizando datos recientes. Si bien usted puede descargar los datasets directamente desde el repositorio recién mecionado, es de vital importancia que utilice las versiones de los datasets que están disponible en el repositorio del [LEC](https://github.com/diegoquezadac/lec) para realizar su laboratorio.

Para ejecutar un **comando Bash** en un Jupyter Notebook es necesario comenzar la instrucción con un signo de exclamación: "!":

In [2]:
#!git clone https://github.com/diegoquezadac/lec

De los aproximadamente 100 datasets disponibles en el repositorio de la Mesa de Datos COVID 19 solo usaremos los siguientes cuatro:

1. Casos totales por region.
2. Examenes de PCR por region.
3. Pacientes COVID-19 en UCI por region.
4. Fallecidos con COVID-19 por region.

Utilizando la función *read_csv* de Pandas cargaremos los datasets, estos se almacenarán como [dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) en nuestro codigo.

In [3]:
casos_totales = pd.read_csv('datasets/CasosTotalesCumulativo_T.csv') 
examenes_pcr = pd.read_csv('datasets/PCR_T.csv') 
pacientes_uci = pd.read_csv('datasets/UCI_T.csv') 
fallecidos = pd.read_csv('datasets/FallecidosCumulativo_T.csv') 

### 3. Explorando Pandas y los datasets (20 pts.)

Comenzaremos nuestra exploración visualizando el dataset de casos totales con el método head() de la clase DataFrame:

In [4]:
casos_totales.head(10)

Unnamed: 0,Region,Arica y Parinacota,Tarapacá,Antofagasta,Atacama,Coquimbo,Valparaíso,Metropolitana,O’Higgins,Maule,Ñuble,Biobío,Araucanía,Los Ríos,Los Lagos,Aysén,Magallanes,Total
0,2020-03-03,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
1,2020-03-04,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0
2,2020-03-05,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0
3,2020-03-06,0.0,0.0,0.0,0.0,0.0,0.0,3.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0
4,2020-03-07,0.0,0.0,0.0,0.0,0.0,0.0,4.0,0.0,2.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,7.0
5,2020-03-08,0.0,0.0,0.0,0.0,0.0,0.0,6.0,0.0,3.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,10.0
6,2020-03-09,0.0,0.0,0.0,0.0,0.0,0.0,9.0,0.0,4.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,15.0
7,2020-03-10,0.0,0.0,0.0,0.0,0.0,0.0,10.0,0.0,5.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,17.0
8,2020-03-11,0.0,0.0,0.0,0.0,0.0,0.0,14.0,0.0,7.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,23.0
9,2020-03-12,0.0,0.0,0.0,0.0,0.0,0.0,23.0,0.0,7.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,33.0


Notamos que las columnas son las regiones de Chile, por otro lado, cada fila es un registro de los **casos acumulados** por región. Podemos notar también que la primera columna tiene un nombre incorrecto, debemos cambiarlo para evitar futuros errores y trabajar con un DataFrame ordenado:

In [5]:
casos_totales = casos_totales.rename(columns = {"Region":'Fecha'})
examenes_pcr = examenes_pcr.rename(columns = {"Region":'Fecha'})
pacientes_uci = pacientes_uci.rename(columns = {"Region":'Fecha'})
fallecidos = fallecidos.rename(columns = {"Region":'Fecha'})

Podemos obtener un importante resumen estadístico de un DataFrame utilizando el método describe() de la clase DataFrame:

In [6]:
casos_totales.describe()

Unnamed: 0,Arica y Parinacota,Tarapacá,Antofagasta,Atacama,Coquimbo,Valparaíso,Metropolitana,O’Higgins,Maule,Ñuble,Biobío,Araucanía,Los Ríos,Los Lagos,Aysén,Magallanes,Total
count,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0,554.0
mean,11674.041516,18568.700361,28005.50722,10399.743682,18470.628159,46936.927798,335142.254513,27055.234657,36812.135379,13796.761733,58033.00361,34118.249097,15894.465704,34268.583032,2516.765343,14222.214801,705954.9
std,8950.357471,13899.718091,20228.873524,8922.203517,15939.025451,40513.124169,204996.563874,22923.097951,35183.82858,12354.053421,53775.459372,35375.444486,17881.743712,32927.160522,2844.770052,11028.263815,530188.3
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,3089.0,7660.5,13138.25,1866.5,4823.5,15634.5,246223.75,9392.5,7833.75,3229.0,9478.5,3729.75,835.5,2767.0,69.0,1606.75,331454.8
50%,10286.0,13990.5,22308.0,8194.0,13236.5,32774.0,306662.0,20063.5,21357.5,9035.0,37899.5,18293.0,6460.5,21234.0,1280.0,14782.5,557901.5
75%,19320.5,32510.5,47371.5,17044.75,30625.5,80464.75,477604.0,45577.5,66309.75,24817.25,110794.25,66512.75,32267.0,66844.25,4033.75,24441.75,1146591.0
max,26683.0,41105.0,60685.0,27141.0,48425.0,122670.0,685881.0,68372.0,101230.0,35831.0,150538.0,97983.0,49219.0,88557.0,8177.0,29244.0,1641791.0


3.1) ¿Qué indica la fila **count** ?, ¿podría variar entre las columas de un mismo dataset?, si es así, ¿por qué?. **(5 pts.)** 

**Respuesta:**

3.2) Salvo por la fila count, ¿ es util el reporte estadístico que nos ofrece el método describe() para el dataset de casos totales?, ¿por qué?. **(5 pts.)**  

**Respuesta:**


Para extraer estadisticos simples de los contagiados por día de una región en particular podríamos tomar una columna de datos y llevarla a un Numpy Array:

In [7]:
region = "Valparaíso"
datos_region = casos_totales[region].values
print(f"En {region} {int(datos_region[-1])} personas han sido reportadas como portadoras de COVID-19")

En Valparaíso 122670 personas han sido reportadas como portadoras de COVID-19


Podemos visualizar el dataset a partir del día en que la región metropolitana superó los 600000 casos:

In [8]:
casos_totales[casos_totales['Metropolitana'] > 600000]

Unnamed: 0,Fecha,Arica y Parinacota,Tarapacá,Antofagasta,Atacama,Coquimbo,Valparaíso,Metropolitana,O’Higgins,Maule,Ñuble,Biobío,Araucanía,Los Ríos,Los Lagos,Aysén,Magallanes,Total
461,2021-06-07,23404.0,37384.0,54523.0,22194.0,39766.0,102941.0,600466.0,59803.0,87896.0,31444.0,134267.0,85684.0,40687.0,79749.0,6501.0,28122.0,1434884.0
462,2021-06-08,23453.0,37463.0,54667.0,22275.0,39979.0,103429.0,603049.0,60163.0,88280.0,31559.0,134618.0,85972.0,40830.0,79943.0,6541.0,28143.0,1440417.0
463,2021-06-09,23517.0,37524.0,54739.0,22343.0,40143.0,103937.0,605784.0,60466.0,88564.0,31640.0,134945.0,86198.0,41001.0,80124.0,6616.0,28176.0,1445770.0
464,2021-06-10,23592.0,37622.0,54918.0,22435.0,40329.0,104635.0,609494.0,60809.0,89091.0,31802.0,135567.0,86527.0,41238.0,80483.0,6656.0,28227.0,1453478.0
465,2021-06-11,23692.0,37725.0,55070.0,22537.0,40676.0,105366.0,613130.0,61132.0,89556.0,31955.0,136129.0,86974.0,41573.0,80828.0,6747.0,28276.0,1461419.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
549,2021-09-03,26652.0,41060.0,60593.0,27099.0,48378.0,122574.0,685141.0,68290.0,101150.0,35782.0,150394.0,97919.0,49196.0,88494.0,8177.0,29243.0,1640192.0
550,2021-09-04,26657.0,41076.0,60604.0,27107.0,48394.0,122610.0,685352.0,68313.0,101181.0,35800.0,150440.0,97941.0,49207.0,88514.0,8177.0,29243.0,1640666.0
551,2021-09-05,26665.0,41086.0,60621.0,27116.0,48410.0,122638.0,685557.0,68321.0,101208.0,35805.0,150484.0,97959.0,49214.0,88536.0,8177.0,29244.0,1641091.0
552,2021-09-06,26678.0,41098.0,60653.0,27134.0,48417.0,122656.0,685755.0,68353.0,101224.0,35824.0,150516.0,97977.0,49217.0,88553.0,8177.0,29244.0,1641526.0


3.3) Defina una función que reciba un dataframe de casos totales, un número $n$ de casos totales y una región como parámetro, la función debe retornar el día en que se alcanzaron $n$ casos totales en la región dada como párametro. Se debe manejar **adecuadamente** el caso en que aún no se hayan alcanzado $n$ casos totales para la región indicada. **(5 pts.)** 

**Hint 1**: Retornar un tipo de dato *datetime.datetime* es conveniente.

**Hint 2**: La palabra reservada de Python *raise* permite forzar excepciones.

**Respuesta:**

In [9]:
import datetime

def dia_n_casos_totales(casos_totales, n, region):
    
    data = casos_totales[casos_totales[region] > n]['Fecha'].values
    flag = len(data) > 0
    
    if(flag):
        
        year, month, day = int(data[0].split('-')[0]), int(data[0].split('-')[1]), int(data[0].split('-')[2])
        return datetime.datetime(year, month, day)
    
    else:
        
        raise ValueError(f"Aun no se han alcanzado {n} caso totales en {region}")

3.4) Defina una función que reciba un dataframe de casos totales, números $n$ y $m$ de caso totales (donde $m > n$) y una región como parámetro, la función debe retornar la diferencia de días entre la fecha en la que se alcanzaron $n$ casos y la fecha en la que se alcanzaron $m$ casos en la región indicada. 

En Magallanes ¿cuántos días pasaron entre el día en que hubieron 10.000 y 20.000 casos totales en la región? **(5 pts.)** 

**Respuesta:**

In [10]:
def dias_entre_casos(casos_totales, n, m, region):
    
    diferencia = dia_n_casos_totales(casos_totales, m, region) - dia_n_casos_totales(casos_totales, n, region) 
    
    return diferencia.days

In [11]:
dias_entre_casos(casos_totales, 10000, 20000, "Magallanes")

116

### 4. Data Preproccesing (35 pts.)

El proceso de preprocesamiento de datos se resume en la frase "Garbage in, Garbage out". Antes de realizar un análisis de datos exploratorio y generar reportes estadísticos es necesario asegurarse que la data con la que se trabaja es de calidad. Debemos "pulir" los datos. 

Comenzaremos analizando el dataframe de examenes_pcr:

In [12]:
examenes_pcr.head(10)

Unnamed: 0,Fecha,Arica y Parinacota,Tarapacá,Antofagasta,Atacama,Coquimbo,Valparaíso,Metropolitana,O’Higgins,Maule,Ñuble,Biobío,Araucanía,Los Ríos,Los Lagos,Aysén,Magallanes
0,Codigo region,15.0,1.0,2,3,4.0,5,13,6.0,7.0,16.0,8.0,9,14.0,10,11.0,12
1,Poblacion,252110.0,382773.0,691854,314709,836096.0,1960170,8125072,991063.0,1131939.0,511551.0,1663696.0,1014343,405835.0,891440,107297.0,178362
2,2020-04-09,70.0,,182,57,,301,5383,68.0,397.0,364.0,592.0,124,,341,10.0,73
3,2020-04-10,,,128,52,,249,3185,,219.0,,149.0,148,91.0,199,,24
4,2020-04-11,93.0,,107,60,,248,2105,74.0,,259.0,281.0,126,,178,,46
5,2020-04-12,103.0,,175,25,,273,3861,,341.0,189.0,469.0,184,,225,7.0,45
6,2020-04-13,,,103,20,,223,1850,74.0,113.0,65.0,,232,,39,,45
7,2020-04-14,93.0,,95,22,,92,1656,30.0,160.0,,218.0,148,67.0,131,12.0,35
8,2020-04-15,24.0,,117,25,,385,2694,30.0,,,311.0,218,67.0,137,8.0,63
9,2020-04-16,198.0,30.0,117,29,,240,4356,58.0,469.0,110.0,408.0,246,49.0,139,16.0,86


4.1) Las primeras dos filas no corresponden a datos de exámenes pcr, lo mismo ocurre en el dataframe pacientes_uci. Actualice estos dos dataframes eliminando las filas indicadas: **(2 pts.)**

*Recuerde que el primer registro se realizo el dia 2020-04-09.*.

**Respuesta:**

In [13]:
examenes_pcr = examenes_pcr[2:].reset_index(drop = True)
pacientes_uci = pacientes_uci[2:].reset_index(drop = True)

4.2) ¿ Qué dificultades podrían haber generado las filas recién eliminadas ?. **(3 pts.)**

**Respuesta:**

4.3) ¿ Qué dificultades genera realizar un análisis de datos en un dataset con valores NaN o Null ?.  **(3 pts)**

**Respuesta:**

4.4) Hay muchas formas de evitar los valores NaN/Null. La más simple es eliminar un fila completamente si es que existe al menos un dato Nan/Null en ella, esta opción es particularmente útil cuando se cuenta con una inmensa cantidad de datos. Lamentablemente, nuestros datos son pocos y además al eliminar un registro perderíamos la  linealidad de los registros. La otra alternativa es llenar esos datos mediante algún método.

Plantee 5 métodos para llenar los valores NaN del dataframe examenes_pcr, para cada método indique las posibles repercusiones estadísticas que este tendría sobre los datos. **(10 pts.)**

**Respuesta:**

4.5) Utilizando el método que minimiza las repercusiones estadísticas actualice el dataframe examenes_pcr reemplazando los valores NaN. **(5 pts.)**

In [14]:
examenes_pcr = examenes_pcr.interpolate(method='linear', limit_direction='backward', axis=0)

4.6) Cerciórese que en ninguno de los dataframes existen valores NaN. Defina una función booleana que reciba como parámetro una lista de dataframes e indique si existe algún dato NaN en ellos. **(2 pts.)**

**Respuesta:**

In [15]:
def hay_valores_nan(dataframes):
    return any([ dataframe.isnull().any().values.any() for dataframe in dataframes ])

4.7) Antes de comenzar con el análisis de datos exploratorio es necesario crear un nuevo dataframe a partir de casos_totales para tener un registro de frecuencias absolutas y no acumuladas, es decir, para saber el número de casos por día. Defina una función que reciba el dataframe de casos totales (acumulados) como parámetro y retorne un dataframe de casos por día. **(10 pts.)**

**Respuesta:**

In [16]:
def obtener_casos_por_dia(casos_totales):
    rows = list()
    for index, row in casos_totales.sort_index(ascending=False).iterrows():
        if(index > 0):
            i_row = [ casos_totales.loc[index]['Fecha'] ] +  list((casos_totales.loc[index][1:] - casos_totales.loc[index - 1][1:]).values)
        else:
            i_row = list(casos_totales.loc[index].values)
        rows.append(i_row)

    rows = rows[::-1]
    return pd.DataFrame(rows, columns = casos_totales.columns.values)

In [17]:
casos_por_dia = obtener_casos_por_dia(casos_totales)

### 6. Exploratory data analysis

### 7. Communication