![imagenes](logo.png)

# La tabla de covid19

En la sección [**data**](https://github.com/scidatmath2020/CDD_Py_2022/tree/main/data) de nuestro repositorio, encontrarás un archivo llamado [datos_covid.txt](https://github.com/scidatmath2020/CDD_Py_2022/blob/main/data/datos_covid.txt), el cual contiene un enlace para descargar la tabla de COVID19 del año 2022. 

En ella, entre otras cosas, se encuentran las columnas ``ENTIDAD_RES, SEXO, FECHA_SINTOMAS, FECHA_DEF, EDAD y CLASIFICACION_FINAL`` que se describen a continuación:

``ENTIDAD_RES`` entidad de residencia de la persona. Se representa por los números 1, 2, 3, ..., 32. 

``SEXO`` sexo de la persona: 1 para mujer y 2 para hombre.

``FECHA_SINTOMAS`` Identifica la fecha en que inició la sintomatología de la persona. **Es una columna de tipo string**.

``FECHA_DEF`` Identifica la fecha en que el paciente falleció. **Es una columna de tipo string y toma el valor '9999-99-99' si el paciente no falleció**.

``EDAD`` edad del paciente. **Es una columna de tipo numérico**.

``CLASIFICACION_FINAL`` identifica si el paciente es un caso de COVID-19. **Es una columna numérica y toma el valor 1, 2 o 3 en caso de ser positio**.

Para este proyecto final, utilizarás **siuba**, **siuba.dply.vector** y **plotnine**, además de **pandas** y **numpy**.


Deberás resolver los siguientes ítems:

In [1]:
# Como la tabla es muy grande, quédate únicamente con las columnas
# ENTIDAD_RES, SEXO, FECHA_SINTOMAS, FECHA_DEF, EDAD y CLASIFICACION_FINAL

In [None]:
# Crea una tabla llamada covid_confirmados donde se encuentren
# todos los pacientes que hayan dado positivo al virus. A partir de ahora y hasta el final trabajarás con esta tabla

In [None]:
# Crea una columna llamada FALLECIMIENTO que valga 0 si el paciente no falleció y 1 si el paciente falleció,
# y cambia cada valor "9999-99-99" de la columna FECHA_DEF por None

In [None]:
# En pandas existe un método para convertir columnas de tipo texto a columnas de tipo fecha.
# Si tu columna de texto se llama MI_COLUMNA, entonces MI_COLUMNA.astype("datetime64[ns]") te devuelve los mismos valores
# pero considerados como fechas.

### Ejemplo: Si tienes un dataframe MI_DATA con una columna de textos MI_COLUMNA cuyos valores se pueden representar por 
### fechas, entonces MI_DATA = MI_DATA >> mutate(MI_COLUMNA = _.MI_COLUMNA.astype("datetime64[ns]")) es el mismo dataframe
### pero ahora la columna MI_COLUMNA ya no tiene datos tipo texto, sino tipo fecha


In [None]:
# Encuentra la menor y mayor fecha de la columna FECHA_SINTOMAS (es buena idea utilizar un arrange)

In [None]:
# En el periodo de fechas que comprende la tabla covid_confirmados, ¿cuántos contagiados hubo? Ayuda: la respuesta
# empieza con 3 y termina con 5

In [None]:
# ¿Cuántas muertes hubo en ese periodo de tiempo? ¿qué porcentaje representa el total de muertes respecto del total
# de enfermos?

# Sugerencia: utiliza la columna FALLECIMIENTO y un summarize para responder ambas preguntas

En la sección [data](https://github.com/scidatmath2020/CDD_Py_2022/tree/main/data) del repositorio encontrarás un csv llamado **catalogo_entidades.csv**. Léelo pero toma en cuenta que hay palabras con acentos, por lo cual utilizarás el parámetro ``encoding="latin-1"`` dentro de tu ``pd.read_csv()``

Este csv tiene tres columnas:

``ENTIDAD_RES`` es el código numérico de las entidades: 1, 2, 3, ..., 32.

``ENTIDAD_FEDERATIVA`` es el nombre completo de las entidades.

``ENTIDAD_ABREVIATURA`` es la abreviatura del nombre de las entidades.

In [None]:
# Lleva toda la información de catalogo_entidades hacia covid_confirmados, de modo que en covid_confirmados tengas las columnas
# de las abreviaciones y nombres de cada entidad.

* Realiza un gráfico de barras donde se represente el total de contagiados en cada entidad. El gráfico debe verse así (puedes variar el fondo y los colores), pero toma en cuenta que la gráfica debe ser llamativa.

![imagenes](covid_01.png)

* Obtén la siguiente tabla, la cual muestra las 10 entidades con más contagios ordenadas de mayor a menor, con el número de contagios y el lugar de la Entidad (1 para la de mas contagios y 10 para la décima con mas contagios)


Lugar|	Entidad_Federativa|	Total
:-:|:-:|:-:
1	|Ciudad De México|	760028
2	|México|	285278
3	|Nuevo León|	188467
4	|Guanajuato|	148406
5	|San Luis Potosí|	133254
6	|Jalisco|	119313
7	|Veracruz De Ignacio De La Llave|	101444
8	|Sinaloa|	101123
9	|Chihuahua|	85739
10	|Puebla|	83482

* Obtén la siguiente tabla, la cual muestra las 10 entidades con más muertes ordenadas de mayor a menor, con el número de muertes y el lugar de la Entidad (1 para la de mas muertes y 10 para la décima con mas muertes)


Lugar	|Entidad_Federativa|	Total
:-:|:-:|:-:
1	|Ciudad De México|	2827
2	|México|2434
3	|Jalisco|	2008
4	|Nuevo León|	1525
5	|Guanajuato|	1312
6	|Veracruz De Ignacio De La Llave|	1174
7	|Chihuahua|	1050
8	|Tamaulipas|	1037
9	|Coahuila De Zaragoza|	992
10	|Baja California|	954

* Al observar ambas tablas, ¿qué puedes deducir?

* Realiza un gráfico de barras donde se represente el total de contagiados en cada entidad segregados por sexo. El gráfico debe verse así (puedes variar el fondo y los colores), pero toma en cuenta que la gráfica debe ser llamativa.

![imagenes](covid_02.png)

* Realiza un gráfico de líneas donde se represente el total de contagiados diariamente. El gráfico debe verse así (puedes variar el fondo y los colores), pero toma en cuenta que la gráfica debe ser llamativa.

![imagenes](covid_03.png)

* Realiza un gráfico de líneas donde se represente el total de muertes diariamente. El gráfico debe verse así (puedes variar el fondo y los colores), pero toma en cuenta que la gráfica debe ser llamativa.

![imagenes](covid_04.png)

**siuba.dply.vector** tiene una función llamada ``cumsum()``. Esta devuelve la suma de los valores acumulados de una columna en una tabla.  Por ejemplo, si tienes la tabla ``MI_TABLA`` dada por 

col1|col2
:-:|:-:
dato 1|1
dato 2|4
dato 3|8
dato 4|2

entonces ``MI_TABLA >> mutate(suma_acumulada = _.col2.cumsum())`` devuelve

col1|col2|suma_acumulada
:-:|:-:|:-:
dato 1|1|1
dato 2|4|5
dato 3|8|13
dato 4|2|15

Es decir, en cualquier renglón de ``suma_acumulada`` están los valores que se obtienen al sumar los renglones previos de ``col2``: 1=1, 1+4=5, 1+4+8=13, 1+4+8+2=15.

* Realiza un gráfico de líneas donde se represente el total de muertes acumuladas diariamente. El gráfico debe verse así (puedes variar el fondo y los colores), pero toma en cuenta que la gráfica debe ser llamativa.

![imagenes](covid_05.png)

* ¿Qué diferencias conceptuales encuentras entre las dos gráficas anteriores? ¿Cómo se relacionan ambas gráficas?

**Sugerencia:** piensa en áreas bajo curvas.

* Realiza un gráfico de líneas donde se represente tanto el total de muertes como el total de muertes acumuladas diariamente. Es decir, un gráfico que muestre las dos curvas anteriores. El gráfico debe verse así (puedes variar el fondo y los colores), pero toma en cuenta que la gráfica debe ser llamativa.

**Sugerencia:** calcula con un ``mutate`` y un ``summarize`` el total de muertes y de muertes acumuladas, y luego aplica un ``gather`` para obtener una tabla con formato tidy donde se encuentre una columna que indique si el valor es el diario o el acumulado.

![imagenes](covid_06.png)

* Realiza un gráfico de cajas donde se muestren las edades de cada una de las 10 entidades con mas contagios, segregadas por valor de fallecimiento. El gráfico debe verse así (puedes variar el fondo y los colores), pero toma en cuenta que la gráfica debe ser llamativa.

![imagenes](covid_07.png)

* En general, ¿qué puedes decir sobre la edad de la mitad de las personas que fallecieron en cada entidad?

En la sección [data](https://github.com/scidatmath2020/CDD_Py_2022/tree/main/data) del repositorio encontrarás un csv llamado **Mexico_division_politica.csv**. 

Este csv tiene tres columnas:

``Longitud, Latitud`` son coordenadas geográficas.

``Grupo`` en la sesión final se les explicó el significado de esta columna en los csv de mapas.

* Agrega una columna a este dataframe llamada ``ENTIDAD_RES`` que contenga la clave de la entidad. Por ejemplo, si el grupo es ``3.1`` entonces la entidad es ``3``. Llama ``mapa`` al dataframe obtenido, el cual tendrá cuatro columnas.

**Sugerencia.** Si ``col1`` es una columna formada por números con decimales, entonces ``col1.astype.("int")`` elimina los decimales. Ahora, procede como cuando convertiste las columnas de texto a fecha en la tabla de ``covid_confirmados``.

* Toma en cuenta que en la tabla ``mapa`` del punto anterior, las entidades están en la columna ``ENTIDAD_RES``. De la tabla ``covid_confirmados`` calcula el total de contagiados y total de muertes en cada entidad agrupando de manera conveniente, y lleva esa información a ``mapa``, de tal manera que ahora esta tabla tenga seis columnas. Llama ``mapa_final`` a esta tabla.

*b Explica por qué el siguiente mapa se genera con el código de abajo. Altera algunos colores o fondos para generar tus propios mapas:

![imagenes](covid_08.png)


``(ggplot() +
     geom_polygon(data = mapa_final,
                  mapping = aes(x="Longitud",y="Latitud",group="Grupo",fill="total_contagiados"),
                  color = "black",
                  size = 0.01
                  ) +
     scale_fill_gradient(low = "yellow",  
                      high = "darkred"
                      ) +
     labs(fill="Total de contagiados") +
     theme(panel_background = element_rect("#202020"), 
        panel_grid = element_blank(),
        axis_title = element_blank(), 
        axis_text = element_blank(), 
        axis_ticks = element_blank()
        )
)``

* Explica por qué el siguiente mapa se genera con el código de abajo. Altera algunos colores o fondos para generar tus propios mapas:

![imagenes](covid_09.png)

``(ggplot() +
     geom_polygon(data = mapa_final,
                  mapping = aes(x="Longitud",y="Latitud",group="Grupo",fill="total_muertes"),color = "black",
                  size = 0.01) +
     scale_fill_gradient(low = "yellow",  
                      high = "darkred"
                      ) +
     labs(fill="Total de defunciones") +
     theme(panel_background = element_rect("#202020"), 
        panel_grid = element_blank(),
        axis_title = element_blank(), 
        axis_text = element_blank(), 
        axis_ticks = element_blank()
        ) 
 )``

* Sé feliz. 

# Vas por muy buen camino para convertirte en un excelente científico de datos. Espero que pronto volvamos a trabajar juntos.

**Equipo de SciData.**

