# Práctica: Análisis descriptivo
---
- **Objetivo de la actividad**: El alumno realizará un análisis descriptivo sobre los casos de COVID en México.
- Plantear por lo menos tres preguntas que se responderán con los resultados de los datos analizados
- Nota: En la práctica se deberá incluir el proceso ETL, análisis de datos y la presentación de resultados  a través de un gráfico
 
## Librerias
- **NumPy**: Contiene funciones matemáticas para aplicarlas a un conjunto de datos
- **Pandas**: Se utiliza para manipular los datos incluidos en las tablas
- **Matplotlib**: Permite generar diagramas simples o complejos para la visualización de datos
- **openpyxl**: Permite leer archivos excel en fomato `.xls`

## Preguntas
1. ¿Cuál es la entidad donde se registró el mayor número de casos de COVID-19?
1. ¿Cuántos casos de COVID-19 se registraron en hombres y cuántos en mujeres?
1. ¿Cuántos casos de COVID-19 han resultado en defunción?

## Parte 1: Importación de paquetes Python
---

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import openpyxl

## Parte 2: Carga de datos
---

In [None]:
path_data_covid = "COVID19MEXICO.csv"

data_covid = pd.read_csv(path_data_covid)

In [None]:
data_covid.head()

In [None]:
# Deteminar el numero total de registros
len(data_covid)

## Lectura del diccionario de datos

In [None]:
# Ruta del archivo de Excel
path_dictionary_excel = '201128 Catalogos.xlsx'

# Leer el archivo de Excel
dictionary_excel = pd.ExcelFile(path_dictionary_excel)

# Obtener las hojas del archivo de Excel
sheets = dictionary_excel.sheet_names

# Iterar sobre las hojas y leer cada una en un DataFrame separado
data_dictionary = {}

for sheet in sheets:
    df = pd.read_excel(dictionary_excel, sheet_name=sheet)
    data_dictionary[sheet] = df

# Acceder a los data_dictionary de cada hoja
for sheet, df in data_dictionary.items():
    print(f"Hoja: '{sheet}'")



## Parte 3: Preparación de datos
---

In [None]:
states = data_dictionary["Catálogo de ENTIDADES"]
states.head(2)

## Parte 4: Análisis de datos
---

### 1. ¿Cuál es la entidad donde se registró el mayor número de casos de COVID-19?

In [None]:
# Realizar la combinación de los DataFrames utilizando la columna "ENTIDAD_RES" y "CLAVE_ENTIDAD"
data_covid_with_states = pd.merge(data_covid, states, left_on='ENTIDAD_RES', right_on='CLAVE_ENTIDAD', how="left")

# Mostrar el resultado
data_covid_with_states

In [None]:
data_covid_with_states_count =  data_covid_with_states['ENTIDAD_FEDERATIVA'].value_counts()

print(data_covid_with_states_count)

### ¿Cuántos casos de COVID-19 se registraron en hombres y cuántos en mujeres?

In [None]:
genres = data_dictionary["Catálogo SEXO"]

In [None]:
# Realizar la combinación de los DataFrames utilizando la columna "ENTIDAD_RES" y "CLAVE_ENTIDAD"
data_covid_with_genres = pd.merge(data_covid, genres, left_on='SEXO', right_on='CLAVE', how="left")

data_covid_with_genres_count =  data_covid_with_genres['DESCRIPCIÓN'].value_counts()

data_covid_with_genres_count

### ¿Cuántos casos de COVID-19 han resultado en defunción?

In [None]:
# Filtrar los registros con valor "9999-99-99"
data_covid_filtered = data_covid[data_covid["FECHA_DEF"] != "9999-99-99"]

# Contar las fechas en el DataFrame filtrado
data_covid_def = data_covid_filtered["FECHA_DEF"].value_counts()

# Mostrar el resultado
print(data_covid_def)


In [None]:
# Crear una nueva columna "MES_AÑO" con el mes y año de la fecha de la defuncion
data_covid_def["MES_AÑO"] = pd.to_datetime(data_covid_filtered["FECHA_DEF"]).dt.to_period('M')

# Calcular el recuento por mes y año
def_month_year = data_covid_def["MES_AÑO"].value_counts().sort_index()
def_month_year

## Parte 5: Visualización de datos
___

In [None]:
plt.rcParams['figure.figsize'] = (20, 9)

color = plt.cm.spring(np.linspace(0, 1, 15))

data_covid_with_states['ENTIDAD_FEDERATIVA'].value_counts().plot.bar(color=color, figsize = (15, 6))

plt.title("Contagios por entidad", fontsize = 30)

plt.show()

In [None]:
data_covid_with_genres['DESCRIPCIÓN'].value_counts().plot.bar(color=color, figsize = (15, 6))

plt.title("Cantidad de Hombres y Mujeres", fontsize = 30)

plt.show()

In [None]:
def_month_year.plot.bar(color=color, figsize = (15, 6))

plt.title("Fechas de defunciones", fontsize = 30)
plt.xlabel("Mes y Año")
plt.ylabel("Número de contagios")

plt.show()