# Proyecto Semestral 2025-2 - Gestión de Datos (IN1232C)

Estudiantes: Álvaro Molina Jara, Maicol Ramírez Mariño, Vicente Lillo Gallegos

## ETAPA 4: Dashboard final
Rango temporal: Datos globales completos (2020-2023)

### Carga de todos los DataFrames y unión

In [1]:
import os
import requests
import pandas as pd
import numpy as np
from io import StringIO

base_url = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/"
dfs = []
failed_files = []

año_inicio = 2020
año_fin = 2023

for year in range(año_inicio, año_fin + 1):
    year_str = str(year).zfill(4)

    for month in range(1, 13):
        month_str = str(str(month)).zfill(2)

        for day in range(1, 32):
            day_str = str(day).zfill(2)
            file_name = f"{month_str}-{day_str}-{year_str}.csv"
            file_url = f"{base_url}{file_name}"

            try:
                response = requests.get(file_url)
                response.raise_for_status()
                df = pd.read_csv(StringIO(response.text))
                df.columns = df.columns.str.replace(r'[^a-zA-Z0-9_]', '', regex = True)
                df.columns = df.columns.str.lower()
                column_renames = {
                    'lastupdate': 'last_update',
                    'observationdate': 'last_update',
                    'latitude': 'lat',
                    'longitude': 'long_',
                    'confirmedcases': 'confirmed',
                    'case-fatality_ratio': 'case_fatality_ratio',
                    'casefatality_ratio': 'case_fatality_ratio',
                    'provincestate': 'province_state',
                    'countryregion': 'country_region',
                    'incidence_rate': 'incident_rate'
                }
                df = df.rename(columns = column_renames)

                required_cols = ['last_update', 'confirmed', 'deaths', 'recovered', 'country_region', 'province_state']
                for col in required_cols:
                    if col not in df.columns:
                        df[col] = pd.NA

                df['last_update'] = pd.to_datetime(df['last_update'], errors = 'coerce')
                df.dropna(subset = ['last_update'], inplace = True)
                dfs.append(df)
                print(f"Se cargó exitosamente {file_name}")

            except requests.exceptions.RequestException as e:
                print(f"No se pudo cargar {file_name}: {e}")
                failed_files.append(file_name)
            except Exception as e:
                print(f"Ocurrió un error inesperado al intentar procesar {file_name}: {e}")
                failed_files.append(file_name)

if dfs:
    combined_df = pd.concat(dfs, ignore_index = True)
else:
    print("No se cargaron DataFrames.")

if failed_files:
    print("\nArchivos que no se pudieron cargar:")
    for file in failed_files:
        print(file)

if 'combined_df' in locals() and not combined_df.empty:
    output_filename = 'covid_2020_2023.csv'
    combined_df.to_csv(output_filename, index = False)
    print(f"\nDataFrame guardado como '{output_filename}'")
    file_size_mb = os.path.getsize(output_filename) / (1024 * 1024)
    print(f"Tamaño del archivo: {file_size_mb:.2f} MB")
else:
    print("\nNo hay un DataFrame combinado para guardar.")

No se pudo cargar 01-01-2020.csv: 404 Client Error: Not Found for url: https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-01-2020.csv
No se pudo cargar 01-02-2020.csv: 404 Client Error: Not Found for url: https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-02-2020.csv
No se pudo cargar 01-03-2020.csv: 404 Client Error: Not Found for url: https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-03-2020.csv
No se pudo cargar 01-04-2020.csv: 404 Client Error: Not Found for url: https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-04-2020.csv
No se pudo cargar 01-05-2020.csv: 404 Client Error: Not Found for url: https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-05-2020.csv
No se pudo

  df['last_update'] = pd.to_datetime(df['last_update'], errors = 'coerce')


Se cargó exitosamente 03-22-2020.csv
Se cargó exitosamente 03-23-2020.csv
Se cargó exitosamente 03-24-2020.csv
Se cargó exitosamente 03-25-2020.csv
Se cargó exitosamente 03-26-2020.csv
Se cargó exitosamente 03-27-2020.csv


  df['last_update'] = pd.to_datetime(df['last_update'], errors = 'coerce')


Se cargó exitosamente 03-28-2020.csv


  df['last_update'] = pd.to_datetime(df['last_update'], errors = 'coerce')


Se cargó exitosamente 03-29-2020.csv


  df['last_update'] = pd.to_datetime(df['last_update'], errors = 'coerce')


Se cargó exitosamente 03-30-2020.csv
Se cargó exitosamente 03-31-2020.csv
Se cargó exitosamente 04-01-2020.csv


  df['last_update'] = pd.to_datetime(df['last_update'], errors = 'coerce')


Se cargó exitosamente 04-02-2020.csv
Se cargó exitosamente 04-03-2020.csv


  df['last_update'] = pd.to_datetime(df['last_update'], errors = 'coerce')


Se cargó exitosamente 04-04-2020.csv
Se cargó exitosamente 04-05-2020.csv


  df['last_update'] = pd.to_datetime(df['last_update'], errors = 'coerce')


Se cargó exitosamente 04-06-2020.csv
Se cargó exitosamente 04-07-2020.csv
Se cargó exitosamente 04-08-2020.csv
Se cargó exitosamente 04-09-2020.csv
Se cargó exitosamente 04-10-2020.csv
Se cargó exitosamente 04-11-2020.csv
Se cargó exitosamente 04-12-2020.csv
Se cargó exitosamente 04-13-2020.csv
Se cargó exitosamente 04-14-2020.csv
Se cargó exitosamente 04-15-2020.csv
Se cargó exitosamente 04-16-2020.csv
Se cargó exitosamente 04-17-2020.csv
Se cargó exitosamente 04-18-2020.csv
Se cargó exitosamente 04-19-2020.csv
Se cargó exitosamente 04-20-2020.csv
Se cargó exitosamente 04-21-2020.csv
Se cargó exitosamente 04-22-2020.csv
Se cargó exitosamente 04-23-2020.csv
Se cargó exitosamente 04-24-2020.csv
Se cargó exitosamente 04-25-2020.csv
Se cargó exitosamente 04-26-2020.csv
Se cargó exitosamente 04-27-2020.csv
Se cargó exitosamente 04-28-2020.csv
Se cargó exitosamente 04-29-2020.csv
Se cargó exitosamente 04-30-2020.csv
No se pudo cargar 04-31-2020.csv: 404 Client Error: Not Found for url: http

In [2]:
combined_df

Unnamed: 0,province_state,country_region,last_update,confirmed,deaths,recovered,lat,long_,fips,admin2,active,combined_key,incident_rate,case_fatality_ratio
0,Anhui,Mainland China,2020-01-22 17:00:00,1.0,,,,,,,,,,
1,Beijing,Mainland China,2020-01-22 17:00:00,14.0,,,,,,,,,,
2,Chongqing,Mainland China,2020-01-22 17:00:00,6.0,,,,,,,,,,
3,Fujian,Mainland China,2020-01-22 17:00:00,1.0,,,,,,,,,,
4,Gansu,Mainland China,2020-01-22 17:00:00,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4279401,,West Bank and Gaza,2023-03-10 04:21:03,703228.0,5708.0,,31.952200,35.233200,,,,West Bank and Gaza,13784.956961,0.811686
4279402,,Winter Olympics 2022,2023-03-10 04:21:03,535.0,0.0,,39.904200,116.407400,,,,Winter Olympics 2022,,0.000000
4279403,,Yemen,2023-03-10 04:21:03,11945.0,2159.0,,15.552727,48.516388,,,,Yemen,40.048994,18.074508
4279404,,Zambia,2023-03-10 04:21:03,343135.0,4057.0,,-13.133897,27.849332,,,,Zambia,1866.491630,1.182333


### Limpieza del DF

In [3]:
combined_df.drop(['admin2', 'combined_key', 'fips', 'lat', 'long_'], axis = 1, inplace = True)
combined_df['last_update'] = pd.to_datetime(combined_df['last_update'], errors = 'coerce')
combined_df['last_update'] = combined_df['last_update'].dt.strftime('%Y-%m-%d')
combined_df['country_region'] = combined_df['country_region'].replace('US', 'United States')
combined_df['active_cases'] = combined_df['confirmed'] - combined_df['deaths'] - combined_df['recovered']
combined_df.drop(['active'], axis = 1, inplace = True)

In [4]:
print("Primeras 5 filas antes de limpiar los valores NaN:")
display(combined_df.head())

print("\nRecuento de valores NaN por columna antes de la limpieza:")
print(combined_df[['country_region', 'province_state', 'confirmed', 'deaths', 'recovered', 'active_cases', 'incident_rate', 'case_fatality_ratio']].isnull().sum())

combined_df['country_region'] = combined_df['country_region'].fillna('Unknown')
combined_df['province_state'] = combined_df['province_state'].fillna('Unknown')
combined_df['confirmed'] = combined_df['confirmed'].fillna(0)
combined_df['deaths'] = combined_df['deaths'].fillna(0)
combined_df['recovered'] = combined_df['recovered'].fillna(0)
combined_df['active_cases'] = combined_df['active_cases'].fillna(0)
combined_df['incident_rate'] = combined_df['incident_rate'].fillna(0)
combined_df['case_fatality_ratio'] = combined_df['case_fatality_ratio'].fillna(0)

print("\nRecuento de valores NaN por columna después de la limpieza:")
print(combined_df[['country_region', 'province_state', 'confirmed', 'deaths', 'recovered', 'active_cases', 'incident_rate', 'case_fatality_ratio']].isnull().sum())

print("\nPrimeras 5 filas después de limpiar los valores NaN:")
display(combined_df.head())

Primeras 5 filas antes de limpiar los valores NaN:


Unnamed: 0,province_state,country_region,last_update,confirmed,deaths,recovered,incident_rate,case_fatality_ratio,active_cases
0,Anhui,Mainland China,2020-01-22,1.0,,,,,
1,Beijing,Mainland China,2020-01-22,14.0,,,,,
2,Chongqing,Mainland China,2020-01-22,6.0,,,,,
3,Fujian,Mainland China,2020-01-22,1.0,,,,,
4,Gansu,Mainland China,2020-01-22,,,,,,



Recuento de valores NaN por columna antes de la limpieza:
country_region               0
province_state          197261
confirmed                   28
deaths                     433
recovered              2821157
active_cases           2821228
incident_rate           318569
case_fatality_ratio     273894
dtype: int64

Recuento de valores NaN por columna después de la limpieza:
country_region         0
province_state         0
confirmed              0
deaths                 0
recovered              0
active_cases           0
incident_rate          0
case_fatality_ratio    0
dtype: int64

Primeras 5 filas después de limpiar los valores NaN:


Unnamed: 0,province_state,country_region,last_update,confirmed,deaths,recovered,incident_rate,case_fatality_ratio,active_cases
0,Anhui,Mainland China,2020-01-22,1.0,0.0,0.0,0.0,0.0,0.0
1,Beijing,Mainland China,2020-01-22,14.0,0.0,0.0,0.0,0.0,0.0
2,Chongqing,Mainland China,2020-01-22,6.0,0.0,0.0,0.0,0.0,0.0
3,Fujian,Mainland China,2020-01-22,1.0,0.0,0.0,0.0,0.0,0.0
4,Gansu,Mainland China,2020-01-22,0.0,0.0,0.0,0.0,0.0,0.0


In [5]:
combined_df.drop_duplicates(inplace = True)

In [6]:
clean_output_filename = 'covid_clean_2020_2023.csv'
combined_df.to_csv(clean_output_filename, index = False)
print(f"DataFrame guardado como '{clean_output_filename}'")

file_size_mb = os.path.getsize(clean_output_filename) / (1024 * 1024)
print(f"Tamaño del archivo: {file_size_mb:.2f} MB")

DataFrame guardado como 'covid_clean_2020_2023.csv'
Tamaño del archivo: 354.45 MB


## Optimización del DF

### Tiempo de carga y uso de memoria del DF antes de las optimizaciones

Se miden los tiempos de carga y uso de memoria del DataFrame antes de aplicar cualquier optimización:

In [7]:
import time

start_time = time.time()
combined_df = pd.read_csv('covid_2020_2023.csv')
end_time = time.time()
loading_time = end_time - start_time
memory_usage_mb = combined_df.memory_usage(deep = True).sum() / (1024 * 1024)
print(f"Tiempo de carga del archivo: {loading_time:.2f} segundos")
print(f"Uso de memoria del DataFrame 'combined_df': {memory_usage_mb:.2f} MB")

Tiempo de carga del archivo: 12.31 segundos
Uso de memoria del DataFrame 'combined_df': 1507.27 MB


In [8]:
print("\nUso de memoria por columna (antes de la optimización):")
print(combined_df.memory_usage(deep = True) / (1024 * 1024))


Uso de memoria por columna (antes de la optimización):
Index                    0.000126
province_state         229.930397
country_region         211.844391
last_update            277.518852
confirmed               32.649277
deaths                  32.649277
recovered               32.649277
lat                     32.649277
long_                   32.649277
fips                    32.649277
admin2                 211.154110
active                  32.649277
combined_key           282.979695
incident_rate           32.649277
case_fatality_ratio     32.649277
dtype: float64


### Optimización de carga del DF usand Dask en vez de Pandas


**Justificación**: Dask está especializado para manejar grandes conjuntos de datos (que incluso superan el tamaño de la memoria RAM), a diferencia de Pandas que solo es capaz de manejar conjuntos de datos pequeños y medianos menores al tamaño de la memoria RAM disponible.



In [9]:
import dask.dataframe as dd

file_path = 'covid_2020_2023.csv'

dtype_dict = {
    'province_state': 'object',
    'country_region': 'object',
    'last_update': 'object',
    'confirmed': 'float64',
    'deaths': 'float64',
    'recovered': 'float64',
    'lat': 'float64',
    'long_': 'float64',
    'fips': 'float64',
    'admin2': 'object',
    'active': 'float64',
    'combined_key': 'object',
    'incident_rate': 'float64',
    'case_fatality_ratio': 'float64'
}

print(f"Cargando '{file_path}' con Dask...")
start_time = time.time()
dask_df = dd.read_csv(file_path, dtype = dtype_dict, assume_missing = True)
end_time = time.time()
loading_time_dask = end_time - start_time
print(f"Tiempo de carga con Dask (solo metadatos): {loading_time_dask:.2f} segundos")

print("Persistiendo el DataFrame de Dask en memoria...")
start_time_persist = time.time()
dask_df_persisted = dask_df.persist()
_ = dask_df_persisted.head()
end_time_persist = time.time()
persist_time = end_time_persist - start_time_persist
print(f"Tiempo de persistencia de Dask: {persist_time:.2f} segundos")

print("\nEstructura del DataFrame de Dask:")
print(dask_df_persisted)
print(f"Número de particiones: {dask_df_persisted.npartitions}")

Cargando 'covid_2020_2023.csv' con Dask...
Tiempo de carga con Dask (solo metadatos): 0.04 segundos
Persistiendo el DataFrame de Dask en memoria...
Tiempo de persistencia de Dask: 15.40 segundos

Estructura del DataFrame de Dask:
Dask DataFrame Structure:
              province_state country_region last_update confirmed   deaths recovered      lat    long_     fips  admin2   active combined_key incident_rate case_fatality_ratio
npartitions=9                                                                                                                                                                  
                      string         string      string   float64  float64   float64  float64  float64  float64  string  float64       string       float64             float64
                         ...            ...         ...       ...      ...       ...      ...      ...      ...     ...      ...          ...           ...                 ...
...                      ...            

In [10]:
memory_usage_dask_mb = dask_df_persisted.memory_usage(deep = True).sum().compute() / (1024 * 1024)
print(f"Uso de memoria del DataFrame de Dask (persistente): {memory_usage_dask_mb:.2f} MB")

Uso de memoria del DataFrame de Dask (persistente): 687.73 MB


### Resumen de Optimización con Dask

#### Comparación de Tiempos de Carga:
*   **Pandas (carga completa):** `12.31 segundos`
*   **Dask (solo metadatos):** `0.04 segundos`
*   **Dask (persistencia y computación):** `15.40 segundos`

#### Comparación de Uso de Memoria:
*   **Pandas DataFrame:** `1507.27 MB`
*   **Dask DataFrame (persistido):** `687.73 MB`

Se observa una reducción significativa en el uso de memoria del DataFrame de Dask persistido en comparación con el DataFrame de Pandas. Aunque el tiempo total para cargar y persistir el DataFrame de Dask es ligeramente mayor que el de Pandas para esta carga específica, Dask ofrece ventajas sustanciales para el procesamiento de datos que exceden la memoria disponible, gracias a su capacidad de operar de forma diferida y en paralelo. La carga inicial de metadatos con Dask es casi instantánea, lo que permite una manipulación rápida de la estructura del DataFrame.

### Optimización de tipos de datos

Se procede a convertir las columnas numéricas (`confirmed`, `deaths`, `recovered`, `active_cases`, `incident_rate`, `case_fatality_ratio`) a tipos de datos más eficientes en memoria (por ejemplo, `float32`, `int32`) y la columna `last_update` a un formato datetime optimizado:

In [11]:
optimized_dtypes = {
    'confirmed': 'float32',
    'deaths': 'float32',
    'recovered': 'float32',
    'lat': 'float32',
    'long_': 'float32',
    'fips': 'float32',
    'active': 'float32',
    'incident_rate': 'float32',
    'case_fatality_ratio': 'float32',
    'province_state': 'category',
    'country_region': 'category',
    'admin2': 'category',
    'combined_key': 'category'
}

dask_df_optimized = dask_df_persisted.astype({k: v for k, v in optimized_dtypes.items() if k in dask_df_persisted.columns})
dask_df_optimized['last_update'] = dd.to_datetime(dask_df_optimized['last_update'], errors = 'coerce')
print("Persistiendo el DataFrame de Dask optimizado en memoria...")
dask_df_optimized = dask_df_optimized.persist()
print("DataFrame de Dask optimizado y persistido.")
print("\nTipos de datos del DataFrame de Dask optimizado:")
print(dask_df_optimized.dtypes)
memory_usage_dask_optimized_mb = dask_df_optimized.memory_usage(deep=True).sum().compute() / (1024 * 1024)
print(f"\nUso de memoria del DataFrame de Dask optimizado: {memory_usage_dask_optimized_mb:.2f} MB")

Persistiendo el DataFrame de Dask optimizado en memoria...
DataFrame de Dask optimizado y persistido.

Tipos de datos del DataFrame de Dask optimizado:
province_state               category
country_region               category
last_update            datetime64[ns]
confirmed                     float32
deaths                        float32
recovered                     float32
lat                           float32
long_                         float32
fips                          float32
admin2                       category
active                        float32
combined_key                 category
incident_rate                 float32
case_fatality_ratio           float32
dtype: object

Uso de memoria del DataFrame de Dask optimizado: 215.51 MB


### Uso de índices para operaciones temporales


Se establece la columna 'last_update' como el índice del DataFrame (después de la conversión a datetime) para acelerar las operaciones basadas en tiempo, como filtrados y agrupaciones por rango de fechas:

In [12]:
print("Estableciendo 'last_update' como índice y persistiendo...")
dask_df_optimized = dask_df_optimized.set_index('last_update')
dask_df_optimized = dask_df_optimized.persist()

print("\nEstructura del DataFrame de Dask optimizado con índice de fecha:")
print(dask_df_optimized)

Estableciendo 'last_update' como índice y persistiendo...

Estructura del DataFrame de Dask optimizado con índice de fecha:
Dask DataFrame Structure:
                        province_state     country_region confirmed   deaths recovered      lat    long_     fips             admin2   active       combined_key incident_rate case_fatality_ratio
npartitions=9                                                                                                                                                                                     
2020-01-22 17:00:00  category[unknown]  category[unknown]   float32  float32   float32  float32  float32  float32  category[unknown]  float32  category[unknown]       float32             float32
2020-07-25 04:47:39                ...                ...       ...      ...       ...      ...      ...      ...                ...      ...                ...           ...                 ...
...                                ...                ...       ...   

### Conclusiones sobre mejoras de rendimiento después de las optimizaciones

**1. ¿Cuál era el rendimiento actual de la carga de "covid_2020_2023.csv" y el uso de memoria del DataFrame `combined_df` antes de las optimizaciones?**

Inicialmente, cargar `covid_2020_2023.csv` en un DataFrame de Pandas tardaba 8,22 segundos, y el `combined_df` consumía 1507,27 MB de memoria. Las columnas `combined_key`, `last_update`, `province_state`, `country_region` y `admin2` eran las que más memoria consumían.

**2. ¿Cómo las optimizaciones de Dask y el tipo de datos mejoraron el rendimiento y el uso de la memoria?**

Con Dask, la carga inicial de metadatos fue muy rápida (0,04 segundos). La persistencia del DataFrame de Dask, que activa el cálculo, tardó 15,40 segundos, un poco más que la carga inicial de Pandas. Sin embargo, el DataFrame de Dask, antes de la optimización de tipos de datos, redujo el uso de memoria a 687,73 MB. Tras optimizar los tipos de datos (p. ej., `float32`, `category` y `datetime`), el consumo de memoria se redujo aún más, a 215,51 MB. Considerando las limitaciones de Google Colab en cuanto a uso de memoria con grandes conjuntos de datos, esta disminución del consumo de memoria es muy relevante.