In [1]:
import pandas as pd
import os

### Se obtienen todos los nombres de los archivos .csv

In [2]:
dir_path = './csse_covid_19_daily_reports/'

In [3]:
csv_files = []

for file_path in os.listdir(dir_path):
    if os.path.isfile(os.path.join(dir_path, file_path)) and file_path.endswith('.csv'):
        csv_files.append(file_path)

### Lectura de un primer archivo para obtener los nombres de las columnas, se lee únicamente la primera fila

In [4]:
df_columnas = pd.read_csv(f'./csse_covid_19_daily_reports/{csv_files[0]}', nrows=1)
cols = df_columnas.columns

In [5]:
total_paises = pd.DataFrame(columns=cols)

### Lectura de los arcivos

In [6]:
for i in csv_files:
    df = pd.read_csv(f'./csse_covid_19_daily_reports/{i}')
    print(f"Se ha leído el archivo {i}")
    total_paises = pd.concat([total_paises, df]) 

Se ha leído el archivo 01-01-2021.csv
Se ha leído el archivo 01-01-2022.csv
Se ha leído el archivo 01-01-2023.csv
Se ha leído el archivo 01-02-2021.csv
Se ha leído el archivo 01-02-2022.csv
Se ha leído el archivo 01-02-2023.csv
Se ha leído el archivo 01-03-2021.csv
Se ha leído el archivo 01-03-2022.csv
Se ha leído el archivo 01-03-2023.csv
Se ha leído el archivo 01-04-2021.csv
Se ha leído el archivo 01-04-2022.csv
Se ha leído el archivo 01-04-2023.csv
Se ha leído el archivo 01-05-2021.csv
Se ha leído el archivo 01-05-2022.csv
Se ha leído el archivo 01-05-2023.csv
Se ha leído el archivo 01-06-2021.csv
Se ha leído el archivo 01-06-2022.csv
Se ha leído el archivo 01-06-2023.csv
Se ha leído el archivo 01-07-2021.csv
Se ha leído el archivo 01-07-2022.csv
Se ha leído el archivo 01-07-2023.csv
Se ha leído el archivo 01-08-2021.csv
Se ha leído el archivo 01-08-2022.csv
Se ha leído el archivo 01-08-2023.csv
Se ha leído el archivo 01-09-2021.csv
Se ha leído el archivo 01-09-2022.csv
Se ha leído 

### Se elminan las columnas innecesarias

In [7]:
total_paises.drop(total_paises.columns[[0,1,2,5,6,11,12,13,14,15,16,17,18,19,20]], axis=1, inplace=True)

### Se cambia el formato de las fechas para mejores análisis

In [8]:
total_paises['Last_Update'] = pd.to_datetime(total_paises['Last_Update'], errors='coerce')

In [9]:
total_paises['day_month'] = total_paises['Last_Update'].dt.strftime('%m-%d')

In [10]:
total_paises.columns

Index(['Country_Region', 'Last_Update', 'Confirmed', 'Deaths', 'Recovered',
       'Active', 'day_month'],
      dtype='object')

In [11]:
total_paises.loc[total_paises['Country_Region'] == "MS Zaandam", "Country_Region"] = 'Netherlands'

### Promedio de casos confirmados por día en Afganistán

In [12]:
# Promedio de casos en Afganistán
total_paises[total_paises.Country_Region == 'Afghanistan'].agg({'Confirmed': ['mean']})

Unnamed: 0,Confirmed
mean,120026.110803


In [13]:
# Promedio de casos por día del año en Afganistán
total_paises[total_paises.Country_Region == 'Afghanistan'].groupby(['day_month']).agg({'Confirmed': ['mean']})

Unnamed: 0_level_0,Confirmed
Unnamed: 0_level_1,mean
day_month,Unnamed: 1_level_2
01-01,139324.333333
01-02,139412.000000
01-03,139467.333333
01-04,139515.333333
01-05,139609.666667
...,...
12-27,139051.000000
12-28,139091.666667
12-29,139166.000000
12-30,139231.666667


### Top 10 de países con mayor tasa de mortalidad

In [14]:
confirmed_deaths = total_paises.groupby(['Country_Region']).agg({'Confirmed': ['sum'], 'Deaths': ['sum']})

In [15]:
confirmed_deaths['Mortalidad'] = confirmed_deaths['Deaths'] / confirmed_deaths['Confirmed']

In [16]:
confirmed_deaths.sort_values(['Mortalidad'], ascending=False).head(10)

Unnamed: 0_level_0,Confirmed,Deaths,Mortalidad
Unnamed: 0_level_1,sum,sum,Unnamed: 3_level_1
Country_Region,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
"Korea, North",300,1800.0,6.0
Yemen,7879435,1515446.0,0.192329
Sudan,42937012,3180911.0,0.074083
Peru,2499407602,170749448.0,0.068316
Mexico,3944120360,241084695.0,0.061125
Syria,35209215,2062700.0,0.058584
Egypt,334598850,17248908.0,0.051551
Somalia,17864021,897718.0,0.050253
Ecuador,584148713,26441766.0,0.045265
Bosnia and Herzegovina,247572821,10346578.0,0.041792
