### Ficheros de la Organizacion Mundial de la Salud
**https://covid19.who.int/data**<br>
**https://ourworldindata.org/coronavirus#coronavirus-country-profiles**<br>


#### Descarga de datos
- Casos diarios y muertes por fecha notificados a la OMS:** https://covid19.who.int/WHO-COVID-19-global-data.csv<br>

#### Información del Dataset
- Los usuarios deben tener en cuenta que, además de capturar nuevos casos y muertes notificadas en un día determinado, las actualizaciones se realizan retrospectivamente para corregir los recuentos de días anteriores según sea necesario en función de la información recibida posteriormente. Consulte "Datos agregados diarios de recuento de casos y muertes" más arriba para obtener más detalles sobre el cálculo de nuevos casos/muertes.

#### Exploración
- Exloración de los casos diarios y muertes por fecha notificados a la OMS.
- Al dataframe lo llamaremos "df_covid_daily".

In [1]:
import pandas as pd
!pip install pycountry
import pycountry



In [2]:
df_covid_daily = pd.read_csv('https://covid19.who.int/WHO-COVID-19-global-data.csv')
df_covid_daily.head()

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,AF,Afghanistan,EMRO,0,0,0,0
1,2020-01-04,AF,Afghanistan,EMRO,0,0,0,0
2,2020-01-05,AF,Afghanistan,EMRO,0,0,0,0
3,2020-01-06,AF,Afghanistan,EMRO,0,0,0,0
4,2020-01-07,AF,Afghanistan,EMRO,0,0,0,0


In [3]:
df_covid_daily.shape

(301701, 8)

In [4]:
df_covid_daily.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301701 entries, 0 to 301700
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Date_reported      301701 non-null  object
 1   Country_code       300428 non-null  object
 2   Country            301701 non-null  object
 3   WHO_region         301701 non-null  object
 4   New_cases          301701 non-null  int64 
 5   Cumulative_cases   301701 non-null  int64 
 6   New_deaths         301701 non-null  int64 
 7   Cumulative_deaths  301701 non-null  int64 
dtypes: int64(4), object(4)
memory usage: 18.4+ MB


#### Transformación
- Transformamos el campo de fecha (DATE_REPORTED) que aparecen con tipo de datos cadena de caracteres<br>

In [5]:
df_covid_daily['Date_reported']= pd.to_datetime(df_covid_daily['Date_reported'])

#### Transformación
- Verificamos que se ha modificado el tipo de dato a fecha

In [6]:
df_covid_daily.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301701 entries, 0 to 301700
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   Date_reported      301701 non-null  datetime64[ns]
 1   Country_code       300428 non-null  object        
 2   Country            301701 non-null  object        
 3   WHO_region         301701 non-null  object        
 4   New_cases          301701 non-null  int64         
 5   Cumulative_cases   301701 non-null  int64         
 6   New_deaths         301701 non-null  int64         
 7   Cumulative_deaths  301701 non-null  int64         
dtypes: datetime64[ns](1), int64(4), object(3)
memory usage: 18.4+ MB


In [7]:
df_covid_daily.head()

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,AF,Afghanistan,EMRO,0,0,0,0
1,2020-01-04,AF,Afghanistan,EMRO,0,0,0,0
2,2020-01-05,AF,Afghanistan,EMRO,0,0,0,0
3,2020-01-06,AF,Afghanistan,EMRO,0,0,0,0
4,2020-01-07,AF,Afghanistan,EMRO,0,0,0,0


#### Exploración
- Observamos si tenemos valores duplicados

In [8]:
df_covid_daily.duplicated().values.any()

False

#### Exploración
- Observamos si tenemos valores nulos

In [9]:
df_covid_daily.isnull().values.sum()

1273

#### Exploración
- Identificamos adónde están los valores nulos

In [10]:
df_covid_daily.isnull().sum()

Date_reported           0
Country_code         1273
Country                 0
WHO_region              0
New_cases               0
Cumulative_cases        0
New_deaths              0
Cumulative_deaths       0
dtype: int64

In [11]:
df_covid_daily_NaN = df_covid_daily[df_covid_daily['Country_code'].isnull()]
df_covid_daily_NaN

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
182039,2020-01-03,,Namibia,AFRO,0,0,0,0
182040,2020-01-04,,Namibia,AFRO,0,0,0,0
182041,2020-01-05,,Namibia,AFRO,0,0,0,0
182042,2020-01-06,,Namibia,AFRO,0,0,0,0
182043,2020-01-07,,Namibia,AFRO,0,0,0,0
...,...,...,...,...,...,...,...,...
183307,2023-06-24,,Namibia,AFRO,0,171310,0,4091
183308,2023-06-25,,Namibia,AFRO,0,171310,0,4091
183309,2023-06-26,,Namibia,AFRO,0,171310,0,4091
183310,2023-06-27,,Namibia,AFRO,0,171310,0,4091


#### Transformación
- Sustituimos los códigos de país nulos por su respectivo codigo ISO.

In [13]:
df_country = pd.read_csv("C:/Users/joschava/Dropbox/TFM COVID/Limpieza de Archivos Fuente/Paises_Region_OMS.csv")
df_country

Unnamed: 0,PAIS_ISO3,PAIS_ISO2,PAIS_NOM,COD_CONTINENTE,CONTINENTE,OMS_REGION,DESC_OMS_REGION
0,AGO,AO,Angola,AF,Africa,AFRO,Africa
1,BDI,BI,Burundi,AF,Africa,AFRO,Africa
2,BEN,BJ,Benin,AF,Africa,AFRO,Africa
3,BFA,BF,Burkina Faso,AF,Africa,AFRO,Africa
4,BWA,BW,Botswana,AF,Africa,AFRO,Africa
...,...,...,...,...,...,...,...
244,VCT,VC,Saint Vincent and the Grenadines,,North America,AMRO,América
245,VGB,VG,British Virgin Islands,,North America,AMRO,América
246,BLM,BL,San Bartolomé,,North America,AMRO,América
247,MAF,MF,San Martín,,North America,AMRO,América


In [14]:
df_covid_daily_NaN_merge = pd.merge(left=df_covid_daily_NaN, right=df_country, how='left', left_on='Country', right_on='PAIS_NOM')
df_covid_daily_NaN_merge

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths,PAIS_ISO3,PAIS_ISO2,PAIS_NOM,COD_CONTINENTE,CONTINENTE,OMS_REGION,DESC_OMS_REGION
0,2020-01-03,,Namibia,AFRO,0,0,0,0,NAM,NM,Namibia,AF,Africa,AFRO,Africa
1,2020-01-04,,Namibia,AFRO,0,0,0,0,NAM,NM,Namibia,AF,Africa,AFRO,Africa
2,2020-01-05,,Namibia,AFRO,0,0,0,0,NAM,NM,Namibia,AF,Africa,AFRO,Africa
3,2020-01-06,,Namibia,AFRO,0,0,0,0,NAM,NM,Namibia,AF,Africa,AFRO,Africa
4,2020-01-07,,Namibia,AFRO,0,0,0,0,NAM,NM,Namibia,AF,Africa,AFRO,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1268,2023-06-24,,Namibia,AFRO,0,171310,0,4091,NAM,NM,Namibia,AF,Africa,AFRO,Africa
1269,2023-06-25,,Namibia,AFRO,0,171310,0,4091,NAM,NM,Namibia,AF,Africa,AFRO,Africa
1270,2023-06-26,,Namibia,AFRO,0,171310,0,4091,NAM,NM,Namibia,AF,Africa,AFRO,Africa
1271,2023-06-27,,Namibia,AFRO,0,171310,0,4091,NAM,NM,Namibia,AF,Africa,AFRO,Africa


In [15]:
df_covid_daily_NaN = df_covid_daily_NaN_merge[['Date_reported', 'PAIS_ISO2','Country','WHO_region', 'New_cases', 'Cumulative_cases', 'New_deaths', 'Cumulative_deaths']]
df_covid_daily_NaN

Unnamed: 0,Date_reported,PAIS_ISO2,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,NM,Namibia,AFRO,0,0,0,0
1,2020-01-04,NM,Namibia,AFRO,0,0,0,0
2,2020-01-05,NM,Namibia,AFRO,0,0,0,0
3,2020-01-06,NM,Namibia,AFRO,0,0,0,0
4,2020-01-07,NM,Namibia,AFRO,0,0,0,0
...,...,...,...,...,...,...,...,...
1268,2023-06-24,NM,Namibia,AFRO,0,171310,0,4091
1269,2023-06-25,NM,Namibia,AFRO,0,171310,0,4091
1270,2023-06-26,NM,Namibia,AFRO,0,171310,0,4091
1271,2023-06-27,NM,Namibia,AFRO,0,171310,0,4091


In [18]:
df_covid_daily_NaN.rename(columns = {'PAIS_ISO2':'Country_code'}, inplace = True)
df_covid_daily_NaN

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_covid_daily_NaN.rename(columns = {'PAIS_ISO2':'Country_code'}, inplace = True)


Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,NM,Namibia,AFRO,0,0,0,0
1,2020-01-04,NM,Namibia,AFRO,0,0,0,0
2,2020-01-05,NM,Namibia,AFRO,0,0,0,0
3,2020-01-06,NM,Namibia,AFRO,0,0,0,0
4,2020-01-07,NM,Namibia,AFRO,0,0,0,0
...,...,...,...,...,...,...,...,...
1268,2023-06-24,NM,Namibia,AFRO,0,171310,0,4091
1269,2023-06-25,NM,Namibia,AFRO,0,171310,0,4091
1270,2023-06-26,NM,Namibia,AFRO,0,171310,0,4091
1271,2023-06-27,NM,Namibia,AFRO,0,171310,0,4091


#### Transformación
- Validamos que no hay nulos en el df.

In [19]:
df_covid_daily_NaN.isnull().sum()

Date_reported        0
Country_code         0
Country              0
WHO_region           0
New_cases            0
Cumulative_cases     0
New_deaths           0
Cumulative_deaths    0
dtype: int64

#### Transformación
- Eliminamos registros con nulos en el df original (df_covid_daily).

In [21]:
df_covid_daily_dropna = df_covid_daily.dropna()
df_covid_daily_dropna

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,AF,Afghanistan,EMRO,0,0,0,0
1,2020-01-04,AF,Afghanistan,EMRO,0,0,0,0
2,2020-01-05,AF,Afghanistan,EMRO,0,0,0,0
3,2020-01-06,AF,Afghanistan,EMRO,0,0,0,0
4,2020-01-07,AF,Afghanistan,EMRO,0,0,0,0
...,...,...,...,...,...,...,...,...
301696,2023-06-24,ZW,Zimbabwe,AFRO,0,265413,0,5707
301697,2023-06-25,ZW,Zimbabwe,AFRO,0,265413,0,5707
301698,2023-06-26,ZW,Zimbabwe,AFRO,0,265413,0,5707
301699,2023-06-27,ZW,Zimbabwe,AFRO,0,265413,0,5707


In [22]:
df_covid_daily_transformed = pd.concat([df_covid_daily_dropna,df_covid_daily_NaN])
df_covid_daily_transformed

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,AF,Afghanistan,EMRO,0,0,0,0
1,2020-01-04,AF,Afghanistan,EMRO,0,0,0,0
2,2020-01-05,AF,Afghanistan,EMRO,0,0,0,0
3,2020-01-06,AF,Afghanistan,EMRO,0,0,0,0
4,2020-01-07,AF,Afghanistan,EMRO,0,0,0,0
...,...,...,...,...,...,...,...,...
1268,2023-06-24,NM,Namibia,AFRO,0,171310,0,4091
1269,2023-06-25,NM,Namibia,AFRO,0,171310,0,4091
1270,2023-06-26,NM,Namibia,AFRO,0,171310,0,4091
1271,2023-06-27,NM,Namibia,AFRO,0,171310,0,4091


#### Transformación
- Validamos misma cantidad de registros que df inicial y comprobamos que no haya nulos. 

In [23]:
df_covid_daily_transformed.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 301701 entries, 0 to 1272
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   Date_reported      301701 non-null  datetime64[ns]
 1   Country_code       301701 non-null  object        
 2   Country            301701 non-null  object        
 3   WHO_region         301701 non-null  object        
 4   New_cases          301701 non-null  int64         
 5   Cumulative_cases   301701 non-null  int64         
 6   New_deaths         301701 non-null  int64         
 7   Cumulative_deaths  301701 non-null  int64         
dtypes: datetime64[ns](1), int64(4), object(3)
memory usage: 20.7+ MB


In [24]:
df_covid_daily_transformed.isnull().sum()

Date_reported        0
Country_code         0
Country              0
WHO_region           0
New_cases            0
Cumulative_cases     0
New_deaths           0
Cumulative_deaths    0
dtype: int64

#### Transformación
- Nuestra base de datos incluirá códigos ISO3 para los países, por lo que debemos llamar la tabla de dimension "País" y sustituir los códigos ISO2 por sus respectivos ISO3.

In [43]:
df_covid_daily_merge = pd.merge(left=df_covid_daily_transformed, right=df_country, how='left', left_on='Country_code', right_on='PAIS_ISO2')
df_covid_daily_merge

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths,PAIS_ISO3,PAIS_ISO2,PAIS_NOM,COD_CONTINENTE,CONTINENTE,OMS_REGION,DESC_OMS_REGION
0,2020-01-03,AF,Afghanistan,EMRO,0,0,0,0,AFG,AF,Afghanistan,AS,Asia,EMRO,Mediterráneo Oriental
1,2020-01-04,AF,Afghanistan,EMRO,0,0,0,0,AFG,AF,Afghanistan,AS,Asia,EMRO,Mediterráneo Oriental
2,2020-01-05,AF,Afghanistan,EMRO,0,0,0,0,AFG,AF,Afghanistan,AS,Asia,EMRO,Mediterráneo Oriental
3,2020-01-06,AF,Afghanistan,EMRO,0,0,0,0,AFG,AF,Afghanistan,AS,Asia,EMRO,Mediterráneo Oriental
4,2020-01-07,AF,Afghanistan,EMRO,0,0,0,0,AFG,AF,Afghanistan,AS,Asia,EMRO,Mediterráneo Oriental
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
301696,2023-06-24,NM,Namibia,AFRO,0,171310,0,4091,NAM,NM,Namibia,AF,Africa,AFRO,Africa
301697,2023-06-25,NM,Namibia,AFRO,0,171310,0,4091,NAM,NM,Namibia,AF,Africa,AFRO,Africa
301698,2023-06-26,NM,Namibia,AFRO,0,171310,0,4091,NAM,NM,Namibia,AF,Africa,AFRO,Africa
301699,2023-06-27,NM,Namibia,AFRO,0,171310,0,4091,NAM,NM,Namibia,AF,Africa,AFRO,Africa


In [44]:
df_covid_final = df_covid_daily_merge[['Date_reported', 'PAIS_ISO3', 'New_cases', 'Cumulative_cases', 'New_deaths', 'Cumulative_deaths']]
df_covid_final.rename(columns = {'PAIS_ISO3':'Country_code'}, inplace = True)
df_covid_final

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_covid_final.rename(columns = {'PAIS_ISO3':'Country_code'}, inplace = True)


Unnamed: 0,Date_reported,Country_code,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,AFG,0,0,0,0
1,2020-01-04,AFG,0,0,0,0
2,2020-01-05,AFG,0,0,0,0
3,2020-01-06,AFG,0,0,0,0
4,2020-01-07,AFG,0,0,0,0
...,...,...,...,...,...,...
301696,2023-06-24,NAM,0,171310,0,4091
301697,2023-06-25,NAM,0,171310,0,4091
301698,2023-06-26,NAM,0,171310,0,4091
301699,2023-06-27,NAM,0,171310,0,4091


#### Transformación
- Identificamos valores nulos relacionados a codigos ISO2 especiales que no aparecen en la tabla de parametros de pais.

https://es.wikipedia.org/wiki/ISO_3166-1_alfa-2
- El código XA está siendo utilizado por Suiza, como código de país por las Islas Canarias, a pesar de que IC ya está reservado con dicho propósito.23
- El código XI está siendo utilizado por el Gobierno del Reino Unido, como el prefijo de código de país del número EORI de Irlanda del Norte.24
- El código XK está siendo utilizado por la Comisión Europea,25​ el FMI, la SWIFT,26​ el CLDR y otras organizaciones como código de país provisional para Kosovo.27
- El código XN está siendo utilizado por la Organización Mundial de la Propiedad Intelectual como indicador para el Instituto Nórdico de Patentes, una organización internacional a la que pertenecen Dinamarca, Islandia, Noruega y Suecia.28
- El código XU está siendo utilizado por la Organización Mundial de la Propiedad Intelectual como indicador para la Unión Internacional para la Protección de las Obtenciones Vegetales
- El código XV está siendo utilizado por la Organización Mundial de la Propiedad Intelectual como indicador para el Instituto Visegrad de Patentes
- El código XX está siendo utilizado por la Organización Mundial de la Propiedad Intelectual como un indicador para estados desconocidos, otras entidades u organizaciones

In [45]:
df_covid_final.isnull().sum()

Date_reported           0
Country_code         6365
New_cases               0
Cumulative_cases        0
New_deaths              0
Cumulative_deaths       0
dtype: int64

In [46]:
df_covid_final_NaN = df_covid_final[df_covid_final['Country_code'].isnull()]
df_covid_final_NaN

Unnamed: 0,Date_reported,Country_code,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
31825,2020-01-03,,0,0,0,0
31826,2020-01-04,,0,0,0,0
31827,2020-01-05,,0,0,0,0
31828,2020-01-06,,0,0,0,0
31829,2020-01-07,,0,0,0,0
...,...,...,...,...,...,...
246957,2023-06-24,,0,1220,0,6
246958,2023-06-25,,0,1220,0,6
246959,2023-06-26,,0,1220,0,6
246960,2023-06-27,,0,1220,0,6


In [47]:
df_covid_final['Country_code'].fillna('Z99', inplace=True)
df_covid_final

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_covid_final['Country_code'].fillna('Z99', inplace=True)


Unnamed: 0,Date_reported,Country_code,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,AFG,0,0,0,0
1,2020-01-04,AFG,0,0,0,0
2,2020-01-05,AFG,0,0,0,0
3,2020-01-06,AFG,0,0,0,0
4,2020-01-07,AFG,0,0,0,0
...,...,...,...,...,...,...
301696,2023-06-24,NAM,0,171310,0,4091
301697,2023-06-25,NAM,0,171310,0,4091
301698,2023-06-26,NAM,0,171310,0,4091
301699,2023-06-27,NAM,0,171310,0,4091


In [48]:
df_covid_final.isnull().sum()

Date_reported        0
Country_code         0
New_cases            0
Cumulative_cases     0
New_deaths           0
Cumulative_deaths    0
dtype: int64

In [49]:
df_covid_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 301701 entries, 0 to 301700
Data columns (total 6 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   Date_reported      301701 non-null  datetime64[ns]
 1   Country_code       301701 non-null  object        
 2   New_cases          301701 non-null  int64         
 3   Cumulative_cases   301701 non-null  int64         
 4   New_deaths         301701 non-null  int64         
 5   Cumulative_deaths  301701 non-null  int64         
dtypes: datetime64[ns](1), int64(4), object(1)
memory usage: 16.1+ MB


In [50]:
df_covid_final.to_csv("C:/Users/joschava/Dropbox/TFM COVID/Limpieza de Archivos Fuente/Daily cases and deaths by date reported to WHO/Output - Daily Cases and Deaths by Date Reported.csv", index=False)