### **Fuente de Datos - Ficheros WHO OMS**
**https://covid19.who.int/data**<br>
**https://ourworldindata.org/coronavirus#coronavirus-country-profiles**<br>


#### Descarga de datos

**1.- Casos diarios y muertes por fecha notificados a la OMS:** https://covid19.who.int/WHO-COVID-19-global-data.csv<br>
**2.- Últimos recuentos informados de casos y muertes:** https://covid19.who.int/WHO-COVID-19-global-table-data.csv<br>
**3.- Datos de vacunación:** https://covid19.who.int/who-data/vaccination-data.csv<br>
**4.- Metadatos de vacunación:**https://covid19.who.int/who-data/vaccination-metadata.csv<br>


**🧾Informacion del Dataset**<br>
*  Los usuarios deben tener en cuenta que, además de capturar nuevos casos y muertes notificadas en un día determinado, las actualizaciones se realizan retrospectivamente para corregir los recuentos de días anteriores según sea necesario en función de la información recibida posteriormente. Consulte "Datos agregados diarios de recuento de casos y muertes" más arriba para obtener más detalles sobre el cálculo de nuevos casos/muertes.

# Conexión BBDD - TFM COVID -19

Instalar librerías de **MySQl** para establecer la Conexión con la **BBDD**

In [None]:
import pandas as pd
import numpy as np

#!pip install mysql-connector-python
#!pip install sqlalchemy
#!pip install PyMySql
#!pip install ipython-sql

Instalar la libreria **xlrd** para importar **ficheros xls**

In [None]:
#!pip install xlrd

Establezco conexión con la **BBDD SQL** con Pandas

In [None]:
import mysql.connector

In [None]:
try:
    connection=mysql.connector.connect(
        host='localhost',
        port= 3306,
        user= 'root',
        password='Juanky_123',
        db= 'prova_tfm'
    )
    if connection.is_connected():
        print('Conexión establecidad correctamente')
        info_server=connection.get_server_info()
        print(info_server)

except Exception as ex:
    print(ex)
finally:
        if connection.is_connected():
            connection.close()
            print('Conexión finalizada')

Cargo el **Pluggin para sql**

In [None]:
%load_ext sql

Conexión a **MySQL** BBDD **local** mediante sql

In [None]:
%sql mysql+pymysql://root:Juanky_123@localhost/prova_tfm

In [None]:
%sql show tables

Conexión a **MySQL** BBDD **en Python**

In [None]:
from sqlalchemy import create_engine

conn = create_engine('mysql+pymysql://root:Juanky_123@localhost/prova_tfm')

In [None]:
conn

# Acceso a los datasets de la OMS:

Exloración e Información del DataFrame **df_covid_daily**

In [None]:
#pd.__version__

In [None]:
#pip install pycountry==20.7.3
#!pip install pycountry-convert==0.7.2

In [None]:
df_covid_daily = pd.read_csv('https://covid19.who.int/WHO-COVID-19-global-data.csv')
#df_covid_global = pd.read_csv('https://covid19.who.int/WHO-COVID-19-global-table-data.csv')
#df_vacunation =pd.read_csv ('https://covid19.who.int/who-data/vaccination-data.csv')
#df_vacunation_Meta =pd.read_csv ('https://covid19.who.int/who-data/vaccination-metadata.csv')
df_covid_daily.head()

In [None]:
df_covid_daily.shape

In [None]:
df_covid_daily.info()

Transformamos **Date_reported** a formato datetime con formato **dd/mm/yy**

In [None]:
df_covid_daily['Date_reported']= pd.to_datetime(df_covid_daily['Date_reported']).dt.strftime('%d-%m-%Y')

Verificamos que se han modificado el tipo de datos a formato fecha **dd/mm/yy**

In [None]:
df_covid_daily.head()

Observamos que no hay **ningún valor duplicado**

In [None]:
df_covid_daily.duplicated().values.any()

Observamos que hay **1273 valores nulos**

In [None]:
df_covid_daily.isnull().values.sum()

Identificamos en que **Variable** y la **suma de valores nulos**

In [None]:
df_covid_daily.isnull().sum()

Observamos que el Country Namibia tiene código Null debido a que su código ISO es **NM**

In [None]:
df_covid_daily[df_covid_daily['Country_code'].isnull()]

Sustituimos los valores Null **NaM** de Namibia por el Código ISO2 **NM**

In [None]:
df_covid_daily=df_covid_daily.fillna('NM')
df_covid_daily.head()

Verificamos que se ha cambiado correctamente el código ISO2 de Namibia a **NM**

In [None]:
df_covid_daily[df_covid_daily['Country']=="Namibia"]

Ya no tenemos vamores Nulos en ninguna variable del Dataframe

In [None]:
df_covid_daily.isnull().sum()

Instrucciones SQL para describir, mostrar, cargar ficheros a la **BBDD**<br>
Muestro las tablas de la **BBDD**

In [None]:
%sql show tables

Realizo de nuevo una conexión a la tabla de datos y la llamo **engine** // Aplicar para las versiones superiores a MySQl 8.0<br>
Descargo tabla de paises de la BBDD para realizar el merge con el data frame daily_covid

In [None]:
from sqlalchemy import create_engine,text

engine = create_engine("mysql+pymysql://root:Juanky_123@localhost/prova_tfm")
query = 'SELECT * FROM PAISES'

with engine.begin() as conn:
 df_paises= pd.read_sql_query(sql=text(query), con=conn)

df_paises.head() 

Realizo la unión entre ambos dataframes por la variable **ISO2**

In [None]:
df_covid_daily_new = pd.merge(left=df_covid_daily, right=df_paises,
                      how='left', left_on='Country_code', right_on='PAIS_ISO2')

In [None]:
df_covid_daily_new.isnull().sum()

Identifico 6365 valores nulos pero corresponden a códigos ISO2 especiales y los sustituiré por el valor **Z9**

In [None]:
df_covid_daily_new[df_covid_daily_new['PAIS_ISO3'].isnull()]

Codigos especiales **iso2** que no aparecen en listado de paises_region.csv

https://es.wikipedia.org/wiki/ISO_3166-1_alfa-2

El código **XA** está siendo utilizado por Suiza, como código de país por las Islas Canarias, a pesar de que IC ya está reservado con dicho propósito.23<br>
El código **XI** está siendo utilizado por el Gobierno del Reino Unido, como el prefijo de código de país del número EORI de Irlanda del Norte.24<br>
El código **XK** está siendo utilizado por la Comisión Europea,25​ el FMI, la SWIFT,26​ el CLDR y otras organizaciones como código de país provisional para Kosovo.27<br>
El código **XN** está siendo utilizado por la Organización Mundial de la Propiedad Intelectual como indicador para el Instituto Nórdico de Patentes, una organización internacional a la que pertenecen Dinamarca, Islandia, Noruega y Suecia.28<br>
El código **XU** está siendo utilizado por la Organización Mundial de la Propiedad Intelectual como indicador para la Unión Internacional para la Protección de las Obtenciones Vegetales<br>
El código **XV** está siendo utilizado por la Organización Mundial de la Propiedad Intelectual como indicador para el Instituto Visegrad de Patentes<br>
El código **XX** está siendo utilizado por la Organización Mundial de la Propiedad Intelectual como un indicador para estados desconocidos, otras entidades u organizaciones<br>

Elimino columnas del dataframe

In [None]:
df_covid_daily_new.drop(['Country_code','Country','COD_CONTINENTE','CONTINENTE','OMS_REGION','DESC_OMS_REGION'],axis=1,inplace=True)

In [None]:
df_covid_daily_new[df_covid_daily_new['PAIS_ISO3'].isnull()]

Sustituir valores nulos por **Z9****

In [None]:
df_covid_daily_new['PAIS_ISO3'].fillna('Z99', inplace=True)
df_covid_daily_new['PAIS_ISO2'].fillna('Z9', inplace=True)
df_covid_daily_new['PAIS_NOM'].fillna('Otros', inplace=True)
df_covid_daily_new['PAIS_NOM_2'].fillna('Otros', inplace=True)

Hacemos una última revisión. Observamos que hay 345 duplicados que son los registros que equivalen a **Z9**

In [None]:
df_covid_daily_new[df_covid_daily_new.duplicated()]

Observamos que ya **no existen valores nulos**

In [None]:
df_covid_daily_new.isnull().sum()

In [None]:
df_covid_daily_new.columns

In [None]:
df_covid_daily_new = df_covid_daily_new.reindex(columns =['PAIS_NOM','PAIS_ISO3','PAIS_ISO2','Date_reported','WHO_region','New_cases','Cumulative_cases','New_deaths','Cumulative_deaths', 'PAIS_NOM_2'])

In [None]:
df_covid_daily_new

In [None]:
df_covid_daily_new.drop(['PAIS_NOM_2'], axis=1, inplace=True)

In [None]:
df_covid_daily_new.columns=['PAIS_NOM','PAIS_ISO3','PAIS_ISO2','FECHA_INFORMADA','OMS_REGION','CASOS_NUEVOS','CASOS_ACUM','MUERTES_NUEVAS','MUERTES_ACUM']

In [None]:
df_covid_daily_new

Realizo de nuevo una conexión a la tabla de datos y la llamo **engine** // Aplicar para las versiones superiores a MySQl 8.0

In [None]:
df_covid_daily_new.to_sql('covid_daily', con = conn, if_exists = 'append', index=False)

Realizo conexión a la BBDD para verificar la creación de la nueva tabla **covid_daily**

In [None]:
from sqlalchemy import create_engine,text

engine = create_engine("mysql+pymysql://root:Juanky_123@localhost/prova_tfm")
query = 'SELECT * FROM covid_daily'

with engine.begin() as conn:
 df_covid_daily= pd.read_sql_query(sql=text(query), con=conn)

df_covid_daily.head() 

In [None]:
%sql DESC covid_daily

In [None]:
df_covid_daily_new.to_csv('df_covid_daily_new.csv',index=False)