# Data on testing for COVID-19 by week and country 

Las cifras que se muestran para la tasa de pruebas semanales por cada 100 000 habitantes y la positividad de las pruebas semanales (%) se basan en varias fuentes de datos.

El número de casos semanales por utilizado para estimar la positividad de la prueba semanal por país o región subnacional se basa en los datos recopilados por ECDC Epidemic Intelligence. Las fuentes de información son Ministerios de Salud o Institutos Nacionales de Salud Pública (sitios web, cuentas oficiales de twitter o cuentas oficiales de Facebook), y los datos obtenidos se cotejan sistemáticamente con datos de OMS. Hay más información disponible en [este enlace](https://www.ecdc.europa.eu/en/covid-19/data-collection).

La fuente principal del total de pruebas por país o región subnacional por semana son los datos agregados presentados por los Estados miembros a TESSy. Sin embargo, cuando no estaba disponible, como solía ser el caso antes de la pandemia, el ECDC recopiló datos de fuentes públicas en línea. Estos datos se han recuperado automática o manualmente ("web-scraped") diariamente de fuentes públicas en línea nacionales/oficiales de países de la UE/EEE. Cabe señalar que existen varias limitaciones para este tipo de datos. Los datos raspados no están disponibles para todas las variables y/o países debido a la variabilidad del contenido en los sitios web nacionales.

Además, el proceso de recopilación de datos requiere una adaptación constante para evitar series temporales interrumpidas (es decir, debido a la modificación de las páginas del sitio web, tipos de datos).

La tasa de notificación de 14 días de nuevos casos de COVID-19 se basa en los datos recopilados por ECDC Epidemic Intelligence de varias fuentes y se ve afectada por la estrategia de prueba local, la capacidad del laboratorio y la eficacia de los sistemas de vigilancia. Por lo tanto, la comparación de la situación epidemiológica de la COVID-19 entre países no debe basarse únicamente en estas tasas. Sin embargo, a nivel de país individual o regional, este indicador puede ser útil para monitorear la situación nacional a lo largo del tiempo.

Las políticas de pruebas y el número de pruebas realizadas por cada 100 000 personas varían notablemente a lo largo del UE/EEE y presumiblemente aún más entre terceros países. Las pruebas más exhaustivas conducirán inevitablemente a la detección de más casos.

La tasa de notificación de 14 días de nuevos casos de COVID-19 debe usarse en combinación con otros factores, incluidas las políticas de prueba, la cantidad de pruebas realizadas, la positividad de la prueba, el exceso de mortalidad y las tasas de ingresos hospitalarios y en la Unidad de Cuidados Intensivos (UCI), al analizar el epidemiológico situación en un país. La mayoría de estos indicadores se presentan para los Estados miembros de la UE/EEE en el informe Panorama general del país.

Incluso cuando se utilizan varios indicadores en combinación, las comparaciones entre países deben hacerse con cautela y experiencia epidemiológica relevante.

Información obtenida de: [Data dictionary on COVID-19 testing](https://www.ecdc.europa.eu/sites/default/files/documents/covid-19-variable-dictionary-and-disclaimer-weekly-testing-data.pdf).


In [None]:
data_dict = {
    "country": "String",
    "country_code": "2-letter ISO country code",
    "year_week": "yyyy-Www",
    "level": "National (archived dataset with national subnational data to week 36, 2022 is available on ECDC’s website)",
    "region": "2-letter ISO country code where level is national",
    "region_name": "Country name where level is national",
    "new_cases": "Number of new confirmed cases",
    "tests_done": "Number of tests done",
    "population": "Numeric",
    "testing_rate": "Testing rate per 100,000 population",
    "positivity_rate": "Weekly test positivity (%): 100 x Number of new confirmed cases/number of tests done per week",
    "testing_data_source": [
        "Country API",
        "Country GitHub",
        "Country website",
        "Manual webscraping",
        "Other",
        "Survey",
        "TESSy: data provided directly by Member States to ECDC via TESSy"
    ]
}

### Cargamos el dataset y configuramos el notebook

In [None]:
# importar paquetes
import pandas as pd
import numpy as np
import datetime as dt
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# configurar los gráficos
sns.set_style('whitegrid')
sns.set_palette('flare')

In [None]:
# Leer el archivo
df_datos4 = pd.read_csv('https://opendata.ecdc.europa.eu/covid19/testing/csv/data.csv') #cargamos los datos
df_datos4.head()

### Revisamos la información general

In [None]:
df_datos4.info() 

In [None]:
# Revisamos si hay duplicados
df_datos4.duplicated().sum().any()

In [None]:
# Revisamos si hay nulos
df_datos4.isna().sum().any()

In [None]:
# Revisamos donde están los nulos
df_datos4.isna().sum()

### Modificamos columnas

In [None]:
# Modificar categoría
df_datos4['testing_data_source'] = df_datos4['testing_data_source'].astype('category'); assert df_datos4['testing_data_source'].dtype == 'category'

In [None]:
# Convertir la columna 'year_week' a tipo datetime
df_datos4['year_week'] = pd.to_datetime(df_datos4['year_week'] + '-1', format='%Y-W%W-%w')
# Extraer el número de semana y el año
df_datos4['year_week'] = df_datos4['year_week'].dt.strftime('%Y-%W')

In [None]:
# Sabemos que disponemos del nombre del país en inglés
df_datos4['country']

    Podemos hacer una función para obtener ISO3

In [None]:
import pycountry

def obtener_iso3(country):
    try:
        pais = pycountry.countries.get(name=country)
        if pais is not None:
            return pais.alpha_3
    except LookupError:
        pass
    return None

# Obtener el código ISO 3 correspondiente a los nombres de país en la columna 'country'
df_datos4.insert(1, 'iso3', df_datos4['country'].apply(obtener_iso3))

In [None]:
df_datos4['iso3']

### Y por último limpiamos

In [None]:
# Revisamos donde están los nulos
df_datos4.isna().any()

In [None]:
# Eliminar nulos
df_datos4.dropna(subset=['new_cases', 'tests_done', 'testing_rate', 'positivity_rate', 'testing_data_source'], inplace=True)

#### Eliminamos columnas que no utilizaremos

In [None]:
df_datos4

In [None]:
df_datos4.drop(['country_code', 'region_name', 'region', 'country'], axis=1, inplace=True)

In [None]:
### Verificamos

In [None]:
df_datos4.info()

# Conexión BBDD - TFM COVID -19

Instalar librerías de **MySQl** para establecer la Conexión con la **BBDD**

In [None]:
import pandas as pd
import numpy as np

#!pip install mysql-connector-python
#!pip install sqlalchemy
#!pip install PyMySql
#!pip install ipython-sql

Establezco conexión con la **BBDD SQL** con Pandas

In [None]:
import mysql.connector

try:
    connection=mysql.connector.connect(
        host='localhost',
        port= 3306,
        user= 'root',
        password='Juanky_123',
        db= 'prova_tfm'
    )
    if connection.is_connected():
        print('Conexión establecidad correctamente')
        info_server=connection.get_server_info()
        print(info_server)

except Exception as ex:
    print(ex)
finally:
        if connection.is_connected():
            connection.close()
            print('Conexión finalizada')

Cargo el **Pluggin para sql**

In [None]:
%load_ext sql

Conexión a **MySQL** BBDD **local** mediante sql

In [None]:
%sql mysql+pymysql://root:Juanky_123@localhost/prova_tfm

In [None]:
%sql show tables

Conexión a **MySQL** BBDD **en Python**

In [None]:
from sqlalchemy import create_engine

conn = create_engine('mysql+pymysql://root:Juanky_123@localhost/prova_tfm')

conn

Instrucciones SQL para describir, mostrar, cargar ficheros a la **BBDD**

In [None]:
%sql DESC testing_covid_eu

In [None]:
%sql delete from testing_covid_eu

In [None]:
df_datos4.columns =['PAIS_ISO3', 'ANY_SEMANA','NIVEL','CASOS_NUEVOS','N_TESTS_REALIZADOS','POBLACION','RATIO_TESTS','RATIO_POSITIVO','FUENTES_TESTS']

Cargo dataframe_testing a la BBDD

In [None]:
df_datos4.to_sql('testing_covid_eu', con = conn, if_exists = 'append', index=False)

In [None]:
df_datos4.to_csv('df_testing_covid_eu.csv',index=False)

## Algunas cosas adicionales

In [None]:
# Configurar el estilo y la paleta de colores
sns.set_style('whitegrid')
sns.set_palette('flare')

Podemos hacer la correlación entre testing_rate y positivity_rate

In [None]:
# Corr por defecto será Pearson que es el más utilizado
correlation = df_datos4['testing_rate'].corr(df_datos4['positivity_rate'])
print("Coeficiente de correlación de Pearson:", correlation)

Por tanto hablaríamos de una correlación negativa debil entre testing_rate y positivity_rate

In [None]:
# Jointgrid amb histograma marginal Testing_rate x positivity_rate
g = sns.jointplot(data=df_datos4, x='testing_rate', y='positivity_rate', kind="kde", cmap="flare", fill=True)
g.plot_joint(sns.kdeplot, cmap="flare", fill=True)
g.plot_marginals(sns.histplot, color='#93446E')

# Configurar etiquetes i títol
g.set_axis_labels("Testing rate", "Positivity rate")
g.fig.suptitle("Distribución conjunta de RM_squared y MEDV en el conjunto de prueba", y=1.02)

plt.show()

#### Conteo de representación de regiones

In [None]:
# Calcular el conteo de registros por región
region_counts = df_datos4['iso3'].value_counts()

# Crear la visualización del conteo de registros por región
plt.figure(figsize=(12, 6))  # Ajustar el tamaño de la figura
sns.countplot(data=df_datos4, x='iso3', palette='flare', order=region_counts.index)
plt.xlabel('Región')
plt.ylabel('Contador')
plt.title('Representación de cada región en el dataset')
plt.xticks(rotation=90)  # Rotar las etiquetas de las regiones
plt.tight_layout()  # Ajustar el espaciado
plt.show()

In [None]:
# Correlación entre región y nuevos casos
df_datos4['iso3'] = pd.factorize(df_datos4['iso3'])[0]
correlation = df_datos4['new_cases'].corr(df_datos4['iso3'], method='spearman')
print("Coeficiente de correlación de Spearman:", correlation)

Por tanto hablaríamos de una correlación negativa muy debil entre new_cases e iso3

## Heatmap de correlaciones

In [None]:
data = df_datos4[['new_cases', 'tests_done', 'population', 'testing_rate', 'positivity_rate']]
sns.clustermap(data.corr(), annot=True, cmap='flare')
plt.title('Clustermap - Correlación entre variables')
plt.show()

## Y por último exportamos

    Hacemos una función para poder guardarlo directamente en nuestra ubicación actual

In [None]:
import os 

def guardar_como_csv(df, nombre_archivo):
    # Obtener la ruta completa del directorio actual
    current_directory = os.getcwd()
    # Definir la ubicación y el nombre del archivo CSV
    file_path = os.path.join(current_directory, nombre_archivo)
    # Guardar el DataFrame como un archivo CSV en la ubicación especificada
    df.to_csv(file_path, index=False)

In [None]:
# Llamar a la función para guardar el DataFrame df_datos4 como un archivo CSV
guardar_como_csv(df_datos4, "DEFMODTestingCovid19.csv")

In [None]:
#df_datos4.to_csv('testing.csv',index=False)

In [None]:
df_datos4.head()