<a href="https://colab.research.google.com/github/patriciaapenat/TFM/blob/main/Notebooks/Data_Frame_Testing_eu.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
#! git clone https://github.com/patriciaapenat/TFM.git

# Data on testing for COVID-19 by week and country

Las cifras que se muestran para la tasa de pruebas semanales por cada 100 000 habitantes y la positividad de las pruebas semanales (%) se basan en varias fuentes de datos.

El número de casos semanales por utilizado para estimar la positividad de la prueba semanal por país o región subnacional se basa en los datos recopilados por ECDC Epidemic Intelligence. Las fuentes de información son Ministerios de Salud o Institutos Nacionales de Salud Pública (sitios web, cuentas oficiales de twitter o cuentas oficiales de Facebook), y los datos obtenidos se cotejan sistemáticamente con datos de OMS. Hay más información disponible en [este enlace](https://www.ecdc.europa.eu/en/covid-19/data-collection).

La fuente principal del total de pruebas por país o región subnacional por semana son los datos agregados presentados por los Estados miembros a TESSy. Sin embargo, cuando no estaba disponible, como solía ser el caso antes de la pandemia, el ECDC recopiló datos de fuentes públicas en línea. Estos datos se han recuperado automática o manualmente ("web-scraped") diariamente de fuentes públicas en línea nacionales/oficiales de países de la UE/EEE. Cabe señalar que existen varias limitaciones para este tipo de datos. Los datos raspados no están disponibles para todas las variables y/o países debido a la variabilidad del contenido en los sitios web nacionales.

Además, el proceso de recopilación de datos requiere una adaptación constante para evitar series temporales interrumpidas (es decir, debido a la modificación de las páginas del sitio web, tipos de datos).

La tasa de notificación de 14 días de nuevos casos de COVID-19 se basa en los datos recopilados por ECDC Epidemic Intelligence de varias fuentes y se ve afectada por la estrategia de prueba local, la capacidad del laboratorio y la eficacia de los sistemas de vigilancia. Por lo tanto, la comparación de la situación epidemiológica de la COVID-19 entre países no debe basarse únicamente en estas tasas. Sin embargo, a nivel de país individual o regional, este indicador puede ser útil para monitorear la situación nacional a lo largo del tiempo.

Las políticas de pruebas y el número de pruebas realizadas por cada 100 000 personas varían notablemente a lo largo del UE/EEE y presumiblemente aún más entre terceros países. Las pruebas más exhaustivas conducirán inevitablemente a la detección de más casos.

La tasa de notificación de 14 días de nuevos casos de COVID-19 debe usarse en combinación con otros factores, incluidas las políticas de prueba, la cantidad de pruebas realizadas, la positividad de la prueba, el exceso de mortalidad y las tasas de ingresos hospitalarios y en la Unidad de Cuidados Intensivos (UCI), al analizar el epidemiológico situación en un país. La mayoría de estos indicadores se presentan para los Estados miembros de la UE/EEE en el informe Panorama general del país.

Incluso cuando se utilizan varios indicadores en combinación, las comparaciones entre países deben hacerse con cautela y experiencia epidemiológica relevante.

Información obtenida de: [Data dictionary on COVID-19 testing](https://www.ecdc.europa.eu/sites/default/files/documents/covid-19-variable-dictionary-and-disclaimer-weekly-testing-data.pdf).


In [2]:
data_dict = {
    "country": "String",
    "country_code": "2-letter ISO country code",
    "year_week": "yyyy-Www",
    "level": "National (archived dataset with national subnational data to week 36, 2022 is available on ECDC’s website)",
    "region": "2-letter ISO country code where level is national",
    "region_name": "Country name where level is national",
    "new_cases": "Number of new confirmed cases",
    "tests_done": "Number of tests done",
    "population": "Numeric",
    "testing_rate": "Testing rate per 100,000 population",
    "positivity_rate": "Weekly test positivity (%): 100 x Number of new confirmed cases/number of tests done per week",
    "testing_data_source": [
        "Country API",
        "Country GitHub",
        "Country website",
        "Manual webscraping",
        "Other",
        "Survey",
        "TESSy: data provided directly by Member States to ECDC via TESSy"
    ]
}

### Cargamos el dataset y configuramos el notebook

In [3]:
# importar paquetes
import pandas as pd
import numpy as np
import datetime as dt

In [4]:
# Leer el archivo
df_datos4 = pd.read_csv('https://opendata.ecdc.europa.eu/covid19/testing/csv/data.csv') #cargamos los datos
df_datos4.head()

Unnamed: 0,country,country_code,year_week,level,region,region_name,new_cases,tests_done,population,testing_rate,positivity_rate,testing_data_source
0,Austria,AT,2020-W01,national,AT,Austria,,,8978929,,,
1,Austria,AT,2020-W02,national,AT,Austria,,,8978929,,,
2,Austria,AT,2020-W03,national,AT,Austria,,,8978929,,,
3,Austria,AT,2020-W04,national,AT,Austria,,,8978929,,,
4,Austria,AT,2020-W05,national,AT,Austria,,,8978929,,,


### Revisamos la información general

In [5]:
df_datos4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5910 entries, 0 to 5909
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   country              5910 non-null   object 
 1   country_code         5910 non-null   object 
 2   year_week            5910 non-null   object 
 3   level                5910 non-null   object 
 4   region               5910 non-null   object 
 5   region_name          5910 non-null   object 
 6   new_cases            5654 non-null   float64
 7   tests_done           4701 non-null   float64
 8   population           5910 non-null   int64  
 9   testing_rate         4701 non-null   float64
 10  positivity_rate      4679 non-null   float64
 11  testing_data_source  4701 non-null   object 
dtypes: float64(4), int64(1), object(7)
memory usage: 554.2+ KB


In [6]:
# Revisamos si hay duplicados
df_datos4.duplicated().sum().any()

False

In [7]:
# Revisamos si hay nulos
df_datos4.isna().sum().any()

True

In [8]:
# Revisamos donde están los nulos
df_datos4.isna().sum()

country                   0
country_code              0
year_week                 0
level                     0
region                    0
region_name               0
new_cases               256
tests_done             1209
population                0
testing_rate           1209
positivity_rate        1231
testing_data_source    1209
dtype: int64

### Modificamos columnas

In [9]:
# Modificar categoría
df_datos4['testing_data_source'] = df_datos4['testing_data_source'].astype('category'); assert df_datos4['testing_data_source'].dtype == 'category'

In [10]:
# Convertir la columna 'year_week' a tipo datetime
df_datos4['year_week'] = pd.to_datetime(df_datos4['year_week'] + '-1', format='%Y-W%W-%w')
# Extraer el número de semana y el año
df_datos4['year_week'] = df_datos4['year_week'].dt.strftime('%Y-%W')

In [11]:
# Sabemos que disponemos del nombre del país en inglés
df_datos4['country']

0       Austria
1       Austria
2       Austria
3       Austria
4       Austria
         ...   
5905     Sweden
5906     Sweden
5907     Sweden
5908     Sweden
5909     Sweden
Name: country, Length: 5910, dtype: object

    Podemos hacer una función para obtener ISO3

In [12]:
import pycountry

def obtener_iso3(country):
    try:
        pais = pycountry.countries.get(name=country)
        if pais is not None:
            return pais.alpha_3
    except LookupError:
        pass
    return None

# Obtener el código ISO 3 correspondiente a los nombres de país en la columna 'country'
df_datos4.insert(1, 'iso3', df_datos4['country'].apply(obtener_iso3))

In [13]:
df_datos4['iso3']

0       AUT
1       AUT
2       AUT
3       AUT
4       AUT
       ... 
5905    SWE
5906    SWE
5907    SWE
5908    SWE
5909    SWE
Name: iso3, Length: 5910, dtype: object

### Y por último limpiamos

In [14]:
# Revisamos donde están los nulos
df_datos4.isna().any()

country                False
iso3                   False
country_code           False
year_week              False
level                  False
region                 False
region_name            False
new_cases               True
tests_done              True
population             False
testing_rate            True
positivity_rate         True
testing_data_source     True
dtype: bool

In [15]:
# Eliminar nulos
df_datos4.dropna(subset=['new_cases', 'tests_done', 'testing_rate', 'positivity_rate', 'testing_data_source'], inplace=True)

#### Eliminamos columnas que no utilizaremos

In [16]:
df_datos4

Unnamed: 0,country,iso3,country_code,year_week,level,region,region_name,new_cases,tests_done,population,testing_rate,positivity_rate,testing_data_source
40,Austria,AUT,AT,2020-41,national,AT,Austria,7487.0,124663.0,8978929,1388.394986,6.005792,TESSy COVID-19
41,Austria,AUT,AT,2020-42,national,AT,Austria,9898.0,129647.0,8978929,1443.902719,7.634577,TESSy COVID-19
42,Austria,AUT,AT,2020-43,national,AT,Austria,18262.0,158997.0,8978929,1770.779121,11.485751,TESSy COVID-19
43,Austria,AUT,AT,2020-44,national,AT,Austria,31613.0,167926.0,8978929,1870.223052,18.825554,TESSy COVID-19
44,Austria,AUT,AT,2020-45,national,AT,Austria,44772.0,199567.0,8978929,2222.614746,22.434571,TESSy COVID-19
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5905,Sweden,SWE,SE,2023-36,national,SE,Sweden,664.0,4781.0,10452326,45.741015,13.888308,TESSy COVID-19
5906,Sweden,SWE,SE,2023-37,national,SE,Sweden,656.0,4843.0,10452326,46.334184,13.545323,TESSy COVID-19
5907,Sweden,SWE,SE,2023-38,national,SE,Sweden,676.0,4921.0,10452326,47.080430,13.737045,TESSy COVID-19
5908,Sweden,SWE,SE,2023-39,national,SE,Sweden,594.0,4717.0,10452326,45.128711,12.592750,TESSy COVID-19


In [17]:
df_datos4.drop(['country_code', 'region_name', 'region', 'country'], axis=1, inplace=True)

In [18]:
df_datos4.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4679 entries, 40 to 5909
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype   
---  ------               --------------  -----   
 0   iso3                 4679 non-null   object  
 1   year_week            4679 non-null   object  
 2   level                4679 non-null   object  
 3   new_cases            4679 non-null   float64 
 4   tests_done           4679 non-null   float64 
 5   population           4679 non-null   int64   
 6   testing_rate         4679 non-null   float64 
 7   positivity_rate      4679 non-null   float64 
 8   testing_data_source  4679 non-null   category
dtypes: category(1), float64(4), int64(1), object(3)
memory usage: 333.7+ KB


In [19]:
df_datos4 = df_datos4.reindex(columns =['iso3','year_week','level','new_cases','tests_done','population','testing_rate','positivity_rate','testing_data_source'])

In [20]:
df_datos4.columns=['PAIS_ISO3','ANY_SEMANA','NIVEL','CASOS_NUEVOS','N_TESTS_REALIZADOS','POBLACION','RATIO_TESTS','RATIO_POSITIVO','FUENTES_TESTS']

# Establecemos **Conexión a BBDD y Carga de Ficheros** (Azure Data Studio)

In [21]:
import pyodbc
server = 'servidortfmcovid-v2.database.windows.net'
database = 'basedatostfmcovid-v2'
username = 'admintfmcovid_v2'
password = 'TFMcovid2023!_v2'
cnxn = pyodbc.connect('DRIVER={SQL Server};SERVER='+server+';DATABASE='+database+';UID='+username+';PWD='+ password)
cursor = cnxn.cursor()

# Nombre de la tabla en la base de datos
nombre_de_tabla = 'dbo.TESTING_COVID_EU'  # Reemplaza 'MiTabla' por el nombre de tu tabla

# Eliminar registros
cursor.execute(f"DELETE FROM {nombre_de_tabla}")

# Inserta los datos del DataFrame en la tabla
for index, row in df_datos4.iterrows():
    insert_query = f"INSERT INTO {nombre_de_tabla} ({', '.join(df_datos4.columns)}) VALUES ({', '.join(['?'] * len(df_datos4.columns))})"
    cursor.execute(insert_query, tuple(row))
    cnxn.commit()

# Cierra la conexión
cnxn.close()