In [1]:
# Carga inicial de librerías
import pandas as pd
import numpy as np
from datetime import datetime
from statistics import mean

In [2]:
# Cargamos los datos de las estaciones de cada una de las islas
datos_aemet_Tenerife = pd.read_csv('../data/inicial/datos_meteorologicos/datos_atmosfericos_Tenerife.csv', header=0)
datos_aemet_LaPalma = pd.read_csv('../data/inicial/datos_meteorologicos/datos_atmosfericos_La Palma.csv', header=0)
datos_aemet_ElHierro = pd.read_csv('../data/inicial/datos_meteorologicos/datos_atmosfericos_El Hierro.csv', header=0)
datos_aemet_LaGomera = pd.read_csv('../data/inicial/datos_meteorologicos/datos_atmosfericos_La Gomera.csv', header=0)
datos_aemet_GranCanaria = pd.read_csv('../data/inicial/datos_meteorologicos/datos_atmosfericos_Gran Canaria.csv', header=0)
datos_aemet_Lanzarote = pd.read_csv('../data/inicial/datos_meteorologicos/datos_atmosfericos_Lanzarote.csv', header=0)
datos_aemet_Fuerteventura = pd.read_csv('../data/inicial/datos_meteorologicos/datos_atmosfericos_Fuerteventura.csv', header=0)

In [3]:
# Listado con todos los datos de cada isla
lista_datos_islas = [datos_aemet_Tenerife, datos_aemet_LaPalma, datos_aemet_ElHierro, datos_aemet_LaGomera, datos_aemet_GranCanaria, datos_aemet_Lanzarote, datos_aemet_Fuerteventura]

# Unimos los datos en un solo DataFrame
datos_aemet = pd.concat(lista_datos_islas, ignore_index=True)

In [4]:
#Obtenemos las dimensiones del dataframe
shape = datos_aemet.shape

print("Número de atributos:", shape[1])
print("Número de filas :", shape[0])
print("Nombre de los atributos:", datos_aemet.columns.values)

Número de atributos: 26
Número de filas : 3171
Nombre de los atributos: ['fecha' 'indicativo' 'nombre' 'provincia' 'altitud' 'tmed' 'prec' 'tmin'
 'horatmin' 'tmax' 'horatmax' 'dir' 'velmedia' 'racha' 'horaracha' 'sol'
 'presMax' 'horaPresMax' 'presMin' 'horaPresMin' 'hrMedia' 'hrMax'
 'horaHrMax' 'hrMin' 'horaHrMin' 'isla']


Este dataset contiene 3165 registros que corresponden con los datos de casos de covid en las Islas Canarias y 26 variabless que los caracterizan. La descripción de las variables obtenidas son:

* **fecha:** Fecha de los datos.
* **indicativo:** Indicativo climatológico.
* **nombre:** Nombre de la estación.
* **provincia:** Provincia de la estación.
* **altitud:** Altitud de la estación.
* **tmed:** Temperatura media diaria.
* **prec:** Precipitación diaria.
* **tmin:** Temperatura mínima del día.
* **horatmin:** Hora y minuto de la temperatura mínima.
* **tmax:** Temperatura máxima del día.
* **horatmax:** Hora y minuto de la temperatura máxima.
* **dir:** Dirección de la raxha máxima
* **velmedia:** Velocidad media del viento.
* **racha:** Racha máxima del viento.
* **horaracha:** Hora y minuto de la racha máxima.
* **sol:** Insolación
* **presMax:** Presión máxima al nivel de referencia de la estación
* **horaPresMax:** Hora de la presión máxima.
* **presMin:** Presión mínima al nivel de referencia de la estación.
* **horaPresMin:** Hora de la presión mínima.
* **hrMedia:** Humedad relativa media diaria.
* **hrMax:** Humedad relativa máxima diaria.
* **horaHrMax:** Hora de la humedad relativa máxima.
* **hrMin:** Humedad relativa mínima diaria
* **horaHrMin:** Hora de la humedad relativa mínima.
* **isla:** Isla a la que pertenecen los datos.

In [5]:
def comporbar_valores_perdidos(df):
    '''Compruba si existen valores perdidos en el DataFrame
    
    Args:
    df (DataFrame): DataFrame con los datos para comprobar la existencia de datos perdidos
    '''
    #Buscamos los valores vacíos
    print("\nValores no definidos:")
    print(df.isna().sum())
    
    print("\nValores nulos:")
    print(df.isnull().sum())

In [6]:
comporbar_valores_perdidos(datos_aemet)


Valores no definidos:
fecha           0
indicativo      0
nombre          0
provincia       0
altitud         0
tmed           29
prec            0
tmin           29
horatmin       33
tmax           29
horatmax       31
dir            23
velmedia       11
racha          23
horaracha      23
sol            45
presMax        22
horaPresMax    22
presMin        22
horaPresMin    22
hrMedia        23
hrMax          30
horaHrMax      31
hrMin          30
horaHrMin      31
isla            0
dtype: int64

Valores nulos:
fecha           0
indicativo      0
nombre          0
provincia       0
altitud         0
tmed           29
prec            0
tmin           29
horatmin       33
tmax           29
horatmax       31
dir            23
velmedia       11
racha          23
horaracha      23
sol            45
presMax        22
horaPresMax    22
presMin        22
horaPresMin    22
hrMedia        23
hrMax          30
horaHrMax      31
hrMin          30
horaHrMin      31
isla            0
dtype: int64

In [7]:
# Información de las variables
datos_aemet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3171 entries, 0 to 3170
Data columns (total 26 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   fecha        3171 non-null   object 
 1   indicativo   3171 non-null   object 
 2   nombre       3171 non-null   object 
 3   provincia    3171 non-null   object 
 4   altitud      3171 non-null   int64  
 5   tmed         3142 non-null   object 
 6   prec         3171 non-null   object 
 7   tmin         3142 non-null   object 
 8   horatmin     3138 non-null   object 
 9   tmax         3142 non-null   object 
 10  horatmax     3140 non-null   object 
 11  dir          3148 non-null   float64
 12  velmedia     3160 non-null   object 
 13  racha        3148 non-null   object 
 14  horaracha    3148 non-null   object 
 15  sol          3126 non-null   object 
 16  presMax      3149 non-null   object 
 17  horaPresMax  3149 non-null   object 
 18  presMin      3149 non-null   object 
 19  horaPr

In [8]:
# Muestra del conjunto de datos.
datos_aemet.head()

Unnamed: 0,fecha,indicativo,nombre,provincia,altitud,tmed,prec,tmin,horatmin,tmax,...,presMax,horaPresMax,presMin,horaPresMin,hrMedia,hrMax,horaHrMax,hrMin,horaHrMin,isla
0,2021-01-01,C449C,STA.CRUZ DE TENERIFE,STA. CRUZ DE TENERIFE,36,181,Ip,162,23:40,200,...,10191,10,10162,18,59.0,76.0,23:20,47.0,11:20,Tenerife
1,2021-01-02,C449C,STA.CRUZ DE TENERIFE,STA. CRUZ DE TENERIFE,36,178,00,158,07:00,198,...,10169,11,10130,19,65.0,76.0,00:50,50.0,13:20,Tenerife
2,2021-01-03,C449C,STA.CRUZ DE TENERIFE,STA. CRUZ DE TENERIFE,36,182,Ip,166,23:40,198,...,10148,10,10109,Varias,66.0,76.0,23:59,62.0,05:40,Tenerife
3,2021-01-04,C449C,STA.CRUZ DE TENERIFE,STA. CRUZ DE TENERIFE,36,182,Ip,166,00:00,197,...,10114,1,10062,18,80.0,86.0,23:59,72.0,Varias,Tenerife
4,2021-01-05,C449C,STA.CRUZ DE TENERIFE,STA. CRUZ DE TENERIFE,36,209,00,181,01:20,237,...,10080,10,10046,17,68.0,88.0,00:50,59.0,13:40,Tenerife


In [9]:
# Obtenemos sólo las variables que vamos a utilizar en el estudio, eliminando aquellas variables como las horas
datos_aemet = datos_aemet[['fecha','isla','tmed', 'prec', 'tmin', 'tmax', 'dir', 'velmedia', 'racha', 'sol', 'presMax', 'presMin', 'hrMedia', 'hrMax', 'hrMin']]

# Convertimos las variables con tipos de datos incorrectos en los tipos de datos que le corresponden
datos_aemet['fecha'] = pd.to_datetime(datos_aemet['fecha'])
datos_aemet['isla'] = datos_aemet['isla'].astype(str)
datos_aemet['isla'] = datos_aemet['isla'].str.upper()
datos_aemet['tmed'] = datos_aemet['tmed'].str.replace(',','.').astype(float)
datos_aemet['prec'] = datos_aemet['prec'].replace('Ip', '0.05')
datos_aemet['prec'] = datos_aemet['prec'].str.replace(',','.').astype(float)
datos_aemet['tmin'] = datos_aemet['tmin'].str.replace(',','.').astype(float)
datos_aemet['tmax'] = datos_aemet['tmax'].str.replace(',','.').astype(float)
datos_aemet['dir'] = datos_aemet['dir'].astype(float)
datos_aemet['velmedia'] = datos_aemet['velmedia'].str.replace(',','.').astype(float)
datos_aemet['racha'] = datos_aemet['racha'].str.replace(',','.').astype(float)
datos_aemet['sol'] = datos_aemet['sol'].str.replace(',','.').astype(float)
datos_aemet['presMax'] = datos_aemet['presMax'].str.replace(',','.').astype(float)
datos_aemet['presMin'] = datos_aemet['presMin'].str.replace(',','.').astype(float)
datos_aemet['hrMedia'] = datos_aemet['hrMedia'].astype(float)
datos_aemet['hrMax'] = datos_aemet['hrMax'].astype(float)
datos_aemet['hrMin'] = datos_aemet['hrMin'].astype(float)

In [10]:
# Información de las variables
datos_aemet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3171 entries, 0 to 3170
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   fecha     3171 non-null   datetime64[ns]
 1   isla      3171 non-null   object        
 2   tmed      3142 non-null   float64       
 3   prec      3171 non-null   float64       
 4   tmin      3142 non-null   float64       
 5   tmax      3142 non-null   float64       
 6   dir       3148 non-null   float64       
 7   velmedia  3160 non-null   float64       
 8   racha     3148 non-null   float64       
 9   sol       3126 non-null   float64       
 10  presMax   3149 non-null   float64       
 11  presMin   3149 non-null   float64       
 12  hrMedia   3148 non-null   float64       
 13  hrMax     3141 non-null   float64       
 14  hrMin     3141 non-null   float64       
dtypes: datetime64[ns](1), float64(13), object(1)
memory usage: 371.7+ KB


In [11]:
# Muestra del conjunto de datos.
datos_aemet.head()

Unnamed: 0,fecha,isla,tmed,prec,tmin,tmax,dir,velmedia,racha,sol,presMax,presMin,hrMedia,hrMax,hrMin
0,2021-01-01,TENERIFE,18.1,0.05,16.2,20.0,6.0,2.2,7.5,1.5,1019.1,1016.2,59.0,76.0,47.0
1,2021-01-02,TENERIFE,17.8,0.0,15.8,19.8,8.0,3.1,7.2,2.7,1016.9,1013.0,65.0,76.0,50.0
2,2021-01-03,TENERIFE,18.2,0.05,16.6,19.8,10.0,1.1,6.1,0.3,1014.8,1010.9,66.0,76.0,62.0
3,2021-01-04,TENERIFE,18.2,0.05,16.6,19.7,20.0,2.2,11.7,0.0,1011.4,1006.2,80.0,86.0,72.0
4,2021-01-05,TENERIFE,20.9,0.0,18.1,23.7,29.0,2.5,10.8,7.7,1008.0,1004.6,68.0,88.0,59.0


In [12]:
# Obtenemos el listado de islas del conjunto de datos
valores_islas = datos_aemet['isla'].unique()
print("Valores de islas:", valores_islas)

Valores de islas: ['TENERIFE' 'LA PALMA' 'EL HIERRO' 'LA GOMERA' 'GRAN CANARIA' 'LANZAROTE'
 'FUERTEVENTURA']


In [None]:
"""filas_na = datos_aemet[datos_aemet.isna().any(axis=1)]

# Iterar sobre cada isla
for isla in valores_islas:
    # Filtrar filas con valores nulos para la isla actual
    filas_na_isla = filas_na[filas_na['isla'] == isla]
    # Filtrar datos originales para la isla actual
    datos_aemet_isla = datos_aemet[datos_aemet['isla'] == isla]
    variables = ['tmed', 'prec','tmin','tmax','dir','velmedia','racha','sol','presMax', 'presMin','hrMedia','hrMax', 'hrMin']
    
    # Iterar sobre las filas con valores nulos para la isla actual
    for index, fila in filas_na_isla.iterrows():
        fecha_actual = fila['fecha']

        fecha_anterior = fecha_actual - pd.Timedelta(days=1)
        fecha_siguiente = fecha_actual + pd.Timedelta(days=1)
        # Obtener las filas vecinas en el DataFrame original para la isla actual
        fila_anterior = datos_aemet_isla[(datos_aemet_isla['fecha'] == fecha_anterior)]
        fila_siguiente = datos_aemet_isla[(datos_aemet_isla['fecha'] == fecha_siguiente)]
        
        for variable in variables:
            if pd.isna(fila[variable]) or pd.isnull(fila[variable]):
                valor_anterior = fila_anterior[variable].iloc[0]
                valor_siguiente = fila_siguiente[variable].iloc[0]
                if not pd.isna(valor_anterior) and not pd.isna(valor_siguiente): 
                    media = mean([fila_anterior[variable].iloc[0], fila_siguiente[variable].iloc[0]])
                    datos_aemet.loc[index, variable] = media
                elif not pd.isna(valor_anterior):
                    datos_aemet.loc[index, variable] = valor_anterior
                elif not pd.isna(valor_siguiente):
                    datos_aemet.loc[index, variable] = valor_siguiente"""
                


In [13]:
filas_na = datos_aemet[datos_aemet.isna().any(axis=1)]

# Iterar sobre cada isla
for isla in valores_islas:
    # Filtrar filas con valores nulos para la isla actual
    filas_na_isla = filas_na[filas_na['isla'] == isla]
    # Filtrar datos originales para la isla actual
    datos_aemet_isla = datos_aemet[datos_aemet['isla'] == isla]
    variables = ['tmed', 'prec','tmin','tmax','dir','velmedia','racha','sol','presMax', 'presMin','hrMedia','hrMax', 'hrMin']

    for variable in variables:
        datos_aemet.loc[datos_aemet['isla'] == isla, variable] = datos_aemet_isla[variable].interpolate(method='linear')

In [14]:
filas_na = datos_aemet[datos_aemet.isna().any(axis=1)]
filas_na

Unnamed: 0,fecha,isla,tmed,prec,tmin,tmax,dir,velmedia,racha,sol,presMax,presMin,hrMedia,hrMax,hrMin


In [None]:
# Fecha inicial desde la que se tienen los datos de casos de COVID
fecha_inicio = datetime(2021, 1, 1)
# Fecha final hasta la que se tienen los datos de casos de COVID
fecha_fin = datetime(2021, 3, 29)
# Rango de fechas de la que tenemos datos de casos de COVID
rango_fechas = pd.date_range(start=fecha_inicio, end=fecha_fin, freq='D')

def comprobar_fechas_isla(df):
    '''Compruba si existe alguna fecha para lo que no se tenga datos de una isla
    
    Args:
    df (DataFrame): DataFrame con los datos de la serie temporal de los casos de COVID para una isla
    
    Returns:
    fechas_faltantes (list): Listado con las fechas para las que no se tiene datos
    '''
    fechas_faltantes = rango_fechas[~rango_fechas.isin(df['fecha'])]
    if len(fechas_faltantes) == 0:
        return []
    else:
        return fechas_faltantes.tolist()
        # Convertir las fechas a strings
        #fechas_str = [str(fecha) for fecha in fechas_faltantes]
        #fechas_str = ','.join(fechas_str)
        
        #return fechas_str


def comprobar_fechas(df):
    '''Realiza la comprobación para cada una de las islas del DataFrame si existe alguna fecha sin datos
    
    Args:
        df (DataFrame): DataFrame con los datos de la serie temporal de los casos de COVID de todas las islas
    '''
    for isla in valores_islas:
        print('Fechas faltantes para ' + isla + ': ' + str(comprobar_fechas_isla(df[df['isla'] == isla])))