# 1. EDA
En este apartado se pretende analizar los datasets para poder enfocar mejor la limpieza

## 1.1 Importación y carga de datos
Debemos declarar las librerías que usamos y leer el correspondiente archivo de datos

In [1]:
# Importación de librerías
import pandas as pd

# Lectura dataset separado por caracteres ';'
df = pd.read_csv('../meteo24.csv', sep=';')

## 1.2 Configuración de Pandas
Para poder leer bien los resultados de las ejecuciones, vamos a configurar tanto el número máximo de columnas como el número máximo de filas

In [2]:
# Número máximo de filas a mostrar
pd.set_option('display.max_rows', None)

# Número máximo de columnas a mostrar
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', 2000)

## 1.3 Descripción general del dataset
Para poder conocer ciertas características relevantes del dataset, como el número de instancias (filas) y características (columnas) procederemos a usar diferentes funciones de Pandas


In [3]:
# Descripción de parámetros generales -> count, mean, std, min, 25%, 50%, 75%, max
print(df.describe())

# Número de filas y columnas del dataset
print("\n")
print("Número de filas: ", df.shape[0])
print("Número de columnas: ", df.shape[1])
print("\n")

# Para saber el tipo de variable de cada columna
print(df.info())

       PROVINCIA  MUNICIPIO    ESTACION    MAGNITUD     ANO         MES         D01         D02         D03         D04         D05         D06         D07         D08         D09         D10         D11         D12         D13         D14         D15         D16         D17         D18         D19         D20         D21         D22         D23         D24         D25         D26         D27         D28         D29         D30         D31
count      658.0      658.0  658.000000  658.000000   658.0  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000  658.000000
mean        28.0       79.0   76.808511   84.819149  2024.0    4.000000  129.414939  124.331626  127.770957  126

## 1.4 Observación inicial del dataset
Vamos a mostrar todas las entradas para poder observar cómo es realmente por dentro el dataset

In [4]:
# Mostramos las 10 primeras filas, 10 filas aleatorias y las 10 últimas
print("   ----------    10 primeras filas    ----------    ")
print("\n")
print(df.head(10))
print("\n")
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")
print("   ----------    10 últimas filas    ----------    ")
print("\n")
print(df.tail(10))

   ----------    10 primeras filas    ----------    


   PROVINCIA  MUNICIPIO  ESTACION  MAGNITUD  PUNTO_MUESTREO   ANO  MES     D01 V01     D02 V02     D03 V03     D04 V04     D05 V05     D06 V06     D07 V07     D08 V08     D09 V09     D10 V10     D11 V11     D12 V12     D13 V13    D14 V14     D15 V15     D16 V16     D17 V17     D18 V18    D19 V19    D20 V20     D21 V21     D22 V22     D23 V23     D24 V24     D25 V25     D26 V26     D27 V27     D28 V28     D29 V29     D30 V30     D31 V31
0         28         79       102        81  28079102_81_98  2024    1    0.90   V    0.66   V    1.51   V    0.91   V    2.70   V    1.91   V    0.98   V    0.82   V    0.82   V    1.76   V    1.61   V    1.30   V    0.76   V   0.98   V    1.94   V    2.60   V    4.29   V    3.63   V   3.41   V   2.13   V    0.87   V    0.68   V    0.82   V    0.92   V    0.90   V    0.78   V    1.51   V    1.30   V    1.16   V    0.79   V    1.32   V
1         28         79       102        81  28079102_81_98  2024

## 1.5 Revisión de valores nulos
Como ya se ha visto en el anterior apartado (info), podemos observar los valores nulos de esa forma. Pero se puede observar de una forma más visual en esta sección y, además, hay que tener en cuenta valores como el cero que también pueden considerarse nulos.

In [5]:
# Para poder saber el número de valores faltantes
print("    ----------    Valores faltantes    ----------    ")
print("\n")
print(df.isnull().sum())
print("\n")

# Para poder saber el número de ceros en cada columna
print("    ----------    Valores cero    ----------    ")
print("\n")
print((df == 0).sum())

    ----------    Valores faltantes    ----------    


PROVINCIA         0
MUNICIPIO         0
ESTACION          0
MAGNITUD          0
PUNTO_MUESTREO    0
ANO               0
MES               0
D01               0
V01               0
D02               0
V02               0
D03               0
V03               0
D04               0
V04               0
D05               0
V05               0
D06               0
V06               0
D07               0
V07               0
D08               0
V08               0
D09               0
V09               0
D10               0
V10               0
D11               0
V11               0
D12               0
V12               0
D13               0
V13               0
D14               0
V14               0
D15               0
V15               0
D16               0
V16               0
D17               0
V17               0
D18               0
V18               0
D19               0
V19               0
D20               0
V20               0
D21 

No encontramos valores nulos y los valores cero pueden estar en el dataset, por lo que no se hará limpieza de esto

## 1.6 Identificación de fechas no estandarizadas
Se deben identificar las fechas que no se encuentran en el formato adecuado para MongoDB (DD/MM/YYYY)

Como no hay fechas no estandarizadas en el dataset, no se realizará la limpieza de este apartado 

## 1.7 Identificación de registros duplicados
Debemos validar que no existen filas iguales que ensucien el dataset, sobre todo estando pendiente de duplicaciones de la clave primaria. Como no hay ninguna PK, debemos ver qué filas están duplicadas y qué filas poseen los mismos campos de PUNTO_MUESTREO, ANO, MES y MAGNITUD. Estas 4 columnas identifican inequívocamente a cada fila

In [6]:
# Ver las filas duplicadas
print("   ----------    Filas duplicadas    ----------    ")
print("\n")
print(df[df.duplicated()])
print("\n")

# Número de filas duplicadas
print("Número de filas duplicadas: ", df.duplicated().sum())
print("\n")

# Filtrar filas que tienen el mismo ID
duplicados = df.groupby(['PUNTO_MUESTREO', 'ANO', 'MES', 'MAGNITUD']).filter(lambda x: len(x) > 1)

# Ordenar por NIF para que las filas con el mismo NIF se visualicen una encima de la otra
duplicados = duplicados.sort_values(by='PUNTO_MUESTREO')

# Mostrar las filas con la misma PK
print("   ----------    Filas con el mismo ID    ----------    ")
print("\n")
print(duplicados)
print("\n")
print("Número de filas con el mismo ID: ", duplicados.shape[0])

   ----------    Filas duplicadas    ----------    


Empty DataFrame
Columns: [PROVINCIA, MUNICIPIO, ESTACION, MAGNITUD, PUNTO_MUESTREO, ANO, MES, D01, V01, D02, V02, D03, V03, D04, V04, D05, V05, D06, V06, D07, V07, D08, V08, D09, V09, D10, V10, D11, V11, D12, V12, D13, V13, D14, V14, D15, V15, D16, V16, D17, V17, D18, V18, D19, V19, D20, V20, D21, V21, D22, V22, D23, V23, D24, V24, D25, V25, D26, V26, D27, V27, D28, V28, D29, V29, D30, V30, D31, V31]
Index: []


Número de filas duplicadas:  0


   ----------    Filas con el mismo ID    ----------    


Empty DataFrame
Columns: [PROVINCIA, MUNICIPIO, ESTACION, MAGNITUD, PUNTO_MUESTREO, ANO, MES, D01, V01, D02, V02, D03, V03, D04, V04, D05, V05, D06, V06, D07, V07, D08, V08, D09, V09, D10, V10, D11, V11, D12, V12, D13, V13, D14, V14, D15, V15, D16, V16, D17, V17, D18, V18, D19, V19, D20, V20, D21, V21, D22, V22, D23, V23, D24, V24, D25, V25, D26, V26, D27, V27, D28, V28, D29, V29, D30, V30, D31, V31]
Index: []


Número de filas con el

Existen filas iguales que no difieren en nada entre ellas, por lo que pueden ser eliminadas sin problemas

## 1.8 Búsqueda de errores tipográficos
Hay ciertos atributos de texto que pueden contar con determinados errores tipográficos que deben ser solucionados, como los nombres de áreas, juegos, usuarios y ubicaciones

En este dataset no encontramos ningún atributo similar, por lo que este paso no se realizará

## 1.9 Identificación de valores enum fuera de campo
Hay ciertos atributos que solo deben poseer ciertos valores (como Operativo-NoOperativo). Hace falta identificar aquellos valores de ese campo fuera de la norma

Todos los Enums poseen valores acordes con lo esperado, por lo que no se va a realizar una limpieza como tal de ellos. Aunque se debe limpiar los valores de TIPO_INCIDENTE que poseen tildes raras

## 1.10 Validación de las coordenadas y otros campos geoespaciales
Hay algunas veces en las que los códigos postales no respetan la identificación de Madrid (280..) o el formato, ya sean códigos postales u otros atributos de geolocalización

En este dataset no encontramos valores de localización, por lo que este paso no se realizará

## 1.11 Identificación de unidades de medida en un formato no estandarizado
Se deben identificar las filas que no posean un formato estándar

En este dataset no encontramos valores de unidades de medida, por lo que este paso no se realizará

## 1.12 Otros atributos a corregir
En esta sección se mencionarán aquellos atributos que también deban ser limpiados por errores

### 1.12.1 Validación de varios atributos que se pueden considerar Enum
Tanto PROVINCIA, MUNICIPIO, ESTACION, ANO y MES se pueden considerar Enum puesto que tienen valores acotados, como se puede observar aquí

In [7]:
# Muestra todos los valores distintos de la columna 'PROVINCIA'
print("   ----------    Valores distintos de la columna 'PROVINCIA'    ----------    ")
print("\n")
print(df['PROVINCIA'].unique())
print("\n")

# Muestra todos los valores distintos de la columna 'MUNICIPIO'
print("   ----------    Valores distintos de la columna 'MUNICIPIO'    ----------    ")
print("\n")
print(df['MUNICIPIO'].unique())
print("\n")

# Muestra todos los valores distintos de la columna 'ESTACION'
print("   ----------    Valores distintos de la columna 'ESTACION'    ----------    ")
print("\n")
print(df['ESTACION'].unique())
print("\n")

# Muestra todos los valores distintos de la columna 'MAGNITUD'
print("   ----------    Valores distintos de la columna 'MAGNITUD'    ----------    ")
print("\n")
print(df['MAGNITUD'].unique())
print("\n")

# Muestra todos los valores distintos de la columna 'ANO'
print("   ----------    Valores distintos de la columna 'ANO'    ----------    ")
print("\n")
print(df['ANO'].unique())
print("\n")

# Muestra todos los valores distintos de la columna 'MES'
print("   ----------    Valores distintos de la columna 'MES'    ----------    ")
print("\n")
print(df['MES'].unique())

   ----------    Valores distintos de la columna 'PROVINCIA'    ----------    


[28]


   ----------    Valores distintos de la columna 'MUNICIPIO'    ----------    


[79]


   ----------    Valores distintos de la columna 'ESTACION'    ----------    


[102 103 104 106 107 108 109 110 111 112 113 114 115   4   8  16  18  24
  35  36  38  39  54  56  58  59]


   ----------    Valores distintos de la columna 'MAGNITUD'    ----------    


[81 82 83 86 87 88 89]


   ----------    Valores distintos de la columna 'ANO'    ----------    


[2024]


   ----------    Valores distintos de la columna 'MES'    ----------    


[1 2 3 4 5 6 7]


Como poseen valores acotados que tienen sentido, no se realizará la limpieza de estas columnas

### 1.12.2 Validación de PUNTO_MUESTREO
Para este paso debemos comprobar que PUNTO_MUESTREO se encuentra en el dataset de CódigosPostales y que posee el siguiente formato:
- PUNTO_MUESTREO = PROVINCIA+MUNICIPIO+ESTACION+_+MAGNITUD+_+98

In [8]:
# Debemos validar que todos los PUNTO_MUESTREO tengan el mismo formato
print("   ----------    PUNTO_MUESTREO con formato incorrecto    ----------    ")
print("\n")
# Pasamos a listas los valores de la columna 'PUNTO_MUESTREO', 'PROVINCIA', 'MUNICIPIO', 'ESTACION' y 'MAGNITUD'
punto_muestreo = df['PUNTO_MUESTREO'].tolist()
provincia = df['PROVINCIA'].tolist()
municipio = df['MUNICIPIO'].tolist()
estacion = df['ESTACION'].tolist()
magnitud = df['MAGNITUD'].tolist()

index = 0
isvalid = True

for elem in punto_muestreo:
    if int(elem[0:2]) != provincia[index]:
        isvalid = False
        break
    elif int(elem[2:5]) != municipio[index]:
        isvalid = False
        break
    elif int(elem[5:8]) != estacion[index]:
        isvalid = False
        break
    elif elem[8] != '_' or elem[11] != '_':
        isvalid = False
        break
    elif int(elem[9:11]) != magnitud[index]:
        isvalid = False
        break
    elif elem[-2:] != '98':
        isvalid = False
        break
    elif len(elem) != 14:
        isvalid = False
        break
    else:
        isvalid = True
        index += 1

# Mostramos si el formato de PUNTO_MUESTREO es correcto
print("El formato de PUNTO_MUESTREO es correcto: ", isvalid)
print("\n")

# Además, debemos validar que el PUNTO_MUESTREO se encuentra en el dataset estaciones_meteo_CodigoPostal.csv
print("   ----------    PUNTO_MUESTREO no encontrado en el dataset estaciones_meteo_CodigoPostal.csv    ----------    ")
print("\n")
# Lectura dataset separado por caracteres ';'
df_estaciones = pd.read_csv('../estaciones_meteo_CodigoPostal.csv', sep=';')
# Pasamos a listas los valores de la columna 'PUNTO_MUESTREO'
punto_muestreo = df['PUNTO_MUESTREO'].tolist()
# Pasamos a listas los valores de la columna 'PUNTO_MUESTREO'
punto_muestreo_estaciones = df_estaciones['CÓDIGO'].tolist()
# Comparamos los valores de las listas
isvalid = True
for elem in punto_muestreo:
    elem_transformado = elem[:8]
    if int(elem_transformado) not in punto_muestreo_estaciones:
        isvalid = False
# Mostramos si el PUNTO_MUESTREO se encuentra en el dataset estaciones_meteo_CodigoPostal.csv
print("El PUNTO_MUESTREO se encuentra en el dataset estaciones_meteo_CodigoPostal.csv: ", isvalid)

   ----------    PUNTO_MUESTREO con formato incorrecto    ----------    


El formato de PUNTO_MUESTREO es correcto:  True


   ----------    PUNTO_MUESTREO no encontrado en el dataset estaciones_meteo_CodigoPostal.csv    ----------    


El PUNTO_MUESTREO se encuentra en el dataset estaciones_meteo_CodigoPostal.csv:  True


Todos los PUNTO_MUESTREO están correctos, por lo que no se precisará su limpieza

# 2. Limpieza de los datasets
En este apartado se realizará la limpieza según la información obtenida en el análisis exploratorio de datos:
- No se debe hacer limpieza de nada ya según el EDA

Pero, por otro lado, hay que dejar el dataset en el formato pedido por el enunciado:
- FECHA -> Combinación de DÍA/MES/ANO
  - Día se debe extraer de cada dato separado en columnas del dataset
- TEMPERATURA -> Si la magnitud es 83, todos los datos de esa fila separados por cada columna del día serán temperaturas
- PRECIPITACION -> Si la magnitud es 89, todos los datos de esa fila separados por cada columna del día serán precipitaciones
- VIENTO -> Si la magnitud es 81, todos los datos de esa fila separados por cada columna del día serán vientos que deberán ser comprobados para saber si son vientos fuertes o no
- DISTRITO -> Se deberá extraer el punto de muestreo y compararlo con el dataset de CodigoPostal
  - Una vez obtenido la relación, se debe extraer el código postal y convertirlo al nombre del distrito en cuestión

## 2.1 Limpieza de filas que no tengan magnitudes de precipitación, viento o temperatura
En este paso debemos eliminar las filas que tengan MAGNITUD != 81,83 u 89

In [9]:
# Eliminar las filas que no tengan la MAGNITUD = 81, 83 u 89
print("   ----------    Filas con MAGNITUD de 81, 83 y 89    ----------    ")
print("\n")
df = df[(df['MAGNITUD'] == 81) | (df['MAGNITUD'] == 83) | (df['MAGNITUD'] == 89)]
print(df.sample(10))

   ----------    Filas con MAGNITUD de 81, 83 y 89    ----------    


     PROVINCIA  MUNICIPIO  ESTACION  MAGNITUD  PUNTO_MUESTREO   ANO  MES    D01 V01    D02 V02    D03 V03   D04 V04    D05 V05    D06 V06    D07 V07    D08 V08    D09 V09    D10 V10   D11 V11    D12 V12    D13 V13    D14 V14    D15 V15    D16 V16    D17 V17    D18 V18    D19 V19    D20 V20    D21 V21    D22 V22    D23 V23    D24 V24    D25 V25    D26 V26    D27 V27    D28 V28    D29 V29    D30 V30    D31 V31
415         28         79        24        83  28079024_83_98  2024    3   7.20   V   5.30   V   5.50   V   8.5   V   8.80   V   7.50   V   6.90   V   6.20   V   5.30   V   7.40   V   9.4   V   9.30   V  11.10   V  10.20   V  11.70   V  12.20   V  14.40   V  14.80   V  16.40   V  16.00   V  17.50   V  17.70   V  16.50   V  15.90   V  12.00   V   5.90   V   7.70   V  10.40   V   7.00   V   6.60   V   6.10   V
599         28         79        58        83  28079058_83_98  2024    5  11.60   N  10.20   V  11.00   V

## 2.2 Transformación del dataset completa
Debemos ir insertando filas en un nuevo dataset según los criterios previamente mencionados

In [10]:
# Creamos un nuevo dataframe vacío con columnas FECHA, TEMPERATURA, PRECIPITACIÓN, VIENTO y DISTRITO
resultado = pd.DataFrame(columns=['FECHA', 'TEMPERATURA', 'PRECIPITACIÓN', 'VIENTO', 'DISTRITO'])
df_estaciones = pd.read_csv('../estaciones_meteo_CodigoPostalLimpio.csv', sep=',')

# Sacamos una lista con todos los puntos de muestreo
puntos_muestreo = df['PUNTO_MUESTREO'].unique()
# De todos los elementos extraemos los 8 primeros caracteres
puntos_muestreo = [elem[:8] for elem in puntos_muestreo]
# Iteramos por todos los puntos de muestreo
for punto in puntos_muestreo:
    # Extraemos el distrito del otro dataset
    # Buscamos el distrito en el que el punto de muestreo sea igual al código
    distrito = df_estaciones.loc[df_estaciones['CÓDIGO'] == int(punto), 'DISTRITO'].values[0]
    for i in range(1,8):
        # Buscamos las filas que tengan el punto de muestreo que comience por punto y el mes
        df_punto = df[df['PUNTO_MUESTREO'].str.startswith(punto) & (df['MES'] == i)]
        temp = []
        prec = []
        viento = []
        fechas = []
        # Rellenamos las fechas
        for x in range(1,32):
            if x < 10:
                fechas.append('0'+str(x)+'/0'+str(i)+'/2024')
            else:
                fechas.append(str(x)+'/0'+str(i)+'/2024')
        for j in range(len(df_punto)):
            row = df_punto.iloc[j]
            if row['MAGNITUD'] == 81:
                for k in range(1,32):
                    # Debemos ir extrayendo los valores de las columnas D01, D02, D03, ..., D31 gracias a 'j'
                    # Y añadirlos a una lista
                    if k < 10:
                        val = row['D0'+str(k)]
                        if val < 8.0:
                            viento.append("F")
                        else:
                            viento.append("V")
                    else:
                        val = row['D'+str(k)]
                        if val < 8.0:
                            viento.append("F")
                        else:
                            viento.append("V")
            elif row['MAGNITUD'] == 83:
                for k in range(1,32):
                    # Debemos ir extrayendo los valores de las columnas D01, D02, D03, ..., D31 gracias a 'j'
                    # Y añadirlos a una lista
                    if k < 10:
                        val = row['D0'+str(k)]
                        temp.append(int(val))
                    else:
                        val = row['D'+str(k)]
                        temp.append(int(val))
            else:
                for k in range(1,32):
                    # Debemos ir extrayendo los valores de las columnas D01, D02, D03, ..., D31 gracias a 'j'
                    # Y añadirlos a una lista
                    if k < 10:
                        val = row['D0'+str(k)]
                        prec.append(int(val))
                    else:
                        val = row['D'+str(k)]
                        prec.append(int(val))
                        
        # Cualquier lista que no posea 31 elementos, debemos añadir elementos hasta llegar a esa cifra
        if len(temp) < 31:
            for x in range(31-len(temp)):
                temp.append(0)
        if len(prec) < 31:
            for x in range(31-len(prec)):
                prec.append(0)
        if len(viento) < 31:
            for x in range(31-len(viento)):
                viento.append('F') 
        for k in range(0, 31):
            nuevas_filas = pd.DataFrame({
            'FECHA': fechas,
            'TEMPERATURA': temp,
            'PRECIPITACIÓN': prec,
            'VIENTO': viento,
            'DISTRITO': [distrito] * 31
        })
            resultado = pd.concat([resultado, nuevas_filas], ignore_index=True)
                
                    
# Debemos borrar las filas que tengan fechas no válidas
fechas_no_validas = ['29/02/2024', '30/02/2024', '31/02/2024', '31/04/2024', '31/06/2024']
resultado = resultado[~resultado['FECHA'].isin(fechas_no_validas)]       
print(resultado.sample(30))      
        
    

             FECHA TEMPERATURA PRECIPITACIÓN VIENTO             DISTRITO
153810  20/07/2024          29             0      F           Arganzuela
131669  13/05/2024          22             0      F   Puente de Vallecas
36316   16/03/2024          10             0      F           Villaverde
82871   09/03/2024           3             6      F            Hortaleza
236996  02/02/2024          10             0      F    Villa de Vallecas
92829   16/06/2024          20             0      F  Fuencarral-El Pardo
297657  27/02/2024           6             0      F              Barajas
244472  07/03/2024           8             5      F    Villa de Vallecas
181089  19/07/2024          30             0      F          Carabanchel
244560  02/03/2024           6            10      F    Villa de Vallecas
157012  29/03/2024           8             0      F      Moncloa-Aravaca
267205  17/06/2024          24             0      F          Carabanchel
198347  10/04/2024          13             0      F

## 2.4 Mostrar Dataset Limpio y guardar CSV
Vamos a mostrar algunas filas del dataset limpio para validar que todo está OK y guardamos el Dataset

In [12]:
# Enseñamos 20 filas aleatorias para ver cómo quedan
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(resultado.sample(10))
print("\n")

# Guardamos el dataset limpio
resultado.to_csv('../meteo24Limpio.csv', index=False)
print("\n")
print("Dataset limpio guardado")

   ----------    10 filas aleatorias    ----------    


             FECHA TEMPERATURA PRECIPITACIÓN VIENTO             DISTRITO
177808  24/04/2024          13             0      F          Carabanchel
66191   07/06/2024          24             0      F      Moncloa-Aravaca
213037  06/05/2024          15             0      F            Moratalaz
205613  22/04/2024          14             0      F               Centro
163797  25/03/2024          12             0      F            Salamanca
272689  14/04/2024          20             0      F          Carabanchel
136298  23/02/2024           8             0      F   Puente de Vallecas
211992  15/04/2024          20             0      F            Moratalaz
222751  17/01/2024          11            13      F  Fuencarral-El Pardo
167105  16/06/2024          24             0      F            Salamanca




Dataset limpio guardado
