#Motas sensoras aula 3301
Vanessa Rodríguez Horcajo - TFM

En este notebook se recogen todas las funciones definidas y pruebas ejecutadas para el entendimiento y tratamiento de las mediciones recogidas por las motas sensoras colocadas en el aula 3301.

En el aula 3301, hay dos motas sensoras colocadas en dos puntos diferentes del aula. Los datos de cada mota se tratarán por separado y se unificarán al final. Se añadirá una columna que identifique cada mota para poder realizar la correlación con los puestos de los cuestionarios más adelante.

Cabe destacar que, para cada una de las motas, se disponen de mediciones desde noviembre de 2023 hasta marzo de 2024. Para facilitar el procesamiento de las mediciones recogidas por las motas del aula 3301, todos los datos a procesar se encuentran almacenados en Google Drive en cinco carpetas diferentes, una por cada mes para el que se dispone de información.







In [None]:
import os
from google.colab import drive
import pandas as pd
from datetime import datetime

Acceso a Google Drive

In [None]:
drive.mount('/content/drive')

Mounted at /content/drive


## Entendimiento de los datos

Antes de comenzar con el procesamiento de los datos, es importante conocer qué datos se almacenan y qué estructura presentan. Para cada mota, se analizarán de manera independiente los datos de cada mes por separado para verificar si presentan el mismo formato de almacenamiento o encontrar discrepancias en su defecto. Es imprescindible asegurar que todos los datos presentan la misma estructura para poder unificarlos en un único conjunto de datos final.


### M1

In [None]:
carpeta_drive_m1 = '/content/drive/My Drive/TFM/Motas3301/M1/'

#### Noviembre

In [None]:
carpeta_drive_nov_m1 = carpeta_drive_m1 + 'NOV'

In [None]:
archivos_nov_m1 = os.listdir(carpeta_drive_nov_m1)
archivos_nov_m1

['2023-november-7-period-5m-Noise.data',
 '2023-november-7-period-5m-Luminosity.data',
 '2023-november-7-period-5m-CO2.data',
 '2023-november-6-period-5m-Temperature.data',
 '2023-november-6-period-5m-CO2.data',
 '2023-november-6-period-5m-Luminosity.data',
 '2023-november-5-period-5m-Relative-Humidity.data',
 '2023-november-6-period-5m-Noise.data',
 '2023-november-5-period-5m-Temperature.data',
 '2023-november-6-period-5m-Relative-Humidity.data',
 '2023-november-5-period-5m-Luminosity.data',
 '2023-november-5-period-5m-Noise.data',
 '2023-november-5-period-5m-CO2.data',
 '2023-november-3-period-5m-Temperature.data',
 '2023-november-4-period-5m-Noise.data',
 '2023-november-4-period-5m-Relative-Humidity.data',
 '2023-november-4-period-5m-Luminosity.data',
 '2023-november-3-period-5m-Relative-Humidity.data',
 '2023-november-4-period-5m-CO2.data',
 '2023-november-4-period-5m-Temperature.data',
 '2023-november-3-period-5m-Noise.data',
 '2023-november-3-period-5m-Luminosity.data',
 '2023-no

In [None]:
print(f'Hay un total de {len(archivos_nov_m1)} archivos para el mes de noviembre.')

Hay un total de 150 archivos para el mes de noviembre.


Como puede observarse, partimos de 150 archivos para el mes de noviembre. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_nov = sorted(os.listdir(carpeta_drive_nov_m1), key=lambda x: int(x.split('-')[2]))
archivos_nov

['2023-november-1-period-5m-Temperature.data',
 '2023-november-1-period-5m-Relative-Humidity.data',
 '2023-november-1-period-5m-Noise.data',
 '2023-november-1-period-5m-Luminosity.data',
 '2023-november-1-period-5m-CO2.data',
 '2023-november-2-period-5m-Luminosity.data',
 '2023-november-2-period-5m-Noise.data',
 '2023-november-2-period-5m-Relative-Humidity.data',
 '2023-november-2-period-5m-CO2.data',
 '2023-november-2-period-5m-Temperature.data',
 '2023-november-3-period-5m-Temperature.data',
 '2023-november-3-period-5m-Relative-Humidity.data',
 '2023-november-3-period-5m-Noise.data',
 '2023-november-3-period-5m-Luminosity.data',
 '2023-november-3-period-5m-CO2.data',
 '2023-november-4-period-5m-Noise.data',
 '2023-november-4-period-5m-Relative-Humidity.data',
 '2023-november-4-period-5m-Luminosity.data',
 '2023-november-4-period-5m-CO2.data',
 '2023-november-4-period-5m-Temperature.data',
 '2023-november-5-period-5m-Relative-Humidity.data',
 '2023-november-5-period-5m-Temperature.dat

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.



In [None]:
dias = 0
for i in range(0, len(archivos_nov_m1), 5):
    grupo_de_archivos = archivos_nov_m1[i:i + 5]
    dias += 1
    print(grupo_de_archivos)

print(f"\nSe disponen de datos para {dias} días del mes")

['2023-november-7-period-5m-Noise.data', '2023-november-7-period-5m-Luminosity.data', '2023-november-7-period-5m-CO2.data', '2023-november-6-period-5m-Temperature.data', '2023-november-6-period-5m-CO2.data']
['2023-november-6-period-5m-Luminosity.data', '2023-november-5-period-5m-Relative-Humidity.data', '2023-november-6-period-5m-Noise.data', '2023-november-5-period-5m-Temperature.data', '2023-november-6-period-5m-Relative-Humidity.data']
['2023-november-5-period-5m-Luminosity.data', '2023-november-5-period-5m-Noise.data', '2023-november-5-period-5m-CO2.data', '2023-november-3-period-5m-Temperature.data', '2023-november-4-period-5m-Noise.data']
['2023-november-4-period-5m-Relative-Humidity.data', '2023-november-4-period-5m-Luminosity.data', '2023-november-3-period-5m-Relative-Humidity.data', '2023-november-4-period-5m-CO2.data', '2023-november-4-period-5m-Temperature.data']
['2023-november-3-period-5m-Noise.data', '2023-november-3-period-5m-Luminosity.data', '2023-november-2-period-5m

Cabe destacar que, tal y como puede observarse, se disponen de datos para los 30 días del mes de noviembre.

Analicemos ahora qué datos se almacenan en cada uno de los ficheros.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_nov_m1[i:i + 5]

    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_nov_m1, nombre_archivo)

        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2023-november-7-period-5m-Noise.data:
00:00  11.569572155292217
00:24  11.59800253974067
00:25  11.57628268208997
00:30  11.560522524515788
00:35  11.580052244252172
00:40  11.5069051583608
00:45  11.546987994511921
00:50  11.615287144978842
00:55  11.531780962084161
01:00  11.546829239796784
01:05  11.6016463915507
01:10  11.609454838434855
01:15  11.558960771560669
01:20  11.545426368713379
01:25  11.54527525747976
01:30  11.586550219853718
01:35  11.531371307373046
01:40  11.542302974065144
01:45  11.552714045842489
01:50  11.550631920496622
01:55  11.56853376808813
02:00  11.567110499397653
02:05  11.51887804667155
02:10  11.594358682632446
02:15  11.581865247090658
02:20  11.5589608669281
02:25  11.554240533861064
02:30  11.580423120592462
02:35  11.589708974805928
02:40  11.573935589547885
02:45  11.57197470664978
02:50  11.597482045491537
02:55  11.549590762456258
03:00  11.557894081365866
03:05  11.508987379074096
03:10  11.541782474517822
03:15  11.560522397359213

Con los resultados obtenidos, es posible determinar que cada archivo contiene dos columnas: una columna con la hora de la medición y una columna con la medición de la magnitud correspondiente en sí. Asimismo, como puede observarse en primera instancia, las mediciones de los datos se realizan cada 5 minutos. Esta periodicidad se comprobará más adelante.

#### Diciembre

In [None]:
carpeta_drive_dic_m1 = carpeta_drive_m1 + 'DIC'

In [None]:
archivos_dic_m1 = os.listdir(carpeta_drive_dic_m1)
archivos_dic_m1

['2023-december-3-period-5m-Noise.data',
 '2023-december-3-period-5m-Temperature.data',
 '2023-december-3-period-5m-Luminosity.data',
 '2023-december-4-period-5m-Noise.data',
 '2023-december-4-period-5m-CO2.data',
 '2023-december-4-period-5m-Luminosity.data',
 '2023-december-4-period-5m-Relative-Humidity.data',
 '2023-december-2-period-5m-Temperature.data',
 '2023-december-3-period-5m-CO2.data',
 '2023-december-2-period-5m-Relative-Humidity.data',
 '2023-december-1-period-5m-Noise.data',
 '2023-december-1-period-5m-Temperature.data',
 '2023-december-1-period-5m-Relative-Humidity.data',
 '2023-december-1-period-5m-Luminosity.data',
 '2023-december-2-period-5m-Luminosity.data',
 '2023-december-2-period-5m-CO2.data',
 '2023-december-2-period-5m-Noise.data',
 '2023-december-9-period-5m-CO2.data',
 '2023-december-8-period-5m-Temperature.data',
 '2023-december-8-period-5m-Relative-Humidity.data',
 '2023-december-8-period-5m-CO2.data',
 '2023-december-7-period-5m-Luminosity.data',
 '2023-dece

In [None]:
print(f'Hay un total de {len(archivos_dic_m1)} archivos para el mes de diciembre.')

Hay un total de 140 archivos para el mes de diciembre.


Como puede observarse, partimos de 140 archivos para el mes de diciembre. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_dic_m1 = sorted(os.listdir(carpeta_drive_dic_m1), key=lambda x: int(x.split('-')[2]))
archivos_dic_m1

['2023-december-1-period-5m-Noise.data',
 '2023-december-1-period-5m-Temperature.data',
 '2023-december-1-period-5m-Relative-Humidity.data',
 '2023-december-1-period-5m-Luminosity.data',
 '2023-december-1-period-5m-CO2.data',
 '2023-december-2-period-5m-Temperature.data',
 '2023-december-2-period-5m-Relative-Humidity.data',
 '2023-december-2-period-5m-Luminosity.data',
 '2023-december-2-period-5m-CO2.data',
 '2023-december-2-period-5m-Noise.data',
 '2023-december-3-period-5m-Noise.data',
 '2023-december-3-period-5m-Temperature.data',
 '2023-december-3-period-5m-Luminosity.data',
 '2023-december-3-period-5m-CO2.data',
 '2023-december-3-period-5m-Relative-Humidity.data',
 '2023-december-4-period-5m-Noise.data',
 '2023-december-4-period-5m-CO2.data',
 '2023-december-4-period-5m-Luminosity.data',
 '2023-december-4-period-5m-Relative-Humidity.data',
 '2023-december-4-period-5m-Temperature.data',
 '2023-december-5-period-5m-Noise.data',
 '2023-december-5-period-5m-Relative-Humidity.data',
 '

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.




In [None]:
dias = 0
for i in range(0, len(archivos_dic_m1), 5):
    grupo_de_archivos = archivos_dic_m1[i:i + 5]
    dias += 1
    print(grupo_de_archivos)

print(f"\nSe disponen de datos para {dias} días del mes")

['2023-december-1-period-5m-Noise.data', '2023-december-1-period-5m-Temperature.data', '2023-december-1-period-5m-Relative-Humidity.data', '2023-december-1-period-5m-Luminosity.data', '2023-december-1-period-5m-CO2.data']
['2023-december-2-period-5m-Temperature.data', '2023-december-2-period-5m-Relative-Humidity.data', '2023-december-2-period-5m-Luminosity.data', '2023-december-2-period-5m-CO2.data', '2023-december-2-period-5m-Noise.data']
['2023-december-3-period-5m-Noise.data', '2023-december-3-period-5m-Temperature.data', '2023-december-3-period-5m-Luminosity.data', '2023-december-3-period-5m-CO2.data', '2023-december-3-period-5m-Relative-Humidity.data']
['2023-december-4-period-5m-Noise.data', '2023-december-4-period-5m-CO2.data', '2023-december-4-period-5m-Luminosity.data', '2023-december-4-period-5m-Relative-Humidity.data', '2023-december-4-period-5m-Temperature.data']
['2023-december-5-period-5m-Noise.data', '2023-december-5-period-5m-Relative-Humidity.data', '2023-december-5-pe

Tras este análisis, es posible afirmar que los datos de ambos meses presentan la misma estructura y formato.

A diferencia de noviembre, para el que se disponía de mediciones para los 30 días del mes, las mediciones de diciembre finalizan el día 28. No se disponen de datos del 29 al 31 de diciembre.


Analicemos ahora qué datos se almacenan en estos archivos.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_dic_m1[i:i + 5]

    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_dic_m1, nombre_archivo)

        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2023-december-1-period-5m-Noise.data:
00:00  11.756804800033569
00:05  11.831276845932006
00:10  11.81271678606669
00:15  11.71742246945699
00:20  11.703261264165242
00:25  11.767778682708741
00:30  11.713566176096599
00:35  11.786721261342366
00:40  11.73845723470052
00:45  11.739679272969564
00:50  11.803559287389119
00:55  11.740018876393636
01:00  11.692127704620361
01:05  11.770753558476766
01:10  11.748911333084106
01:15  11.877946774164835
01:20  11.741825405756632
01:25  11.768288739522298
01:30  11.713863738377889
01:35  11.721565834681194
01:40  11.708573055267333
01:45  11.750217692057292
01:50  11.794168202082316
01:55  11.737522395451863
02:00  11.82973486690198
02:05  11.737206740457504
02:10  11.981176900863648
02:15  11.777966833114624
02:20  11.776118246714274
02:25  11.988688230514526
02:30  11.993670845031739
02:35  11.837045208613079
02:40  11.77890165646871
02:45  11.857071002324423
02:50  11.980497248967488
02:55  12.480247290929158
03:00  12.36955639

Con los resultados obtenidos, es posible determinar que cada archivo contiene dos columnas: una columna con la hora de la medición y una columna con la medición de la mganitud correspondiente en sí. Asimismo, como puede observarse en primera instancia, las mediciones de los datos se realizan cada 5 minutos. Esta periocidad fija se comprobará completamente más adelante.

Se puede concluir que los archivos de diciembre también almacenan los mismos datos y en la misma estructura que los archivos del mes de noviembre.

#### Enero

In [None]:
carpeta_drive_en_m1 = carpeta_drive_m1 + 'EN'

In [None]:
archivos_en_m1 = os.listdir(carpeta_drive_en_m1)
archivos_en_m1

['2024-january-3-period-5m-CO2.data',
 '2024-january-7-period-5m-Noise.data',
 '2024-january-7-period-5m-Luminosity.data',
 '2024-january-6-period-5m-Relative-Humidity.data',
 '2024-january-6-period-5m-CO2.data',
 '2024-january-6-period-5m-Noise.data',
 '2024-january-6-period-5m-Temperature.data',
 '2024-january-5-period-5m-Temperature.data',
 '2024-january-6-period-5m-Luminosity.data',
 '2024-january-5-period-5m-Relative-Humidity.data',
 '2024-january-7-period-5m-CO2.data',
 '2024-january-5-period-5m-Noise.data',
 '2024-january-5-period-5m-Luminosity.data',
 '2024-january-3-period-5m-Temperature.data',
 '2024-january-4-period-5m-Relative-Humidity.data',
 '2024-january-4-period-5m-Luminosity.data',
 '2024-january-4-period-5m-Temperature.data',
 '2024-january-3-period-5m-Relative-Humidity.data',
 '2024-january-4-period-5m-Noise.data',
 '2024-january-4-period-5m-CO2.data',
 '2024-january-5-period-5m-CO2.data',
 '2024-january-3-period-5m-Noise.data',
 '2024-january-3-period-5m-Luminosity.

In [None]:
print(f'Hay un total de {len(archivos_en_m1)} archivos para el mes de enero.')

Hay un total de 155 archivos para el mes de enero.


Como puede observarse, partimos de 155 archivos para el mes de enero. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_en_m1 = sorted(os.listdir(carpeta_drive_en_m1), key=lambda x: int(x.split('-')[2]))
archivos_en_m1

['2024-january-1-period-5m-Temperature.data',
 '2024-january-1-period-5m-Relative-Humidity.data',
 '2024-january-1-period-5m-CO2.data',
 '2024-january-1-period-5m-Luminosity.data',
 '2024-january-1-period-5m-Noise.data',
 '2024-january-2-period-5m-Luminosity.data',
 '2024-january-2-period-5m-Relative-Humidity.data',
 '2024-january-2-period-5m-Noise.data',
 '2024-january-2-period-5m-Temperature.data',
 '2024-january-2-period-5m-CO2.data',
 '2024-january-3-period-5m-CO2.data',
 '2024-january-3-period-5m-Temperature.data',
 '2024-january-3-period-5m-Relative-Humidity.data',
 '2024-january-3-period-5m-Noise.data',
 '2024-january-3-period-5m-Luminosity.data',
 '2024-january-4-period-5m-Relative-Humidity.data',
 '2024-january-4-period-5m-Luminosity.data',
 '2024-january-4-period-5m-Temperature.data',
 '2024-january-4-period-5m-Noise.data',
 '2024-january-4-period-5m-CO2.data',
 '2024-january-5-period-5m-Temperature.data',
 '2024-january-5-period-5m-Relative-Humidity.data',
 '2024-january-5-p

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.




In [None]:
dias = 0
for i in range(0, len(archivos_en_m1), 5):
    grupo_de_archivos = archivos_en_m1[i:i + 5]
    dias += 1
    print(grupo_de_archivos)

print(f"\nSe disponen de datos para {dias} días del mes")

['2024-january-1-period-5m-Temperature.data', '2024-january-1-period-5m-Relative-Humidity.data', '2024-january-1-period-5m-CO2.data', '2024-january-1-period-5m-Luminosity.data', '2024-january-1-period-5m-Noise.data']
['2024-january-2-period-5m-Luminosity.data', '2024-january-2-period-5m-Relative-Humidity.data', '2024-january-2-period-5m-Noise.data', '2024-january-2-period-5m-Temperature.data', '2024-january-2-period-5m-CO2.data']
['2024-january-3-period-5m-CO2.data', '2024-january-3-period-5m-Temperature.data', '2024-january-3-period-5m-Relative-Humidity.data', '2024-january-3-period-5m-Noise.data', '2024-january-3-period-5m-Luminosity.data']
['2024-january-4-period-5m-Relative-Humidity.data', '2024-january-4-period-5m-Luminosity.data', '2024-january-4-period-5m-Temperature.data', '2024-january-4-period-5m-Noise.data', '2024-january-4-period-5m-CO2.data']
['2024-january-5-period-5m-Temperature.data', '2024-january-5-period-5m-Relative-Humidity.data', '2024-january-5-period-5m-Noise.dat

Al igual que sucede para el mes de noviembre, se dipone de datos para los 31 días del mes.

Tras este análisis, es posible afirmar que los datos de enero también presentan la misma estructura y formato que los datos de noviembre y diciembre.




Analicemos ahora qué datos se almacenan en estos archivos.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_en_m1[i:i + 5]

    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_en_m1, nombre_archivo)

        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2024-january-1-period-5m-Temperature.data:

Contenido de 2024-january-1-period-5m-Relative-Humidity.data:

Contenido de 2024-january-1-period-5m-CO2.data:

Contenido de 2024-january-1-period-5m-Luminosity.data:

Contenido de 2024-january-1-period-5m-Noise.data:



In [None]:
cont_vacios = 0
for i in range(0, len(archivos_en_m1), 5):
    grupo_de_archivos = archivos_en_m1[i:i + 5]

    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_en_m1, nombre_archivo)
        if os.path.getsize(ruta_completa) == 0:
          cont_vacios += 1

print(f"Hay {cont_vacios} archivos vacíos")

Hay 85 archivos vacíos


Con los resultados obtenidos, es posible determinar que existen numerosos archivos (85) para el mes de enero que se encuentran vacíos.

#### Febrero

In [None]:
carpeta_drive_feb_m1 = carpeta_drive_m1 + 'FEB'

In [None]:
archivos_feb_m1 = os.listdir(carpeta_drive_feb_m1)
archivos_feb_m1

['2024-february-6-period-5m-Luminosity.data',
 '2024-february-5-period-5m-Temperature.data',
 '2024-february-7-period-5m-CO2.data',
 '2024-february-5-period-5m-Relative-Humidity.data',
 '2024-february-5-period-5m-Noise.data',
 '2024-february-6-period-5m-CO2.data',
 '2024-february-6-period-5m-Noise.data',
 '2024-february-6-period-5m-Relative-Humidity.data',
 '2024-february-5-period-5m-Luminosity.data',
 '2024-february-5-period-5m-CO2.data',
 '2024-february-4-period-5m-CO2.data',
 '2024-february-3-period-5m-Temperature.data',
 '2024-february-3-period-5m-Noise.data',
 '2024-february-4-period-5m-Temperature.data',
 '2024-february-3-period-5m-Relative-Humidity.data',
 '2024-february-4-period-5m-Relative-Humidity.data',
 '2024-february-4-period-5m-Luminosity.data',
 '2024-february-4-period-5m-Noise.data',
 '2024-february-3-period-5m-Luminosity.data',
 '2024-february-3-period-5m-CO2.data',
 '2024-february-2-period-5m-Noise.data',
 '2024-february-2-period-5m-Temperature.data',
 '2024-february-

In [None]:
print(f'Hay un total de {len(archivos_feb_m1)} archivos para el mes de febrero.')

Hay un total de 140 archivos para el mes de febrero.


Como puede observarse, partimos de 140 archivos para el mes de febrero. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_feb_m1 = sorted(os.listdir(carpeta_drive_feb_m1), key=lambda x: int(x.split('-')[2]))
archivos_feb_m1

['2024-february-1-period-5m-Relative-Humidity.data',
 '2024-february-1-period-5m-Temperature.data',
 '2024-february-1-period-5m-Noise.data',
 '2024-february-1-period-5m-Luminosity.data',
 '2024-february-1-period-5m-CO2.data',
 '2024-february-2-period-5m-Noise.data',
 '2024-february-2-period-5m-Temperature.data',
 '2024-february-2-period-5m-Luminosity.data',
 '2024-february-2-period-5m-CO2.data',
 '2024-february-2-period-5m-Relative-Humidity.data',
 '2024-february-3-period-5m-Temperature.data',
 '2024-february-3-period-5m-Noise.data',
 '2024-february-3-period-5m-Relative-Humidity.data',
 '2024-february-3-period-5m-Luminosity.data',
 '2024-february-3-period-5m-CO2.data',
 '2024-february-4-period-5m-CO2.data',
 '2024-february-4-period-5m-Temperature.data',
 '2024-february-4-period-5m-Relative-Humidity.data',
 '2024-february-4-period-5m-Luminosity.data',
 '2024-february-4-period-5m-Noise.data',
 '2024-february-5-period-5m-Temperature.data',
 '2024-february-5-period-5m-Relative-Humidity.dat

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.




In [None]:
dias = 0
for i in range(0, len(archivos_feb_m1), 5):
    grupo_de_archivos = archivos_feb_m1[i:i + 5]
    dias += 1
    print(grupo_de_archivos)


print(f"\nSe disponen de datos para {dias} días del mes")

['2024-february-1-period-5m-Relative-Humidity.data', '2024-february-1-period-5m-Temperature.data', '2024-february-1-period-5m-Noise.data', '2024-february-1-period-5m-Luminosity.data', '2024-february-1-period-5m-CO2.data']
['2024-february-2-period-5m-Noise.data', '2024-february-2-period-5m-Temperature.data', '2024-february-2-period-5m-Luminosity.data', '2024-february-2-period-5m-CO2.data', '2024-february-2-period-5m-Relative-Humidity.data']
['2024-february-3-period-5m-Temperature.data', '2024-february-3-period-5m-Noise.data', '2024-february-3-period-5m-Relative-Humidity.data', '2024-february-3-period-5m-Luminosity.data', '2024-february-3-period-5m-CO2.data']
['2024-february-4-period-5m-CO2.data', '2024-february-4-period-5m-Temperature.data', '2024-february-4-period-5m-Relative-Humidity.data', '2024-february-4-period-5m-Luminosity.data', '2024-february-4-period-5m-Noise.data']
['2024-february-5-period-5m-Temperature.data', '2024-february-5-period-5m-Relative-Humidity.data', '2024-februar

Tras este análisis, es posible afirmar que los datos de frebrero presentan la misma estructura y formato que los datos del resto de meses analizados previamente.

Se disponen de datos para todos los días del mes.


Analicemos ahora qué datos se almacenan en estos archivos.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_feb_m1[i:i + 5]

    # Lee cada archivo en el grupo
    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_feb_m1, nombre_archivo)

        # Realiza la operación que desees con el archivo (por ejemplo, imprimir el contenido)
        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2024-february-1-period-5m-Relative-Humidity.data:
00:00  34.12940979003906
00:05  34.11668680481991
00:10  34.09889221191406
00:15  34.07513936360677
00:20  34.039780189251076
00:25  33.99715100304555
00:30  33.98895263671875
00:35  33.947041829427086
00:40  33.92049498477225
00:45  33.89193216959635
00:50  33.847019590180494
00:55  33.86196847689354
01:00  33.85173061437774
01:05  33.8525390625
01:10  33.79446773205773
01:15  33.834218170683265
01:20  33.833516438802086
01:25  33.76073201497396
01:30  33.70328267415365
01:35  33.59357198079427
01:40  33.481734139578684
01:45  33.38116963704427
01:50  33.28661600748698
01:55  33.229166666666664
02:00  33.11322530110677
02:05  33.03522659560382
02:10  32.984743279925844
02:15  32.94264694740032
02:20  32.864509194584215
02:25  32.803241277145126
02:30  32.680679579912606
02:35  32.672576904296875
02:40  32.577126713122354
02:45  32.44352179058527
02:50  32.41704305013021
02:55  32.37724304199219
03:00  32.279063079316735
03

Con los resultados obtenidos, es posible determinar que cada archivo contiene dos columnas: una columna con la hora de la medición y una columna con la medición de la mganitud correspondiente en sí. Asimismo, como puede observarse en primera instancia, las mediciones de los datos se realizan cada 5 minutos. Esta periocidad fija se comprobará completamente más adelante.

Se puede concluir que los archivos de febrero también almacenan los mismos datos y en la misma estructura que los archivos del mes de noviembre y diciembre.

#### Marzo

In [None]:
carpeta_drive_mar_m1 = carpeta_drive_m1 + 'MAR'

In [None]:
archivos_mar_m1 = os.listdir(carpeta_drive_mar_m1)
archivos_mar_m1

['2024-march-7-period-5m-Luminosity.data',
 '2024-march-3-period-5m-Relative-Humidity.data',
 '2024-march-3-period-5m-Luminosity.data',
 '2024-march-3-period-5m-Noise.data',
 '2024-march-2-period-5m-CO2.data',
 '2024-march-2-period-5m-Noise.data',
 '2024-march-2-period-5m-Relative-Humidity.data',
 '2024-march-3-period-5m-CO2.data',
 '2024-march-2-period-5m-Luminosity.data',
 '2024-march-1-period-5m-Temperature.data',
 '2024-march-2-period-5m-Temperature.data',
 '2024-march-11-period-5m-Relative-Humidity.data',
 '2024-march-11-period-5m-Noise.data',
 '2024-march-11-period-5m-CO2.data',
 '2024-march-11-period-5m-Luminosity.data',
 '2024-march-10-period-5m-Relative-Humidity.data',
 '2024-march-10-period-5m-CO2.data',
 '2024-march-9-period-5m-Temperature.data',
 '2024-march-10-period-5m-Noise.data',
 '2024-march-10-period-5m-Luminosity.data',
 '2024-march-10-period-5m-Temperature.data',
 '2024-march-9-period-5m-Noise.data',
 '2024-march-9-period-5m-Relative-Humidity.data',
 '2024-march-9-p

In [None]:
print(f'Hay un total de {len(archivos_mar_m1)} archivos para el mes de marzo.')

Hay un total de 135 archivos para el mes de marzo.


Como puede observarse, partimos de 135 archivos para el mes de marzo. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_mar_m1 = sorted(os.listdir(carpeta_drive_mar_m1), key=lambda x: int(x.split('-')[2]))
archivos_mar_m1

['2024-march-1-period-5m-Temperature.data',
 '2024-march-1-period-5m-Luminosity.data',
 '2024-march-1-period-5m-Noise.data',
 '2024-march-1-period-5m-CO2.data',
 '2024-march-1-period-5m-Relative-Humidity.data',
 '2024-march-2-period-5m-CO2.data',
 '2024-march-2-period-5m-Noise.data',
 '2024-march-2-period-5m-Relative-Humidity.data',
 '2024-march-2-period-5m-Luminosity.data',
 '2024-march-2-period-5m-Temperature.data',
 '2024-march-3-period-5m-Relative-Humidity.data',
 '2024-march-3-period-5m-Luminosity.data',
 '2024-march-3-period-5m-Noise.data',
 '2024-march-3-period-5m-CO2.data',
 '2024-march-3-period-5m-Temperature.data',
 '2024-march-6-period-5m-Relative-Humidity.data',
 '2024-march-6-period-5m-Temperature.data',
 '2024-march-6-period-5m-Luminosity.data',
 '2024-march-6-period-5m-CO2.data',
 '2024-march-6-period-5m-Noise.data',
 '2024-march-7-period-5m-Luminosity.data',
 '2024-march-7-period-5m-Temperature.data',
 '2024-march-7-period-5m-Relative-Humidity.data',
 '2024-march-7-peri

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.




In [None]:
dias = 0
for i in range(0, len(archivos_mar_m1), 5):
    grupo_de_archivos = archivos_mar_m1[i:i + 5]
    dias += 1
    print(grupo_de_archivos)


print(f"\nSe disponen de datos para {dias} días del mes")

['2024-march-1-period-5m-Temperature.data', '2024-march-1-period-5m-Luminosity.data', '2024-march-1-period-5m-Noise.data', '2024-march-1-period-5m-CO2.data', '2024-march-1-period-5m-Relative-Humidity.data']
['2024-march-2-period-5m-CO2.data', '2024-march-2-period-5m-Noise.data', '2024-march-2-period-5m-Relative-Humidity.data', '2024-march-2-period-5m-Luminosity.data', '2024-march-2-period-5m-Temperature.data']
['2024-march-3-period-5m-Relative-Humidity.data', '2024-march-3-period-5m-Luminosity.data', '2024-march-3-period-5m-Noise.data', '2024-march-3-period-5m-CO2.data', '2024-march-3-period-5m-Temperature.data']
['2024-march-6-period-5m-Relative-Humidity.data', '2024-march-6-period-5m-Temperature.data', '2024-march-6-period-5m-Luminosity.data', '2024-march-6-period-5m-CO2.data', '2024-march-6-period-5m-Noise.data']
['2024-march-7-period-5m-Luminosity.data', '2024-march-7-period-5m-Temperature.data', '2024-march-7-period-5m-Relative-Humidity.data', '2024-march-7-period-5m-Noise.data', 

Se disponen de datos para 27 días del mes.

Tras este análisis, es posible afirmar que los datos de marzo también presentan la misma estructura y formato.

Analicemos ahora qué datos se almacenan en estos archivos.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_mar_m1[i:i + 5]

    # Lee cada archivo en el grupo
    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_mar_m1, nombre_archivo)

        # Realiza la operación que desees con el archivo (por ejemplo, imprimir el contenido)
        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2024-march-1-period-5m-Temperature.data:
00:00  24.686856587727863
00:05  24.655792236328125
00:10  24.62811024983724
00:15  24.600116729736328
00:20  24.571900685628254
00:25  24.557347615559895
00:30  24.543951670328777
00:35  24.52979914347331
00:40  24.51275380452474
00:45  24.4972661336263
00:50  24.48965581258138
00:55  24.507235209147137
01:00  24.54190444946289
01:05  24.57630666097005
01:10  24.61257807413737
01:15  24.652676900227863
01:20  24.696069081624348
01:25  24.741777420043945
01:30  24.770888646443684
01:35  24.799060821533203
01:40  24.82095718383789
01:45  24.837290445963543
01:50  24.852733612060547
01:55  24.85531489054362
02:00  24.861812591552734
02:05  24.874360682600635
02:10  24.881973266601562
02:15  24.886913299560547
02:20  24.893099466959637
02:25  24.89296595255534
02:30  24.89007314046224
02:35  24.886824289957683
02:40  24.885088602701824
02:45  24.885533650716145
02:50  24.880727132161457
02:55  24.877344767252605
03:00  24.8807716369628

Con los resultados obtenidos, es posible determinar que cada archivo contiene dos columnas: una columna con la hora de la medición y una columna con la medición de la mganitud correspondiente en sí. Asimismo, como puede observarse en primera instancia, las mediciones de los datos se realizan cada 5 minutos. Esta periocidad fija se comprobará completamente más adelante.

Se puede concluir que los archivos de marzo también almacenan los mismos datos y en la misma estructura que los archivos del mes de noviembre, diciembre y febrero.

### M2

In [None]:
carpeta_drive_m2 = '/content/drive/My Drive/TFM/Motas3301/M2/'

#### Noviembre

In [None]:
carpeta_drive_nov = carpeta_drive_m2 + 'NOV'

In [None]:
archivos_nov = os.listdir(carpeta_drive_nov)
archivos_nov


['2023-november-10-period-5m-Noise.data',
 '2023-november-10-period-5m-CO2.data',
 '2023-november-11-period-5m-CO2.data',
 '2023-november-10-period-5m-Temperature.data',
 '2023-november-10-period-5m-Luminosity.data',
 '2023-november-10-period-5m-Relative-Humidity.data',
 '2023-november-12-period-5m-Luminosity.data',
 '2023-november-11-period-5m-Noise.data',
 '2023-november-11-period-5m-Temperature.data',
 '2023-november-12-period-5m-Noise.data',
 '2023-november-12-period-5m-Relative-Humidity.data',
 '2023-november-11-period-5m-Luminosity.data',
 '2023-november-12-period-5m-CO2.data',
 '2023-november-11-period-5m-Relative-Humidity.data',
 '2023-november-13-period-5m-Relative-Humidity.data',
 '2023-november-14-period-5m-Noise.data',
 '2023-november-12-period-5m-Temperature.data',
 '2023-november-14-period-5m-Luminosity.data',
 '2023-november-14-period-5m-CO2.data',
 '2023-november-13-period-5m-Noise.data',
 '2023-november-13-period-5m-Luminosity.data',
 '2023-november-13-period-5m-Temper

In [None]:
print(f'Hay un total de {len(archivos_nov)} archivos para el mes de noviembre.')

Hay un total de 150 archivos para el mes de noviembre.


Como puede observarse, partimos de 150 archivos para el mes de noviembre. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_nov = sorted(os.listdir(carpeta_drive_nov), key=lambda x: int(x.split('-')[2]))
archivos_nov

['2023-november-1-period-5m-Relative-Humidity.data',
 '2023-november-1-period-5m-Temperature.data',
 '2023-november-1-period-5m-Noise.data',
 '2023-november-1-period-5m-Luminosity.data',
 '2023-november-1-period-5m-CO2.data',
 '2023-november-2-period-5m-CO2.data',
 '2023-november-2-period-5m-Relative-Humidity.data',
 '2023-november-2-period-5m-Noise.data',
 '2023-november-2-period-5m-Luminosity.data',
 '2023-november-2-period-5m-Temperature.data',
 '2023-november-3-period-5m-Temperature.data',
 '2023-november-3-period-5m-Luminosity.data',
 '2023-november-3-period-5m-CO2.data',
 '2023-november-3-period-5m-Noise.data',
 '2023-november-3-period-5m-Relative-Humidity.data',
 '2023-november-4-period-5m-CO2.data',
 '2023-november-4-period-5m-Relative-Humidity.data',
 '2023-november-4-period-5m-Noise.data',
 '2023-november-4-period-5m-Luminosity.data',
 '2023-november-4-period-5m-Temperature.data',
 '2023-november-5-period-5m-Luminosity.data',
 '2023-november-5-period-5m-CO2.data',
 '2023-nove

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.



In [None]:
dias = 0
for i in range(0, len(archivos_nov), 5):
    grupo_de_archivos = archivos_nov[i:i + 5]
    dias += 1
    print(grupo_de_archivos)


print(f"\nSe disponen de datos para {dias} días del mes")

['2023-november-1-period-5m-Relative-Humidity.data', '2023-november-1-period-5m-Temperature.data', '2023-november-1-period-5m-Noise.data', '2023-november-1-period-5m-Luminosity.data', '2023-november-1-period-5m-CO2.data']
['2023-november-2-period-5m-CO2.data', '2023-november-2-period-5m-Relative-Humidity.data', '2023-november-2-period-5m-Noise.data', '2023-november-2-period-5m-Luminosity.data', '2023-november-2-period-5m-Temperature.data']
['2023-november-3-period-5m-Temperature.data', '2023-november-3-period-5m-Luminosity.data', '2023-november-3-period-5m-CO2.data', '2023-november-3-period-5m-Noise.data', '2023-november-3-period-5m-Relative-Humidity.data']
['2023-november-4-period-5m-CO2.data', '2023-november-4-period-5m-Relative-Humidity.data', '2023-november-4-period-5m-Noise.data', '2023-november-4-period-5m-Luminosity.data', '2023-november-4-period-5m-Temperature.data']
['2023-november-5-period-5m-Luminosity.data', '2023-november-5-period-5m-CO2.data', '2023-november-5-period-5m-R

Cabe destacar que, tal y como puede observarse, se disponen de datos para los 30 días del mes de noviembre.

Analicemos ahora qué datos se almacenan en cada uno de los ficheros.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_nov[i:i + 5]

    # Lee cada archivo en el grupo
    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_nov, nombre_archivo)

        # Realiza la operación que desees con el archivo (por ejemplo, imprimir el contenido)
        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2023-november-1-period-5m-Relative-Humidity.data:
00:00  40.723470052083336
00:05  40.70093790690104
00:10  40.65686543782552
00:15  40.6250254313151
00:20  40.60259501139323
00:25  40.56694030761719
00:30  40.524444580078125
00:35  40.50074259440104
00:40  40.463155110677086
00:45  40.42655944824219
00:50  40.39911905924479
00:55  40.377960205078125
01:00  40.34428914388021
01:05  40.31773885091146
01:10  40.295613606770836
01:15  40.25769551595052
01:20  40.24381001790365
01:25  40.21222432454427
01:30  40.1849365234375
01:35  40.165913899739586
01:40  40.152180989583336
01:45  40.12473684842469
01:50  40.09427862652277
01:55  40.06635030110677
02:00  40.02601623535156
02:05  39.985860188802086
02:10  39.97835795084635
02:15  39.96312459309896
02:20  39.94125616355021
02:25  39.91854392876059
02:30  39.889678955078125
02:35  39.887593587239586
02:40  39.849141438802086
02:45  39.817097981770836
02:50  39.77295922451332
02:55  39.741645425052965
03:00  39.72338358561198
0

Con los resultados obtenidos, es posible determinar que cada archivo contiene dos columnas: una columna con la hora de la medición y una columna con la medición de la magnitud correspondiente en sí. Asimismo, como puede observarse en primera instancia, las mediciones de los datos se realizan cada 5 minutos. Esta periodicidad se comprobará más adelante.

#### Diciembre

In [None]:
carpeta_drive_dic = carpeta_drive_m2 + 'DIC'

In [None]:
archivos_dic = os.listdir(carpeta_drive_dic)
archivos_dic

['2023-december-10-period-5m-Noise.data',
 '2023-december-10-period-5m-Relative-Humidity.data',
 '2023-december-10-period-5m-Luminosity.data',
 '2023-december-10-period-5m-Temperature.data',
 '2023-december-10-period-5m-CO2.data',
 '2023-december-11-period-5m-Noise.data',
 '2023-december-12-period-5m-Luminosity.data',
 '2023-december-11-period-5m-CO2.data',
 '2023-december-11-period-5m-Relative-Humidity.data',
 '2023-december-11-period-5m-Luminosity.data',
 '2023-december-11-period-5m-Temperature.data',
 '2023-december-12-period-5m-Noise.data',
 '2023-december-12-period-5m-CO2.data',
 '2023-december-14-period-5m-CO2.data',
 '2023-december-13-period-5m-Temperature.data',
 '2023-december-13-period-5m-CO2.data',
 '2023-december-12-period-5m-Temperature.data',
 '2023-december-12-period-5m-Relative-Humidity.data',
 '2023-december-13-period-5m-Noise.data',
 '2023-december-13-period-5m-Relative-Humidity.data',
 '2023-december-13-period-5m-Luminosity.data',
 '2023-december-15-period-5m-Luminos

In [None]:
print(f'Hay un total de {len(archivos_dic)} archivos para el mes de diciembre.')

Hay un total de 140 archivos para el mes de diciembre.


Como puede observarse, partimos de 140 archivos para el mes de diciembre. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_dic = sorted(os.listdir(carpeta_drive_dic), key=lambda x: int(x.split('-')[2]))
archivos_dic

['2023-december-1-period-5m-CO2.data',
 '2023-december-1-period-5m-Noise.data',
 '2023-december-1-period-5m-Luminosity.data',
 '2023-december-1-period-5m-Temperature.data',
 '2023-december-1-period-5m-Relative-Humidity.data',
 '2023-december-2-period-5m-Luminosity.data',
 '2023-december-2-period-5m-Noise.data',
 '2023-december-2-period-5m-CO2.data',
 '2023-december-2-period-5m-Relative-Humidity.data',
 '2023-december-2-period-5m-Temperature.data',
 '2023-december-3-period-5m-Noise.data',
 '2023-december-3-period-5m-CO2.data',
 '2023-december-3-period-5m-Luminosity.data',
 '2023-december-3-period-5m-Relative-Humidity.data',
 '2023-december-3-period-5m-Temperature.data',
 '2023-december-4-period-5m-CO2.data',
 '2023-december-4-period-5m-Luminosity.data',
 '2023-december-4-period-5m-Noise.data',
 '2023-december-4-period-5m-Relative-Humidity.data',
 '2023-december-4-period-5m-Temperature.data',
 '2023-december-5-period-5m-Noise.data',
 '2023-december-5-period-5m-Luminosity.data',
 '2023-de

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.




In [None]:
dias = 0
for i in range(0, len(archivos_dic), 5):
    grupo_de_archivos = archivos_dic[i:i + 5]
    dias += 1
    print(grupo_de_archivos)


print(f"\nSe disponen de datos para {dias} días del mes")

['2023-december-1-period-5m-CO2.data', '2023-december-1-period-5m-Noise.data', '2023-december-1-period-5m-Luminosity.data', '2023-december-1-period-5m-Temperature.data', '2023-december-1-period-5m-Relative-Humidity.data']
['2023-december-2-period-5m-Luminosity.data', '2023-december-2-period-5m-Noise.data', '2023-december-2-period-5m-CO2.data', '2023-december-2-period-5m-Relative-Humidity.data', '2023-december-2-period-5m-Temperature.data']
['2023-december-3-period-5m-Noise.data', '2023-december-3-period-5m-CO2.data', '2023-december-3-period-5m-Luminosity.data', '2023-december-3-period-5m-Relative-Humidity.data', '2023-december-3-period-5m-Temperature.data']
['2023-december-4-period-5m-CO2.data', '2023-december-4-period-5m-Luminosity.data', '2023-december-4-period-5m-Noise.data', '2023-december-4-period-5m-Relative-Humidity.data', '2023-december-4-period-5m-Temperature.data']
['2023-december-5-period-5m-Noise.data', '2023-december-5-period-5m-Luminosity.data', '2023-december-5-period-5m

A diferencia del mes de noviembre, para el que se disponía de mediciones para los 30 días del mes, las mediciones de diciembre finalizan el día 28. No se disponen de datos del 29 al 31 de diciembre.


Tras este análisis, es posible afirmar que los datos de ambos meses presentan la misma estructura y formato.



Analicemos ahora qué datos se almacenan en estos archivos.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_dic[i:i + 5]

    # Lee cada archivo en el grupo
    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_dic, nombre_archivo)

        # Realiza la operación que desees con el archivo (por ejemplo, imprimir el contenido)
        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2023-december-1-period-5m-CO2.data:
00:00  622.9581125895182
00:05  618.5011739095052
00:10  610.1875020345052
00:15  608.844091796875
00:20  607.0053721110027
00:25  608.3230834960938
00:30  606.9609700520833
00:35  603.7226755777995
00:40  601.8647674560547
00:45  601.198799641927
00:50  598.7130432128906
00:55  595.6910858154297
01:00  590.900048828125
01:05  584.7274119059244
01:10  580.6489603678385
01:15  580.3963185628255
01:20  574.7845631917318
01:25  570.7473765055339
01:30  567.7541127522786
01:35  562.2238972981771
01:40  558.2856150309245
01:45  557.0399169921875
01:50  557.6883422851563
01:55  581.0485463460286
02:00  560.862094116211
02:05  557.1463419596354
02:10  552.2132690429687
02:15  550.4065663655599
02:20  545.0654825846354
02:25  545.2622904459636
02:30  539.1714416503906
02:35  536.0757253011068
02:40  533.5047281901042
02:45  534.5071400960286
02:50  531.6866536458333
02:55  528.7859944661458
03:00  526.0262552897135
03:05  521.5562947591146
03:10

Con los resultados obtenidos, es posible determinar que cada archivo contiene dos columnas: una columna con la hora de la medición y una columna con la medición de la mganitud correspondiente en sí. Asimismo, como puede observarse en primera instancia, las mediciones de los datos se realizan cada 5 minutos. Esta periocidad fija se comprobará completamente más adelante.

Se puede concluir que los archivos de diciembre también almacenan los mismos datos y en la misma estructura que los archivos del mes de noviembre.

#### Enero

In [None]:
carpeta_drive_en = carpeta_drive_m2 + 'EN'

In [None]:
archivos_en = os.listdir(carpeta_drive_en)
archivos_en

['2024-january-10-period-5m-CO2.data',
 '2024-january-10-period-5m-Noise.data',
 '2024-january-11-period-5m-Luminosity.data',
 '2024-january-11-period-5m-CO2.data',
 '2024-january-10-period-5m-Relative-Humidity.data',
 '2024-january-11-period-5m-Noise.data',
 '2024-january-10-period-5m-Luminosity.data',
 '2024-january-11-period-5m-Relative-Humidity.data',
 '2024-january-10-period-5m-Temperature.data',
 '2024-january-11-period-5m-Temperature.data',
 '2024-january-12-period-5m-Luminosity.data',
 '2024-january-12-period-5m-Noise.data',
 '2024-january-13-period-5m-Luminosity.data',
 '2024-january-13-period-5m-CO2.data',
 '2024-january-12-period-5m-Relative-Humidity.data',
 '2024-january-12-period-5m-Temperature.data',
 '2024-january-12-period-5m-CO2.data',
 '2024-january-14-period-5m-Temperature.data',
 '2024-january-13-period-5m-Noise.data',
 '2024-january-14-period-5m-Relative-Humidity.data',
 '2024-january-14-period-5m-CO2.data',
 '2024-january-13-period-5m-Temperature.data',
 '2024-jan

In [None]:
print(f'Hay un total de {len(archivos_en)} archivos para el mes de enero.')

Hay un total de 95 archivos para el mes de enero.


Como puede observarse, partimos de 95 archivos para el mes de enero. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_en = sorted(os.listdir(carpeta_drive_en), key=lambda x: int(x.split('-')[2]))
archivos_en

['2024-january-6-period-5m-Temperature.data',
 '2024-january-6-period-5m-Relative-Humidity.data',
 '2024-january-6-period-5m-CO2.data',
 '2024-january-6-period-5m-Luminosity.data',
 '2024-january-6-period-5m-Noise.data',
 '2024-january-7-period-5m-Relative-Humidity.data',
 '2024-january-7-period-5m-Noise.data',
 '2024-january-7-period-5m-CO2.data',
 '2024-january-7-period-5m-Luminosity.data',
 '2024-january-7-period-5m-Temperature.data',
 '2024-january-8-period-5m-Relative-Humidity.data',
 '2024-january-8-period-5m-Noise.data',
 '2024-january-8-period-5m-Temperature.data',
 '2024-january-8-period-5m-Luminosity.data',
 '2024-january-8-period-5m-CO2.data',
 '2024-january-9-period-5m-Luminosity.data',
 '2024-january-9-period-5m-Noise.data',
 '2024-january-9-period-5m-CO2.data',
 '2024-january-9-period-5m-Relative-Humidity.data',
 '2024-january-9-period-5m-Temperature.data',
 '2024-january-10-period-5m-CO2.data',
 '2024-january-10-period-5m-Noise.data',
 '2024-january-10-period-5m-Relative

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.




In [None]:
dias = 0
for i in range(0, len(archivos_en), 5):
    grupo_de_archivos = archivos_en[i:i + 5]
    dias += 1
    print(grupo_de_archivos)


print(f"\nSe disponen de datos para {dias} días del mes")

['2024-january-6-period-5m-Temperature.data', '2024-january-6-period-5m-Relative-Humidity.data', '2024-january-6-period-5m-CO2.data', '2024-january-6-period-5m-Luminosity.data', '2024-january-6-period-5m-Noise.data']
['2024-january-7-period-5m-Relative-Humidity.data', '2024-january-7-period-5m-Noise.data', '2024-january-7-period-5m-CO2.data', '2024-january-7-period-5m-Luminosity.data', '2024-january-7-period-5m-Temperature.data']
['2024-january-8-period-5m-Relative-Humidity.data', '2024-january-8-period-5m-Noise.data', '2024-january-8-period-5m-Temperature.data', '2024-january-8-period-5m-Luminosity.data', '2024-january-8-period-5m-CO2.data']
['2024-january-9-period-5m-Luminosity.data', '2024-january-9-period-5m-Noise.data', '2024-january-9-period-5m-CO2.data', '2024-january-9-period-5m-Relative-Humidity.data', '2024-january-9-period-5m-Temperature.data']
['2024-january-10-period-5m-CO2.data', '2024-january-10-period-5m-Noise.data', '2024-january-10-period-5m-Relative-Humidity.data', '

Al igual que sucede para el mes de diciembre, no se disponen de datos para el 1, 2, 3, 4, 5, 20, 21, 26, 27, 28, 29, 30 de enero.

Tras este análisis, es posible afirmar que los datos de enero también presentan la misma estructura y formato que los datos de noviembre y diciembre.




Analicemos ahora qué datos se almacenan en estos archivos.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_en[i:i + 5]

    # Lee cada archivo en el grupo
    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_en, nombre_archivo)

        # Realiza la operación que desees con el archivo (por ejemplo, imprimir el contenido)
        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2024-january-6-period-5m-Temperature.data:
20:49  16.983291625976562
20:50  16.97290293375651
20:55  16.971478780110676
21:00  16.965826670328777
21:05  16.96417999267578
21:10  16.959373474121094
21:15  16.953587849934895
21:20  16.952163696289062
21:25  16.950873057047527
21:30  16.94335174560547
21:35  16.93672053019206
21:40  16.931691487630207
21:45  16.926528930664062
21:50  16.926973978678387
21:55  16.922701517740887
22:00  16.920164744059246
22:05  16.915447235107422
22:10  16.912554423014324
22:15  16.90610122680664
22:20  16.89871336619059
22:25  16.894129435221355
22:30  16.89065793355306
22:35  16.88086617787679
22:40  16.879264005025227
22:45  16.87966448465983
22:50  16.881177965799967
22:55  16.882646751403808
23:00  16.878685442606606
23:05  16.877261225382487
23:10  16.875480715433756
23:15  16.874145380655925
23:20  16.873420133429057
23:25  16.869916915893555
23:30  16.86493174235026
23:35  16.867691167195638
23:40  16.86039187113444
23:45  16.858255195

Con los resultados obtenidos, es posible determinar que cada archivo contiene dos columnas: una columna con la hora de la medición y una columna con la medición de la mganitud correspondiente en sí. Asimismo, como puede observarse en primera instancia, las mediciones de los datos se realizan cada 5 minutos. Esta periocidad fija se comprobará completamente más adelante.

Se puede concluir que los archivos de enero también almacenan los mismos datos y en la misma estructura que los archivos del mes de noviembre y diciembre.

#### Febrero

In [None]:
carpeta_drive_feb = carpeta_drive_m2 + 'FEB'

In [None]:
archivos_feb = os.listdir(carpeta_drive_feb)
archivos_feb

['2024-february-12-period-5m-Temperature.data',
 '2024-february-12-period-5m-Luminosity.data',
 '2024-february-12-period-5m-Relative-Humidity.data',
 '2024-february-12-period-5m-Noise.data',
 '2024-february-12-period-5m-CO2.data',
 '2024-february-13-period-5m-CO2.data',
 '2024-february-14-period-5m-Noise.data',
 '2024-february-14-period-5m-CO2.data',
 '2024-february-13-period-5m-Temperature.data',
 '2024-february-14-period-5m-Luminosity.data',
 '2024-february-14-period-5m-Relative-Humidity.data',
 '2024-february-13-period-5m-Luminosity.data',
 '2024-february-13-period-5m-Relative-Humidity.data',
 '2024-february-13-period-5m-Noise.data',
 '2024-february-15-period-5m-CO2.data',
 '2024-february-15-period-5m-Noise.data',
 '2024-february-16-period-5m-Luminosity.data',
 '2024-february-14-period-5m-Temperature.data',
 '2024-february-15-period-5m-Relative-Humidity.data',
 '2024-february-15-period-5m-Luminosity.data',
 '2024-february-15-period-5m-Temperature.data',
 '2024-february-16-period-5m-

In [None]:
print(f'Hay un total de {len(archivos_feb)} archivos para el mes de febrero.')

Hay un total de 130 archivos para el mes de febrero.


Como puede observarse, partimos de 130 archivos para el mes de febrero. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_feb = sorted(os.listdir(carpeta_drive_feb), key=lambda x: int(x.split('-')[2]))
archivos_feb

['2024-february-1-period-5m-Luminosity.data',
 '2024-february-1-period-5m-CO2.data',
 '2024-february-1-period-5m-Relative-Humidity.data',
 '2024-february-1-period-5m-Noise.data',
 '2024-february-1-period-5m-Temperature.data',
 '2024-february-2-period-5m-Relative-Humidity.data',
 '2024-february-2-period-5m-Luminosity.data',
 '2024-february-2-period-5m-Temperature.data',
 '2024-february-2-period-5m-CO2.data',
 '2024-february-2-period-5m-Noise.data',
 '2024-february-3-period-5m-CO2.data',
 '2024-february-3-period-5m-Luminosity.data',
 '2024-february-3-period-5m-Relative-Humidity.data',
 '2024-february-3-period-5m-Noise.data',
 '2024-february-3-period-5m-Temperature.data',
 '2024-february-4-period-5m-Luminosity.data',
 '2024-february-4-period-5m-CO2.data',
 '2024-february-4-period-5m-Relative-Humidity.data',
 '2024-february-4-period-5m-Noise.data',
 '2024-february-4-period-5m-Temperature.data',
 '2024-february-5-period-5m-Noise.data',
 '2024-february-5-period-5m-CO2.data',
 '2024-february-

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.




In [None]:
dias = 0
for i in range(0, len(archivos_feb), 5):
    grupo_de_archivos = archivos_feb[i:i + 5]
    dias += 1
    print(grupo_de_archivos)


print(f"\nSe disponen de datos para {dias} días del mes")

['2024-february-1-period-5m-Luminosity.data', '2024-february-1-period-5m-CO2.data', '2024-february-1-period-5m-Relative-Humidity.data', '2024-february-1-period-5m-Noise.data', '2024-february-1-period-5m-Temperature.data']
['2024-february-2-period-5m-Relative-Humidity.data', '2024-february-2-period-5m-Luminosity.data', '2024-february-2-period-5m-Temperature.data', '2024-february-2-period-5m-CO2.data', '2024-february-2-period-5m-Noise.data']
['2024-february-3-period-5m-CO2.data', '2024-february-3-period-5m-Luminosity.data', '2024-february-3-period-5m-Relative-Humidity.data', '2024-february-3-period-5m-Noise.data', '2024-february-3-period-5m-Temperature.data']
['2024-february-4-period-5m-Luminosity.data', '2024-february-4-period-5m-CO2.data', '2024-february-4-period-5m-Relative-Humidity.data', '2024-february-4-period-5m-Noise.data', '2024-february-4-period-5m-Temperature.data']
['2024-february-5-period-5m-Noise.data', '2024-february-5-period-5m-CO2.data', '2024-february-5-period-5m-Relati

No se disponen de datos para los días 10 y 11 del mes.

Tras este análisis, es posible afirmar que los datos de frebrero presentan la misma estructura y formato que los datos del resto de meses analizados previamente.






Analicemos ahora qué datos se almacenan en estos archivos.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_feb[i:i + 5]

    # Lee cada archivo en el grupo
    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_feb, nombre_archivo)

        # Realiza la operación que desees con el archivo (por ejemplo, imprimir el contenido)
        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2024-february-1-period-5m-Luminosity.data:
00:00  0
00:05  0
00:10  0
00:15  0
00:20  0
00:25  0
00:30  0
00:35  0
00:40  0
00:45  0
00:50  0
00:55  0
01:00  0
01:05  0
01:10  0
01:15  0
01:20  0
01:25  0
01:30  0
01:35  0
01:40  0
01:45  0
01:50  0
01:55  0
02:00  0
02:05  0
02:10  0
02:15  0
02:20  0
02:25  0
02:30  0
02:35  0
02:40  0
02:45  0
02:50  0
02:55  0
03:00  0
03:05  0
03:10  0
03:15  0
03:20  0
03:25  0
03:30  0
03:35  0
03:40  0
03:45  0
03:50  0
03:55  0
04:00  0
04:05  0
04:10  0
04:15  0
04:20  0
04:25  0
04:30  0
04:35  0
04:40  0
04:45  0
04:50  0
04:55  0
05:00  0
05:05  0
05:10  0
05:15  0
05:20  0
05:25  0
05:30  0
05:35  0
05:40  0
05:45  0
05:50  0
05:55  0
06:00  0
06:05  0
06:10  0
06:15  0
06:20  0
06:25  0
06:30  0
06:35  0
06:40  0
06:45  0
06:50  0
06:55  0
07:00  0
07:05  0
07:10  0
07:15  0
07:20  0
07:25  0
07:30  0
07:35  580.7852218701289
07:40  830.7071818033854
07:45  821.6140655517578
07:50  816.3455851236979
07:55  815.8771057128906


Con los resultados obtenidos, es posible determinar que cada archivo contiene dos columnas: una columna con la hora de la medición y una columna con la medición de la mganitud correspondiente en sí. Asimismo, como puede observarse en primera instancia, las mediciones de los datos se realizan cada 5 minutos. Esta periocidad fija se comprobará completamente más adelante.

Se puede concluir que los archivos de febrero también almacenan los mismos datos y en la misma estructura que los archivos del mes de noviembre, diciembre y enero.

#### Marzo

In [None]:
carpeta_drive_mar = carpeta_drive_m2 + 'MAR'

In [None]:
archivos_mar = os.listdir(carpeta_drive_mar)
archivos_mar

['2024-march-1-period-5m-Temperature.data',
 '2024-march-1-period-5m-CO2.data',
 '2024-march-1-period-5m-Noise.data',
 '2024-march-1-period-5m-Luminosity.data',
 '2024-march-1-period-5m-Relative-Humidity.data',
 '2024-march-2-period-5m-Luminosity.data',
 '2024-march-2-period-5m-CO2.data',
 '2024-march-3-period-5m-Noise.data',
 '2024-march-3-period-5m-CO2.data',
 '2024-march-2-period-5m-Noise.data',
 '2024-march-3-period-5m-Temperature.data',
 '2024-march-2-period-5m-Relative-Humidity.data',
 '2024-march-3-period-5m-Relative-Humidity.data',
 '2024-march-3-period-5m-Luminosity.data',
 '2024-march-2-period-5m-Temperature.data',
 '2024-march-4-period-5m-Noise.data',
 '2024-march-4-period-5m-Luminosity.data',
 '2024-march-4-period-5m-CO2.data',
 '2024-march-4-period-5m-Relative-Humidity.data',
 '2024-march-4-period-5m-Temperature.data']

In [None]:
print(f'Hay un total de {len(archivos_mar)} archivos para el mes de marzo.')

Hay un total de 20 archivos para el mes de marzo.


Como puede observarse, partimos de 20 archivos para el mes de marzo. Disponemos de varios archivos para cada uno de los días del mes. Cada uno de estos archivos contiene las mediciones para una magnitud diferente. Para conocer exactamente cuantos archivos hay almacenados para cada día y por consiguiente para cuantas magnitudes disponemos de información, se procede a ordenar el contenido extraído de la carpeta por días.

In [None]:
archivos_mar = sorted(os.listdir(carpeta_drive_mar), key=lambda x: int(x.split('-')[2]))
archivos_mar

['2024-march-1-period-5m-Temperature.data',
 '2024-march-1-period-5m-CO2.data',
 '2024-march-1-period-5m-Noise.data',
 '2024-march-1-period-5m-Luminosity.data',
 '2024-march-1-period-5m-Relative-Humidity.data',
 '2024-march-2-period-5m-Luminosity.data',
 '2024-march-2-period-5m-CO2.data',
 '2024-march-2-period-5m-Noise.data',
 '2024-march-2-period-5m-Relative-Humidity.data',
 '2024-march-2-period-5m-Temperature.data',
 '2024-march-3-period-5m-Noise.data',
 '2024-march-3-period-5m-CO2.data',
 '2024-march-3-period-5m-Temperature.data',
 '2024-march-3-period-5m-Relative-Humidity.data',
 '2024-march-3-period-5m-Luminosity.data',
 '2024-march-4-period-5m-Noise.data',
 '2024-march-4-period-5m-Luminosity.data',
 '2024-march-4-period-5m-CO2.data',
 '2024-march-4-period-5m-Relative-Humidity.data',
 '2024-march-4-period-5m-Temperature.data']

Tal y como puede observarse, es posible determinar que los datos para cada día se encuentran divididos en 5 archivos diferentes, uno para cada magnitud medida: Temperatura, CO2, Ruido, Luminosidad y Humedad. De esta manera, si agrupamos los archivos ordenados por días en grupos de 5, obtendremos todos los datos relativos a un único día. Esta consideración se tendrá en cuenta en la estrategia de tratamiento de datos final.




In [None]:
dias = 0
for i in range(0, len(archivos_mar), 5):
    grupo_de_archivos = archivos_mar[i:i + 5]
    dias += 1
    print(grupo_de_archivos)


print(f"\nSe disponen de datos para {dias} días del mes")

['2024-march-1-period-5m-Temperature.data', '2024-march-1-period-5m-CO2.data', '2024-march-1-period-5m-Noise.data', '2024-march-1-period-5m-Luminosity.data', '2024-march-1-period-5m-Relative-Humidity.data']
['2024-march-2-period-5m-Luminosity.data', '2024-march-2-period-5m-CO2.data', '2024-march-3-period-5m-Noise.data', '2024-march-3-period-5m-CO2.data', '2024-march-2-period-5m-Noise.data']
['2024-march-3-period-5m-Temperature.data', '2024-march-2-period-5m-Relative-Humidity.data', '2024-march-3-period-5m-Relative-Humidity.data', '2024-march-3-period-5m-Luminosity.data', '2024-march-2-period-5m-Temperature.data']
['2024-march-4-period-5m-Noise.data', '2024-march-4-period-5m-Luminosity.data', '2024-march-4-period-5m-CO2.data', '2024-march-4-period-5m-Relative-Humidity.data', '2024-march-4-period-5m-Temperature.data']

Se disponen de datos para 4 días del mes


A diferencia del resto de meses para los que se disponía de información para la mayoría de los días, en el mes de marzo, solo se disponen de mediciones para los primeros cuatro días del mes. Esto se debe al corte de electricidad ocurrido en la escuela que provocó que las motas dejasen de funcionar.

Tras este análisis, es posible afirmar que los pocos datos de marzo también presentan la misma estructura y formato.

Analicemos ahora qué datos se almacenan en estos archivos.

In [None]:
for i in range(0, 4, 5):
    grupo_de_archivos = archivos_mar[i:i + 5]

    # Lee cada archivo en el grupo
    for nombre_archivo in grupo_de_archivos:
        ruta_completa = os.path.join(carpeta_drive_mar, nombre_archivo)

        # Realiza la operación que desees con el archivo (por ejemplo, imprimir el contenido)
        with open(ruta_completa, 'r') as archivo:
            contenido = archivo.read()
            print(f"Contenido de {nombre_archivo}:\n{contenido}")

Contenido de 2024-march-1-period-5m-Temperature.data:
00:00  26.815069834391277
00:05  26.808705647786457
00:10  26.764778900146485
00:15  26.71853230794271
00:20  26.699572372436524
00:25  26.759615071614583
00:30  26.823748270670574
00:35  26.878711700439453
00:40  26.89362080891927
00:45  26.87862269083659
00:50  26.852676391601562
00:55  26.825350443522137
01:00  26.784895579020183
01:05  26.75356216430664
01:10  26.735266240437827
01:15  26.73535550435384
01:20  26.747463099161784
01:25  26.76055005391439
01:30  26.794642130533855
01:35  26.836565653483074
01:40  26.87030029296875
01:45  26.9038569132487
01:50  26.931894938151043
01:55  26.935855865478516
02:00  26.953346252441406
02:05  26.974219004313152
02:10  26.98240788777669
02:15  26.991709391276043
02:20  27.005728403727215
02:25  27.008710225423176
02:30  27.02949396769206
02:35  27.032787322998047
02:40  27.024064381917317
02:45  27.03149668375651
02:50  27.02855936686198
02:55  27.036614735921223
03:00  27.0377718607584

Con los resultados obtenidos, es posible determinar que cada archivo contiene dos columnas: una columna con la hora de la medición y una columna con la medición de la mganitud correspondiente en sí. Asimismo, como puede observarse en primera instancia, las mediciones de los datos se realizan cada 5 minutos. Esta periocidad fija se comprobará completamente más adelante.

Se puede concluir que los archivos de marzo también almacenan los mismos datos y en la misma estructura que los archivos del mes de noviembre, diciembre, enero y febrero.

## Tratamiento final de los datos

Del análisis anterior, es posible extraer un conjunto de consideraciones importantes que fundamentarán la lógica de la función principal de tratamiento de datos a desarrollar:


* Los datos de ambas motas presentan la misma estructura.
* Los datos de todos los meses presentan la misma estructura.
*   Los datos de cada día se encuentran divididos en 5 archivos, tantos como magnitudes medidas: CO2, Temperatura, Ruido, Luminosidad y Humedad.
*   En cada uno de los 5 archivos diarios, se almacenan muestras recogidas cada 5 minutos junto con la hora y minuto de recogida de la muestra.
* El orden de los archivos de las distintas magnitudes para cada uno de los días no permanece constante ni entre días ni entre meses. Es decir, para un día pueden aparecer los archivos con el orden de Ruido-Temperatura-CO2-Humedad-Luminosidad y para otro día con el orden de Luminosidad-Temperatura-CO2-Humedad-Ruido.


Una vez destacadas estas consideraciones y características de los datos a tratar, es posible comenzar con el desarrollo tanto de la función principal de tratamiento de datos como de las funciones auxiliares empleadas para encapsular cierta funcionalidad de esa función principal y reducir la complejidad de la misma.



El objetivo de la función principal de tratamiento de datos será generar una estructura de almacenamiento donde para cada una de las horas de cada día se almacenarán las mediciones de las 5 magnitudes medidas:

| Date | Time | Temperature | Humidity | Luminosity | Noise | CO2 |
|-----------|-----------|-----------|-----------|-----------|-----------|-----------|
|Date d/m/Y|Hour HH:mm|Temperature at Date-Time| Humidity at Date-Time| Luminosity at Date-Time| Noise at Date-Time| CO2 at Date-Time   



### Funciones auxiliares

Función `get_date`: función encargada de generar la fecha de un archivo en formato d/m/Y a partir de su nombre. Recibe como parámetro el propio nombre del archivo y funciona de la siguiente manera:


1.   Fragmenta el nombre del archivo por el caracter `-`
2.   Selecciona los tres primeros elementos de esa fragmentación que se corresponde con el año, el mes y el día al que corresponden las mediciones que contiene el archivo.
3.  Devuelve la fecha formateada con el formato d/m/Y











In [None]:
def get_date(archivo_name):
  fecha_original = '-'.join(archivo_name.split('-')[0:3])
  fecha_obj = datetime.strptime(fecha_original, "%Y-%B-%d")
  fecha_formateada = fecha_obj.strftime("%d/%m/%Y")
  return fecha_formateada


Ejemplo de uso para el 1 de noviembre:

In [None]:
archivos_nov[1]

'2023-november-1-period-5m-Relative-Humidity.data'

In [None]:
get_date(archivos_nov[1])

'01/11/2023'

Función `get_dataframe`: función encargada de elaborar un DataFrame para cada uno de los días uniendo las mediciones de los cinco archivos correspondientes a ese día. Cada una de las magnitudes medidas representará una columna en el DataFrame. Recibe como parámetros los archivos relativos a un único día, 5 en este caso, la carpeta donde se almacenan dichos archivos y las columnas que forman el DataFrame. Funciona de la siguiente manera:


1.   Se inicializa un DataFrame vacío con las columnas indicadas.
2.   Se ordenan alfabéticamente los archivos relativos al día en función de la magnitud de la que el archivo almacena datos. De la misma manera que se ha fragmentado el nombre del archivo por el caracter `-` en la función anterior para recuperar la fecha, se procede de la siguiente manera para recuperar el nombre de la magnitud, el sexto fragmento en este caso. Esta ordenación nos permite asegurar que los datos se asignarán de manera inequívoca a la columna de la magnitud a la que corresponden. Es importante definir las columnas con las que se crea el DataFrame inicial con este mismo orden. Se debe tener en cuenta que la magnitud Relative-Humidity se ha renombrado posteriormente como Humidity.
3. Para cada uno de los archivos del día se recuperan sus datos y se asignan a la columna correspondiente. Para las columnas de Date y Time, basta con rellenarlas con la información del primer archivo procesado puesto que todas las magnitudes pertenecen al mismo día y se recogen con la misma periodicidad.

De esta manera, para cada uno de los días se devuelve un DataFrame que presenta la siguiente estructura:

| CO2 | Luminosity | Noise | Humidity |Temperature | Date | Time |
|-----------|-----------|-----------|-----------|-----------|-----------|-----------|
|CO2 at Date-Time|Luminosity at Date-Time|Noise at Date-Time| Humidity at Date-Time | Temperature at Date-Time| Date d/m/Y| Hour HH:mm  




In [None]:
def get_dataframe(archivos_dia, carpeta_archivos, columnas):

  df_day = pd.DataFrame(columns=columnas)

  archivos_dia = sorted(archivos_dia, key=lambda x: str(x.split('-')[5]))


  for i, nombre_archivo in enumerate(archivos_dia):

    ruta_completa = os.path.join(carpeta_archivos, nombre_archivo)

    df_aux = pd.read_csv(ruta_completa, sep=' ', names= ['Time', 'UnK', columnas[i]])

    if i == 0:
      df_day['Time'] = df_aux['Time']
      df_day['Date'] = get_date(nombre_archivo)

    df_day[columnas[i]] = df_aux[columnas[i]]

  return df_day

Ejemplo de uso para el 6 de diciembre:

In [None]:
col = ['CO2', 'Luminosity', 'Noise', 'Humidity', 'Temperature', 'Date', 'Time']
carpeta_drive = '/content/drive/My Drive/TFM/Motas3301/M1/DIC'
archivos_en_carpeta_dic = sorted(os.listdir(carpeta_drive), key=lambda x: int(x.split('-')[2]))
datos_dia_dic = get_dataframe(archivos_en_carpeta_dic[0:5],carpeta_drive, col)
datos_dia_dic

Unnamed: 0,CO2,Luminosity,Noise,Humidity,Temperature,Date,Time
0,594.671977,0.0,11.756805,44.324519,26.544963,01/12/2023,00:00
1,585.555008,0.0,11.831277,44.331767,26.526716,01/12/2023,00:05
2,581.742397,0.0,11.812717,44.335302,26.508869,01/12/2023,00:10
3,574.664427,0.0,11.717422,44.359004,26.492491,01/12/2023,00:15
4,567.752620,0.0,11.703261,44.356359,26.488708,01/12/2023,00:20
...,...,...,...,...,...,...,...
283,492.355914,0.0,11.629236,32.035395,25.486890,01/12/2023,23:35
284,490.412845,0.0,11.657867,32.026749,25.468421,01/12/2023,23:40
285,489.364382,0.0,11.596441,32.039693,25.456182,01/12/2023,23:45
286,486.005564,0.0,11.648082,32.055155,25.444789,01/12/2023,23:50


Ejemplo de uso para el 1 de noviembre:

In [None]:
col = ['CO2', 'Luminosity', 'Noise', 'Humidity', 'Temperature', 'Date', 'Time']
carpeta_drive = '/content/drive/My Drive/TFM/Motas3301/M1/NOV'
archivos_en_carpeta_nov = sorted(os.listdir(carpeta_drive), key=lambda x: int(x.split('-')[2]))
datos_dia_nov = get_dataframe(archivos_en_carpeta_nov[0:5],carpeta_drive, col)
datos_dia_nov

Unnamed: 0,CO2,Luminosity,Noise,Humidity,Temperature,Date,Time
0,2671.084595,0.0,11.600191,46.745758,25.198536,01/11/2023,00:00
1,2650.856734,0.0,11.649442,46.717809,25.182425,01/11/2023,00:05
2,2622.160181,0.0,11.762839,46.698736,25.162131,01/11/2023,00:10
3,2602.024292,0.0,11.692808,46.685181,25.136185,01/11/2023,00:15
4,2577.668066,0.0,11.633921,46.664683,25.110283,01/11/2023,00:20
...,...,...,...,...,...,...,...
283,486.136562,0.0,11.483480,45.345001,23.457263,01/11/2023,23:35
284,487.503500,0.0,11.475151,45.348943,23.444445,01/11/2023,23:40
285,486.710749,0.0,11.516796,45.349782,23.447294,01/11/2023,23:45
286,487.130226,0.0,11.530851,45.352758,23.447027,01/11/2023,23:50


Función `dataframe_union`: Función encargada de concatenar verticalmente los DataFrames generados con la función anterior para cada uno de los días del mes. Los archivos de cada uno de los meses se encuentran almacenados en carpetas independientes. Recibe como parámetros los archivos del mes completo, la carpeta de archivos donde se almacenan dichos archivos, el tamaño del grupo (el número de archivos pertenecientes a cada día) y las columnas para el DataFrame resultante. Funciona de la siguiente manera:


1.   Se recorren todos los archivos disponibles en la carpeta del mes y se dividen en grupos de 5.
2.   Cada uno de esos grupos de 5 archivos son los que recibe la función anterior para generar el DataFrame del día.
3.  Se concatenan verticalmente los DataFrames de cada uno de los días.


Adicionalmente, esta función nos permite detectar si se ha perdido en algún momento la periodicidad en la recogida de muestras. Si el día tiene 24 horas y se toman muestras cada 5 minutos, cada archivo debería almacenar 288 muestras.



In [None]:
def dataframe_union(archivos, carpeta_archivos, tam_grupo, columnas):

  df = pd.DataFrame(columns= columnas)

  for i in range(0, len(archivos), tam_grupo):
    grupo_de_archivos = archivos[i:i + tam_grupo]
    dfDia = get_dataframe(grupo_de_archivos, carpeta_archivos, columnas)
    if dfDia.shape[0] != 288 and dfDia.shape[0] != 0 :
      num_muestras = dfDia.shape[0]
      dia = dfDia['Date'][0]
      print(f'Pérdida de periodicidad en el día {dia}.\nSe disponen de {num_muestras} muestras para este día\n')
    df = pd.concat([df, dfDia], axis=0, ignore_index=True)


  return df


Ejemplo de uso con el mes de noviembre. Se observa que en los días 7, 19, 23 y 24 hubo una pérdida de periodicidad en la recogida de muestras que derivó en la pérdida de entre 1 y 8 muestras del día:

In [None]:
carpeta_drive = '/content/drive/My Drive/TFM/Motas3301/M1/NOV'
archivos_mes = sorted(os.listdir(carpeta_drive), key=lambda x: int(x.split('-')[2]))
col = ['CO2', 'Luminosity', 'Noise', 'Humidity', 'Temperature', 'Date', 'Time']
tam_g = 5
df_month = dataframe_union(archivos_mes, carpeta_drive, tam_g, col)

Pérdida de periodicidad en el día 07/11/2023.
Se disponen de 285 muestras para este día

Pérdida de periodicidad en el día 19/11/2023.
Se disponen de 287 muestras para este día

Pérdida de periodicidad en el día 23/11/2023.
Se disponen de 280 muestras para este día

Pérdida de periodicidad en el día 24/11/2023.
Se disponen de 281 muestras para este día



In [None]:
df_month.shape[0]

8621

In [None]:
df_month

Unnamed: 0,CO2,Luminosity,Noise,Humidity,Temperature,Date,Time
0,2671.084595,0.0,11.600191,46.745758,25.198536,01/11/2023,00:00
1,2650.856734,0.0,11.649442,46.717809,25.182425,01/11/2023,00:05
2,2622.160181,0.0,11.762839,46.698736,25.162131,01/11/2023,00:10
3,2602.024292,0.0,11.692808,46.685181,25.136185,01/11/2023,00:15
4,2577.668066,0.0,11.633921,46.664683,25.110283,01/11/2023,00:20
...,...,...,...,...,...,...,...
8616,616.292862,0.0,12.178746,44.340235,26.627920,30/11/2023,23:35
8617,615.192898,0.0,11.878191,44.347967,26.607314,30/11/2023,23:40
8618,608.125130,0.0,11.744641,44.345907,26.592405,30/11/2023,23:45
8619,601.438597,0.0,11.762552,44.334997,26.578430,30/11/2023,23:50


### Función de tratamiento principal

Función `get_final_data`: Función encargada de concatenar verticalmente cada uno de los DataFrames generados para cada mes empleando la función anterior. Recibe como parámetros la carpeta donde se encuentran los archivos de todos los meses a procesar, los meses de los que se quiere procesar los datos, el tamaño de grupo necesario para la función anterior y las columnas del DataFrame resultado.


In [None]:
def get_final_data(carpeta_archivos, meses, tam_grupo, columnas, orden_c):

  df = pd.DataFrame(columns= columnas)

  for mes in meses:
    ruta_mes= carpeta_archivos + '/' + mes
    archivos_mes = sorted(os.listdir(ruta_mes), key=lambda x: int(x.split('-')[2]))
    dfMes = dataframe_union(archivos_mes, ruta_mes, tam_grupo, columnas)
    df = pd.concat([df, dfMes], axis=0, ignore_index=True)
    df = df[orden_c]

  return df


Procesamos los datos de M1

In [None]:
carpeta_drive = '/content/drive/My Drive/TFM/Motas3301/M1/'
m = ['NOV', 'DIC', 'EN', 'FEB', 'MAR']
col = ['CO2', 'Luminosity', 'Noise', 'Humidity', 'Temperature', 'Date', 'Time']
orden_col = ['Date', 'Time', 'Temperature', 'Humidity','Luminosity','Noise', 'CO2']
tam_g = 5

motas3301_data_m1 = get_final_data(carpeta_drive, m, tam_g, col, orden_col)

Pérdida de periodicidad en el día 07/11/2023.
Se disponen de 285 muestras para este día

Pérdida de periodicidad en el día 19/11/2023.
Se disponen de 287 muestras para este día

Pérdida de periodicidad en el día 23/11/2023.
Se disponen de 280 muestras para este día

Pérdida de periodicidad en el día 24/11/2023.
Se disponen de 281 muestras para este día

Pérdida de periodicidad en el día 05/12/2023.
Se disponen de 36 muestras para este día

Pérdida de periodicidad en el día 14/12/2023.
Se disponen de 286 muestras para este día

Pérdida de periodicidad en el día 24/12/2023.
Se disponen de 287 muestras para este día

Pérdida de periodicidad en el día 06/01/2024.
Se disponen de 39 muestras para este día

Pérdida de periodicidad en el día 07/01/2024.
Se disponen de 1 muestras para este día

Pérdida de periodicidad en el día 08/01/2024.
Se disponen de 155 muestras para este día

Pérdida de periodicidad en el día 09/01/2024.
Se disponen de 150 muestras para este día

Pérdida de periodicidad e

In [None]:
motas3301_data_m1

Unnamed: 0,Date,Time,Temperature,Humidity,Luminosity,Noise,CO2
0,01/11/2023,00:00,25.198536,46.745758,0.0,11.600191,2671.084595
1,01/11/2023,00:05,25.182425,46.717809,0.0,11.649442,2650.856734
2,01/11/2023,00:10,25.162131,46.698736,0.0,11.762839,2622.160181
3,01/11/2023,00:15,25.136185,46.685181,0.0,11.692808,2602.024292
4,01/11/2023,00:20,25.110283,46.664683,0.0,11.633921,2577.668066
...,...,...,...,...,...,...,...
32809,29/03/2024,23:35,19.416522,38.992793,0.0,10.790619,323.197055
32810,29/03/2024,23:40,19.408021,38.987478,0.0,10.786975,326.660770
32811,29/03/2024,23:45,19.401795,38.987706,0.0,10.837451,326.810763
32812,29/03/2024,23:50,19.393081,38.990215,0.0,10.791934,325.282436


In [None]:
print(f'Se disponen de {motas3301_data_m1.shape[0]} muestras no nulas para los meses de noviembre a marzo en el aula 3301')

Se disponen de 32814 muestras no nulas para los meses de noviembre a marzo en el aula 3301


Procesamos los datos de M2

In [None]:
carpeta_drive = '/content/drive/My Drive/TFM/Motas3301/M2/'
m = ['NOV', 'DIC', 'EN', 'FEB', 'MAR']
col = ['CO2', 'Luminosity', 'Noise', 'Humidity', 'Temperature', 'Date', 'Time']
orden_col = ['Date', 'Time', 'Temperature', 'Humidity','Luminosity','Noise', 'CO2']
tam_g = 5

motas3301_data_m2 = get_final_data(carpeta_drive, m, tam_g, col, orden_col)

Pérdida de periodicidad en el día 07/11/2023.
Se disponen de 285 muestras para este día

Pérdida de periodicidad en el día 19/11/2023.
Se disponen de 287 muestras para este día

Pérdida de periodicidad en el día 05/12/2023.
Se disponen de 36 muestras para este día

Pérdida de periodicidad en el día 24/12/2023.
Se disponen de 287 muestras para este día

Pérdida de periodicidad en el día 06/01/2024.
Se disponen de 39 muestras para este día

Pérdida de periodicidad en el día 07/01/2024.
Se disponen de 1 muestras para este día

Pérdida de periodicidad en el día 08/01/2024.
Se disponen de 155 muestras para este día

Pérdida de periodicidad en el día 09/01/2024.
Se disponen de 150 muestras para este día

Pérdida de periodicidad en el día 14/01/2024.
Se disponen de 1 muestras para este día

Pérdida de periodicidad en el día 15/01/2024.
Se disponen de 158 muestras para este día

Pérdida de periodicidad en el día 19/01/2024.
Se disponen de 98 muestras para este día

Pérdida de periodicidad en e

In [None]:
motas3301_data_m2

Unnamed: 0,Date,Time,Temperature,Humidity,Luminosity,Noise,CO2
0,01/11/2023,00:00,27.366002,40.723470,0.0,54.301424,2449.548808
1,01/11/2023,00:05,27.349135,40.700938,0.0,54.801231,2428.812602
2,01/11/2023,00:10,27.333024,40.656865,0.0,54.438126,2409.816671
3,01/11/2023,00:15,27.310727,40.625025,0.0,54.344722,2387.036682
4,01/11/2023,00:20,27.291813,40.602595,0.0,53.797332,2363.160429
...,...,...,...,...,...,...,...
27848,03/03/2024,02:30,23.885095,24.908574,0.0,54.300029,398.480126
27849,03/03/2024,02:35,23.862219,24.970347,0.0,54.734795,398.566663
27850,03/03/2024,02:40,23.854743,24.907633,0.0,54.718125,397.815505
27851,03/03/2024,02:45,23.837831,24.882838,0.0,54.452143,397.594845


In [None]:
print(f'Se disponen de {motas3301_data_m2.shape[0]} muestras no nulas para los meses de noviembre a marzo en el aula 3301')

Se disponen de 27853 muestras no nulas para los meses de noviembre a marzo en el aula 3301


Una vez obtenidos los datos procesados para ambas motas, se añade una columna para poder identificar posteriormente los datos de cada una de las motas, se concatenan ambos conjuntos de datos, se eliminan las columnas que no son de interés según lo definido en los requisitos del experimento y se almacenan los datos en un fichero csv para facilitar su posterior uso.

In [None]:
motas3301_data_m1["Mota"] = 'M1'
motas3301_data_m2["Mota"] = 'M2'

In [None]:
motas3301_data = pd.concat([motas3301_data_m1, motas3301_data_m2], axis=0, ignore_index=True)

In [None]:
motas3301_data = motas3301_data.drop(['Noise', 'CO2'], axis=1)

In [None]:
motas3301_data

Unnamed: 0,Date,Time,Temperature,Humidity,Luminosity,Mota
0,01/11/2023,00:00,25.198536,46.745758,0.0,M1
1,01/11/2023,00:05,25.182425,46.717809,0.0,M1
2,01/11/2023,00:10,25.162131,46.698736,0.0,M1
3,01/11/2023,00:15,25.136185,46.685181,0.0,M1
4,01/11/2023,00:20,25.110283,46.664683,0.0,M1
...,...,...,...,...,...,...
60662,03/03/2024,02:30,23.885095,24.908574,0.0,M2
60663,03/03/2024,02:35,23.862219,24.970347,0.0,M2
60664,03/03/2024,02:40,23.854743,24.907633,0.0,M2
60665,03/03/2024,02:45,23.837831,24.882838,0.0,M2


In [None]:
motas3301_data.to_csv('/content/drive/My Drive/TFM/Datos_Finales/Motas3301_data.csv', index=False, sep=';')