## Creamos un DataFrame CON PANDAS a partir de fichero .txt ##

In [2]:
import pandas as pd

In [5]:
# Cumplimentar Parámetros según estación a procesar
estacion = 'Centre'
idEstacion = '46250054'
desdeAño = 2018
hastaAño = 2022

In [6]:
# Eliminar lineas innecesarias
for año in range(desdeAño, hastaAño + 1):
    fichero = 'MDEST' + str(idEstacion) + str(año) + '.txt'
    lineas = []
    with open(fichero, encoding='cp1252') as ftxt:
        lineas = ftxt.readlines()
        del lineas[4]
        del lineas[2]
        del lineas[1]
        del lineas[0]
    # escribir archivo de salida una vez hechos los reemplazos
    with open(fichero, "w") as ftxt:
        ftxt.writelines(lineas)

In [7]:
# Reemplazar comas por puntos en ficheros de entrada
for año in range(desdeAño, hastaAño + 1):
    fichero = 'MDEST' + str(idEstacion) + str(año) + '.txt'
    salida = []
    with open(fichero) as ftxt:
        lineas = ftxt.readlines()
        for linea in lineas:
            linea = linea.replace(',', '.')
            linea = linea.replace(' 0:00', '')
            salida.append(linea)
    # escribir archivo de salida una vez hechos los reemplazos
    with open(fichero, "w") as ftxt:
        ftxt.writelines(salida)

In [8]:
# Crear dataframe vacio
df = pd.DataFrame()
# Crear una lista de columnas vacía
columnas = []

In [9]:
# Cargar todos los archivos txt de la estación
for año in range(desdeAño, hastaAño + 1):
    fichero = 'MDEST' + str(idEstacion) + str(año) + '.txt'
    dfaux = pd.read_table(fichero, decimal=".")
    # Comprobar si hay nuevas columnas
    print(f'>>>>>>>>> Año:{año} ', end =',') 
    for c in dfaux.columns:
        if c not in columnas:
            print(f' {c}', end= ',')
            columnas.append(c)
    print()
    df = pd.concat([df, dfaux])

>>>>>>>>> Año:2018 , FECHA, PM2.5, NO, NO2, PM10, NOx,
>>>>>>>>> Año:2019 ,
>>>>>>>>> Año:2020 ,
>>>>>>>>> Año:2021 ,
>>>>>>>>> Año:2022 ,


In [10]:
# Convertir a numerica todas las columnas excepto la primera (FECHA)
columnas = df.columns.to_list()
del columnas[0]
for c in columnas:
    df[c] = pd.to_numeric(df[c], errors='coerce')

# Convertir la fecha a formato datetime
df['FECHA'] = pd.to_datetime(df['FECHA'], format="%d/%m/%Y")

df.insert(0, 'idEstacion', idEstacion)
df.insert(1, 'estacion', estacion)

df

Unnamed: 0,idEstacion,estacion,FECHA,PM2.5,NO,NO2,PM10,NOx
0,46250054,Centre,2018-10-16,20.0,38.0,59.0,54.0,117.0
1,46250054,Centre,2018-10-17,21.0,32.0,60.0,44.0,109.0
2,46250054,Centre,2018-10-18,21.0,51.0,62.0,29.0,141.0
3,46250054,Centre,2018-10-19,10.0,32.0,62.0,17.0,111.0
4,46250054,Centre,2018-10-20,22.0,20.0,49.0,30.0,80.0
...,...,...,...,...,...,...,...,...
84,46250054,Centre,2022-03-27,20.0,1.0,11.0,40.0,13.0
85,46250054,Centre,2022-03-28,24.0,7.0,20.0,52.0,31.0
86,46250054,Centre,2022-03-29,28.0,7.0,21.0,66.0,32.0
87,46250054,Centre,2022-03-30,26.0,6.0,20.0,62.0,29.0


In [11]:
df.to_csv(idEstacion + estacion + '.csv', sep=';', index=False)

In [12]:
df2 = pd.read_csv(idEstacion + estacion + '.csv', sep=';', decimal='.')
df2

Unnamed: 0,idEstacion,estacion,FECHA,PM2.5,NO,NO2,PM10,NOx
0,46250054,Centre,2018-10-16,20.0,38.0,59.0,54.0,117.0
1,46250054,Centre,2018-10-17,21.0,32.0,60.0,44.0,109.0
2,46250054,Centre,2018-10-18,21.0,51.0,62.0,29.0,141.0
3,46250054,Centre,2018-10-19,10.0,32.0,62.0,17.0,111.0
4,46250054,Centre,2018-10-20,22.0,20.0,49.0,30.0,80.0
...,...,...,...,...,...,...,...,...
1252,46250054,Centre,2022-03-27,20.0,1.0,11.0,40.0,13.0
1253,46250054,Centre,2022-03-28,24.0,7.0,20.0,52.0,31.0
1254,46250054,Centre,2022-03-29,28.0,7.0,21.0,66.0,32.0
1255,46250054,Centre,2022-03-30,26.0,6.0,20.0,62.0,29.0


In [13]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1257 entries, 0 to 1256
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   idEstacion  1257 non-null   int64  
 1   estacion    1257 non-null   object 
 2   FECHA       1257 non-null   object 
 3   PM2.5       1196 non-null   float64
 4   NO          1211 non-null   float64
 5   NO2         1211 non-null   float64
 6   PM10        1196 non-null   float64
 7   NOx         1211 non-null   float64
dtypes: float64(5), int64(1), object(2)
memory usage: 78.7+ KB


In [14]:
df2.isnull().sum()/len(df)*100

idEstacion    0.000000
estacion      0.000000
FECHA         0.000000
PM2.5         4.852824
NO            3.659507
NO2           3.659507
PM10          4.852824
NOx           3.659507
dtype: float64

In [15]:
df2.describe()

Unnamed: 0,idEstacion,PM2.5,NO,NO2,PM10,NOx
count,1257.0,1196.0,1211.0,1211.0,1196.0,1211.0
mean,46250054.0,13.050167,14.513625,25.704377,21.224916,47.765483
std,0.0,9.318133,11.848999,14.046092,13.804568,30.329886
min,46250054.0,1.0,1.0,1.0,1.0,2.0
25%,46250054.0,6.0,7.0,15.0,11.0,25.0
50%,46250054.0,11.0,11.0,24.0,19.0,41.0
75%,46250054.0,17.0,18.0,35.0,29.0,63.0
max,46250054.0,61.0,94.0,88.0,93.0,205.0
