# Mudança para formato longo e algumas correcções básicas

## Inicialização

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Diretoria onde os dados estão localizados
dir_original_files = './02-dados-qualar-integrados/'

# Directoria onde vamos guardar os resultados 
dir_destination = './03-dados-qualar-longo-corrigido/'

In [3]:
# ficheiro das medições 
ficheiro_medicoes = dir_original_files + 'df_estacoes.csv'

In [4]:
df = pd.read_csv(ficheiro_medicoes, thousands=',', index_col=0)

In [5]:
df

Unnamed: 0_level_0,Estação,Dióxido de Enxofre (µg/m3),Partículas < 10 µm (µg/m3),Ozono (µg/m3),Dióxido de Azoto (µg/m3),Monóxido de Carbono (mg/m3),Benzeno (µg/m3),Partículas < 2.5 µm (µg/m3)
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2001-01-01 00:00:00,Afonso III,,,,,,,
2001-01-01 01:00:00,Afonso III,,,,,,,
2001-01-01 02:00:00,Afonso III,,,,,,,
2001-01-01 03:00:00,Afonso III,,,,,,,
2001-01-01 04:00:00,Afonso III,,,,,,,
...,...,...,...,...,...,...,...,...
2022-12-31 19:00:00,Ílhavo,4.0,27.0,59.0,2.0,,,
2022-12-31 20:00:00,Ílhavo,2.2,26.0,57.0,2.0,,,
2022-12-31 21:00:00,Ílhavo,0.8,28.0,55.0,2.0,,,
2022-12-31 22:00:00,Ílhavo,0.5,30.0,55.0,2.0,,,


## Mudança de nomes de colunas
Vamos usar nomes mais simples:

    - Dióxido de Enxofre (µg/m3): SO2
    - Partículas < 10 µm (µg/m3): PM10
    - Ozono (µg/m3): O3
    - Dióxido de Azoto (µg/m3): NO2
    - Monóxido de Carbono (mg/m3): CO
    - Benzeno (µg/m3): Benzeno
    - Partículas < 2.5 µm (µg/m3): PM2.5

In [6]:
# Renomear as colunas atuais (esquerda), para os nomes mais simples (simples).
df.rename(columns={'Dióxido de Enxofre (µg/m3)' : 'SO2','Partículas < 10 µm (µg/m3)' : 'PM10',
                   'Dióxido de Azoto (µg/m3)' : 'NO2','Ozono (µg/m3)' : 'O3', 'Monóxido de Carbono (mg/m3)' : 'CO', 
                  'Benzeno (µg/m3)' : 'Benzeno', 'Partículas < 2.5 µm (µg/m3)' : 'PM2.5'},inplace = True)
# Conferir o resultado
df

Unnamed: 0_level_0,Estação,SO2,PM10,O3,NO2,CO,Benzeno,PM2.5
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2001-01-01 00:00:00,Afonso III,,,,,,,
2001-01-01 01:00:00,Afonso III,,,,,,,
2001-01-01 02:00:00,Afonso III,,,,,,,
2001-01-01 03:00:00,Afonso III,,,,,,,
2001-01-01 04:00:00,Afonso III,,,,,,,
...,...,...,...,...,...,...,...,...
2022-12-31 19:00:00,Ílhavo,4.0,27.0,59.0,2.0,,,
2022-12-31 20:00:00,Ílhavo,2.2,26.0,57.0,2.0,,,
2022-12-31 21:00:00,Ílhavo,0.8,28.0,55.0,2.0,,,
2022-12-31 22:00:00,Ílhavo,0.5,30.0,55.0,2.0,,,


In [7]:
# Como não iremos usar as medições de Benzendo e CO, podemos removê-las
df.drop(columns=['Benzeno','CO'],inplace=True)
# Conferir o resultado
df

Unnamed: 0_level_0,Estação,SO2,PM10,O3,NO2,PM2.5
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2001-01-01 00:00:00,Afonso III,,,,,
2001-01-01 01:00:00,Afonso III,,,,,
2001-01-01 02:00:00,Afonso III,,,,,
2001-01-01 03:00:00,Afonso III,,,,,
2001-01-01 04:00:00,Afonso III,,,,,
...,...,...,...,...,...,...
2022-12-31 19:00:00,Ílhavo,4.0,27.0,59.0,2.0,
2022-12-31 20:00:00,Ílhavo,2.2,26.0,57.0,2.0,
2022-12-31 21:00:00,Ílhavo,0.8,28.0,55.0,2.0,
2022-12-31 22:00:00,Ílhavo,0.5,30.0,55.0,2.0,


## Converter para formato longo

In [8]:
# Cada linha será definida pela data (no index), pela estação e pelo poluente
df = df.melt(id_vars=['Estação'], ignore_index=False)
# Conferir o resultado
df

Unnamed: 0_level_0,Estação,variable,value
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001-01-01 00:00:00,Afonso III,SO2,
2001-01-01 01:00:00,Afonso III,SO2,
2001-01-01 02:00:00,Afonso III,SO2,
2001-01-01 03:00:00,Afonso III,SO2,
2001-01-01 04:00:00,Afonso III,SO2,
...,...,...,...
2022-12-31 19:00:00,Ílhavo,PM2.5,
2022-12-31 20:00:00,Ílhavo,PM2.5,
2022-12-31 21:00:00,Ílhavo,PM2.5,
2022-12-31 22:00:00,Ílhavo,PM2.5,


In [9]:
#Verificar existência de valores nulos nas medições
print('Existem valores nulos:')
print(df.isna().values.any())

Existem valores nulos:
True


In [10]:
# Agora podemos remover os nulos 
df.dropna(inplace = True)
# Conferir o resultado
print('Existem valores nulos:')
print(df.isna().values.any())
df

Existem valores nulos:
False


Unnamed: 0_level_0,Estação,variable,value
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001-11-08 00:00:00,Afonso III,SO2,0.0
2001-11-08 01:00:00,Afonso III,SO2,0.0
2001-11-08 02:00:00,Afonso III,SO2,0.0
2001-11-08 03:00:00,Afonso III,SO2,0.0
2001-11-08 04:00:00,Afonso III,SO2,0.0
...,...,...,...
2009-12-31 19:00:00,Vermoim,PM2.5,2.0
2009-12-31 20:00:00,Vermoim,PM2.5,4.0
2009-12-31 21:00:00,Vermoim,PM2.5,5.0
2009-12-31 22:00:00,Vermoim,PM2.5,2.0


## Transformar os negativos em valores igual a 0
Devido à imprecisão dos sensores, por vezes são medidos valores negativos. Vamos mudar as ocorrências de valores negativos para 0

In [11]:
#Verificar a existência de valores negativos
negativos = df.loc[df['value']<0]
print('Existem valores negativos:')
print(not(negativos.empty))

Existem valores negativos:
True


In [12]:
# Mudar medições com valores negativos para 0
df['value'] = df['value'].apply(lambda x: 0 if x<0 else x)
# Conferir o resultado
negativos = df.loc[df['value']<0]
print('Existem valores negativos:')
print(not(negativos.empty))
df

Existem valores negativos:
False


Unnamed: 0_level_0,Estação,variable,value
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001-11-08 00:00:00,Afonso III,SO2,0.0
2001-11-08 01:00:00,Afonso III,SO2,0.0
2001-11-08 02:00:00,Afonso III,SO2,0.0
2001-11-08 03:00:00,Afonso III,SO2,0.0
2001-11-08 04:00:00,Afonso III,SO2,0.0
...,...,...,...
2009-12-31 19:00:00,Vermoim,PM2.5,2.0
2009-12-31 20:00:00,Vermoim,PM2.5,4.0
2009-12-31 21:00:00,Vermoim,PM2.5,5.0
2009-12-31 22:00:00,Vermoim,PM2.5,2.0


## Guardar o novo CSV

In [13]:
# Guardar resultado em ficheiro csv
df.to_csv(dir_destination + '03-medicoes-longo.csv', index = True)

## Guardar o novo CSV com as medições de apenas as estações de AML (Área metropolitana de Lisboa - sul e norte)

Pode usar este subconjunto dos dados nas fases seguintes, caso o conjunto completo se prove grande demais

In [14]:
# Usando os dados das estações (estações.xlsx), filtrar as medições das estações de AML
# Dataframe regiões que contém a listagem das estações e regiões presentes nos dados
regioes = pd.read_excel(dir_original_files + 'estacoes.xlsx')
# Filtrar estações pelas quais estão presentes na região AML 
regioes = regioes[regioes['Região'].str.contains('AML')]
# Passar dataframe das estações de AML a lista
lista_regioes = regioes['Estação'].to_list()
# Filtrar dataframe pela lista de estação de AML
df_filtrado = df[df['Estação'].isin(lista_regioes)]
df_filtrado

Unnamed: 0_level_0,Estação,variable,value
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001-01-01 00:00:00,Alfragide/Amadora,SO2,2.9
2001-01-01 01:00:00,Alfragide/Amadora,SO2,2.9
2001-01-01 02:00:00,Alfragide/Amadora,SO2,5.6
2001-01-01 03:00:00,Alfragide/Amadora,SO2,5.6
2001-01-01 04:00:00,Alfragide/Amadora,SO2,5.6
...,...,...,...
2022-12-31 19:00:00,Paio Pires,PM2.5,8.8
2022-12-31 20:00:00,Paio Pires,PM2.5,10.5
2022-12-31 21:00:00,Paio Pires,PM2.5,9.1
2022-12-31 22:00:00,Paio Pires,PM2.5,7.0


In [15]:
# Guardar resultado em ficheiro csv
df_filtrado.to_csv(dir_destination + '03-medicoes-longo-AML.csv', index = True)