## Violações Legais



In [1]:
import pandas as pd
import numpy as np

In [2]:
# Diretoria onde os dados estão localizados
dir_original_files = './04-estacoes-selecionadas/'
ficheiro_medicoes = dir_original_files + 'medicoes-longo_seleccionadas.csv'  
# Diretoria para guardar os resultados
dir_destination = './06-violacoes-legais/'

In [3]:
# Ficheiro das medições 
medicoes = pd.read_csv(ficheiro_medicoes, thousands=',', index_col=0, parse_dates=True)
medicoes

Unnamed: 0_level_0,Station,Poluente,Valor
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001-01-01 00:00:00,Alfragide/Amadora,SO2,2.9
2001-01-01 01:00:00,Alfragide/Amadora,SO2,2.9
2001-01-01 02:00:00,Alfragide/Amadora,SO2,5.6
2001-01-01 03:00:00,Alfragide/Amadora,SO2,5.6
2001-01-01 04:00:00,Alfragide/Amadora,SO2,5.6
...,...,...,...
2009-12-31 19:00:00,Vermoim,PM2.5,2.0
2009-12-31 20:00:00,Vermoim,PM2.5,4.0
2009-12-31 21:00:00,Vermoim,PM2.5,5.0
2009-12-31 22:00:00,Vermoim,PM2.5,2.0


In [4]:
# Criar lista de poluentes
lista_poluentes = medicoes['Poluente'].unique()
lista_poluentes

array(['SO2', 'PM10', 'O3', 'NO2', 'PM2.5'], dtype=object)

In [5]:
# Criar uma coluna com o ano da data
medicoes['Ano'] = medicoes.index.year
medicoes['Dia'] = medicoes.index.date
medicoes

Unnamed: 0_level_0,Station,Poluente,Valor,Ano,Dia
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2001-01-01 00:00:00,Alfragide/Amadora,SO2,2.9,2001,2001-01-01
2001-01-01 01:00:00,Alfragide/Amadora,SO2,2.9,2001,2001-01-01
2001-01-01 02:00:00,Alfragide/Amadora,SO2,5.6,2001,2001-01-01
2001-01-01 03:00:00,Alfragide/Amadora,SO2,5.6,2001,2001-01-01
2001-01-01 04:00:00,Alfragide/Amadora,SO2,5.6,2001,2001-01-01
...,...,...,...,...,...
2009-12-31 19:00:00,Vermoim,PM2.5,2.0,2009,2009-12-31
2009-12-31 20:00:00,Vermoim,PM2.5,4.0,2009,2009-12-31
2009-12-31 21:00:00,Vermoim,PM2.5,5.0,2009,2009-12-31
2009-12-31 22:00:00,Vermoim,PM2.5,2.0,2009,2009-12-31


## Primeira violação: PM25

PM25 - A1 : Período de medição 1 ano, valor limite até 2015 era 25 ug/m^3. O número de excedências permitidas por ano não está definido.

PM25 - A2 : Período de medição 1 ano, valor limite até 2020 era 20 ug/m^3. O número de excedências permitidas por ano não está definido.



In [6]:
# Filtrar as medições só para o poluente PM25
medicoes_PM25 = medicoes[medicoes['Poluente'] == 'PM2.5']
medicoes_PM25

Unnamed: 0_level_0,Station,Poluente,Valor,Ano,Dia
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2004-01-01 00:00:00,Afonso III,PM2.5,7.3,2004,2004-01-01
2004-01-01 01:00:00,Afonso III,PM2.5,6.3,2004,2004-01-01
2004-01-01 02:00:00,Afonso III,PM2.5,9.8,2004,2004-01-01
2004-01-01 03:00:00,Afonso III,PM2.5,8.3,2004,2004-01-01
2004-01-01 04:00:00,Afonso III,PM2.5,5.5,2004,2004-01-01
...,...,...,...,...,...
2009-12-31 19:00:00,Vermoim,PM2.5,2.0,2009,2009-12-31
2009-12-31 20:00:00,Vermoim,PM2.5,4.0,2009,2009-12-31
2009-12-31 21:00:00,Vermoim,PM2.5,5.0,2009,2009-12-31
2009-12-31 22:00:00,Vermoim,PM2.5,2.0,2009,2009-12-31


In [7]:
# Visualizar a média dos valores para cada ano para cada estação
valor_medio_ano_PM25 = medicoes_PM25.groupby(['Station','Ano'])['Valor'].mean().reset_index(name='Média do Ano')
valor_medio_ano_PM25

Unnamed: 0,Station,Ano,Média do Ano
0,Afonso III,2004,15.298205
1,Afonso III,2005,15.085652
2,Afonso III,2006,13.917308
3,Afonso III,2007,11.574244
4,Camarinha,2007,11.426318
...,...,...,...
298,Vermoim,2005,27.149690
299,Vermoim,2006,21.966116
300,Vermoim,2007,21.302151
301,Vermoim,2008,7.839885


In [8]:
# Função que verifica se há violação 
def violacao(clausula, valor):
    if clausula == 'A1':
        if valor > 25:        # limite = 25 até 2015
            return 'Violação'
    elif clausula == 'A2':   # limite = 20 a partir de 2020
        if valor > 20:
            return 'Violação'
    return 'Válido'

In [9]:
# Só vamos aplicar a clausula A2 tal como foi feito nos slides, assim sendo o valor máximo deve ser até 20 ug/m^3
clausula = 'A2'

In [10]:
# Inserir uma coluna das violações
valor_medio_ano_PM25['Violação Legal'] = valor_medio_ano_PM25['Média do Ano'].apply(lambda x: violacao(clausula,x))
valor_medio_ano_PM25

Unnamed: 0,Station,Ano,Média do Ano,Violação Legal
0,Afonso III,2004,15.298205,Válido
1,Afonso III,2005,15.085652,Válido
2,Afonso III,2006,13.917308,Válido
3,Afonso III,2007,11.574244,Válido
4,Camarinha,2007,11.426318,Válido
...,...,...,...,...
298,Vermoim,2005,27.149690,Violação
299,Vermoim,2006,21.966116,Violação
300,Vermoim,2007,21.302151,Violação
301,Vermoim,2008,7.839885,Válido


In [11]:
# Remover as entradas válidas
violacoes_PM25 = valor_medio_ano_PM25.loc[valor_medio_ano_PM25['Violação Legal'] == 'Violação']
violacoes_PM25

Unnamed: 0,Station,Ano,Média do Ano,Violação Legal
52,Entrecampos,2003,22.31016,Violação
53,Entrecampos,2004,22.760362,Violação
54,Entrecampos,2005,22.611322,Violação
66,Entrecampos,2017,20.72586,Violação
73,Ervedeira,2005,33.866863,Violação
92,Estarreja,2005,26.387049,Violação
93,Estarreja,2006,24.674152,Violação
94,Estarreja,2007,23.874891,Violação
125,Fundão,2004,50.451471,Violação
296,Vermoim,2003,24.269401,Violação


In [12]:
# Guardar em CSV 
violacoes_PM25.to_csv(dir_destination + 'violacoes_pm25.csv', index=False) 

## Segunda violação: PM10
PM10 - D : período de medição é 24 horas, 1 dia, valor limite médio diário - 50.
Número de excedências permitidas por ano - 35.


PM10 - A : período de medição é anual, valor limite média anual - 40.

In [13]:
# Filtrar as medições só para o poluente PM10
medicoes_PM10 = medicoes[medicoes['Poluente'] == 'PM10']
medicoes_PM10

Unnamed: 0_level_0,Station,Poluente,Valor,Ano,Dia
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2001-11-08 00:00:00,Afonso III,PM10,69.6,2001,2001-11-08
2001-11-08 01:00:00,Afonso III,PM10,58.5,2001,2001-11-08
2001-11-08 02:00:00,Afonso III,PM10,52.3,2001,2001-11-08
2001-11-08 03:00:00,Afonso III,PM10,49.4,2001,2001-11-08
2001-11-08 04:00:00,Afonso III,PM10,45.8,2001,2001-11-08
...,...,...,...,...,...
2022-12-31 19:00:00,Ílhavo,PM10,27.0,2022,2022-12-31
2022-12-31 20:00:00,Ílhavo,PM10,26.0,2022,2022-12-31
2022-12-31 21:00:00,Ílhavo,PM10,28.0,2022,2022-12-31
2022-12-31 22:00:00,Ílhavo,PM10,30.0,2022,2022-12-31


In [14]:
# Fazer a média anual para verificar PM10 - A
medicoes_PM10_violacao_anual = medicoes_PM10.groupby(['Station', 'Ano'])['Valor'].mean().reset_index(name = 'Média Anual')  
medicoes_PM10_violacao_anual

Unnamed: 0,Station,Ano,Média Anual
0,Afonso III,2001,47.471642
1,Afonso III,2002,36.026528
2,Afonso III,2003,31.860850
3,Afonso III,2004,35.055568
4,Afonso III,2005,32.958734
...,...,...,...
1035,Ílhavo,2018,21.852692
1036,Ílhavo,2019,23.231201
1037,Ílhavo,2020,22.418538
1038,Ílhavo,2021,20.915090


In [15]:
# Violações, face às medições anuais
medicoes_PM10_violacao_anual['Violação Anual'] = medicoes_PM10_violacao_anual['Média Anual'].apply(lambda x: 'Violação' if x > 40 else 'Válido')
medicoes_PM10_violacao_anual

Unnamed: 0,Station,Ano,Média Anual,Violação Anual
0,Afonso III,2001,47.471642,Violação
1,Afonso III,2002,36.026528,Válido
2,Afonso III,2003,31.860850,Válido
3,Afonso III,2004,35.055568,Válido
4,Afonso III,2005,32.958734,Válido
...,...,...,...,...
1035,Ílhavo,2018,21.852692,Válido
1036,Ílhavo,2019,23.231201,Válido
1037,Ílhavo,2020,22.418538,Válido
1038,Ílhavo,2021,20.915090,Válido


In [16]:
# Fazer a média diária para verificar PM10 - D
medicoes_PM10_violacao_diaria = medicoes_PM10.groupby(['Station', 'Dia', 'Ano'])['Valor'].mean().reset_index(name='Média Diária')  
medicoes_PM10_violacao_diaria

Unnamed: 0,Station,Dia,Ano,Média Diária
0,Afonso III,2001-11-08,2001,48.563636
1,Afonso III,2001-11-23,2001,40.008333
2,Afonso III,2001-11-24,2001,41.120833
3,Afonso III,2001-11-25,2001,53.775000
4,Afonso III,2001-11-26,2001,65.116667
...,...,...,...,...
325884,Ílhavo,2022-12-27,2022,35.541667
325885,Ílhavo,2022-12-28,2022,28.541667
325886,Ílhavo,2022-12-29,2022,14.541667
325887,Ílhavo,2022-12-30,2022,24.958333


In [17]:
# Violações, face às medições diárias
medicoes_PM10_violacao_diaria = medicoes_PM10_violacao_diaria.loc[medicoes_PM10_violacao_diaria['Média Diária'] > 50]
medicoes_PM10_violacao_diaria = medicoes_PM10_violacao_diaria.groupby(['Station', 'Ano'])['Média Diária'].size().reset_index(name = 'Excedências Diárias')
medicoes_PM10_violacao_diaria

Unnamed: 0,Station,Ano,Excedências Diárias
0,Afonso III,2001,13
1,Afonso III,2002,65
2,Afonso III,2003,39
3,Afonso III,2004,62
4,Afonso III,2005,41
...,...,...,...
930,Ílhavo,2018,5
931,Ílhavo,2019,21
932,Ílhavo,2020,9
933,Ílhavo,2021,5


In [18]:
# Contabilizar o número de dias por ano em que ocorreram violações
medicoes_PM10_violacao_diaria['Violação Dias'] = medicoes_PM10_violacao_diaria['Excedências Diárias'].apply(lambda x: 'Violação' if x > 35 else 'Válido')
medicoes_PM10_violacao_diaria

Unnamed: 0,Station,Ano,Excedências Diárias,Violação Dias
0,Afonso III,2001,13,Válido
1,Afonso III,2002,65,Violação
2,Afonso III,2003,39,Violação
3,Afonso III,2004,62,Violação
4,Afonso III,2005,41,Violação
...,...,...,...,...
930,Ílhavo,2018,5,Válido
931,Ílhavo,2019,21,Válido
932,Ílhavo,2020,9,Válido
933,Ílhavo,2021,5,Válido


In [19]:
# Unir ambos os dataframes de análise
medicoes_PM10_final = medicoes_PM10_violacao_anual[['Station', 'Ano','Média Anual']].merge(
    medicoes_PM10_violacao_diaria[['Station', 'Ano', 'Excedências Diárias']], on = ['Station', 'Ano'], how = 'outer')

medicoes_PM10_final

Unnamed: 0,Station,Ano,Média Anual,Excedências Diárias
0,Afonso III,2001,47.471642,13.0
1,Afonso III,2002,36.026528,65.0
2,Afonso III,2003,31.860850,39.0
3,Afonso III,2004,35.055568,62.0
4,Afonso III,2005,32.958734,41.0
...,...,...,...,...
1035,Ílhavo,2018,21.852692,5.0
1036,Ílhavo,2019,23.231201,21.0
1037,Ílhavo,2020,22.418538,9.0
1038,Ílhavo,2021,20.915090,5.0


In [20]:
# Verificar se existem anos sem excedências diárias
print('Existem valores nulos:')
print(medicoes_PM10_final.isna().values.any())

Existem valores nulos:
True


In [21]:
# Devidamente corrigir o facto de que os valores em falta devem-se ao facto de não haverem excedências nesse Ano nessa Estação
medicoes_PM10_final = medicoes_PM10_final.fillna(0)
print('Existem valores nulos:')
print(medicoes_PM10_final.isna().values.any())

Existem valores nulos:
False


In [22]:
# Projetar dataframe de forma a facilitar a visualização
medicoes_PM10_final

Unnamed: 0,Station,Ano,Média Anual,Excedências Diárias
0,Afonso III,2001,47.471642,13.0
1,Afonso III,2002,36.026528,65.0
2,Afonso III,2003,31.860850,39.0
3,Afonso III,2004,35.055568,62.0
4,Afonso III,2005,32.958734,41.0
...,...,...,...,...
1035,Ílhavo,2018,21.852692,5.0
1036,Ílhavo,2019,23.231201,21.0
1037,Ílhavo,2020,22.418538,9.0
1038,Ílhavo,2021,20.915090,5.0


In [23]:
# Função que classifica as violações ocorridas
def classificacao_violacao(media, excedencias):
    if media > 40 and excedencias > 35: 
       return 'Ambos'
    elif media > 40:
        return 'Média'
    elif excedencias > 35:
        return 'Dias'
    else: 
        return 'Válido'

In [24]:
# Adicionar a coluna da classificção da violação
medicoes_PM10_final['Motivo'] = medicoes_PM10_final.apply(lambda x: classificacao_violacao(x['Média Anual'],x['Excedências Diárias']), axis = 1)
medicoes_PM10_final

Unnamed: 0,Station,Ano,Média Anual,Excedências Diárias,Motivo
0,Afonso III,2001,47.471642,13.0,Média
1,Afonso III,2002,36.026528,65.0,Dias
2,Afonso III,2003,31.860850,39.0,Dias
3,Afonso III,2004,35.055568,62.0,Dias
4,Afonso III,2005,32.958734,41.0,Dias
...,...,...,...,...,...
1035,Ílhavo,2018,21.852692,5.0,Válido
1036,Ílhavo,2019,23.231201,21.0,Válido
1037,Ílhavo,2020,22.418538,9.0,Válido
1038,Ílhavo,2021,20.915090,5.0,Válido


In [25]:
# Remover as entradas válidas
violacoes_PM10 = medicoes_PM10_final.loc[medicoes_PM10_final['Motivo'] != 'Válido']
violacoes_PM10

Unnamed: 0,Station,Ano,Média Anual,Excedências Diárias,Motivo
0,Afonso III,2001,47.471642,13.0,Média
1,Afonso III,2002,36.026528,65.0,Dias
2,Afonso III,2003,31.860850,39.0,Dias
3,Afonso III,2004,35.055568,62.0,Dias
4,Afonso III,2005,32.958734,41.0,Dias
...,...,...,...,...,...
1021,Ílhavo,2004,37.019980,50.0,Dias
1023,Ílhavo,2006,28.017640,40.0,Dias
1024,Ílhavo,2007,28.011057,40.0,Dias
1028,Ílhavo,2011,28.321099,40.0,Dias


In [26]:
# Guardar em CSV 
violacoes_PM10.to_csv(dir_destination + 'violacoes_pm25.csv', index=False)