# Análise dos dados temporais de poluição atmosférica no estado de São Paulo (2015-2021)

Fonte dos dados: IEMA (Instituto de Energia e Meio Ambiente)

Link: https://energiaeambiente.org.br/qualidadedoar#secao-14

## Importando bibliotecas e definindo função auxiliar para SQL

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
import pandas as pd
from pandasql import sqldf
from IPython import display
query = lambda q: sqldf(q, globals())

print("Bibliotecas importadas e função auxiliar para SQL definida.")

ModuleNotFoundError: No module named 'pandasql'

## Importando os dados

In [None]:
def import_air_pollution_data(place_abbreviation: str, years: list):
    '''
    - place_abbreviation: string that determines the place from which data is from. 
    It's extracted from the file's name. Ex: SP201501.csv --> place_abbreviation = 'SP'.

    - years: list of strings of the years from which we want to get data. 
    Restricted to the years that exists in the names of the data files. 
    Ex: SP201501.csv, SP201502.csv, SP201601.csv, SP201602.csv --> years = ['2015', '2016'].

    returns: pandas dataframe with all the data from the specified place and years.
    '''

    sp_pol = {}

    for y in years:
        first_df = pd.read_csv(f'data/{place_abbreviation}{y}01.csv', encoding = 'latin-1')
        sec_df = pd.read_csv(f'data/{place_abbreviation}{y}02.csv', encoding = 'latin-1')
        sp_pol[y] = pd.concat([first_df, sec_df])

    # Agora uniremos todos os dados em um mesmo dataframe que, por simplicidade, chamaremos de data.
    data = sp_pol[years[0]]
        
    for y in years[1:]:
        data = pd.concat([data, sp_pol[y]])

    data.reset_index(drop = True, inplace = True)
    data['ID'] = list(data.index)
    cols = data.columns.tolist()
    cols = cols[-1:] + cols[:-1]
    data = data[cols]

    print('Dados importados e reunidos no dataframe data.')

    return data

In [None]:
data = import_air_pollution_data('SP', [str(y) for y in range(2015, 2022)])

---

## Data Profiling: visão e estatísticas gerais

### Quantidade de linhas e colunas

In [None]:
print(f'(linhas, colunas) : {data.shape}')

### Descrição das colunas

In [None]:
print(data.dtypes)

__ID__: identificação, via índice inteiro, de cada registro do dataframe.

__Data__: data em que foi feita a medição da concentração do poluente.

__Hora__: hora em que foi feita a medição.

__Estação__: local em que foi feita a medição.

__Código__: código associado à estação em que foi realizada a medição.

__Poluente__: poluente cuja concentração foi medida.

__Valor__: valor, na unidade especificada, da concentração do poluente.

__Unidade__: unidade de concentração utilizada.

__Tipo__: como foi realizada a medição (de forma automática ou manual)

### Valores iniciais e finais do dataframe

In [None]:
data.head(5)

In [None]:
data.tail(5)

## Análise univariada: estudando cada coluna separadamente

### Data

Datas e horas de início e de fim das medições:

In [None]:
min_data = data['Data'].min()
max_data = data['Data'].max()

min_hour = data[data['Data'] == min_data]['Hora'].min()
max_hour = data[data['Data'] == max_data]['Hora'].max()

print(f'Início das medições: {min_hour} {min_data}')
print(f'Fim das medições: {max_hour} {max_data}')

Verificando se não há valores inexistentes (null ou nan):

In [None]:
def print_null_values_count(data, column):
    try:
        null_values_count = data[column].isnull().value_counts()[True]
    except:
        null_values_count = 0
    print(f'Número de valores inexistentes na coluna {column}: {null_values_count}')

In [None]:
print_null_values_count(data, 'Data')

Estatísticas gerais da contagem (quantidade de aparições de cada valor) na coluna:

In [None]:
data_data_count = data['Data'].value_counts().sort_index()
data_data_count.describe()

Temos 2557 datas distintas, o que equivale a 7 anos, sendo um deles bissexto. Os números de medições são bem distribuídos, sem outliers muito grandes. Isso indica que a maioria das datas teve um número de medições de poluentes parecido. Podemos verificar isso em um histograma:

In [None]:
N, bins, patches = plt.hist(data_data_count)
plt.xlabel('Contagem')
plt.ylabel('Quantidade de datas com determinada contagem')
plt.suptitle('Histograma da contagem das datas', fontsize = '16')
plt.title('A maioria das datas possuem Nº de medições próximas da média de 4300 e não há outliers muito discrepantes desse valor.')
for i in range(2, 6):
    patches[i].set_facecolor('Darkblue')
for i in range(0, 2):
    patches[i].set_facecolor('Gray')
for i in range(6, len(patches)):
    patches[i].set_facecolor('Gray')

### Hora

Horas em que ocorreram medições:

In [None]:
data[['Hora']].drop_duplicates().reset_index(drop = True)

Verificando se não há valores inexistentes (null ou nan):

In [None]:
print_null_values_count(data, 'Hora')

In [None]:
num_hours = len(data['Hora'].unique())
print(f'Quantidade de horas em que ocorrem medições: {num_hours}')

Estatísticas gerais da contagem (quantidade de aparições de cada valor) na coluna:

In [None]:
data_hour_count = data['Hora'].value_counts().sort_index()
data_hour_count.describe()

Vemos que o valor mínimo é distante do 1º quartil, indicando que algumas horas do dia possuem medições bastante abaixo da mediana. Podemos verificar isso em um boxplot:

In [None]:
plt.boxplot(data_hour_count)
plt.ylabel('Contagem')
plt.suptitle('Boxplot da contagem de medições para cada hora', fontsize = '16')
plt.title('Há 5 horários outliers em termos de quantidade de medições.')

Com ele, podemos ver que há horas do dia em que tivemos medições abaixo da maioria. Podemos descobrir quais são fazendo:

In [None]:
hour_first_quartile = data_hour_count.quantile(0.25)
hour_third_quartile = data_hour_count.quantile(0.75)
inter_dist = hour_third_quartile - hour_first_quartile # Distância interquartílica.
print('Horas do dia com menores números de medições entre os anos de 2015 e 2021:')
data_hour_count[data_hour_count < hour_first_quartile - 1.5*(inter_dist)]

Note que são justamente os horários da madrugada/começo da manhã.

### Estação e Código

Estação e Código possuem relação de 1:1, então esperamos que a contagem seja a mesma.

In [None]:
data_station_count = data['Estacao'].value_counts()
data_station_count.describe()

In [None]:
data_code_count = data['Codigo'].value_counts()
data_code_count.describe()

Vemos que não acontece o esperado: temos uma contagem de códigos menor que a de estações. Vamos tentar buscar o porquê, analisando:

- Presença de valores nulos.
- Presença de códigos iguais para diferentes localidades.

Presença de valores nulos:

In [None]:
print_null_values_count(data, 'Codigo')

Não há valores nulos na coluna 'Codigo'.

Presença de códigos iguais para diferentes localidades:

In [None]:
query('''
    SELECT x.Codigo, x.Estacao 
    FROM 
        (SELECT DISTINCT Codigo, Estacao FROM data) x,
        (SELECT DISTINCT Codigo, Estacao FROM data) y
    WHERE x.Codigo = y.Codigo
    AND x.Estacao <> y.Estacao
    ORDER BY x.Codigo
''')

Achamos o problema! Vamos corrigí-lo adicionando acentos em todas as estações sem acento:

In [None]:
data.loc[data['Estacao'] == 'Guaratingueta', 'Estacao'] = 'Guaratinguetá'
data.loc[data['Estacao'] == 'Cordeiropolis - Modolo', 'Estacao'] = 'Cordeirópolis - Módolo'
data.loc[data['Estacao'] == 'Guaruja - Vicente de Carvalho', 'Estacao'] = 'Guarujá - Vicente de Carvalho'

Atualizando as variáveis:

In [None]:
data_station_count = data['Estacao'].value_counts()
data_code_count = data['Codigo'].value_counts()

In [None]:
data_station_count.describe()

In [None]:
data_code_count.describe()

Finalmente, temos a lista dos códigos e suas respectivas estações:

In [None]:
data[['Codigo', 'Estacao']].drop_duplicates().reset_index(drop = True)

### Poluente

Lista dos poluentes cujas concentrações são medidas:

In [None]:
data[['Poluente']].drop_duplicates().reset_index(drop = True)

Verificando se não há valores inexistentes (null ou nan):

In [None]:
print_null_values_count(data, 'Poluente')

Verificando a quantidade de medições de cada poluente separadamente:

In [None]:
pol_count = data['Poluente'].value_counts()
pol_count

E as estatísticas gerais dessas quantidades:

In [None]:
pol_count.describe()

Temos 9 poluentes distintos. Notamos que o MP10, o O3 e o NO2 são aqueles que, de longe, são os mais medidos. Enquanto isso, estações medindo FMC e PTS são muito escassas. Podemos verificar a distribuição do número medições através de um histograma:

In [None]:
pol_count = data['Poluente'].value_counts()
more_measures = ['MP10', 'O3', 'NO2']
less_measures = ['MP2.5', 'CO', 'SO2', 'NO', 'FMC', 'PTS']
sum_more = sum(pol_count[more_measures])
sum_less = sum(pol_count[less_measures])
more_measures_rate = sum_more/sum_less

plt.figure(figsize=(10,6))
plt.bar([' ', '  '], [sum_less, sum_more], color = ['Gray', 'Darkblue'])
plt.text(-0.14, 2.9*10**6, s = 'Outros Poluentes', color = 'White', fontsize = '11')
plt.text(0.85, 7.3*10**6, s = 'MP10, O3 e NO2', color = 'White', fontsize = '12')
plt.ylabel('Número de medições')
plt.suptitle('Comparação entre as somas dos nºs de medições dos poluentes', fontsize = '16')
plt.title(f'Os poluentes MP10, O3 e NO2, somados, possuem um número de medições {round(more_measures_rate,1)} vezes maior que os outros poluentes somados.')

### Unidade

Verificando se não há valores inexistentes (null ou nan).

In [None]:
print_null_values_count(data, 'Unidade')

Verificando quais unidades são utilizadas para descrever as concentrações dos poluentes:

In [None]:
data['Unidade'].value_counts()

Todos os valores de concentração são medidos em $\frac{\mu g}{m^{3}}$ (microgramas por metro cúbico) de poluente.

### Tipo

Tipos de medições existentes:

In [None]:
data[['Tipo']].drop_duplicates().reset_index(drop = True)

Verificando se não há valores inexistentes (null ou nan).

In [None]:
print_null_values_count(data, 'Tipo')

Verificando os números de medições que foram feitas manual e automaticamente:

In [None]:
type_count = data['Tipo'].value_counts()
type_count

A extensa maioria das medições foi feita automaticamente. É curioso sabermos em que lugares foram feitas as medições automáticas e as manuais, e quantas foram feitas em cada lugar.

In [None]:
auto_measure_count = data[data['Tipo'] == 'automatica']['Estacao'].value_counts()
manual_measure_count = data[data['Tipo'] == 'manual']['Estacao'].value_counts()
auto_len = len(auto_measure_count)
manual_len = len(manual_measure_count)
print(f'Número de locais com medição automática: {auto_len}')
print(f'Número de locais com medição manual: {manual_len}')

Visualizando esse resultado graficamente:

In [None]:
x = np.array(['Manual', 'Automática'])
y = np.array([manual_len, auto_len])
manual_measures_count = type_count['manual']
auto_measures_count = type_count['automatica']

plt.bar(x, y, color = ['Gray', 'Darkblue'])
plt.yticks([])
plt.ylabel('Quantidade de locais')
plt.text(0 - 0.02, manual_len + 0.5, s = f'{manual_len}', fontsize = '11')
plt.text(1 - 0.02, auto_len + 0.5, s = f'{auto_len}', fontsize = '11')
plt.text(0 - 0.21, manual_len - 31, s = f'({manual_measures_count} medições)', color = 'white', fontsize = '9')
plt.text(1 - 0.27, auto_len - 62.8, s = f'({auto_measures_count} medições)', color = 'white', fontsize = '9')
auto_percentage = type_count['automatica']/(type_count['automatica'] + type_count['manual']) * 100
plt.suptitle('Quantidade de locais por tipo de medição de poluentes', fontsize = '16')
plt.title(f'A maioria dos locais utiliza medições automáticas, as quais caracterizam {round(auto_percentage, 1)}% das medições de poluentes.')

Como auto está em uma quantidade muito grande, verificaremos apenas seus valores maiores e menores para se ter uma base de quais locais possuem esses valores.

In [None]:
print(f'Locais com maiores números de medições automáticas:\n\n{auto_measure_count.head()}\n')
print(f'Locais com menores números de medições automáticas:\n\n{auto_measure_count.tail()}')

Como manual está em menor quantidade, podemos verificar todos os seus valores com clareza.

In [None]:
print(f'Locais com medições manuais e seus números:\n\n{manual_measure_count}')

### Valor

Verificando se não há valores inexistentes (null ou nan):

In [None]:
print_null_values_count(data, 'Valor')

Estatísticas gerais:

In [None]:
data['Valor'].describe()

Aqui notamos que os valores de concentrações possuem:

- Desvio-padrão muito elevado, de 250, ou seja, dados muito dispersos;
- Média de 83,3;
- 25% dos valores menores ou iguais a 9;
- 50% dos valores menores ou iguais a 22;
- 75% dos valores menores ou iguais a 45;
- Máximo extremamente elevado, de 9981.
- Mínimo igual a 0.

Assim, temos dados com valores muito diversificados e com concentração de valores muito grande para valores pequenos ($ <= 45\frac{\mu g}{m^{3}}$). Os outliers, enquanto isso, são extremamente discrepantes do restante dos dados, contribuindo para o alto desvio-padrão observado.

Para conseguirmos observar bem a distribuição em cada intervalo de valores, teremos que verificar vários histogramas. Antes disso, verifiquemos como se comporta o boxplot:

In [None]:
plt.boxplot(data['Valor'])
plt.title('Boxplot da coluna Valor')

Vemos que, devido à quantidade imensa de dados (mais de 10 milhões) e à grande dispersão dos dados, com presença de outliers muito grandes, o boxplot se comporta de forma que não conseguimos enxergar bem os valores nos quartis. Podemos, no entanto, observar que de fato há outliers extremamente fora dos valores comumente encontrados no conjunto de dados.

Vamos verificar agora os histogramas para diferentes intervalos. Iremos analisar, por enquanto, 3 histogramas distintos:

- Histograma de todos os dados (visão geral);
- Histograma dos valores <= 3º quartil = 45;
- Histograma dos valores >= 3º quartil = 45;

In [None]:
[i*10**6 for i in np.arange(0.0, 3.0, 0.5)]


In [None]:
third_quartile = data['Valor'].quantile(0.75)
gs = gridspec.GridSpec(2, 2)

fig = plt.figure(figsize=(10,10))
ax1 = fig.add_subplot(gs[0, :])
ax1.hist(data['Valor'], color = 'Darkblue')
ax1.set_title('Histograma de todos os valores da coluna Valor')

ticks = [i*10**6 for i in np.arange(0.0, 3.5, 0.5)]

ax2 = fig.add_subplot(gs[1,0])
ax2.hist(data[data['Valor'] <= third_quartile]['Valor'], color = 'Darkblue')
ax2.set_yticks(ticks)
ax2.set_ylim(0, 3*10**6)
ax2.set_title(f'Valores antes do 3º quartil (75% dos valores) (valor <= {third_quartile})', fontsize = '10')

ax3 = fig.add_subplot(gs[1,1])
ax3.hist(data[data['Valor'] > third_quartile]['Valor'], color = 'Darkblue')
ax3.set_yticks(ticks)
ax3.set_ylim(0, 3*10**6)
ax3.set_title(f'Valores após o 3º quartil (25% dos valores) (valor > {third_quartile})', fontsize = '10')

Com isso, podemos verificar que ainda há muitos valores maiores que o terceiro quartil, em relação aos outliers. Iremos plotar novos histogramas:

- Histograma dos valores v tais que 45 <= v <= 45 + 1.5*dist_interquartilica
- Histograma dos valores v tais que v >= 45 + 1.5*dist_interquartilica

Obs: a distância (ou amplitude) interquartílica é definida como a diferença entre os valores do 3º e 1º quartis.

In [None]:
first_quartile = data['Valor'].quantile(0.25)
third_quartile = data['Valor'].quantile(0.75)
inter_dist = (third_quartile - first_quartile)
outlier_threshold = int(third_quartile + 1.5*inter_dist)

fig, axs = plt.subplots(1, 2, figsize = (10,4))

ticks = [i*10**6 for i in np.arange(0.0, 3.5, 0.5)]

axs[0].hist(data[(data['Valor'] <= outlier_threshold) & (data['Valor'] > third_quartile)]['Valor'], color = 'Darkblue')
axs[0].set_yticks(ticks)
axs[0].set_ylim(0, 3*10**6)
axs[0].set_title(f'Valores após o 3º quartil e não-outliers ({third_quartile} < valor <= {outlier_threshold})', fontsize = '11')

axs[1].hist(data[data['Valor'] > outlier_threshold]['Valor'], color = 'Darkblue')
axs[1].set_yticks(ticks)
axs[1].set_ylim(0, 3*10**6)
axs[1].set_title(f'Valores outliers (valor > {outlier_threshold})', fontsize = '11')

Por fim, iremos obter mais dois histogramas separando os maiores outliers:

- Histograma dos valores v tais que 45 + 1.5*inter_dist <= v <= 1000 (valor escolhido com base nos gráficos anteriores)
- Histograma dos valores >= 1000

In [None]:
first_quartile = data['Valor'].quantile(0.25)
third_quartile = data['Valor'].quantile(0.75)
inter_dist = (third_quartile - first_quartile)
outlier_threshold = int(third_quartile + 1.5*inter_dist)
big_outlier_threshold = 1000

fig, axs = plt.subplots(1, 2, figsize = (10,4))

ticks = [i*10**5 for i in np.arange(0.0, 3.5, 0.5)]

axs[0].hist(data[(data['Valor'] > outlier_threshold) & (data['Valor'] <= big_outlier_threshold)]['Valor'], color = 'Darkblue')
axs[0].set_yticks(ticks)
axs[0].set_title(f'Menores outliers ({outlier_threshold} < outliers <= {big_outlier_threshold})')

axs[1].hist(data[(data['Valor'] > big_outlier_threshold)]['Valor'], color = 'Darkblue')
axs[1].set_yticks(ticks)
axs[1].set_title(f'Maiores outliers (outliers > {big_outlier_threshold})')

---

## Análises bivariada e multivariada: estudando colunas em conjunto

In [None]:
data.head()

Agora que sabemos as distribuições e estatísticas gerais de cada variável, vamos analisar a relação entre elas. Para isso, responderemos algumas perguntas:

**1) Qual a correlação entre a hora do dia e o valor da concentração de cada poluente, considerando os dados de todos os locais? Deve ser para cada poluente, pois não faz sentido analisar poluentes distintos juntos porque a ordem de grandeza de sua concentração média pode ser distinta.**

**2) Qual a hora do dia em que a concentração média de poluição é a maior, considerando os dados de todos os locais? Se possível, faça uma comparação.**

**3) Quais poluentes são medidos automaticamente e quais são medidos manualmente? Quais são as horas em que há medições automáticas e quais em que há medições manuais?**

**4) Quais os poluentes que possuem valores de concentração danosos à saúde e quais as estações onde ocorreram essas medições?**

**5) Como varia a concentração média de MP10 (o poluente mais medido) para cada local ao longo dos anos?**

**6) Plote um gráfico de média de concentração do poluente por média horária para o NO e para o NO2 no Parque Dom Pedro II (em São Paulo capital). Faça hipóteses sobre as variações de concentração de NO (diminuição) e de NO2 (aumento) ao longo do dia.**

**7) Plote um gráfico de média de concentração do poluente NO2 por mês em São José dos Campos. Analise as diferenças de concentração nos períodos letivo e de férias (dezembro, janeiro e fevereiro).**

Respondendo cada pergunta com base nos dados:

**1) Qual a correlação entre a hora do dia e o valor da concentração para cada poluente, considerando os dados de todos os locais? Deve ser para cada poluente, pois não faz sentido analisar poluentes distintos juntos porque a ordem de grandeza de sua concentração média pode ser distinta.**


Para determinar a correlação entre a hora do dia e o valor da concentração de cada poluente no conjunto de dados, deveremos transformar a coluna Data, uma variável categórica, em uma variável numérica. Faremos isso apenas em um dataframe auxiliar para responder a pergunta, nomeado data_aux1.

In [None]:
data_aux1 = data.copy()

def hour_to_num(hour):
    hour_split = hour.split(':')
    return float(hour_split[0]) + float(hour_split[1])/60

data_aux1['Hora Numerica'] = data_aux1['Hora'].apply(hour_to_num)

In [None]:
data_aux1['Hora Numerica'].head()

Obtendo agora a correlação para cada poluente:

In [None]:
pols = data_aux1['Poluente'].unique()
pol_hour_corr = {}
for pol in pols:
    data_pol = data_aux1[['Valor', 'Hora Numerica']][data_aux1['Poluente'] == pol]
    pol_hour_corr[pol] = data_pol.corr()['Hora Numerica'][0]

In [None]:
pol_hour_corr

Como veremos mais adiante, os poluentes 'FMC' e 'PTS' possuem medições apenas às 01:00h. Assim, a correlação entre os dados de valor e hora não existe para esses dois poluentes. Vamos então eliminá-los da análise.

Obs: isso acontece porque o coeficiente de correlação $p$ entre duas variáveis x e y é definido por:

$$p = \frac{\sigma_{xy}}{\sigma_{x}\cdot\sigma_{y}}$$

sendo $\sigma_{xy}$ a covariância entre x e y, $\sigma_{x}$ o desvio-padrão de x e $\sigma_{y}$ o desvio-padrão de y. 
No nosso caso, se a variável hora não varia, ela possui desvio-padrão nulo, fazendo o coeficiente de correlação ir para infinito (interpretado como NaN).

In [None]:
pol_hour_corr.pop('FMC')
pol_hour_corr.pop('PTS')

Assim, podemos plotar essa correlação para cada poluente:

In [None]:
plt.bar(pol_hour_corr.keys(), pol_hour_corr.values(), color = 'darkblue')
plt.grid()
plt.yticks(ticks = [-0.10, -0.05, 0.00, 0.05, 0.10, 0.15, 0.20])
plt.title('Correlação (Hora x Concentração) por Poluente')
plt.ylabel('Coefiente de Correlação')
plt.xlabel('Poluente')

Para explicações sobre a relação entre as correlações de NO e NO2 olhe a Questão 6. O resultado é bastante curioso e tem uma explicação química.

**2) Qual a hora do dia em que a concentração média de poluição é a maior e qual hora em que é menor, considerando todos os dados? Se possível, faça uma comparação.**

Criaremos o dataframe auxiliar data_aux2 para obter os valores das médias de concentração de poluentes para cada poluente.

In [None]:
data_aux2 = data[['Hora', 'Valor']].groupby('Hora').mean().sort_values(by = 'Valor', ascending = False)

In [None]:
data_aux2.head(1)

A hora do dia com maior concentração média de poluentes é 20:00h.

In [None]:
data_aux2.tail(1)

Por sua vez, a hora com menor concentração média de poluentes é 5:00h.

Nessa análise, se diferentes poluentes forem medidos ou diferentes cidades tiverem suas medições em cada um dos horários, essa informação não terá muito significado. Para verificar se isso ocorre, vamos determinar quais poluentes são medidos às 20:00h e às 05:00h e quais as cidades que possuem medições nesses horários.

In [None]:
pol20 = data[data['Hora'] == '20:00']['Poluente'].unique()

In [None]:
pol5 = data[data['Hora'] == '05:00']['Poluente'].unique()

In [None]:
pol20 == pol5

In [None]:
pol20

Os 7 mesmos poluentes são medidos em ambos os horários.

In [None]:
sta1 = data[data['Hora'] == '20:00']['Estacao'].unique()

In [None]:
sta2 = data[data['Hora'] == '05:00']['Estacao'].unique()

In [None]:
sta1 == sta2

In [None]:
len(sta1)

Inclusive todos os mesmos 65 locais possuem medições em ambos os horários. Dessa forma, a comparação entre os valores médios nos dois horários é válida.

Isso é bastante curioso, pois 65 é o número exato de locais em que há medições automáticas de poluentes, como vimos na análise univariada. Será que esses locais são justamente eles? Vamos verificar:

In [None]:
data[data['Tipo'] == 'automatica']['Estacao'].unique() == sta1

Vemos que sim! Os locais com medições às 20:00h e às 5:00h são justamente aqueles com medições automáticas.

Podemos verificar isso também descobrindo quais são as horas em que há medições automáticas e quais em que há medições manuais. Responderemos isso na próxima pergunta.

**3) Quais poluentes são medidos automaticamente e quais são medidos manualmente? Quais são as horas em que há medições automáticas e quais em que há medições manuais?**

A resposta da pergunta anterior nos instiga a pensar nas respostas dessa pergunta. Para determinarmos os poluentes, é bastante simples:

In [None]:
auto_pol = data[data['Tipo'] == 'automatica']['Poluente'].unique()
print(auto_pol)

In [None]:
manual_pol = data[data['Tipo'] == 'manual']['Poluente'].unique()
print(manual_pol)

Há alguns poluentes que são medidos tanto automatica quanto manualmente. São eles:

In [None]:
auto_manual_pol = set(auto_pol).intersection(set(manual_pol))
print(auto_manual_pol)

E há outros que são medidos apenas manualmente:

In [None]:
only_manual_pol = set(manual_pol).difference(set(auto_pol))
print(only_manual_pol)

Isso confirma nossa afirmação na Questão 1.

Para a segunda pergunta, precisamos fazer o seguinte:

In [None]:
print(data[data['Tipo'] == 'automatica']['Hora'].unique())

Todas as horas do dia possuem medições automáticas.

In [None]:
print(data[data['Tipo'] == 'manual']['Hora'].unique())

Enquanto isso, medições manuais aconteceram apenas às 01:00h.

**4) Quais os poluentes que possuem valores de concentração danosos à saúde e quais as estações onde ocorreram essas medições?**

Para responder esse questionamento, precisaremos da tabela que indica os intervalos de concentrações e seus níveis de perigo à saúde. Ela pode ser vista a seguir:

In [None]:
display.Image('images/classificacoes_quantidade_poluentes.PNG')

Obs: iremos responder o questionamento apenas para os poluentes contidos na imagem.

Vamos considerar como danosos à saúde os valores a partir da classe **ruim**. Assim, para cada poluente, teremos um limiar diferente que definirá os valores de concentração que procuraremos nos dados. Consideraremos esse limiar como o **menor valor** do intervalo indicado na tabela na linha da classe **ruim**. Assim, a seguir, criaremos um dicionário com esses limiares.

Antes de mais nada, verificamos que a unidade da tabela para o CO está diferente. Ela está medindo a concentração em ppm (partes por milhão). Iremos transformar esse valor para micrograma por metro cúbico a seguir.

In [None]:
CO_molecular_mass = 28 # Massa molecular do CO, em g/mol
molar_volume = 24.45 # Volume molar a 25ºC e 1 atm, em L.
CO_threshold = round((11 * CO_molecular_mass/molar_volume)*10**3,1)

In [None]:
bad_threshold = {'MP10': 100, 'MP2.5': 50, 'O3': 130, 'CO': CO_threshold, 'NO2': 240, 'SO2': 40}

Agora temos os limiares. Então, para cada um dos poluentes, iremos procurar nos dados os locais que apresentam poluição suficiente para danificar a saúde de uma pessoa:

In [None]:
pols = ['MP10', 'MP2.5', 'O3', 'CO', 'NO2', 'SO2']

In [None]:
for pol in pols:
    print(f'Locais em que o poluente {pol} tem valor de concentração danoso à saúde:\n')
    bad_values = sorted(data[(data['Valor'] > bad_threshold[pol]) & (data['Poluente'] == pol)]['Estacao'].unique())
    if len(bad_values) == 0:
        print('**Não há locais**')
    else:
        for value in bad_values:
            print(f'- {value}')
    print('\n')

Por fim, dentre todos esses locais, podemos descobrir aqueles em que a situação é drástica, ou seja, passa do maior valor que caracteriza uma condição **péssima**.

In [None]:
drastic_threshold = {'MP10': 600, 'MP2.5': 300, 'O3': 800, 'CO': round(50*CO_threshold/11, 1), 'NO2': 3750, 'SO2': 2620}

In [None]:
for pol in pols:
    print(f'Locais em que o poluente {pol} tem valor de concentração drasticamente danoso à saúde:\n')
    drastic_values = sorted(data[(data['Valor'] > drastic_threshold[pol]) & (data['Poluente'] == pol)]['Estacao'].unique())
    if len(drastic_values) == 0:
        print('**Não há locais**')
    else:
        for value in drastic_values:
            print(f'- {value}')
    print('\n')

**5) Como varia a concentração média de MP10 (o poluente mais medido) para cada local ao longo dos anos?**

Para isso, devemos agrupar os valores médios por Ano e Estação e selecionar os valores apenas para o MP10. Criaremos primeiro uma coluna 'Ano' em um dataframe auxiliar:

In [None]:
data_aux5 = data[['Data', 'Estacao', 'Valor', 'Unidade', 'Poluente']].copy()
data_aux5['Ano'] = data_aux5['Data'].apply(lambda x: x.split('-')[0])
data_aux5.head()

In [None]:
grouped_data_aux5 = data_aux5.groupby(by = ['Ano', 'Estacao', 'Poluente']).mean(numeric_only = True)

In [None]:
grouped_data_aux5.head()

Escolhemos então os valores das concentrações de MP10 em cada local e em cada ano:

In [None]:
# Outra possibilidade:
# mp10_evolution = grouped_data_aux5.loc[:, :, 'MP10', :] --> sintaxe pior
# A maneira correta de selecionar todo o conteúdo de um nível específico é usando slice(None).

mp10_evolution = grouped_data_aux5.loc[(slice(None), slice(None), 'MP10'), :]
mp10_evolution

Podemos, com isso, obter a evolução do valor médio de concentração de MP10 (Material particulado de diâmetro aerodinâmico menor ou igual a 10 micrômetros) para qualquer cidade. Tomemos a evolução, por exemplo, para a cidade de São José dos Campos, onde fica o ITA.

In [None]:
sjc_mp10_evolution = mp10_evolution.loc[(slice(None), 'São José dos Campos', slice(None)), :]
sjc_mp10_evolution

Graficamente:

In [None]:
sjc_mp10_values = sjc_mp10_evolution.values
sjc_mp10_years = sjc_mp10_evolution.index.get_level_values(0)

mp10_drop_percentage = (round(100 * abs((sjc_mp10_evolution.loc['2021'] - sjc_mp10_evolution.loc['2015'])
                                        /sjc_mp10_evolution.loc['2015']).values[0][0], 0))
                       
plt.plot(sjc_mp10_years, sjc_mp10_values, color = 'darkblue')
plt.suptitle('Evolução da concentração do poluente MP10 em São José dos Campos (SP)')
plt.title(f'Em 2021, a concentração de MP10 no ar da cidade diminuiu quase {mp10_drop_percentage}% em relação a 2015.')
plt.xlabel('Ano')
plt.ylabel('Concentração de MP10')

**6) Plote um gráfico de média de concentração do poluente por média horária para o NO e para o NO2 no Parque Dom Pedro II (em São Paulo capital). Faça hipóteses sobre as variações de concentração de NO (diminuição) e de NO2 (aumento) ao longo do dia.**

In [None]:
data_aux6 = data_aux1[(data_aux1['Estacao'] == 'Parque Dom Pedro II')].copy()
data_aux6_NO = data_aux6[(data_aux6['Poluente'] == 'NO')]
data_aux6_NO2 = data_aux6[(data_aux6['Poluente'] == 'NO2')]
pqd_pol_mean_NO = data_aux6_NO['Valor'].mean()
pqd_pol_mean_NO2 = data_aux6_NO2['Valor'].mean()
pqd_hour_mean_NO = {}
pqd_hour_mean_NO2 = {}
hours = sorted(data_aux6['Hora'].unique())
for hour in hours:
    pqd_hour_mean_NO[hour] = data_aux6_NO[data_aux6_NO['Hora'] == hour]['Valor'].mean()
    pqd_hour_mean_NO2[hour] = data_aux6_NO2[data_aux6_NO2['Hora'] == hour]['Valor'].mean()

In [None]:
plt.figure(figsize=(18,6))
plt.bar(hours, pqd_hour_mean_NO.values())
plt.axhline(pqd_pol_mean_NO, color = 'red', linestyle = '--')
plt.ylabel('Concentração de NO (mug/m3)')
plt.xlabel('Hora do dia')
plt.suptitle('Concentração média de NO por hora do dia no Parque Dom Pedro II', fontsize = '16')
plt.title('O máximo de concentração ocorre no horário de pico às 8 horas da manhã. Vê-se também aumento consistente após o começo da noite.')
plt.legend(['Média total', 'Média por hora'], loc = 'upper left')

In [None]:
plt.figure(figsize=(18,6))
plt.bar(hours, pqd_hour_mean_NO2.values())
plt.axhline(pqd_pol_mean_NO2, color = 'red', linestyle = '--')
plt.ylabel('Concentração média de NO2 (mug/m3)')
plt.xlabel('Hora do dia')
plt.suptitle('Concentração média de NO2 por hora do dia no Parque Dom Pedro II', fontsize = '16')
plt.title('Há aumento consistente durante os períodos de pico da manhã e da noite. De noite, supõe-se que a concentração é mais elevada devido à transformação de NO em NO2 ao longo da tarde.')
plt.legend(['Média total', 'Média por hora'])

Nossa hipótese se encontra no subtítulo do segundo gráfico: De noite, supõe-se que a concentração é mais elevada devido à transformação de NO em NO2 ao longo da tarde.

Podemos realizar essa hipótese porque, de fato, ao entrar em contato com o oxigênio do ar, as moléculas de NO se convertem em NO2. Espera-se, então, que a concentração de NO2 aumente consistentemente nos horários de pico enquanto a concentração de NO tenha um pico que rapidamente se extingue. Isso também explicaria o porquê da correlação do NO2 ser positiva enquanto a correlação do NO é negativa, na Questão 1.

**7) Plote um gráfico de média de concentração do poluente NO2 por mês em São José dos Campos. Analise as diferenças de concentração nos períodos letivo e de férias (dezembro, janeiro e fevereiro).**

In [None]:
data_aux7 = data[(data['Estacao'] == 'São José dos Campos') & (data['Poluente'] == 'NO2')].copy()
data_aux7['Mês'] = data_aux7['Data'].apply(lambda x: x.split('-')[1])
months = sorted(data_aux7['Mês'].unique())
months.insert(0, '12')
months.pop(-1)
sjc_month_mean_NO2 = {}
for month in months:
    sjc_month_mean_NO2[month] = data_aux7[data_aux7['Mês'] == month]['Valor'].mean()
sjc_total_mean_NO2 = data_aux7['Valor'].mean()

In [None]:
plt.figure(figsize = (10, 6))
colors = ['darkblue']*3 + ['gray']*9
plt.bar(months, sjc_month_mean_NO2.values(), color = colors)
plt.axhline(sjc_total_mean_NO2, color = 'red', linestyle = '--')
plt.ylabel('Concentração média de NO2 (mug/m3)')
plt.xlabel('Mês do ano')
plt.suptitle('Concentração do poluente NO2 por mês em São José dos Campos', fontsize = '16')
plt.title('No período de férias (janeiro, fevereiro e dezembro), a concentração do poluente é notavelmente menor que a média. Já nos períodos letivos observa-se aumento da poluição.')

Com isso, fechamos análises multivariadas importantes sobre o conjunto de dados.

---

## Conclusões

Com toda a análise que fizemos, conseguimos vários insights sobre a distribuição dos dados e também respostas para vários questionamentos acerca da relação entre os poluentes atmosféricos e suas medições no estado de São Paulo.

Um resultado importante que foi obtido foram os locais que estão em situação drástica de poluição. Esses são aqueles nos quais ações governamentais voltadas à saúde pública e à diminuição da emissão de poluentes devem ser ampliadas com urgência, pois, de fato, a saúde da população em geral está sendo afetada negativamente devido à elevada concentração dos mais variados poluentes no ar. Tais locais, como vimos, são:

- Araraquara
- Araçatuba
- Cubatão - Centro
- Cubatão - Vale do Mogi
- Cubatão - Vila Parisi
- Guarulhos - Pimentas
- Marília
- Paulínia - Sul
- Presidente Prudente
- Ribeirão Preto
- Santa Gertrudes
- Cid.Universitária USP - IPEN
- Grajaú - Parelheiros
- Osasco
- Perus
- Pico do Jaraguá
- Rio Claro - Jardim Guanabara
- São José do Rio Preto

Com os dados, ainda pode-se ver, para cada um desses locais, a evolução das concentrações de poluentes ao longo do tempo, sendo possível associar o histórico do local (em termos de quantidade de veículos e de indústrias, por exemplo) ao aumento da poluição atmosférica. A resposta do questionamento 5 mostra o passo-a-passo da obtenção gráfica da evolução das concentrações de um poluente com o tempo em uma dada cidade (no caso, São José dos Campos foi o exemplo escolhido).

A aplicação de tecnologias de análises de dados proporciona, portanto, a descoberta de relações importantes entre variáveis que podem ser usadas para direcionar ações no enfrentamento de problemas. Assim, a análise de dados se configura como uma ferramenta de inteligência de negócios essencial para qualquer empresa, podendo ser aplicada em uma gama infinita de contextos para gerar resultados orientados por análises concretas - o trabalho feito sobre os dados atuais dos poluentes no estado de São Paulo é um dos exemplos de como a análise de dados pode ser utilizada para gerar insights valiosos.

---

### Salvando os dados reunidos em um único arquivo .csv

In [None]:
data.to_csv('data/SP_poluicao_dados.csv')

print('Dados salvos em data/SP_poluicao_dados.csv')