<a href="https://colab.research.google.com/github/Luciahelenasantos/PUC-SPRINT-III/blob/main/MVP_SPRINTIII_V1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVP Sprint III - PUC Rio

## Aluna : Lucia Helena Barros dos Santos

# Descrição do Problema:

Estudos sobre poluentes atmosféricos são cada vez mais necessários a partir de agora, profundas mudanças climáticas estão sendo observadas e apresentando uma tendência de crescimento e agravamento de fenômenos climáticos, assim tais estudos tornam-se cruciais e afetando de forma direta várias questões que afetam o cotidiano da população mundial.
Vários são os assuntos relevantes quando se refere à estudos de poluentes:

•	O impacto na saúde humana dado que a poluição do ar está diretamente relacionada a uma série de problemas de saúde, incluindo doenças respiratórias, cardiovasculares e câncer.

•	A preservação do meio ambiente, pois poluentes atmosféricos podem causar danos ao meio ambiente, incluindo a acidificação de corpos d'água, danos a ecossistemas terrestres e aquáticos, e a destruição da camada de ozônio (O3).

•	O combate às mudanças climáticas, onde estudos sobre poluentes atmosféricos podem auxiliar na promoção de desenvolvimento sustentável.

•	A conformidade regulatória, é de conhecimento que muitos países têm regulamentações estritas relacionadas à qualidade do ar e limites de emissões de poluentes.

•	No desenvolvimento de tecnologias limpas, onde a pesquisa sobre poluentes atmosféricos impulsiona o desenvolvimento de tecnologias mais limpas e eficientes, tanto na indústria quanto no transporte, contribuindo para a redução das emissões dos mesmos.

•	A Sensibilização Pública, os estudos sobre poluentes atmosféricos aumentam a conscientização pública sobre a importância da qualidade do ar e da redução da poluição, incentivando ações individuais e coletivas, visando proteger o meio ambiente.

•	A tomada de Decisão Política, dados e conclusões de estudos sobre poluentes atmosféricos são essenciais para a formulação de políticas públicas eficazes relacionadas ao meio ambiente e à saúde.

Em virtude de tantos itens relevantes na proteção do meio ambiente e da saúde da população, o monitoramento da qualidade do ar passou a ter papel fundamental nos dias atuais e com perspectivas de crescimento e aprofundamento de estudos a respeito no futuro, assim tal fato sugeriu a análise do banco de dados encontrado na plataforma kaggle, contendo 10.980.514 (dez milhões novecentos e oitenta mil e quinhentos) registros, representando medições hora a hora realizadas por 87 estações meteorológicas distribuídas em localidades do Estado de São Paulo.

As medições referem-se à 9 poluentes atmosféricos, cuja unidade de medida é o “microgramas por metro cúbico” (µg/m³). Sendo estes considerados de grande importância no que tange ao monitoramento da qualidade do ar, temos: MP10 – Material Particulado 10, MP2.5 – Material particulado 2.5, O3 – Ozônio, NO2 - Dióxido de Nitrogênio, CO - Monóxido de Carbono, SO2 – Dióxido de Enxofre, NO – Óxido de Nitrogênio, PTS – Partículas Totais em Suspensão e FMC – Fumaça.

Dentre os 9 poluentes encontrados na base de dados, foram selecionados MP10, MP2.5, NO2 e O3 para o estudo em questão, permitindo a exploração dos dados afim de se fazer questionamentos com intuito de conhecer o comportamento e a evolução destes poluentes a nível temporal e geográfico.



# Carregando bibliotecas

In [None]:
# Importe as bibliotecas necessárias
import pandas as pd
import seaborn as sns
import numpy as np

import matplotlib.pyplot as plt
import plotly.express as px
import sqlite3
import psycopg2

import warnings

from google.colab import drive # acesso ao drive do google Colab - 'drive.mount'
import os # para o retorno do caminho dos dados - 'os.chdir'

In [None]:
warnings.filterwarnings("ignore")

# Criando Funções

In [None]:
# Função que cria a variável Nmes com os nomes dos meses do ano

def calcula_nome_mes(mes):
  vmes = mes

  if mes == 1:
    return "Janeiro"
  elif mes == 2:
    return "Fevereiro"
  elif mes == 3:
    return "Março"
  elif mes == 4:
    return "Abril"
  elif mes == 5:
    return "Maio"
  elif mes == 6:
    return "Junho"
  elif mes == 7:
    return "Julho"
  elif mes == 8:
    return "Agosto"
  elif mes == 9:
    return "Setembro"
  elif mes == 10:
    return "Outubro"
  elif mes == 11:
    return "Novembro"
  else:
    return "Dezembro"


# Função que cria a variável num com valores numéricos para as estações do ano

def calcula_estacao_ano(dt):
  vdia = dt.day
  vmes = dt.month

  if vmes in (1,2):
    return "Verão"
  elif vmes == 3:
    if vdia < 21:
      return "Verão"
    else:
      return "Outono"
  elif vmes in (4,5):
      return "Outono"
  elif vmes == 6:
      if vdia < 21:
        return "Outono"
      else:
        return "Inverno"
  elif vmes in (7,8):
      return "Inverno"
  elif vmes == 9:
      if vdia < 21:
        return "Inverno"
      else:
        return "Primavera"
  elif vmes in (10,11):
      return "Primavera"
  elif vmes == 12:
      if vdia < 21:
        return "Primavera"
      else:
        return "Verão"

# Função que cria a variável Nmes com os períodos do dia em função da hora

def calcula_periodo_dia(hora):
    vhora = hora

    if vhora in ("00:00","01:00","02:00","03:00","04:00","05:00","06:00"):
      return "Madrugada"
    elif vhora in ("07:00","08:00","09:00","10:00","11:00","12:00"):
      return "Manhã"
    elif vhora in ("13:00","14:00","15:00","16:00","17:00","18:00"):
      return "Tarde"
    else:
      return "Noite"


# Preparando o Ambiente

In [None]:
# Apontando para My Drive

drive.mount('/content/drive', force_remount=True)

os.chdir('/content/drive/My Drive/')

Mounted at /content/drive


# Carregando os Dados

In [None]:
# Importando o arquivo em formato csv hospedado em My Drive

caminho = "/content/drive/My Drive/dadoarsp/SP_poluicao_dados.csv"

dadoarsp = pd.read_csv(caminho, index_col=False, delimiter=',')

In [None]:
# Alterando o atributo Data de object para formato date

dadoarsp['Data'] = pd.to_datetime(dadoarsp['Data'])

In [None]:
# Suponha que você tenha um DataFrame chamado 'dadosarsp'
dadoarsp = dadoarsp.drop(columns=['Unnamed: 0'])


In [None]:
dadoarsp['Ano'] = dadoarsp['Data'].dt.year
dadoarsp['Mes'] = dadoarsp['Data'].dt.month

In [None]:
# Criando a variável "nmes" dando nome aos meses dos anos

dadoarsp["nmes"] = dadoarsp["Mes"].apply(calcula_nome_mes)

In [None]:
# Criando a variável "estacao_ano" para identificar as estações climáticas

dadoarsp["estacao_ano"] = dadoarsp["Data"].apply(calcula_estacao_ano)

In [None]:
# Criando a variável "periodo_dia" para identificar manhã, tarde ou noite

dadoarsp["periodo_dia"] = dadoarsp["Hora"].apply(calcula_periodo_dia)

In [None]:
dadoarsp

Unnamed: 0,ID,Data,Hora,Estacao,Codigo,Poluente,Valor,Unidade,Tipo,Ano,Mes,nmes,estacao_ano,periodo_dia
0,0,2015-01-01,01:00,Americana - Vila Santa Maria,SP01,MP10,65.0,ug/m3,automatica,2015,1,Janeiro,Verão,Madrugada
1,1,2015-01-01,02:00,Americana - Vila Santa Maria,SP01,MP10,98.0,ug/m3,automatica,2015,1,Janeiro,Verão,Madrugada
2,2,2015-01-01,03:00,Americana - Vila Santa Maria,SP01,MP10,79.0,ug/m3,automatica,2015,1,Janeiro,Verão,Madrugada
3,3,2015-01-01,04:00,Americana - Vila Santa Maria,SP01,MP10,53.0,ug/m3,automatica,2015,1,Janeiro,Verão,Madrugada
4,4,2015-01-01,05:00,Americana - Vila Santa Maria,SP01,MP10,35.0,ug/m3,automatica,2015,1,Janeiro,Verão,Madrugada
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10980510,10980510,2021-02-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual,2021,2,Fevereiro,Verão,Madrugada
10980511,10980511,2021-03-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual,2021,3,Março,Verão,Madrugada
10980512,10980512,2021-04-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual,2021,4,Abril,Outono,Madrugada
10980513,10980513,2021-05-01,01:00,Tatuapé,SP76,SO2,5.0,ug/m3,manual,2021,5,Maio,Outono,Madrugada


In [None]:
dadoarsp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10980515 entries, 0 to 10980514
Data columns (total 14 columns):
 #   Column       Dtype         
---  ------       -----         
 0   ID           int64         
 1   Data         datetime64[ns]
 2   Hora         object        
 3   Estacao      object        
 4   Codigo       object        
 5   Poluente     object        
 6   Valor        float64       
 7   Unidade      object        
 8   Tipo         object        
 9   Ano          int64         
 10  Mes          int64         
 11  nmes         object        
 12  estacao_ano  object        
 13  periodo_dia  object        
dtypes: datetime64[ns](1), float64(1), int64(3), object(9)
memory usage: 1.1+ GB


# ***4 - Análise Exploratória por poluente***

### 4.1.1 - PM10

A relevância do estudo do poluente MP10 está atrelada aos impactos significativos para a saúde humana como problemas respiratórios, ou o agravamento de condições respiratórias pré-existentes (como asma e bronquite). Estudos revelam que a grande exposição a partículas MP10 está associada a um maior risco de doenças cardiovasculares, como ataques cardíacos e derrames, devido à inflamação sistêmica e ao estresse oxidativo.

Quanto às implicações ambientais o poluente PM10 contribui para a má qualidade do ar, afetando a visibilidade do ambiente e causando problemas de saúde em animais selvagens e ecossistemas, além de transportar poluentes atmosféricos, incluindo nutrientes como nitrogênio e enxofre, que, quando depositados no solo ou na água, também podem afetar negativamente ecossistemas terrestres e aquáticos, prejudicando a biodiversidade e a qualidade geral do meio ambiente.


In [None]:
# Selecionando no banco dadoarsp o poluentes MP10

dadoarMP10 = dadoarsp[['Data','Estacao', 'Poluente', 'Valor', 'Ano','estacao_ano']]
dadoarMP10 = dadoarMP10.loc[  dadoarMP10 ['Poluente'] == 'MP10' ]

In [None]:
# Verificando o banco dadoarMP10

dadoarMP10

Unnamed: 0,Data,Estacao,Poluente,Valor,Ano,estacao_ano
0,2015-01-01,Americana - Vila Santa Maria,MP10,65.0,2015,Verão
1,2015-01-01,Americana - Vila Santa Maria,MP10,98.0,2015,Verão
2,2015-01-01,Americana - Vila Santa Maria,MP10,79.0,2015,Verão
3,2015-01-01,Americana - Vila Santa Maria,MP10,53.0,2015,Verão
4,2015-01-01,Americana - Vila Santa Maria,MP10,35.0,2015,Verão
...,...,...,...,...,...,...
10980190,2021-11-20,Santa Gertrudes - Jd. Luciana,MP10,24.0,2021,Primavera
10980191,2021-11-26,Santa Gertrudes - Jd. Luciana,MP10,27.0,2021,Primavera
10980192,2021-12-02,Santa Gertrudes - Jd. Luciana,MP10,49.0,2021,Primavera
10980193,2021-12-08,Santa Gertrudes - Jd. Luciana,MP10,53.0,2021,Primavera


In [None]:
descricao_valor = dadoarMP10['Valor'].describe()
print(descricao_valor)

count    2.883216e+06
mean     2.920784e+01
std      2.595918e+01
min      0.000000e+00
25%      1.300000e+01
50%      2.200000e+01
75%      3.700000e+01
max      1.924000e+03
Name: Valor, dtype: float64


In [None]:
# Gráfico de linhas da série histórica do poluente PM10

sns.set_style('darkgrid')
sns.set_theme(style="darkgrid", font_scale=0.75)
plt.figure(figsize=(8, 6))
plt.ylabel("PM10 (µg/m³)")
plt.xlabel("Ano")
plt.plot(dadoarMP10['Data'], dadoarMP10['Valor'])
plt.title('Concentração do poluente MP10 medida em localidades do estado de São Paulo de 2015 a 2021')
plt.show()

In [None]:
# Selecionando valores MP10 para o Ano de 2021

dadoarMP10_2021 = dadoarMP10[(dadoarMP10['Ano'] == 2021) & (dadoarMP10['Valor'] > 0)]

In [None]:
# analise por Municípios ao longo do período 2015 - 2022

Graf_Munic = dadoarMP10_2021.groupby( by=['Estacao'] ).sum().reset_index()[['Estacao', 'Valor']].sort_values( 'Valor', ascending=False )
Graf_Munic.head()
plt.figure( figsize=(10, 5) )
plt.title( 'Municípios com maiores valores medidos para o poluente MP10, no ano de 2021', loc='left', fontsize=12 )
plt.bar( Graf_Munic.Estacao, Graf_Munic['Valor'], color='#f44e3f' )
plt.ylabel('PM10 (µg/m³)')
plt.xticks( rotation=90 );

In [None]:
# Gráfico de barras referente à PM10

gfg = sns.barplot(x = "Ano", y = "Valor", hue = "estacao_ano", data = dadoarMP10, errorbar=None);
plt.axhline(y=29.20, color='r', linestyle='-')
plt.axhline(y=50, color='b', linestyle='-')
plt.title("Poluente MP10 medido em localidades do Estado de São Paulo, \n segundo estações climáticas (2015-2021)")
plt.ylabel("PM10 (µg/m3)")
gfg.legend(fontsize=8)
gfg.legend(bbox_to_anchor= (1,1))
plt.show();

In [None]:
# Apagando as tabelas utilizadas na análise do poluente MP10

tabelasMP10 = [dadoarMP10,dadoarMP10_2021]
for tabela in tabelasMP10:
    del tabela

### 4.1.1 - PM2.5

In [None]:
# Selecionando no banco dadoarsp o poluentes MP2.5

dadoarMP2_5 = dadoarsp[['Data','Estacao','Poluente','Valor','Ano','estacao_ano','nmes','Mes','periodo_dia','Hora']]
dadoarMP2_5 = dadoarMP2_5.loc[  dadoarMP2_5 ['Poluente'] == 'MP2.5' ]

In [None]:
# Verificando o banco dadoarMP2_5

dadoarMP2_5

In [None]:
descricao_valor = dadoarMP2_5['Valor'].describe()
print(descricao_valor)

In [None]:
# Gráfico de linhas da série histórica do poluente PM2.5

sns.set_style('darkgrid')
sns.set_theme(style="darkgrid", font_scale=0.75)
plt.ylabel("PM2.5 (µg/m3)")
plt.xlabel("Ano")
plt.plot(dadoarMP2_5['Data'], dadoarMP2_5['Valor'])
plt.title('Concentração do poluente MP2.5 medida em localidades do estado de São Paulo de 2015 a 2021');

In [None]:
# Selecionando valores MP10 para o Ano de 2021

dadoarMP2_5_2018 = dadoarMP2_5[(dadoarMP2_5['Ano'] == 2018) & (dadoarMP2_5['Valor'] > 0)]

In [None]:
dadoarMP2_5_2018.info()

In [None]:
# analise por Municípios ao longo do período 2015 - 2021

Graf_Munic = dadoarMP2_5_2018.groupby( by=['Estacao'] ).sum().reset_index()[['Estacao', 'Valor']].sort_values( 'Valor', ascending=False )
Graf_Munic.head()
plt.figure( figsize=(8,5) )
plt.title( 'Municípios com maiores valores medidos para o poluente MP2.5 no ano de 2018', loc='left', fontsize=10 )
plt.bar( Graf_Munic['Estacao'], Graf_Munic['Valor'], color='#f44e3f' )
plt.ylabel('PM10 (µg/m³)')
plt.xticks( rotation=90 );

In [None]:
# Gráfico de barras referente ao poluente PM2.5

gfg = sns.barplot(x = "Ano", y = "Valor", hue = "estacao_ano", data = dadoarMP2_5, errorbar=None);
plt.axhline(y=17.32, color='r', linestyle='-')
plt.title("Poluente MP2.5 medido em localidades do Estado de São Paulo, \n segundo estações climáticas (2015-2021)")
plt.ylabel("PM2.5 (µg/m3)")
gfg.legend(fontsize=8)
gfg.legend(bbox_to_anchor= (1,1))
plt.show();

In [None]:
# Selecionando no banco dadoarMP2_5 os Anos de 2016 a 2016 a 2018 e 2021

dadoarMP2_5_2016_2021 = dadoarMP2_5[['Valor','Ano','estacao_ano','Mes', 'nmes']]
dadoarMP2_5_2016_2021 = dadoarMP2_5_2016_2021.loc[ ( dadoarMP2_5 ['Ano'] == 2016) | ( dadoarMP2_5 ['Ano'] == 2017) |
                                                   ( dadoarMP2_5 ['Ano'] == 2018) | ( dadoarMP2_5 ['Ano'] == 2021) ]

In [None]:
# Gráfico de barras referente ao PM2.5

gfg = sns.barplot(x = "Ano", y = "Valor", hue = "nmes", data = dadoarMP2_5_2016_2021, errorbar=None);
plt.axhline(y=17.32, color='r', linestyle='-')
plt.title("Concentração do poluente PM2.5 medido em localidades do Estado de São Paulo por mês, \n nos anos de 2016 a 2018 e 2021")
plt.ylabel("PM2.5 (µg/m3)")
gfg.legend(fontsize = 4.5)
gfg.legend(bbox_to_anchor = (1,1))
plt.show();

In [None]:
# Gráfico de linhas

sns.lineplot(x='periodo_dia', y='Valor', data = dadoarMP2_5)

plt.title('Concentração do poluente PM2.5 medida para o Estado de São Paulo, \n nos períodos do dia (2015 a 2021')
plt.xlabel("Período do dia")
plt.ylabel("PM2.5 (µg/m3)");

In [None]:
# Apagando as tabelas utilizadas na análise do poluente MP2.5

tabelasMP2_5 = [dadoarMP2_5,dadoarMP2_5_2018,dadoarMP2_5_2016_2021]
for tabela in tabelasMP10:
    del tabela

### 4.1.1 - Ozônio (O3)

In [None]:
# Selecionando no banco dadoarsp o poluentes O3

dadoarO3 = dadoarsp[['Data','Estacao','Poluente','Valor','Ano','estacao_ano','nmes','Mes','periodo_dia','Hora']]
dadoarO3 = dadoarO3.loc[  dadoarO3 ['Poluente'] == 'O3' ]

In [None]:
# Verificando o banco dadoarO3

dadoarO3

In [None]:
descricao_valor = dadoarO3['Valor'].describe()
print(descricao_valor)

In [None]:
# Gráfico de linhas da série histórica do poluente Ozônio (O3)

sns.set_style('darkgrid')
sns.set_theme(style="darkgrid", font_scale=0.75)
plt.ylabel("O3 (µg/m3)")
plt.xlabel("Ano")
plt.plot(dadoarO3['Data'], dadoarO3['Valor'])
plt.title('Concentração do poluente ozônio O3 medida pela estação Irajá de 2012 a 2021');

In [None]:
# Selecionando valores O3 para o Ano de 2021

dadoarO3_2018 = dadoarO3[(dadoarO3['Ano'] == 2018) & (dadoarO3['Valor'] > 0)]

In [None]:
dadoarO3_2018_2019

NameError: ignored

In [None]:
# analise por Municípios ao longo do período 2015 - 2021

Graf_Munic = dadoarO3_2018_2019.groupby( by=['Estacao'] ).sum().reset_index()[['Estacao', 'Valor']].sort_values( 'Valor', descending=True )
Graf_Munic.head()
plt.figure( figsize=(8,5) )
plt.title( 'Municípios com maiores valores medidos para o poluente O3 nos anos de 2018 e 2019', loc='left', fontsize=10 )
plt.bar( Graf_Munic['Estacao'], Graf_Munic['Valor'], color='#f44e3f' )
plt.ylabel('O3 (µg/m³)')
plt.xticks( rotation=90 );

In [None]:
# Gráfico de barras referente à ozônio O3

gfg = sns.barplot(x = "Ano", y = "Valor", hue = "estacao_ano", data = dadoarO3, errorbar=None);
plt.axhline(y=39.88, color='r', linestyle='-')
plt.title("Concentração do poluente ozônio O3 medido pela estação Irajá por ano, \n segundo estações climáticas (2012-2021)")
plt.ylabel("O3 (µg/m3)")
gfg.legend(fontsize=8)
gfg.legend(bbox_to_anchor= (1,1))
plt.show();

In [None]:
# Selecionando no banco dadoarIR_grf os Anos de 2013 e 2020

dadoarIR_2015_2020 = dadoarO3[['Valor','Ano','estacao_ano','Mes', 'nmes']]
dadoarIR_2015_2020 = dadoarIR_2015_2020.loc[ ( dadoarO3 ['Ano'] == 2015) | (dadoarO3 ['Ano'] == 2017 ) |
                                             ( dadoarO3 ['Ano'] == 2019) | (dadoarO3 ['Ano'] == 2020 ) ]

In [None]:
# Gráfico de barras referente ao O3

gfg = sns.barplot(x = "Ano", y = "Valor", hue = "nmes", data = dadoarIR_2015_2020, errorbar=None);
plt.axhline(y=39.88, color='r', linestyle='-')
plt.title("Concentração do poluente O3 medido pela estação Irajá por mês, \n nos anos de 2015, 2017 2019 e 2020")
plt.ylabel("O3 (µg/m3)")
gfg.legend(fontsize = 4.5)
gfg.legend(bbox_to_anchor = (1,1))
plt.show();

In [None]:
# Gráfico de linhas

sns.lineplot(x='periodo_dia', y='Valor', data = dadoarO3)
plt.title('Concentração do poluente O3 medida pela estação Irajá, \n nos períodos do dia (2012 a 2021')
plt.xlabel("Período do dia")
plt.ylabel("O3 (µg/m3)");