### üìò Introdu√ß√£o

Este notebook tem como objetivo realizar uma an√°lise explorat√≥ria dos dados de qualidade do ar nos Estados Unidos, com foco nos principais gases poluentes monitorados pela EPA (Environmental Protection Agency) durante o ano de 2024.

Foram utilizadas as bases di√°rias disponibilizadas publicamente pela EPA, referentes aos seguintes poluentes atmosf√©ricos:

- **44201** ‚Äì Oz√¥nio (Ozone)  
- **42101** ‚Äì Mon√≥xido de Carbono (Carbon Monoxide)  
- **42401** ‚Äì Di√≥xido de Enxofre (Sulfur Dioxide)  
- **42602** ‚Äì Di√≥xido de Nitrog√™nio (Nitrogen Dioxide)

Durante o processo, foram realizadas as seguintes etapas:

- üßπ **Limpeza dos dados**, com substitui√ß√£o ou remo√ß√£o de valores ausentes.
- üîÑ **Unifica√ß√£o** das bases em um √∫nico dataframe.
- üìä **Gera√ß√£o de gr√°ficos** e visualiza√ß√µes para identificar padr√µes e tend√™ncias.
- üåé **Mapas interativos**, para entender a distribui√ß√£o geogr√°fica dos poluentes.
- üìà **Agrupamentos e an√°lises temporais**, como m√©dias por m√™s e por estado.
- üí° **Classifica√ß√£o da qualidade do ar (AQI)** conforme faixas reconhecidas internacionalmente.

O trabalho busca fornecer insights relevantes sobre a polui√ß√£o atmosf√©rica nos EUA, com √™nfase na varia√ß√£o ao longo do tempo, impactos regionais e caracter√≠sticas espe√≠ficas de cada g√°s.
√™ncias observadas.
 

### üß™ In√≠cio da An√°lise

A seguir, ser√£o carregadas as bibliotecas necess√°rias e os arquivos CSV contendo os dados de qualidade do ar. Em seguida, ser√° feita uma an√°lise explorat√≥ria das informa√ß√µes dispon√≠veis em cada bas.


In [None]:
#Instalando as bibliotecas necess√°rias
!pip install pandas
!pip install scikit-learn
!pip install seaborn
!pip install matplotlib
!pip install plotly
!pip install -U kaleido

#Importando as bibliotecas
import pandas as pd
from sklearn.svm import SVC
from sklearn.feature_extraction.text import CountVectorizer
import warnings
import sklearn as sl
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

In [None]:
#Carregando as bases em dataframes individuais
df44201 = pd.read_csv("../data/daily_44201_2024.csv", low_memory=False)
df42101 = pd.read_csv("../data/daily_42101_2024.csv", low_memory=False)
df42401 = pd.read_csv("../data/daily_42401_2024.csv", low_memory=False)
df42602 = pd.read_csv("../data/daily_42602_2024.csv", low_memory=False)

#Configurando para exibir todas as colunas
pd.set_option("display.max_columns", None)

### üßπ In√≠cio da Limpeza dos Dados ‚Äì G√°s 44201 (Oz√¥nio)

In [None]:
#Lendo o n√∫mero de linhas e colunas
df44201.shape

In [None]:
#Exibindo cinco amostras aleat√≥rias
df44201.sample(5)

In [None]:
#Exibindo informa√ß√µes gerais
df44201.info()

In [None]:
#Exibindo estat√≠sticas das colunas num√©ricas
df44201[["Observation Count","Observation Percent", "Arithmetic Mean", "1st Max Value", "1st Max Hour", "AQI"]].describe()

In [None]:
#Exibindo valores nulos por coluna
df44201.isnull().sum()

In [None]:
#Exibindo linha onde AQI √© nulo 
df44201[df44201["AQI"].isnull()]

### üß© Chave da Leitura

![image.png](attachment:e1390a74-10f9-40f6-997d-7e12c05e94b0.png)

- A **chave da leitura** √© composta pela combina√ß√£o das seguintes colunas:
  - `State Code`
  - `County Code`
  - `Site Num`
  - `Parameter Code`
  - `POC`

- Por esse motivo, **faz sentido utilizar a m√©dia baseada nessa chave** para preencher valores ausentes, como no caso da coluna AQI.

üîó Fonte: [EPA AirData File Formats](https://aqs.epa.gov/aqsweb/airdata/FileFormats.html)


In [None]:
#Buscando a m√©dia AQI da chave State Code + County Code + Site Num + Paramater Code + POC

#Selecionando os nomes das 5 primeiras colunas
colunas_chave = df44201.columns[:5].tolist()

#Agrupando pelos valores das 5 primeiras colunas e calcular a m√©dia do AQI
df_aqi_media_chave = df44201.groupby(colunas_chave)["AQI"].mean().reset_index()

#Renomeando a coluna da m√©dia do AQI
df_aqi_media_chave.rename(columns={"AQI": "M√©dia AQI Chave"}, inplace=True)

df_aqi_media_chave

In [None]:
#Preenchendo AQI null com a m√©dia AQI chave

#Realizar left join com base nas 5 primeiras colunas (chave)
df44201 = df44201.merge(df_aqi_media_chave, on=colunas_chave, how="left")

#Preencher valores nulos de AQI com a m√©dia calculada
df44201["AQI"].fillna(df44201["M√©dia AQI Chave"], inplace=True)

#Remover a coluna auxiliar "M√©dia AQI"
df44201.drop(columns=["M√©dia AQI Chave"], inplace=True)

In [None]:
#Exibindo valores nulos por coluna
df44201.isnull().sum()

In [None]:
#Verificando se Method Code e Method Name tem a mesma quantidade de valores √∫nicos
print("Valores √∫nicos em Method Code:", df44201["Method Code"].nunique())
print("Valores √∫nicos em Method Name:", df44201["Method Name"].nunique())

In [None]:
#Exibindo linhas onde Method Code √© nulo para ver o valor de Method Name  
df44201[df44201["Method Code"].isnull()][["Method Code", "Method Name"]]

In [None]:
#Calculando a m√©dia de AQI para cada Method Code e Method Name  
df44201.groupby(["Method Code", "Method Name"])["AQI"].mean().sort_values(ascending=False)

In [None]:
#Exibindo linhas onde Method Code √© nulo para ver o valor de AQI
df44201[df44201["Method Code"].isnull()]

In [None]:
#Excluindo as linhas onde Method Code √© nulo, visto que n√£o se encaixa em nenhuma categoria
df44201 = df44201.dropna(subset=["Method Code"])

In [None]:
#Valores nulos por coluna
df44201.isnull().sum()

### üßπ Resumo da Limpeza dos Dados ‚Äì G√°s 44201 (Oz√¥nio)

- Foi identificado **um √∫nico valor ausente na coluna AQI**.
- Esse valor foi **substitu√≠do pela m√©dia de AQI**, considerando a combina√ß√£o das colunas:
  - `State Code`
  - `County Code`
  - `Site Num`
  - `Parameter Code`
  - `POC`
- Tamb√©m foram encontradas **3 linhas com valores ausentes nas colunas Method Code/Name**.
  - Como **n√£o foi identificado um padr√£o consistente** para preenchimento, essas linhas foram **removidas do conjunto d dados**.


### üßπ In√≠cio da Limpeza dos Dados ‚Äì G√°s 42101 (Mon√≥xido de Carbono)

In [None]:
#Lendo o n√∫mero de linhas e colunas
df42101.shape

In [None]:
#Exibindo cinco amostras aleat√≥rias
df42101.sample(5)

In [None]:
#Exibindo informa√ß√µes gerais
df42101.info()

In [None]:
#Exibindo estat√≠sticas das colunas num√©ricas
df42101[["Observation Count","Observation Percent", "Arithmetic Mean", "1st Max Value", "1st Max Hour", "AQI"]].describe()

In [None]:
#Exibindo valores nulos por coluna
df42101.isnull().sum()

In [None]:
#Exibindo valores ausentes de AQI por estado
df42101[df42101["AQI"].isnull()]["State Name"].value_counts()

In [None]:
#Convertendo a coluna de data
df42101["Date Local"] = pd.to_datetime(df42101["Date Local"])

#Exibindo valores ausentes de AQI por m√™s
df42101[df42101["AQI"].isnull()]["Date Local"].dt.to_period("M").value_counts().sort_index()

In [None]:
#Buscando a m√©dia AQI da chave State Code + County Code + Site Num + Paramater Code + POC

#Selecionar os nomes das 5 primeiras colunas
colunas_chave = df42101.columns[:5].tolist()

#Agrupar pelos valores das 5 primeiras colunas e calcular a m√©dia do AQI
df_aqi_media_chave = df42101.groupby(colunas_chave)["AQI"].mean().reset_index()

#Renomear a coluna da m√©dia do AQI
df_aqi_media_chave.rename(columns={"AQI": "M√©dia AQI Chave"}, inplace=True)

df_aqi_media_chave

In [None]:
#Preenchendo AQI null com a m√©dia AQI chave

#Realizar left join com base nas 5 primeiras colunas (chave)
df42101 = df42101.merge(df_aqi_media_chave, on=colunas_chave, how="left")

#Preencher valores nulos de AQI com a m√©dia calculada
df42101["AQI"].fillna(df42101["M√©dia AQI Chave"], inplace=True)

#Remover a coluna auxiliar "M√©dia AQI"
df42101.drop(columns=["M√©dia AQI Chave"], inplace=True)

In [None]:
#Exibindo valores nulos por coluna
df42101.isnull().sum()

### üßπ Resumo da Limpeza dos Dados ‚Äì G√°s 42101 (Carbono)

- Foram identificadas **44.802 linhas com valores ausentes na coluna AQI**.
- As linhas em branco **n√£o apresentaram um padr√£o espec√≠fico**, seja por Estado ou por data.
- Esses campos foram **substitu√≠dos pela m√©dia de AQI**, considerando a combina√ß√£o das colunas:
  - `State Code`
  - `County Code`
  - `Site Num`
  - `Parameter Code`
 - `POC`


### üßπ In√≠cio da Limpeza dos Dados ‚Äì G√°s 42401 (Di√≥xido de Enxofre)

In [None]:
#Lendo o n√∫mero de linhas e colunas
df42401.shape

In [None]:
#Exibindo cinco amostras aleat√≥rias
df42401.sample(5)

In [None]:
#Exibindo informa√ß√µes gerais
df42401.info()

In [None]:
#Exibindo estat√≠sticas das colunas num√©ricas
df42401[["Observation Count","Observation Percent", "Arithmetic Mean", "1st Max Value", "1st Max Hour", "AQI"]].describe()

In [None]:
#Exibindo valores nulos por coluna
df42401.isnull().sum()

In [None]:
#Valores de AQI ausentes por estado
df42401[df42401["AQI"].isnull()]["State Name"].value_counts()

In [None]:
#Convertendo a coluna de data
df42401["Date Local"] = pd.to_datetime(df42401["Date Local"])

#Exibindo valores de AQI ausentes por m√™s
df42401[df42401["AQI"].isnull()]["Date Local"].dt.to_period("M").value_counts().sort_index()

In [None]:
#Buscando a m√©dia AQI da chave State Code + County Code + Site Num + Paramater Code + POC

#Selecionar os nomes das 5 primeiras colunas
colunas_chave = df42401.columns[:5].tolist()

#Agrupar pelos valores das 5 primeiras colunas e calcular a m√©dia do AQI
df_aqi_media_chave = df42401.groupby(colunas_chave)["AQI"].mean().reset_index()

#Renomear a coluna da m√©dia do AQI
df_aqi_media_chave.rename(columns={"AQI": "M√©dia AQI Chave"}, inplace=True)

df_aqi_media_chave

In [None]:
#Preenchendo AQI null com a m√©dia AQI chave

#Realizar left join com base nas 5 primeiras colunas (chave)
df42401 = df42401.merge(df_aqi_media_chave, on=colunas_chave, how="left")

#Preencher valores nulos de AQI com a m√©dia calculada
df42401["AQI"].fillna(df42401["M√©dia AQI Chave"], inplace=True)

#Remover a coluna auxiliar "M√©dia AQI"
df42401.drop(columns=["M√©dia AQI Chave"], inplace=True)

In [None]:
#Exibindo valores nulos por coluna
df42401.isnull().sum()

### üßπ Resumo da Limpeza dos Dados ‚Äì G√°s 42401 (Di√≥xido de Enxofre)

- Foram identificadas **79.712 linhas com valores ausentes na coluna AQI**.
- As aus√™ncias **n√£o apresentavam um padr√£o espec√≠fico**, ocorrendo em diversos estados e datas.
- Para tratamento, os valores ausentes foram **substitu√≠dos pela m√©dia de AQI**, com base na combina√ß√£o das seguintes colunas:
  - `State Code`
  - `County Code`
  - `Site Num`
  - `Parameter Code`

 - `POC`


### üßπ In√≠cio da Limpeza dos Dados ‚Äì G√°s 42602 (Di√≥xido de Nitrog√™nio)

In [None]:
#Lendo o n√∫mero de linhas e colunas
df42602.shape

In [None]:
#Exibindo cinco amostras aleat√≥rias
df42602.sample(5)

In [None]:
#Exibindo informa√ß√µes gerais
df42602.info()

In [None]:
#Exibindo estat√≠sticas das colunas num√©ricas
df42602[["Observation Count","Observation Percent", "Arithmetic Mean", "1st Max Value", "1st Max Hour", "AQI"]].describe()

In [None]:
#Exibindo valores nulos por coluna
df42602.isnull().sum()

### üßπ Resumo da Limpeza dos Dados

Durante o processo de tratamento dos dados, foi observado que:

- Para o g√°s **42602 - Di√≥xido de Nitrog√™nio**, **n√£o havia valores ausentes na coluna AQI**.

### üîó Concatena√ß√£o das Bases

Com as bases individuais devidamente tratadas, o pr√≥ximo passo √© a **combina√ß√£o dos dados em um √∫nico DataFrame**.

Essa etapa √© essencial para permitir uma an√°lise comparativa entre os diferentes gases monitorados, unificando todas as leituras em uma √∫nica estrutura de dados.

A concatena√ß√£o facilita a aplica√ß√£o de filtros, visualiza√ß√µes e compara√ß√µes de forma mais eficiente e interada.


In [None]:
#Juntando as quatro bases em um √∫nico DataFrame
df_combined = pd.concat([df44201, df42101, df42401, df42602], ignore_index=True)

In [None]:
#Exibindo cinco amostras aleat√≥rias do df44201
df_combined.isnull().sum()

In [None]:
#Adicionando dicion√°rio de mapeamento: Nome do estado -> Sigla para an√°lise de gr√°fico de mapa
estado_para_sigla = {
    "Alabama": "AL", "Alaska": "AK", "Arizona": "AZ", "Arkansas": "AR",
    "California": "CA", "Colorado": "CO", "Connecticut": "CT", "Delaware": "DE",
    "Florida": "FL", "Georgia": "GA", "Hawaii": "HI", "Idaho": "ID",
    "Illinois": "IL", "Indiana": "IN", "Iowa": "IA", "Kansas": "KS",
    "Kentucky": "KY", "Louisiana": "LA", "Maine": "ME", "Maryland": "MD",
    "Massachusetts": "MA", "Michigan": "MI", "Minnesota": "MN", "Mississippi": "MS",
    "Missouri": "MO", "Montana": "MT", "Nebraska": "NE", "Nevada": "NV",
    "New Hampshire": "NH", "New Jersey": "NJ", "New Mexico": "NM",
    "New York": "NY", "North Carolina": "NC", "North Dakota": "ND",
    "Ohio": "OH", "Oklahoma": "OK", "Oregon": "OR", "Pennsylvania": "PA",
    "Rhode Island": "RI", "South Carolina": "SC", "South Dakota": "SD",
    "Tennessee": "TN", "Texas": "TX", "Utah": "UT", "Vermont": "VT",
    "Virginia": "VA", "Washington": "WA", "West Virginia": "WV",
    "Wisconsin": "WI", "Wyoming": "WY"
}

#Adicionando nova coluna com a sigla
df_combined["State Abbrev"] = df_combined["State Name"].map(estado_para_sigla)

### üìä Classifica√ß√£o dos N√≠veis de AQI

Os valores de **AQI (√çndice de Qualidade do Ar)** s√£o organizados em faixas que indicam o n√≠vel de risco √† sa√∫de da popula√ß√£o. A classifica√ß√£o vai de **"Boa"** at√© **"Perigoso"**, conforme a tabela oficial de refer√™ncia:

---

#### üü¢üü°üî¥ Faixas de Classifica√ß√£o:

![image.png](attachment:1c2421bb-68bd-498f-be8f-68383cb7ea6f.png)

---

Essa escala √© fundamental para interpretar corretamete os dados


In [None]:
#Criando fun√ß√£o para categorizar o AQI
def classificar_aqi(aqi):
    if aqi <= 50:
        return "Boa"
    elif aqi <= 100:
        return "Moderada"
    elif aqi <= 150:
        return "N√£o saud√°vel para grupos sens√≠veis"
    elif aqi <= 200:
        return "N√£o saud√°vel"
    elif aqi <= 300:
        return "Muito N√£o saud√°vel"
    else:
        return "Perigoso"

#Criando a nova coluna com a classifica√ß√£o de AQI
df_combined['AQI_Classificacao'] = df_combined['AQI'].apply(classificar_aqi)

#Exibindo as primeiras linhas para conferir
df_combined[['AQI', 'AQI_Classificacao']].sample(10)

In [None]:
#Agrupando pelo valor de classifica√ß√£o de AQI e contando as ocorr√™ncias
agrupado_aqi = df_combined.groupby('AQI_Classificacao').size().reset_index(name='Contagem')

#Exibindo o resultado
print(agrupado_aqi)

**Percebe-se que a maioria dos registros est√£o como classifica√ß√£o "Boa" ou "Moderada", por√©m possuem registros com AQI n√£o saud√°vel, acima de 100.**

In [None]:
#Filtrando os dados para AQI maior que 100
df_aqi_maior_que_100 = df_combined[df_combined['AQI'] > 100]

#Agrupando por estado e contando as ocorr√™ncias
agrupado_por_estado = df_aqi_maior_que_100.groupby('State Abbrev').size().reset_index(name='Contagem')

#Ordenando os estados por contagem de ocorr√™ncias em ordem decrescente
agrupado_por_estado = agrupado_por_estado.sort_values(by='Contagem', ascending=False)

#Criando gr√°fico de barras
plt.figure(figsize=(12, 6))
sns.barplot(data=agrupado_por_estado, x='State Abbrev', y='Contagem', hue='State Abbrev', palette='viridis', legend=False)

#Adicionando t√≠tulo e r√≥tulos aos eixos
plt.title('Contagem de ocorr√™ncias de AQI maior que 100 (N√£o saud√°vel) por Estado', fontsize=16)
plt.xlabel('Estado', fontsize=12)
plt.ylabel('Contagem de Ocorr√™ncias', fontsize=12)

#Exibindo o gr√°fico
plt.xticks(rotation=45)
plt.show()

In [None]:
#Filtrando top 30 maiores valores de AQI
top30_aqi = df_combined.sort_values(by="AQI", ascending=False).head(30)

#Exibindo resultado
top30_aqi[["State Abbrev", "City Name", "Parameter Name", "Date Local", "AQI", "AQI_Classificacao", "Event Type"]]

### üìå Nota sobre a Situa√ß√£o na Calif√≥rnia

A an√°lise dos dados revelou alguns pontos importantes relacionados √† qualidade do ar no estado da Calif√≥rnia:

---

#### üìç Destaques:

1. **Calif√≥rnia apresenta n√≠veis extremamente elevados de AQI**, destacando-se em rela√ß√£o aos demais estados.
2. O **g√°s Oz√¥nio (O‚ÇÉ)** √© o principal respons√°vel pelos altos √≠ndices de AQI observados na regi√£o.
3. **Nenhum evento espec√≠fico** foi indicado nas leituras relacionadas a essas ocorr√™ncias (coluna *Event Type* vazia).

---

Al√©m disso, todos os registros analisados da Calif√≥rnia correspondem ao m√™s de **julho de 2024**, o que refor√ßa o padr√£o sazonal de aumento nas concentra√ß√µes de oz√¥nio durante o ver√£o.

---

Esses resultados refor√ßam a necessidade de aten√ß√£o especial √† Calif√≥rnia em per√≠odos mais quentes, tanto para pol√≠ticas p√∫blicas quanto para a s√∫de da popula√ß√£o.


In [None]:
#Convertendo coluna de data para datetime
df_combined["Date Local"] = pd.to_datetime(df_combined["Date Local"])

#Criando coluna com o ano e m√™s
df_combined["AnoMes"] = df_combined["Date Local"].dt.to_period("M").astype(str)

#Listando os gases do DataFrame
gases = df_combined["Parameter Name"].unique()

#Criando 4 gr√°ficos em uma linha
fig, axs = plt.subplots(1, 4, figsize=(16, 5))
axs = axs.flatten()

#Gerando gr√°fico por g√°s
for i, gas in enumerate(gases):
    #Filtrando por g√°s
    df_gas = df_combined[df_combined["Parameter Name"] == gas]
    
    #Agrupando por m√™s e calcular m√©dia
    aqi_por_mes = df_gas.groupby("AnoMes")["AQI"].mean().reset_index()
    
    #Plotando
    sns.lineplot(data=aqi_por_mes, x="AnoMes", y="AQI", marker="o", ax=axs[i])
    axs[i].set_title(f"M√©dia de AQI por M√™s - {gas}")
    axs[i].set_xlabel("M√™s")
    axs[i].set_ylabel("AQI")
    axs[i].tick_params(axis='x', rotation=45)
    axs[i].grid(True)

#Salvando o gr√°fico como imagem
plt.savefig("../outputs/M√©dia AQI por m√™s.jpg", dpi=300, bbox_inches='tight')

#Exibindo o gr√°fico
plt.tight_layout()
plt.show()

### üìå Nota sobre Comportamento Sazonal dos Poluentes

De modo geral, os dados analisados mostraram padr√µes sazonais consistentes com a literatura cient√≠fica. Abaixo, destacam-se os principais comportamentos:

---

#### ‚òÄÔ∏è Oz√¥nio (O‚ÇÉ)

- A m√©dia de AQI do g√°s Oz√¥nio atinge seu **pico no m√™s de julho**, considerando os dados de 2024.
- Isso ocorre porque, no ver√£o, as temperaturas elevadas e a forte incid√™ncia solar favorecem rea√ß√µes fotoqu√≠micas que aumentam a forma√ß√£o de oz√¥nio ao n√≠vel do solo.
- Epis√≥dios de polui√ß√£o por oz√¥nio s√£o mais frequentes de **junho a setembro**.

üîó **Fonte:** [Copernicus Atmosphere Monitoring Service (CAMS)](https://atmosphere.copernicus.eu/ozone-pollution-air-quality-hazard-summer)

---

#### üå¨Ô∏è Mon√≥xido de Carbono (CO), Di√≥xido de Enxofre (SO‚ÇÇ) e Di√≥xido de Nitrog√™nio (NO‚ÇÇ)

- Estes gases apresentaram seus **menores n√≠veis de AQI durante o ver√£o**.
- Durante esta esta√ß√£o, a atmosfera se torna mais inst√°vel, favorecendo a **dispers√£o vertical dos poluentes** e, consequentemente, reduzindo a concentra√ß√£o desses gases pr√≥ximos ao solo.

üîó **Fonte:** [Organiza√ß√£o Mundial da Sa√∫de (OMS) ‚Äì WHO Global Air Quality Guidelines](https://apps.who.int/iris/bitstream/handle/10665/345329/9789240034228-eng.pdf)

---

Essas observa√ß√µes ajudam a compreender os padr√µes de polui√ß√£o atmosf√©rica e refor√ßam a import√¢ncia do monitoramento cont√≠nuo e sazonal da qualidade do ar.
lho/24.

In [None]:
#Selecionando os nomes das 5 primeiras colunas
colunas_chave = df_combined.columns[:5].tolist()

#Agrupando pelos valores das 5 primeiras colunas e calcular a m√©dia do AQI
df_aqi_media_chave = df_combined.groupby(colunas_chave)["AQI"].mean().reset_index()

#Renomeando a coluna da m√©dia do AQI
df_aqi_media_chave.rename(columns={"AQI": "M√©dia AQI"}, inplace=True)

#Classificando em ordem decrescente pela m√©dia de AQI e mostrar os 20 primeiros
df_top20_aqi = df_aqi_media_chave.sort_values(by="M√©dia AQI", ascending=False).head(20)

#Adicionando nomes
df_nomes = df_combined[[
    "State Code", "County Code", "Site Num", "Parameter Code", "State Name", "County Name", "Local Site Name", "Parameter Name"
]].drop_duplicates()

#Juntando os nomes ao dataframe agrupado
df_top20_aqi_nomeado = df_top20_aqi.merge(df_nomes, on=["State Code", "County Code", "Site Num", "Parameter Code"], how="left")

#Reordenando colunas
df_top20_aqi_nomeado = df_top20_aqi_nomeado[
    ["State Code", "State Name", "County Code", "County Name", "Site Num", "Local Site Name", "Parameter Code", "Parameter Name", "POC", "M√©dia AQI"]]

#Exibir resultado
df_top20_aqi_nomeado.head(20)

In [None]:
#Agrupando por estado e g√°s, calculando a m√©dia de AQI
aqi_por_estado_gas = df_combined.groupby(["State Abbrev", "Parameter Name"])["AQI"].mean().reset_index()

#Listando gases √∫nicos
gases = aqi_por_estado_gas["Parameter Name"].unique()

#Gerando e salvando um gr√°fico para cada g√°s
for gas in gases:
    df_gas = aqi_por_estado_gas[aqi_por_estado_gas["Parameter Name"] == gas]

    fig = px.choropleth(
        df_gas,
        locations="State Abbrev",
        locationmode="USA-states",
        color="AQI",
        scope="usa",
        color_continuous_scale="YlOrRd",
        title=f"M√©dia de AQI do g√°s {gas} por Estado nos EUA em 2024"
    )
    fig.show()
    
    #Salvando o gr√°fico como imagem
    fig.write_image(f"../outputs/M√©dia AQI por Estado - {gas}.png", scale=2)  # scale=2 aumenta a qualidade

In [None]:
#Agrupando por estado e g√°s, calculando a m√©dia de AQI
aqi_por_estado_gas = df_combined.groupby(["State Name", "Parameter Name"])["AQI"].mean().reset_index()

#Lista de gases √∫nicos
gases = aqi_por_estado_gas["Parameter Name"].unique()

#Gerar um gr√°fico de barras para cada g√°s
for gas in gases:
    df_gas = aqi_por_estado_gas[aqi_por_estado_gas["Parameter Name"] == gas]

    fig = px.bar(
        df_gas.sort_values("AQI", ascending=False),
        x="State Name",
        y="AQI",
        title=f"M√©dia de AQI do g√°s {gas} por Estado nos EUA em 2024",
        labels={"AQI": "M√©dia"},
        color="AQI",
        color_continuous_scale="YlOrRd"
    )

    fig.update_layout(xaxis_title="Estado", yaxis_title="M√©dia AQI", coloraxis_showscale=False)
    fig.show()

### üìå Conclus√£o

Ao longo desta an√°lise, foi poss√≠vel compreender de forma mais aprofundada o comportamento dos principais gases poluentes monitorados nos Estados Unidos em 2024: **Oz√¥nio (O‚ÇÉ)**, **Mon√≥xido de Carbono (CO)**, **Di√≥xido de Enxofre (SO‚ÇÇ)** e **Di√≥xido de Nitrog√™nio (NO‚ÇÇ)**.

As an√°lises revelaram padr√µes temporais bem definidos, como o **pico de concentra√ß√£o de Oz√¥nio durante os meses de ver√£o**, especialmente em julho, o que pode ser explicado pela maior radia√ß√£o solar e temperaturas elevadas, que favorecem rea√ß√µes fotoqu√≠micas. Por outro lado, gases como o **Mon√≥xido de Carbono apresentaram menores n√≠veis no ver√£o**, sendo mais prevalentes nos meses frios, quando h√° maior uso de combust√≠veis para aquecimento.

No aspecto geogr√°fico, estados como **Calif√≥rnia** se destacaram com **√≠ndices elevados de Oz√¥nio**, fato que pode ser atribu√≠do √† combina√ß√£o de fatores clim√°ticos, densidade populacional e grande n√∫mero de ve√≠culos.

A an√°lise do **√çndice de Qualidade do Ar (AQI)** permitiu tamb√©m uma categoriza√ß√£o das condi√ß√µes do ar, identificando que, apesar de muitas ocorr√™ncias estarem dentro dos limites considerados ‚Äúbons‚Äù ou ‚Äúmoderados‚Äù, ainda h√° **regi√µes e per√≠odos com AQI acima de 100**, indicando **n√≠veis insalubres para grupos sens√≠veis**.

Esses resultados refor√ßam a import√¢ncia do monitoramento cont√≠nuo da qualidade do ar e da formula√ß√£o de pol√≠ticas p√∫blicas voltadas √† **redu√ß√£o de emiss√µes**, especialmente em √°reas urbanas e industriais. A an√°lise tamb√©m evidencia como ferramentas de ci√™ncia de dados podem contribuir significativamente para a compreens√£o e comunica√ß√£o de temas ambientais complexos.


### üî≠ Pr√≥ximos Passos

A an√°lise realizada abre espa√ßo para aprofundamentos futuros e complementos relevantes. Algumas sugest√µes de pr√≥ximos passos incluem:

- **An√°lise multivariada**: Aplicar modelos de regress√£o ou t√©cnicas como PCA para entender quais vari√°veis mais influenciam o AQI.
- **Modelagem preditiva**: Utilizar algoritmos de machine learning para prever o AQI com base em dados meteorol√≥gicos e hist√≥ricos.
- **Correla√ß√£o com dados clim√°ticos**: Cruzar os dados de poluentes com vari√°veis como temperatura, umidade e velocidade do vento para melhor interpreta√ß√£o dos picos e quedas.
- **S√©ries temporais avan√ßadas**: Investigar tend√™ncias sazonais mais profundas e poss√≠veis padr√µes semanais ou hor√°rios.
- **Compara√ß√£o internacional**: Repetir a an√°lise com dados de outros pa√≠ses para comparar pol√≠ticas ambientais e padr√µes de qualidade do ar.
- **An√°lise por grupos sens√≠veis**: Considerar dados populacionais para avaliar o impacto em crian√ßas, idosos e pessoas com doen√ßas respirat√≥rias.

Esses caminhos podem ampliar ainda mais o valor da an√°lise, contribuindo para pol√≠ticas p√∫blicas, estudos ambientais e educa√ß√£o sobre sa√∫de e qualidade do ar.
