In [None]:
'''
Anotações importantes para inserir no projeto final:

banco de dados de qualidade do ar da OMS :'https://www.who.int/data/gho/data/themes/air-pollution/who-air-quality-database'

O que ele pode fazer:

✅️ servir como dados de entrada em modelos para estimar a exposição à poluição do ar com dados topográficos,
populacionais e de satélite, juntamente com modelos de transporte de produtos químicos, entre outros.

✅️ contribuir para defender uma melhor monitorização da qualidade do ar em todo o lado

✅️ reconhecer o esforço crescente do número de estações de monitoramento ao redor do mundo

✅️ conscientizar sobre a importância de dados disponíveis publicamente e de alta qualidade

✅️ serve como base para calcular a mortalidade e a morbidade da poluição do ar - de acordo com
as últimas estimativas da Organização Mundial da Saúde, 4,2 milhões morreram em 2019 devido
à inalação de ar de má qualidade. 4,2 milhões desenvolveram doenças cardiovasculares,
como derrame ou doença cardíaca, câncer de pulmão ou DPOC.

import matplotlib.pyplot as plt
%matplotlib inline

'''

# Projeto Análise de Qualidade do Ar no Brasil

## Descrição
Este projeto tem como objetivo analisar a qualidade do ar em diferentes regiões do Brasil, especialmente em um cenário de crise devido às queimadas que ocorrem em várias partes do país. O projeto buscará identificar as causas da poluição, comparar substâncias presentes no ar e monitorar a qualidade ao longo do tempo. Com os dados obtidos, será possível gerar previsões e oferecer insights sobre a evolução da qualidade do ar.

Além disso, faremos uma comparação com outros países que enfrentam problemas semelhantes, buscando padrões e tendências globais que possam auxiliar no entendimento da situação atual no Brasil.

## Metodologia
As seguintes ferramentas e técnicas serão utilizadas para a realização deste projeto:

- **Python**: devido à sua simplicidade, versatilidade e vasta biblioteca de análise de dados.
- **Web Scraping**: para coletar dados de fontes confiáveis e armazená-los de maneira organizada em arquivos CSV.
- **Análise de dados**: usando **Pandas** para tratamento e processamento de dados.
- **Visualização**: gráficos e visualizações utilizando **Matplotlib** e **Seaborn** para destacar padrões e tendências.
- **Modelagem preditiva**: com **Sci-kit Learn**, serão criados modelos preditivos para analisar as variações da qualidade do ar ao longo do tempo.
- **Análise de Redes**: com **NetworkX**, serão gerados grafos para representar interações e correlações entre diferentes variáveis ambientais.


## Passo a Passo

1. **Coleta de Dados (Web Scraping)**: Realizar o scraping em fontes confiáveis como INPE, IBGE, ou outras agências ambientais.
2. **Tratamento e Processamento de Dados (Pandas)**: Limpeza e organização dos dados coletados para facilitar a análise.
3. **Visualização de Dados (Matplotlib, Seaborn)**: Criar gráficos de linha, dispersão e calor para identificar padrões de poluição do ar em diferentes regiões.
4. **Criação de Modelos Preditivos (Sci-kit Learn)**: Implementar algoritmos de machine learning para prever a qualidade do ar com base nos dados históricos.
5. **Análise de Redes (NetworkX)**: Criar grafos para representar a relação entre variáveis, como temperatura, umidade, poluição e localização das queimadas.
6. **Comparação Internacional**: Obter e comparar dados de outros países para identificar tendências e soluções adotadas globalmente.


In [14]:
# Importação de bibliotecas utilizadas no projeto
import numpy as np
import pandas as pd


In [12]:
!pip uninstall -y openpyxl
!pip install --upgrade openpyxl


Found existing installation: openpyxl 3.1.5
Uninstalling openpyxl-3.1.5:
  Successfully uninstalled openpyxl-3.1.5
Collecting openpyxl
  Using cached openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Installing collected packages: openpyxl
Successfully installed openpyxl-3.1.5


### Passo 1: Coleta de Dados (Web Scraping)

In [None]:
'''def extract_species_data(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    species_data = []

    current_order = None
    current_family = None

    for div in soup.find_all('div', class_='post-body entry-content'):
        for element in div.children:
            if element.name == 'b':
                current_order = element.text.strip()
            elif element.name == 'u':
                current_family = element.text.strip()
            elif element.name == 'i':
                species_name = element.text.strip()
                common_name = element.next_sibling.strip() if element.next_sibling else ""
                species_data.append([species_name, common_name, current_order, current_family])

    return species_data

def save_to_csv(data, filename):
    with open(filename, mode='w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(['Espécie', 'Nome Comum', 'Ordem', 'Família'])
        writer.writerows(data)

# Caminho no armazenamento temporário do Colab
csv_filename = '/content/species_data.csv'

url1 = 'https://ipram-es.blogspot.com/2011/10/relacao-da-mamiferos-aquaticos.html'
species_data = extract_species_data(url1)
save_to_csv(species_data, csv_filename)

print(f'Arquivo CSV salvo em: {csv_filename}')
'''

### Passo 2: Tratamento e Processamento de Dados (Pandas)

In [15]:
df = pd.read_excel('who_ambient_air_quality_database_version_2024_(v6.1).xlsx')
df.head()

ImportError: Pandas requires version '3.1.0' or newer of 'openpyxl' (version '3.0.10' currently installed).

### Passo 3: Visualização de Dados (Matplotlib, Seaborn)

In [16]:
import openpyxl
print(openpyxl.__version__)


3.0.10


### Passo 4: Criação de Modelos Preditivos (Sci-kit Learn)

In [17]:
!conda install -c anaconda openpyxl=3.1.0


Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Collecting package metadata (repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.



PackagesNotFoundError: The following packages are not available from current channels:

  - openpyxl=3.1.0

Current channels:

  - https://conda.anaconda.org/anaconda/win-64
  - https://conda.anaconda.org/anaconda/noarch
  - https://repo.anaconda.com/pkgs/main/win-64
  - https://repo.anaconda.com/pkgs/main/noarch
  - https://repo.anaconda.com/pkgs/r/win-64
  - https://repo.anaconda.com/pkgs/r/noarch
  - https://repo.anaconda.com/pkgs/msys2/win-64
  - https://repo.anaconda.com/pkgs/msys2/noarch

To search for alternate channels that may provide the conda package you're
looking for, navigate to

    https://anaconda.org

and use the search bar at the top of the page.




### Passo 5: Análise de Redes (NetworkX)

### Passo 6: Comparação Internacional