# CESED – CENTRO DE ENSINO SUPERIOR E DESENVOLVIMENTO  
# UNIFACISA – CENTRO UNIVERSITÁRIO

### Curso: Sistemas de Informação  
### Disciplina: 218606 - Elaborar Relatório Analítico de Data Science  
### Professor: Matheus Batista Silva

---

### Projeto: Análise da Qualidade do Ar no Estado de São Paulo (2015–2021)

#### Grupo:
- Carlos Renato Pereira da Silva  
- Thiago Emanuel Barros Fernandes  
- Jackson Souza Ramos  
- Sanclero de Melo Nunes  
- Wabstton Montenegro Bandeira
- Nivea Ester de Almeida Sousa

### Introdução

Este projeto, desenvolvido em grupo, tem como objetivo analisar dados sobre a qualidade do ar no estado de São Paulo, buscando entender como a poluição atmosférica tem evoluído nos últimos anos e quais impactos isso pode representar para a saúde da população.

O conjunto de dados utilizado contém informações coletadas entre **2015 e 2021** por **87 estações de monitoramento** distribuídas por diversas cidades do estado. Essas estações registram medições da concentração de **nove poluentes atmosféricos diferentes**, como MP10, O3, NO2, CO, entre outros. Além disso, o dataset inclui dados como a data e hora da medição, o local da estação, o tipo de coleta e a unidade de medição.

A partir dessa base, buscamos identificar padrões, comparar níveis de poluição entre regiões e acompanhar a variação desses indicadores ao longo do tempo.

Os dados foram obtidos da **Plataforma Qualidade do Ar**, mantida pelo **Instituto de Energia e Meio Ambiente (IEMA)**. Eles estão disponíveis publicamente no seguinte link:

### Legenda dos Poluentes

- **MP10** – Material Particulado com diâmetro até 10 µm  
- **MP2.5** – Material Particulado com diâmetro até 2,5 µm  
- **O3** – Ozônio  
- **NO2** – Dióxido de Nitrogênio  
- **NO** – Monóxido de Nitrogênio  
- **CO** – Monóxido de Carbono  
- **SO2** – Dióxido de Enxofre  
- **PTS** – Partículas Totais em Suspensão  
- **FMC** – Fumaça

Esses poluentes são monitorados por serem prejudiciais à saúde humana e ao meio ambiente, podendo agravar doenças respiratórias, cardiovasculares e contribuir com problemas de visibilidade e chuvas ácidas.

**Link dataset:** [https://www.kaggle.com/datasets/samirnunesdasilva/sao-paulo-pollution-data](https://www.kaggle.com/datasets/samirnunesdasilva/sao-paulo-pollution-data)

## 📦 Importação das Bibliotecas

Nesta seção importamos as bibliotecas que serão utilizadas ao longo do projeto para análise e visualização dos dados.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Estilo padrão dos gráficos
plt.style.use('seaborn-v0_8')
sns.set_palette('Set2')


## 📂 Leitura dos Dados

Aqui carregamos o arquivo CSV diretamente da pasta.

In [2]:
# Caminho do arquivo
caminho_arquivo = 'archive/SP_poluicao_dados.csv'

# Leitura dos dados
df = pd.read_csv(caminho_arquivo)

# Exibe número de linhas e colunas
print(f'Dataset carregado com {df.shape[0]:,} linhas e {df.shape[1]} colunas.')

Dataset carregado com 10,980,515 linhas e 10 colunas.


## 👀 Visualização Inicial dos Dados

Vamos visualizar as primeiras e últimas entradas, além de entender o tipo de dados presente em cada coluna.

In [3]:
# Primeiras 5 linhas
df.head()

Unnamed: 0.1,Unnamed: 0,ID,Data,Hora,Estacao,Codigo,Poluente,Valor,Unidade,Tipo
0,0,0,2015-01-01,01:00,Americana - Vila Santa Maria,SP01,MP10,65.0,ug/m3,automatica
1,1,1,2015-01-01,02:00,Americana - Vila Santa Maria,SP01,MP10,98.0,ug/m3,automatica
2,2,2,2015-01-01,03:00,Americana - Vila Santa Maria,SP01,MP10,79.0,ug/m3,automatica
3,3,3,2015-01-01,04:00,Americana - Vila Santa Maria,SP01,MP10,53.0,ug/m3,automatica
4,4,4,2015-01-01,05:00,Americana - Vila Santa Maria,SP01,MP10,35.0,ug/m3,automatica


In [4]:
# Últimas 5 linhas
df.tail()

Unnamed: 0.1,Unnamed: 0,ID,Data,Hora,Estacao,Codigo,Poluente,Valor,Unidade,Tipo
10980510,10980510,10980510,2021-02-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual
10980511,10980511,10980511,2021-03-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual
10980512,10980512,10980512,2021-04-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual
10980513,10980513,10980513,2021-05-01,01:00,Tatuapé,SP76,SO2,5.0,ug/m3,manual
10980514,10980514,10980514,2021-10-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual


In [5]:
# Informações sobre tipos, nulos e estrutura geral
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10980515 entries, 0 to 10980514
Data columns (total 10 columns):
 #   Column      Dtype  
---  ------      -----  
 0   Unnamed: 0  int64  
 1   ID          int64  
 2   Data        object 
 3   Hora        object 
 4   Estacao     object 
 5   Codigo      object 
 6   Poluente    object 
 7   Valor       float64
 8   Unidade     object 
 9   Tipo        object 
dtypes: float64(1), int64(2), object(7)
memory usage: 837.7+ MB
