# Importação de bibliotecas e dados

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv('data.csv')

In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,ID,Data,Hora,Estacao,Codigo,Poluente,Valor,Unidade,Tipo
0,0,0,2015-01-01,01:00,Americana - Vila Santa Maria,SP01,MP10,65.0,ug/m3,automatica
1,1,1,2015-01-01,02:00,Americana - Vila Santa Maria,SP01,MP10,98.0,ug/m3,automatica
2,2,2,2015-01-01,03:00,Americana - Vila Santa Maria,SP01,MP10,79.0,ug/m3,automatica
3,3,3,2015-01-01,04:00,Americana - Vila Santa Maria,SP01,MP10,53.0,ug/m3,automatica
4,4,4,2015-01-01,05:00,Americana - Vila Santa Maria,SP01,MP10,35.0,ug/m3,automatica


# Avaliação primária dos dados

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10980515 entries, 0 to 10980514
Data columns (total 10 columns):
 #   Column      Dtype  
---  ------      -----  
 0   Unnamed: 0  int64  
 1   ID          int64  
 2   Data        object 
 3   Hora        object 
 4   Estacao     object 
 5   Codigo      object 
 6   Poluente    object 
 7   Valor       float64
 8   Unidade     object 
 9   Tipo        object 
dtypes: float64(1), int64(2), object(7)
memory usage: 837.7+ MB


In [6]:
df.describe(include='all')

Unnamed: 0.1,Unnamed: 0,ID,Data,Hora,Estacao,Codigo,Poluente,Valor,Unidade,Tipo
count,10980520.0,10980520.0,10980515,10980515,10980515,10980515,10980515,10980520.0,10980515,10980515
unique,,,2557,24,87,87,9,,1,2
top,,,2017-04-19,17:00,Santos - Ponta da Praia,SP64,MP10,,ug/m3,automatica
freq,,,5674,469259,287897,287897,2883216,,10980515,10971842
mean,5490257.0,5490257.0,,,,,,83.30876,,
std,3169802.0,3169802.0,,,,,,250.0071,,
min,0.0,0.0,,,,,,0.0,,
25%,2745128.0,2745128.0,,,,,,9.0,,
50%,5490257.0,5490257.0,,,,,,22.0,,
75%,8235386.0,8235386.0,,,,,,45.0,,


# CONDICIONAL DOS AFERÍVEIS

## Removendo PTS, FMC e NO dos dados

In [7]:
print(df['Poluente'].unique())

['MP10' 'O3' 'NO2' 'CO' 'MP2.5' 'SO2' 'FMC' 'PTS' 'NO']


In [8]:
aferiveis = ['MP10','O3','NO2','CO','MP2.5','SO2']
selecao = df['Poluente'].isin(aferiveis)
df_aferivel = df[selecao]
print(df_aferivel['Poluente'].unique())

['MP10' 'O3' 'NO2' 'CO' 'MP2.5' 'SO2']


## Definindo as regras da classificação

In [17]:
choicelist = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
conditionlist = [
    (df_aferivel['Poluente'] == 'MP10') & (df_aferivel['Valor'] <= 50),
    (df_aferivel['Poluente'] == 'MP10') & (df_aferivel['Valor'] > 50) & (df_aferivel['Valor'] <= 100),
    (df_aferivel['Poluente'] == 'MP10') & (df_aferivel['Valor'] > 100) & (df_aferivel['Valor'] <= 150),
    (df_aferivel['Poluente'] == 'MP10') & (df_aferivel['Valor'] > 150) & (df_aferivel['Valor'] <= 250),
    (df_aferivel['Poluente'] == 'MP2.5') & (df_aferivel['Valor'] <= 25),
    (df_aferivel['Poluente'] == 'MP2.5') & (df_aferivel['Valor'] > 25) & (df_aferivel['Valor'] <= 50),
    (df_aferivel['Poluente'] == 'MP2.5') & (df_aferivel['Valor'] > 50) & (df_aferivel['Valor'] <= 75),
    (df_aferivel['Poluente'] == 'MP2.5') & (df_aferivel['Valor'] > 75) & (df_aferivel['Valor'] <= 125),
    (df_aferivel['Poluente'] == 'O3') & (df_aferivel['Valor'] <= 100),
    (df_aferivel['Poluente'] == 'O3') & (df_aferivel['Valor'] > 100) & (df_aferivel['Valor'] <= 130),
    (df_aferivel['Poluente'] == 'O3') & (df_aferivel['Valor'] > 130) & (df_aferivel['Valor'] <= 160),
    (df_aferivel['Poluente'] == 'O3') & (df_aferivel['Valor'] > 160) & (df_aferivel['Valor'] <= 200),
    (df_aferivel['Poluente'] == 'CO') & (df_aferivel['Valor'] <= 9),
    (df_aferivel['Poluente'] == 'CO') & (df_aferivel['Valor'] > 9) & (df_aferivel['Valor'] <= 11),
    (df_aferivel['Poluente'] == 'CO') & (df_aferivel['Valor'] > 11) & (df_aferivel['Valor'] <= 13),
    (df_aferivel['Poluente'] == 'CO') & (df_aferivel['Valor'] > 13) & (df_aferivel['Valor'] <= 15),
    (df_aferivel['Poluente'] == 'NO2') & (df_aferivel['Valor'] <= 200),
    (df_aferivel['Poluente'] == 'NO2') & (df_aferivel['Valor'] > 200) & (df_aferivel['Valor'] <= 240),
    (df_aferivel['Poluente'] == 'NO2') & (df_aferivel['Valor'] > 240) & (df_aferivel['Valor'] <= 320),
    (df_aferivel['Poluente'] == 'NO2') & (df_aferivel['Valor'] > 320) & (df_aferivel['Valor'] <= 1130),
    (df_aferivel['Poluente'] == 'SO2') & (df_aferivel['Valor'] <= 20),
    (df_aferivel['Poluente'] == 'SO2') & (df_aferivel['Valor'] > 20) & (df_aferivel['Valor'] <= 40),
    (df_aferivel['Poluente'] == 'SO2') & (df_aferivel['Valor'] > 40) & (df_aferivel['Valor'] <= 365),
    (df_aferivel['Poluente'] == 'SO2') & (df_aferivel['Valor'] > 365) & (df_aferivel['Valor'] <= 800),
]
df_aferivel['Classificação'] = np.select(conditionlist, choicelist, default=4)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_aferivel['Classificação'] = np.select(conditionlist, choicelist, default=4)


## Data Frame final

In [18]:
df_aferivel

Unnamed: 0.1,Unnamed: 0,ID,Data,Hora,Estacao,Codigo,Poluente,Valor,Unidade,Tipo,Classificação
0,0,0,2015-01-01,01:00,Americana - Vila Santa Maria,SP01,MP10,65.0,ug/m3,automatica,1
1,1,1,2015-01-01,02:00,Americana - Vila Santa Maria,SP01,MP10,98.0,ug/m3,automatica,1
2,2,2,2015-01-01,03:00,Americana - Vila Santa Maria,SP01,MP10,79.0,ug/m3,automatica,1
3,3,3,2015-01-01,04:00,Americana - Vila Santa Maria,SP01,MP10,53.0,ug/m3,automatica,1
4,4,4,2015-01-01,05:00,Americana - Vila Santa Maria,SP01,MP10,35.0,ug/m3,automatica,0
...,...,...,...,...,...,...,...,...,...,...,...
10980510,10980510,10980510,2021-02-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual,0
10980511,10980511,10980511,2021-03-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual,0
10980512,10980512,10980512,2021-04-01,01:00,Tatuapé,SP76,SO2,3.0,ug/m3,manual,0
10980513,10980513,10980513,2021-05-01,01:00,Tatuapé,SP76,SO2,5.0,ug/m3,manual,0


# Respondendo as perguntas

## Qual o poluente mais nocivo?

In [None]:
#Atribuindo um índice de nocividade que vai de 0 a 5, sendo 0 o menos nocivo e 5 o mais, podemos notar que o poluente CO
#apresenta muito mais risco à saúde que os demais

In [21]:
media_por_poluente = df_aferivel.groupby('Poluente') ['Classificação'].mean()
media_por_poluente = media_por_poluente.sort_values()
print (media_por_poluente)

Poluente
NO2      0.000036
SO2      0.048496
O3       0.062473
MP10     0.164262
MP2.5    0.199219
CO       3.941921
Name: Classificação, dtype: float64


## Em quais estações a concentração média de CO supera a média do estado?

In [46]:
selecao = df_aferivel['Poluente'] == 'CO'
df_CO = df_aferivel[selecao]
print("A média do estado é {}".format(df_CO['Valor'].mean()))

A média do estado é 712.781791514424


In [64]:
estacoes = df_CO.groupby('Estacao') ['Valor'].mean() > df_CO['Valor'].mean()
estacoes = estacoes.sort_values()
estacoes

Estacao
Taubaté                                  False
Carapicuíba                              False
Cerqueira César                          False
Cid.Universitária USP - IPEN             False
São José dos Campos - Jardim Satélite    False
São Caetano do Sul                       False
Guarulhos - Pimentas                     False
Ibirapuera                               False
São Bernardo do Campo - Centro           False
Mooca                                    False
Parque Dom Pedro II                      False
Santo Amaro                              False
Ribeirão Preto                           False
Santo André - Paço Municipal              True
Campinas - Centro                         True
Taboão da Serra                           True
Marg. Tietê - Pte dos Remédios            True
Grajaú - Parelheiros                      True
Congonhas                                 True
Pinheiros                                 True
Osasco                                    True
Name: