# Trabalho 1 - Parte I - Projeto de Análise de Dados

## Dataset escolhido

*NYC OpenData Air Quality*. Disponível em: [https://data.cityofnewyork.us/Environment/Air-Quality/c3uy-2p5r/about_data](https://data.cityofnewyork.us/Environment/Air-Quality/c3uy-2p5r/about_data)

## Explicação do dataset

O *NYC OpenData Air Quality* reúne registros de diversos indicadores relacionados à qualidade do ar na cidade de Nova Iorque (EUA).

Para os projetos que serão desenvolvidos nesta disciplina, serão aproveitados especialmente os indicadores ligados à área da saúde, como a concentração de substâncias químicas na atmosfera, a frequência de casos de doenças respiratórias e cardíacas associadas a essas substâncias, além do número de hospitalizações e óbitos decorrentes dessas condições.

O dataset possui aproximadamente 18,9 mil registros, distribuídos em 12 colunas.

Na tabela a seguir estão as descrições de cada uma dessas colunas

| Coluna             | Descrição                                                                                             | Tipo                   |
|--------------------|-------------------------------------------------------------------------------------------------------|------------------------|
| `Unique ID`        | Identificador único do registro                                                                       | Text                   |
| `Indicator ID`     | Identificador do tipo de valor medido ao longo do tempo e do espaço                                   | Number                 |
| `Name`             | Nome do indicador                                                                                     | Text                   |
| `Measure`          | Forma como o indicador é medido                                                                       | Text                   |
| `Measure Info`     | Informações (como unidades) sobre a medida                                                            | Text                   |
| `Geo Type Name`    | Tipo de geografia; 'UHF' refere-se a bairros do United Hospital Fund; exemplos: Citywide, Borough etc.| Text                   |
| `Geo Join ID`      | Identificador da área geográfica do bairro, usado para criar mapas temáticos                          | Text                   |
| `Geo Place Name`   | Nome do bairro                                                                                        | Text                   |
| `Time Period`      | Descrição do período ao qual os dados se referem; pode ser um ano, intervalo de anos ou estação       | Text                   |
| `Start_Date`       | Valor de data para o início do `time_period`; sempre uma data; útil para séries temporais             | Floating Timestamp     |
| `Data Value`       | Valor real dos dados para este indicador, medida, local e tempo                                       | Number                 |
| `Message`          | Notas aplicáveis ao `data_value`; ex: se uma estimativa é baseada em números pequenos                 | Text                   |



In [87]:
import pandas as pd

df = pd.read_csv('../data/Air_Quality.csv', sep=',', decimal='.')

print(df.shape)

df.head()

(18862, 12)


Unnamed: 0,Unique ID,Indicator ID,Name,Measure,Measure Info,Geo Type Name,Geo Join ID,Geo Place Name,Time Period,Start_Date,Data Value,Message
0,336867,375,Nitrogen dioxide (NO2),Mean,ppb,CD,407,Flushing and Whitestone (CD7),Winter 2014-15,12/01/2014,23.97,
1,336741,375,Nitrogen dioxide (NO2),Mean,ppb,CD,107,Upper West Side (CD7),Winter 2014-15,12/01/2014,27.42,
2,550157,375,Nitrogen dioxide (NO2),Mean,ppb,CD,414,Rockaway and Broad Channel (CD14),Annual Average 2017,01/01/2017,12.55,
3,412802,375,Nitrogen dioxide (NO2),Mean,ppb,CD,407,Flushing and Whitestone (CD7),Winter 2015-16,12/01/2015,22.63,
4,412803,375,Nitrogen dioxide (NO2),Mean,ppb,CD,407,Flushing and Whitestone (CD7),Summer 2016,06/01/2016,14.0,


Para evitar digitar o nome de cada coluna nas consultas que vão ser feitas em análises futuras, aqui defino constantes para algumas colunas que serão relevantes.

In [88]:
DF_COLUMN_NAME = 'Name'
DF_COLUMN_MEASURE = 'Measure'
DF_COLUMN_MEASURE_INFO = 'Measure Info'
DF_COLUMN_GEO_TYPE_NAME = 'Geo Type Name'
DF_COLUMN_GEO_PLACE_NAME = 'Geo Place Name'
DF_COLUMN_TIME_PERIOD = 'Time Period'
DF_COLUMN_START_DATE = 'Start_Date'
DF_COLUMN_DATA_VALUE = 'Data Value'

INDICATOR_NAME_O3 = 'Ozone (O3)'
INDICATOR_NAME_PM25 = 'Fine particles (PM 2.5)'

INDICATOR_GEO_TYPE_NAME_BOROUGH = 'Borough'

INDICATOR_NAME_ASTHMA_EMERGENCY_O3 = 'Asthma emergency department visits due to PM2.5'
INDICATOR_NAME_ASTHMA_EMERGENCY_PM25 = 'Asthma emergency departments visits due to Ozone'

## Investigação de dados faltantes

Os dados faltantes do DataFrame obtido do CSV desse dataset se concentram apenas na coluna `Message`, que não interfere em análises futuras.

In [89]:
df.isna().sum()

Unique ID             0
Indicator ID          0
Name                  0
Measure               0
Measure Info          0
Geo Type Name         0
Geo Join ID           0
Geo Place Name        0
Time Period           0
Start_Date            0
Data Value            0
Message           18862
dtype: int64

## Análises pretendidas

### Mapeamento geográfico da concentração de químicos

Escolher um periodo para mapear a concentração de Ozônio (O3) e de Partículas Finas (PM2.5) nos distritos da cidade de Nova Iorque.

In [90]:
df_o3_concentrations = df[
    (df[DF_COLUMN_NAME] == INDICATOR_NAME_O3) &
    (df[DF_COLUMN_GEO_TYPE_NAME] == INDICATOR_GEO_TYPE_NAME_BOROUGH)
].copy()

df_pm25_concentrations = df[
    (df[DF_COLUMN_NAME] == INDICATOR_NAME_PM25)&
    (df[DF_COLUMN_GEO_TYPE_NAME] == INDICATOR_GEO_TYPE_NAME_BOROUGH)
].copy()

In [91]:
print("Informações sobre o dataframe com as concentrações de O3")
print(df_o3_concentrations.shape)
print(df_o3_concentrations[DF_COLUMN_TIME_PERIOD].unique())
print(df_o3_concentrations[DF_COLUMN_MEASURE_INFO].unique())
print(df_o3_concentrations[DF_COLUMN_MEASURE].unique())
print(df_o3_concentrations[DF_COLUMN_GEO_TYPE_NAME].unique(), "\n")

print("Concentracoes medias de O3 calculadas no verão de 2009 em cada distrito de Nova Iorque")
df_o3_concentrations[df_o3_concentrations[DF_COLUMN_TIME_PERIOD] == 'Summer 2009']

Informações sobre o dataframe com as concentrações de O3
(75, 12)
['Summer 2009' 'Summer 2021' 'Summer 2013' 'Summer 2014' 'Summer 2023'
 'Summer 2018' 'Summer 2020' 'Summer 2022' 'Summer 2017' 'Summer 2011'
 'Summer 2010' 'Summer 2016' 'Summer 2012' 'Summer 2015' 'Summer 2019']
['ppb']
['Mean']
['Borough'] 

Concentracoes medias de O3 calculadas no verão de 2009 em cada distrito de Nova Iorque


Unnamed: 0,Unique ID,Indicator ID,Name,Measure,Measure Info,Geo Type Name,Geo Join ID,Geo Place Name,Time Period,Start_Date,Data Value,Message
12903,219965,386,Ozone (O3),Mean,ppb,Borough,1,Bronx,Summer 2009,06/01/2009,25.3,
16445,219971,386,Ozone (O3),Mean,ppb,Borough,2,Brooklyn,Summer 2009,06/01/2009,26.27,
16478,219977,386,Ozone (O3),Mean,ppb,Borough,3,Manhattan,Summer 2009,06/01/2009,20.44,
18179,219983,386,Ozone (O3),Mean,ppb,Borough,4,Queens,Summer 2009,06/01/2009,26.85,
18750,219989,386,Ozone (O3),Mean,ppb,Borough,5,Staten Island,Summer 2009,06/01/2009,26.72,


In [92]:
print("Informações sobre o dataframe com as concentrações de PM2.5")
print(df_pm25_concentrations.shape)
print(df_pm25_concentrations[DF_COLUMN_TIME_PERIOD].unique())
print(df_pm25_concentrations[DF_COLUMN_MEASURE_INFO].unique())
print(df_pm25_concentrations[DF_COLUMN_MEASURE].unique())
print(df_pm25_concentrations[DF_COLUMN_GEO_TYPE_NAME].unique(), "\n")

print("Concentracoes medias de PM2.5 calculadas no verão de 2009 em cada distrito de Nova Iorque")
df_pm25_concentrations[df_pm25_concentrations[DF_COLUMN_TIME_PERIOD] == 'Summer 2009']

Informações sobre o dataframe com as concentrações de PM2.5
(225, 12)
['Winter 2014-15' 'Annual Average 2012' 'Summer 2009' 'Summer 2022'
 'Annual Average 2017' 'Winter 2015-16' 'Summer 2015'
 'Annual Average 2010' 'Winter 2019-20' 'Winter 2012-13' 'Summer 2019'
 'Winter 2022-23' 'Annual Average 2023' 'Summer 2010' 'Summer 2011'
 'Summer 2016' 'Winter 2020-21' 'Annual Average 2018' 'Winter 2021-22'
 'Summer 2012' 'Winter 2018-19' 'Annual Average 2011' 'Winter 2009-10'
 'Winter 2011-12' 'Annual Average 2015' 'Annual Average 2020'
 'Annual Average 2019' 'Winter 2008-09' 'Annual Average 2022'
 'Annual Average 2016' 'Summer 2017' 'Winter 2016-17' 'Summer 2013'
 'Summer 2021' 'Summer 2023' 'Summer 2014' 'Annual Average 2009'
 'Winter 2013-14' 'Annual Average 2021' 'Winter 2010-11'
 'Annual Average 2013' 'Annual Average 2014' 'Summer 2018' 'Summer 2020'
 'Winter 2017-18']
['mcg/m3']
['Mean']
['Borough'] 

Concentracoes medias de PM2.5 calculadas no verão de 2009 em cada distrito de Nova Iorq

Unnamed: 0,Unique ID,Indicator ID,Name,Measure,Measure Info,Geo Type Name,Geo Join ID,Geo Place Name,Time Period,Start_Date,Data Value,Message
3110,179570,365,Fine particles (PM 2.5),Mean,mcg/m3,Borough,3,Manhattan,Summer 2009,06/01/2009,12.55,
7705,179571,365,Fine particles (PM 2.5),Mean,mcg/m3,Borough,4,Queens,Summer 2009,06/01/2009,10.27,
14352,179569,365,Fine particles (PM 2.5),Mean,mcg/m3,Borough,2,Brooklyn,Summer 2009,06/01/2009,10.92,
14365,179568,365,Fine particles (PM 2.5),Mean,mcg/m3,Borough,1,Bronx,Summer 2009,06/01/2009,10.73,
14739,179572,365,Fine particles (PM 2.5),Mean,mcg/m3,Borough,5,Staten Island,Summer 2009,06/01/2009,10.5,


##### Como será encaminhado o pré-processamento para esta análise?

- Em ambos mapeamentos, assegurar que as linhas escolhidas tenham `Geo Type Name` igual a Borough, pois esse tipo geográfico identifica os cinco distritos de Nova Iorque
- Enquanto que as concentrações de PM2.5 possui um `Time Period` muito diversificado, as médias de O3 só possuem médias calculadas na estação do verão. Logo, a análise do periodo será feita pela estação do verão para ambos, entre os anos de 2009 a 2023

### Análise de vulnerabilidade

Analisar a vunerabilidade dos distritos da cidade de Nova Iorque quanto as internações de emergência decorrentes do Ozônio e PM2.5

In [93]:
df_asthma_visits_o3 = df[
    (df[DF_COLUMN_NAME] == INDICATOR_NAME_ASTHMA_EMERGENCY_O3) &
    (df[DF_COLUMN_GEO_TYPE_NAME] == INDICATOR_GEO_TYPE_NAME_BOROUGH)
].copy()

df_asthma_visits_pm25 = df[
    (df[DF_COLUMN_NAME] == INDICATOR_NAME_ASTHMA_EMERGENCY_PM25)&
    (df[DF_COLUMN_GEO_TYPE_NAME] == INDICATOR_GEO_TYPE_NAME_BOROUGH)
].copy()

In [94]:
print("Informações sobre o dataframe com as internacoes de emergencia decorrentes de O3")
df_asthma_visits_o3.shape

Informações sobre o dataframe com as internacoes de emergencia decorrentes de O3


(50, 12)

In [95]:
print("Informações sobre o dataframe com as internacoes de emergencia decorrentes de PM2.5")
df_asthma_visits_pm25.shape

Informações sobre o dataframe com as internacoes de emergencia decorrentes de PM2.5


(50, 12)

##### Como será encaminhado o pré-processamento para esta análise?

### Impacto das emissões de caldeiras

> "Boiler emissions" (emissões de caldeiras, em português) referem-se aos poluentes liberados na atmosfera por caldeiras durante a queima de combustíveis para geração de calor, vapor ou eletricidade.

Mapear a quantidade de emissões de caldeiras por distrito da cidade de Nova Iorque, para assim poder ter noção em como a indústria e o comércio está impactando esses distritos.