# Análise Exploratória (EDA)

In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [16]:
df_sus = pd.read_csv('../data/opendatasus/opendatasus.csv', encoding='latin1', sep=';', low_memory=False)
df_estacoes = pd.read_csv('../data/estacoes_monitorar/estacoes.csv', encoding='latin1', sep=';', low_memory=False)
df_medidas_jan_mar = pd.read_csv('../data/medidas_monitorar/medidas_jan_mar.csv', encoding='latin1', sep=';', low_memory=False)
df_medidas_abr_jun = pd.read_csv('../data/medidas_monitorar/medidas_abr_jun.csv', encoding='latin1', sep=';', low_memory=False)
df_medidas_jul_nov = pd.read_csv('../data/medidas_monitorar/medidas_jul_nov.csv', encoding='latin1', sep=';', low_memory=False)

In [None]:
# Useful columns 
df_sus = df_sus[['DT_SIN_PRI', 'CS_SEXO', 'DT_NASC', 'CS_RACA', 'CS_ESCOL_N', 'SG_UF', 'ID_MN_RESI', 'CO_MUN_RES', 
                'CLASSI_FIN', 'CRITERIO', 'EVOLUCAO', 'DT_EVOLUCA']]

df_estacoes = df_estacoes[['ï»¿CÃ³digo IBGE do MunicÃ­pio', 'Nome do MunicÃ­pio', 'Estado', 'ID da EstaÃ§Ã£o', 'Nome da EstaÃ§Ã£o', 'Latitude', 'Longitude']]

df_medidas = pd.concat([df_medidas_jan_mar,df_medidas_abr_jun, df_medidas_jul_nov])

df_medidas = df_medidas[['Nome do Município', 'Estado', 'Nome da Estação', 'Item_monitorado', 'Sigla', 'Concentracao', 'iqar']]

In [40]:
# Renaming columns datasus
df_sus.columns = df_sus.columns.str.lower()


In [42]:
# Renaming columns df_estacoes
new_names = ['codigo_mun', 'nome_mun', 'uf', 'id_estacao', 'nome_estacao', 'latitude', 'longitude']
dict = {}

for i, j in zip(df_estacoes.columns, new_names):
    dict[i] = j

df_estacoes.rename(columns=dict, inplace=True)

In [43]:
# Renaming column df_medidas
new_names = ['nome_mun', 'uf', 'nome_estacao', 'item_monitorado', 'sigla', 'concentracao', 'iqar']
dict = {}

for i, j in zip(df_medidas.columns, new_names):
    dict[i] = j

df_medidas.rename(columns=dict, inplace=True)

In [44]:
df_sus.head()

Unnamed: 0,dt_sin_pri,cs_sexo,dt_nasc,cs_raca,cs_escol_n,sg_uf,id_mn_resi,co_mun_res,classi_fin,criterio,evolucao,dt_evoluca
0,2019-12-29,F,1967-12-06,,,SP,CATANDUVA,351110.0,4.0,1.0,1.0,2020-01-04
1,2019-12-29,F,2000-12-13,2.0,2.0,RS,SAO JOSE DOS AUSENTES,431862.0,4.0,1.0,1.0,2020-04-05
2,2019-12-30,M,2019-05-17,9.0,5.0,SP,SAO PAULO,355030.0,1.0,1.0,1.0,2020-01-06
3,2019-12-30,M,2017-08-22,2.0,5.0,PR,FOZ DO IGUACU,410830.0,2.0,1.0,1.0,2020-01-02
4,2019-12-29,F,2019-07-22,1.0,5.0,PR,FOZ DO IGUACU,410830.0,2.0,1.0,1.0,2020-01-05


### DFS:

* df_sus: Dados do OpenDataSUS apenas com as colunas que vamos utilizar para a análise
    - Colunas:
        - Data dos primeiros sintomas (dt_sin_pri)
        - Sexo (Masculino ou Femino) (cs_sexo)
            - 1: Masculino
            - 2: Feminino
            - 3: Ignorado
        - Data de Nascimento (dt_nasc)
        - Raca (cs_raca)
            - 1: Branca
            - 2: Preta
            - 3: Amarela
            - 4: Parda
            - 5: Indígena
            - 9: Ignorado 
        - Nivel de escolaridade (cs_escol_n)
            - 0: Sem Escolaridade/Analfabeto
            - 1: Fundamental 1º ciclo (1ª a 5ª série)
            - 2: Fundamental 2º ciclo (6ª a 9ª série)
            - 3: Médio (1º ao 3º ano)
            - 4: Superior
            - 5: Não se aplica
            - 9: Ignorado
        - UF de moradia (sg_uf)
        - Nome do município de residência (id_mn_resi)
        - ID IBGE do município (co_mun_res)
        - Classificação final do caso (classi_fin)
            - 1: SRAG por Influenza
            - 2: SRAG por outro vírus resporatório
            - 3: SRAG por outro agente etiológico
            - 4: SRAG não especificado
            - 5: SRAG por covid-19
        - Criterio adotado para evolução do caso (criterio)
            - 1: Laboratorial
            - 2: Clínico Epidemiológico
            - 3: Clínico
            - 4: Clínico imagem
        - Evolução do caso, se deu alta ou óbito (evolucao)
            - 1: Cura
            - 2: Óbito
            - 3: Óbito por outras causas
            - 9: Ignorado
        - Data da evolucao (dt_evolucao)

* df_medidas: medidas do MonitorAr

* df_estacoes: dados sobre as estacoes
    - Código do munícipio de acordo com IBGE (codigo_mun)
    - Nome do município (nome_mun)
    - Estado de localização (uf)
    - ID da estação (id_estacao)
    - Nome da estação (nome_estacao)
    - Latitude e longitude da localizacação (latitude e longitude)

In [47]:
# Veryfing null/na columns
sus_null_columns = df_sus.isna().sum()
sus_null_columns


dt_sin_pri         0
cs_sexo            0
dt_nasc         2139
cs_raca        43310
cs_escol_n    359611
sg_uf            113
id_mn_resi       113
co_mun_res       113
classi_fin     32862
criterio       55277
evolucao       76522
dt_evoluca    152891
dtype: int64

In [49]:
medidas_null_columns  = df_medidas.isnull().sum()
medidas_null_columns

nome_mun                 0
uf                       0
nome_estacao             0
item_monitorado          0
sigla                    0
concentracao             0
iqar               1045240
dtype: int64

In [51]:
estacoes_null_columns = df_estacoes.isnull().sum()
estacoes_null_columns

codigo_mun      0
nome_mun        0
uf              0
id_estacao      0
nome_estacao    0
latitude        0
longitude       0
dtype: int64

In [None]:
from pyairquality.aqi import AQI

# Suponha que você tenha uma concentração de PM2.5
pm25_concentration = 42.0  # µg/m³

# Calcula o AQI baseado na EPA dos EUA
aqi = AQI()
iqar_pm25 = aqi.pm25(pm25_concentration)

print(f"AQI para PM2.5: {iqar_pm25}")
