# Projeto Análise de Dados sobre a Síndrome Respiratória Aguda Grave (SRAG)

Este projeto analisa os dados dos casos de síndrome respiratória aguda no estado de São Paulo do período de fevereiro de 2020 à setembro de 2021

Os dados esão disponíveis nos sites:

- https://www.seade.gov.br/coronavirus/#
- https://github.com/seade-R/dados-covid-sp
- https://www.seade.gov.br

In [1]:
import pandas as pd
import numpy as np

In [2]:
srag_sp = pd.read_csv("../SRAG_2020.csv", sep=";", encoding="utf-8")

  srag_sp = pd.read_csv("../SRAG_2020.csv", sep=";", encoding="utf-8")


In [6]:
srag_sp.head(1)

Unnamed: 0,DT_NOTIFIC,CS_SEXO,NU_IDADE_N,TP_IDADE,COD_IDADE,ID_PAIS,CO_PAIS,SG_UF,ID_RG_RESI,CO_RG_RESI,...,SEM_NOT,DT_SIN_PRI,SEM_PRI,SG_UF_NOT,ID_REGIONA,CO_REGIONA,ID_MUNICIP,CO_MUN_NOT,ID_UNIDADE,CO_UNI_NOT
0,12/30/2019,F,52,3,3052,BRASIL,1,SP,GVE XXIX SAO JOSE DO RIO PRETO,1354.0,...,1,12/29/2019,1,SP,GVE XXIX SAO JOSE DO RIO PRETO,1354.0,CATANDUVA,351110,HOSP ESCOLA EMILIO CARLOS CATANDUVA,2089335


In [7]:
# Na tabela existem 106651 linhas e 133 colunas
srag_sp.shape

(106651, 133)

### Tratamento dos dados

##### Excluindo variáveis

In [9]:
# Definido uma lista com um range entre 50 e 132
lista = list(range(50, 133))


In [37]:
# Com o tamanho da lista definido vamos retirar com "drop" as colunas da tabela dentro desse range
srag_mod = srag_sp.drop(srag_sp.columns[lista], axis=1)

In [33]:
srag_mod.head(1)

Unnamed: 0,DT_NOTIFIC,CS_SEXO,NU_IDADE_N,TP_IDADE,COD_IDADE,ID_PAIS,CO_PAIS,SG_UF,ID_RG_RESI,CO_RG_RESI,...,RENAL,OBESIDADE,OBES_IMC,OUT_MORBI,MORB_DESC,VACINA,DT_UT_DOSE,MAE_VAC,DT_VAC_MAE,M_AMAMENTA
0,12/30/2019,F,52,3,3052,BRASIL,1,SP,GVE XXIX SAO JOSE DO RIO PRETO,1354.0,...,2.0,,,2.0,,1.0,5/10/2019,,,


In [34]:
srag_mod.shape

(106651, 50)

In [35]:
srag_mod = srag_mod.drop(columns=["CO_PAIS", "ID_PAIS", "COD_IDADE", "SG_UF", "ID_RG_RESI", "CO_RG_RESI", "CO_MUN_RES"], inplace=True)

##### Renomeando Variáveis

In [49]:
srag_mod = srag_mod.rename(columns={"DT_NOTIFIC": "data", "CS_SEXO": "sexo", "NU_IDADE": "idade", "CS_RACA": "raca"})

In [39]:
srag_mod.head(3)

Unnamed: 0,data,sexo,NU_IDADE_N,TP_IDADE,COD_IDADE,ID_PAIS,CO_PAIS,SG_UF,ID_RG_RESI,CO_RG_RESI,...,RENAL,OBESIDADE,OBES_IMC,OUT_MORBI,MORB_DESC,VACINA,DT_UT_DOSE,MAE_VAC,DT_VAC_MAE,M_AMAMENTA
0,12/30/2019,F,52,3,3052,BRASIL,1,SP,GVE XXIX SAO JOSE DO RIO PRETO,1354.0,...,2.0,,,2.0,,1.0,5/10/2019,,,
1,1/2/2020,M,7,2,2007,BRASIL,1,SP,GVE I CAPITAL,1331.0,...,,,,,,2.0,,,,
2,12/29/2019,F,22,3,3022,BRASIL,1,SP,GVE XVII CAMPINAS,1342.0,...,2.0,2.0,,2.0,,1.0,8/17/2019,,,


##### Analisando os tipos de variáveis

In [None]:
srag_mod.dtypes

In [45]:
srag_mod["data"] = srag_mod["data"].astype("datetime64[D]")

In [46]:
srag_mod.dtypes

data          datetime64[ns]
sexo                  object
NU_IDADE_N             int64
TP_IDADE               int64
COD_IDADE              int64
ID_PAIS               object
CO_PAIS                int64
SG_UF                 object
ID_RG_RESI            object
CO_RG_RESI           float64
ID_MN_RESI            object
CO_MUN_RES           float64
CS_ZONA              float64
CS_GESTANT             int64
raca                 float64
CS_ETINIA             object
CS_ESCOL_N           float64
SURTO_SG             float64
NOSOCOMIAL           float64
AVE_SUINO            float64
FEBRE                float64
TOSSE                float64
GARGANTA             float64
DISPNEIA             float64
DESC_RESP            float64
SATURACAO            float64
DIARREIA             float64
VOMITO               float64
OUTRO_SIN            float64
OUTRO_DES             object
PUERPERA             float64
CARDIOPATI           float64
HEMATOLOGI           float64
SIND_DOWN            float64
HEPATICA      

##### Analisando valores missing (NAAN)

In [47]:
srag_mod.isnull().sum()

data               0
sexo               0
NU_IDADE_N         0
TP_IDADE           0
COD_IDADE          0
ID_PAIS            0
CO_PAIS            0
SG_UF             11
ID_RG_RESI        85
CO_RG_RESI        85
ID_MN_RESI        11
CO_MUN_RES        11
CS_ZONA        13868
CS_GESTANT         0
raca           20150
CS_ETINIA     106635
CS_ESCOL_N     31001
SURTO_SG       16455
NOSOCOMIAL     21210
AVE_SUINO      17930
FEBRE           9112
TOSSE           7665
GARGANTA       21588
DISPNEIA       10051
DESC_RESP      14583
SATURACAO      14773
DIARREIA       24712
VOMITO         25970
OUTRO_SIN      27766
OUTRO_DES      75238
PUERPERA       67470
CARDIOPATI     53172
HEMATOLOGI     66906
SIND_DOWN      67257
HEPATICA       67122
ASMA           65900
DIABETES       57821
NEUROLOGIC     65207
PNEUMOPATI     65296
IMUNODEPRE     66160
RENAL          66000
OBESIDADE      66436
OBES_IMC      103274
OUT_MORBI      59147
MORB_DESC      79484
VACINA         18262
DT_UT_DOSE         0
MAE_VAC      

##### Contagem das classificações de raças

In [55]:
srag_mod.raca.value_counts().sort_index()

1.0    45667
2.0     5518
3.0     1165
4.0    19775
5.0       86
9.0    14290
Name: raca, dtype: int64

In [58]:
# Preenchendo valores missing com número 9 (ignorado)
srag_mod.raca.fillna(9, inplace=True)

In [59]:
srag_mod.raca.value_counts().sort_index()

1.0    45667
2.0     5518
3.0     1165
4.0    19775
5.0       86
9.0    34440
Name: raca, dtype: int64

##### Contagem das classificações de CS_ZONA

In [60]:
srag_mod.CS_ZONA.value_counts().sort_index()

1.0    91232
2.0     1362
3.0      189
Name: CS_ZONA, dtype: int64

In [61]:
# Preenchendo valores missing com o número 9 (ignorado)
srag_mod.CS_ZONA.value_counts().sort_index()

1.0    91232
2.0     1362
3.0      189
Name: CS_ZONA, dtype: int64

##### Substituindo as classificações numéricas por palavras

In [62]:
srag_mod.raca = srag_mod.raca.replace({
    1: "branca",
    2: "preta",
    3: "amarela",
    4: "parda",
    5: "indígena",
    9: "ignorado"
})

In [63]:
srag_mod.raca.value_counts().sort_index()

amarela      1165
branca      45667
ignorado    34440
indígena       86
parda       19775
preta        5518
Name: raca, dtype: int64

In [64]:
srag_mod.CS_ZONA = srag_mod.CS_ZONA.replace({
    1: "urbana",
    2: "rural",
    3: "periurbana",
    9: "ignorado"
})

In [65]:
srag_mod.CS_ZONA.value_counts().sort_index()

amarela      1165
branca      45667
ignorado    34440
indígena       86
parda       19775
preta        5518
Name: CS_ZONA, dtype: int64