In [1]:
import pandas as pd
import numpy as np

# Carregamento dos dados

In [2]:
"""
Dados utilizados da tabela INFLUD para pesquisa

Coluna     | Significado

DT_SIN_PRI | Data dos primeiros sintomas da COVID-19.
SG_UF_NOT  | Estado onde está localizada a Unidade Sentinela que realizou a notificação do caso.
CS_SEXO    | Sexo do paciente.
NU_IDADE_N | Idade informada pelo paciente.
TP_IDADE   | Tipo de idade, se será em dias, meses, ou anos.
CS_GESTANT | Idade Gestacional da paciente, dividido em 3 trimestres de gestação.
CS_RACA    | Cor ou raça autodeclarado pelo paciente.
CS_ESCOL_N | Escolaridade do paciente.
___________________________________________________________________________
FEBRE      | Paciente apresentou febre?
TOSSE      | Paciente apresentou tosse?
GARGANTA   | Paciente apresentou dor de garganta?
DISPNEIA   | Paciente apresentou dispneia? (Falta de ar)
DESC_RESP  | Paciente apresentou desconforto respiratório?
SATURACAO  | Paciente apresentou saturação? (Saturação de O² circulando no sangue inferior a 95%)
DIARREIA   | Paciente apresentou diarreia?
VOMITO     | Paciente apresentou vômito?
DOR_ABD    | Paciente apresentou dor abdominal?
FADIGA     | Paciente apresentou fadiga?
PERD_OLFT  | Paciente apresentou perda do olfato?
PERD_PALA  | Paciente apresentou perda do paladar?
___________________________________________________________________________
FATOR_RISC | Paciente apresenta algum fator de risco?
PUERPERA   | Paciente é puérpera ou parturiente? (Mulher que pariu recentemente - até 45 dias do parto)
CARDIOPATI | Paciente possui Doença Cardiovascular Crônica?
HEMATOLOGI | Paciente possui Doença Hematológica Crônica?
SIND_DOWN  | Paciente possui Sindrome de Down?
HEPATICA   | Paciente possui Doença Hepática Crônica?
ASMA       | Paciente possui Asma?
DIABETES   | Paciente possui Diabetes mellitus?
NEUROLOGIC | Paciente possui Doença Neurológica?
PNEUMOPATI | Paciente possui Pneumopatia Crônica?
IMUNODEPRE | Paciente possui Imunodepressão? (Diminuição da função do sistema imunológico)
RENAL      | Paciente possui Doença Renal Crônica?
OBESIDADE  | Paciente possui Obesidade?
___________________________________________________________________________
VACINA_COV | Paciente recebeu vacina da COVID-19?
DOSE_1_COV | Data da 1° Dose da vacina da COVID-19.
DOSE_2_COV | Data da 2° Dose da vacina da COVID-19.
DOSE_REF   | Data da Dose REFORÇO da vacina da COVID-19.
FAB_COV_1  | Fabricante da 1° Dose da vacina da COVID-19.
FAB_COV_2  | Fabricante da 2° Dose da vacina da COVID-19.
FAB_COVREF | Fabricante da Dose REFORÇO da vacina da COVID-19.
___________________________________________________________________________
HOSPITAL   | O paciente foi hospitalizado?
DT_INTERNA | Data em que o paciente foi hospitalizado.
UTI        | O paciente foi internado em UTI?
SUPORT_VEN | O paciente fez o uso do suporte ventilatório?
___________________________________________________________________________
AN_SARS2   | Resultado do Teste Antigênico para SARS-CoV-2.
PCR_SARS2  | Resultado diagnóstico do RT-PCR para SARS-CoV-2. (Método por Biologia Molecular)
CLASSI_FIN | Diagnóstico Final do Caso (Qual a causa da Sindrome Respiratória Aguda Grave).
EVOLUCAO   | Evolução do caso. ( Cura, óbito )
DT_EVOLUCA | Data de alta ou do óbito.
"""

'\nDados utilizados da tabela INFLUD para pesquisa\n\nColuna     | Significado\n\nDT_SIN_PRI | Data dos primeiros sintomas da COVID-19.\nSG_UF_NOT  | Estado onde está localizada a Unidade Sentinela que realizou a notificação do caso.\nCS_SEXO    | Sexo do paciente.\nNU_IDADE_N | Idade informada pelo paciente.\nTP_IDADE   | Tipo de idade, se será em dias, meses, ou anos.\nCS_GESTANT | Idade Gestacional da paciente, dividido em 3 trimestres de gestação.\nCS_RACA    | Cor ou raça autodeclarado pelo paciente.\nCS_ESCOL_N | Escolaridade do paciente.\n___________________________________________________________________________\nFEBRE      | Paciente apresentou febre?\nTOSSE      | Paciente apresentou tosse?\nGARGANTA   | Paciente apresentou dor de garganta?\nDISPNEIA   | Paciente apresentou dispneia? (Falta de ar)\nDESC_RESP  | Paciente apresentou desconforto respiratório?\nSATURACAO  | Paciente apresentou saturação? (Saturação de O² circulando no sangue inferior a 95%)\nDIARREIA   | Paciente

In [3]:
# Lendo Dataset 2021
df2021 = pd.read_csv('datasets/INFLUD21-01-08-2022.csv', sep=';', encoding="ISO-8859-1", low_memory=False)

In [4]:
# Lendo Dataset 2022
df2022 = pd.read_csv('datasets/INFLUD22-01-08-2022.csv', sep=';', encoding="ISO-8859-1", low_memory=False)

In [5]:
df2021.shape

(1730219, 166)

In [6]:
df2022.shape

(391787, 166)

In [7]:
# Selecionando colunas desejadas para pesquisa
df2021 = df2021[['DT_SIN_PRI', 'SG_UF_NOT', 'CS_SEXO', 'NU_IDADE_N', 'TP_IDADE', 'CS_GESTANT', 'CS_RACA', 'CS_ESCOL_N',
                 'FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA', 'DESC_RESP', 'SATURACAO', 'DIARREIA', 'VOMITO', 'DOR_ABD', 'FADIGA', 'PERD_OLFT', 'PERD_PALA',
                 'FATOR_RISC', 'PUERPERA', 'CARDIOPATI', 'HEMATOLOGI', 'SIND_DOWN', 'HEPATICA', 'ASMA', 'DIABETES', 'NEUROLOGIC', 'RENAL', 'OBESIDADE',
                 'VACINA_COV', 'DOSE_1_COV', 'DOSE_2_COV', 'DOSE_REF', 'FAB_COV_1', 'FAB_COV_2', 'FAB_COVREF',
                 'HOSPITAL', 'DT_INTERNA', 'UTI', 'SUPORT_VEN',
                 'AN_SARS2', 'PCR_SARS2', 'CLASSI_FIN', 'EVOLUCAO', 'DT_EVOLUCA']]

df2022 = df2022[['DT_SIN_PRI', 'SG_UF_NOT', 'CS_SEXO', 'NU_IDADE_N', 'TP_IDADE', 'CS_GESTANT', 'CS_RACA', 'CS_ESCOL_N',
                 'FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA', 'DESC_RESP', 'SATURACAO', 'DIARREIA', 'VOMITO', 'DOR_ABD', 'FADIGA', 'PERD_OLFT', 'PERD_PALA',
                 'FATOR_RISC', 'PUERPERA', 'CARDIOPATI', 'HEMATOLOGI', 'SIND_DOWN', 'HEPATICA', 'ASMA', 'DIABETES', 'NEUROLOGIC', 'RENAL', 'OBESIDADE',
                 'VACINA_COV', 'DOSE_1_COV', 'DOSE_2_COV', 'DOSE_REF', 'FAB_COV_1', 'FAB_COV_2', 'FAB_COVREF',
                 'HOSPITAL', 'DT_INTERNA', 'UTI', 'SUPORT_VEN',
                 'AN_SARS2', 'PCR_SARS2', 'CLASSI_FIN', 'EVOLUCAO', 'DT_EVOLUCA']]

### Unindo datasets

In [8]:
# Concatenando datasets
df_all = pd.concat([df2021, df2022], ignore_index=True, join='inner')
df_all.shape

(2122006, 47)

In [9]:
# Exportando para csv
df_all.to_csv("datasets/INFLUD21&22-01-08-2022.csv", sep=';', index=False)

# Mapeando os dados

In [10]:
SINTOMAS = ['FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA', 'DESC_RESP', 'SATURACAO', 'DIARREIA', 'VOMITO', 'DOR_ABD', 'FADIGA', 'PERD_OLFT', 'PERD_PALA']
COMORBIDADES = ['PUERPERA', 'CARDIOPATI', 'HEMATOLOGI', 'SIND_DOWN', 'HEPATICA', 'ASMA', 'DIABETES', 'NEUROLOGIC', 'RENAL', 'OBESIDADE']

In [11]:
""" Mapeando dados para os sintomas e fatores de risco (Comorbidades)
Valores padrões para colunas a seguir: Sim (1)
                                       Não (0)
                                       Não informado (np.Nan)
"""
# Sintomas:
for sintoma in SINTOMAS:
    df_all[sintoma] = df_all[sintoma].map({
        1: 1,
        2: 0,
        9: np.NaN
    })

# Comorbidades
for comorbidade in COMORBIDADES:
    df_all[comorbidade] = df_all[comorbidade].map({
        1: 1,
        2: 0,
        9: np.NaN
    })

# Caso fator de risco for == 2, prencher com 0 (Negativo)
df_all['FATOR_RISC'].replace([2], 0, inplace=True)

In [12]:
# Quantidade de SINTOMAS e COMORBIDADES por paciente
df_all['NUM_SINTOMAS'] = df_all[SINTOMAS].sum(axis=1)
df_all['NUM_COMORBI'] = df_all[COMORBIDADES].sum(axis=1)

In [13]:
# Adicionando Idade e Faixa Etária
# caso a idade for do tipo 1 e 2 , quer dizer que o paciente ainda não completou 1 ano de idade
df_all['AGE'] = np.where(df_all['TP_IDADE'].isin([1, 2]), 0, df_all['NU_IDADE_N'])

In [14]:
# Classificando pacientes por grupo de idades
bins = [0, 18, 40, 60, 70, 80, 90, np.inf]
labels = ['0-17','18-39','40-59','60-69','70-79','80-89','>=90'] # CONFERIR SE TA CERTO

df_all['AGE_GROUP'] = pd.cut(df_all['AGE'], bins, False, labels)

In [15]:
# Baseado na coluna EVOLUCAO, desconsiderando casos de óbito por outras causas e casos ignorados
df_all['OUTCOME'] = df_all['EVOLUCAO'].replace([1, 2, 3, 9], ['cure', 'death', np.NaN, np.NaN])

In [16]:
# Criando a coluna de regiões de cada paciente
condlist = [
    (df_all['SG_UF_NOT'].str.contains('AC|AP|AM|PA|RO|RR|TO')),
    (df_all['SG_UF_NOT'].str.contains('AL|BA|CE|MA|PB|PE|PI|RN|SE')),
    (df_all['SG_UF_NOT'].str.contains('GO|MT|MS|DF')),
    (df_all['SG_UF_NOT'].str.contains('ES|MG|RJ|SP')),
    (df_all['SG_UF_NOT'].str.contains('SC|PR|RS'))
]

choicelist = ['North', 'Northeast', 'Midwest', 'Southeast', 'South']

df_all['REGION'] = np.select(condlist, choicelist, default=np.NaN)

In [17]:
# Criando coluna de raça por paciente baseado na coluna CS_RACA
df_all['RACE'] = df_all['CS_RACA'].replace([1, 2, 3, 4, 5, 9], ['White', 'Black', 'Asian', 'Brown', 'Indigenous', np.NaN])

In [18]:
# Criando coluna de educação (Nivel de escolaridade) baseado na coluna CS_ESCOL_N
df_all['EDUCATION'] = df_all['CS_ESCOL_N'].replace([0, 1, 2, 3, 4, 5, 9], ['Illiterate', 'ES-1', 'ES-2', 'HS', 'HE', 'NA', np.NaN])

In [19]:
# Convertendo datas para datetime
listDates = ['DOSE_1_COV', 'DOSE_2_COV', 'DOSE_REF', 'DT_INTERNA', 'DT_SIN_PRI', 'DT_EVOLUCA']

for column_date in listDates:
    df_all[column_date] = pd.to_datetime(df_all[column_date], format='%d/%m/%Y', errors='coerce')

In [20]:
# Criando coluna que diz se o paciente foi internado na UTI
df_all['ICU'] = df_all['UTI'].replace([1, 2, 9], [1, 0, np.NaN])

In [21]:
# Criando coluna que diz se o paciente fez uso do suporte ventilatório INVASIVO
df_all['IMV'] = df_all['SUPORT_VEN'].replace([1, 2, 3, 9], [1, 0, 0, np.NaN])

In [22]:
# Criando coluna que diz se o paciente fez uso do suporte ventilatório NÃO INVASIVO
df_all['NIMV'] = df_all['SUPORT_VEN'].replace([1, 2, 3, 9], [0, 1, 0, np.NaN])

In [23]:
# Criação da coluna da gravidade das dos sintomas do paciente

# SINTOMAS = ['FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA', 'DESC_RESP', 'SATURACAO', 'DIARREIA', 'VOMITO', 'DOR_ABD', 'FADIGA', 'PERD_OLFT', 'PERD_PALA']

condlist = [
    ((df_all['SUPORT_VEN'] == 1) | (df_all['UTI'] == 1)),
    (df_all['SATURACAO'] == 1),
    ((df_all['DESC_RESP'] == 1) | (df_all['DISPNEIA'] == 1)),
    ((df_all['NUM_SINTOMAS'] > 0) & (df_all['DESC_RESP'] != 1) & (df_all['DISPNEIA'] != 1)),
    (df_all['NUM_SINTOMAS'] == 0)
]

choicelist = [
    'critical',
    'severe',
    'moderate',
    'mild',
    'asymptomatic'
]

df_all['DISEASE_SEVERITY'] = np.select(condlist, choicelist, default=np.NaN)

In [24]:
print(f"All data: {df_all.shape}")

All data: (2122006, 59)


In [25]:
# Mantendo apenas pacientes que tenham o resultado final do tratamento hospitalar com o valor de 'cure' ou 'death'
select = df_all['OUTCOME'].isin(['cure', 'death'])
df_all = df_all[select]
print(f"Patients with closed outcome: {df_all.shape}")

Patients with closed outcome: (1779771, 59)


In [26]:
# Mantendo apenas pacientes maiores de idade
select = ((df_all['AGE_GROUP'] == '18-39') | (df_all['AGE_GROUP'] == '40-59') | (df_all['AGE_GROUP'] == '60-69') | (df_all['AGE_GROUP'] == '70-79') | (df_all['AGE_GROUP'] == '80-89') | (df_all['AGE_GROUP'] == '>=90'))
df_all = df_all[select]
print(f"Patients >= 18 yrs: {df_all.shape}")

Patients >= 18 yrs: (1578079, 59)


In [27]:
# Mantendo apenas pacientes que tenham genero definido como masculino ou feminino
select = df_all['CS_SEXO'].isin(['M', 'F'])
df_all = df_all[select]
print(f"Patients with gender: {df_all.shape}")

Patients with gender: (1577932, 59)


In [28]:
# Mantendo apenas pacientes que foram hospitalizados
select = df_all['HOSPITAL'] == 1
df_all = df_all[select]
print(f"Patients hospitalized: {df_all.shape}")

Patients hospitalized: (1517329, 59)


In [29]:
# Conferindo se tem algum paciente que foi hospitalizado sem data de internação
df_all['DT_INTERNA'].info()

<class 'pandas.core.series.Series'>
Int64Index: 1517329 entries, 1 to 2122001
Series name: DT_INTERNA
Non-Null Count    Dtype         
--------------    -----         
1492918 non-null  datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 23.2 MB


In [30]:
# Mantendo apenas pacientes que foram hospitalizados do dia 05/09/2021 até 02/04/2022
select = ((df_all['DT_INTERNA'] > '05/09/2021') & (df_all['DT_INTERNA'] < '02/04/2022'))
df_all = df_all[select]
print(f"Patients hospitalized btw 05/09/2021 and 02/04/2022': {df_all.shape}")

Patients hospitalized btw 05/09/2021 and 02/04/2022': (690987, 59)


In [31]:
# Mantendo apenas pacientes hospitalizados com Síndrome Respiratória Aguda Grave por causa da COVID-19.
select = df_all['CLASSI_FIN'] == 5
df_all = df_all[select]
print(f"Patients with COVID-19: {df_all.shape}")

Patients with COVID-19: (514952, 59)


In [32]:
# Mantendo apenas pacientes testados com antígeno ou PCR
select = ((df_all['PCR_SARS2'] == 1) | (df_all['AN_SARS2'] == 1))
df_all = df_all[select]
print(f"Patients tested by RT_PCR or Antigen: {df_all.shape}")

Patients tested by RT_PCR or Antigen: (393283, 59)


In [33]:
# Mantendo apenas pacientes com status de vacinação sim ou não
select = df_all['VACINA_COV'].isin([1, 2])
df_all = df_all[select]
print(f"Patients tested by RT_PCR or Antigen: {df_all.shape}")

Patients tested by RT_PCR or Antigen: (309456, 59)


In [34]:
df_all.to_csv("datasets/INFLUD21&22-01-08-2022-FILTERED.csv", sep=';', index=False)

# Mapeamento dos fabricantes das vacinas

In [35]:
# Caso tiver informações na primeira coluna de FAB_COV_1, completar as outras colunas de Fabricantes das vacinas.
df_all.loc[df_all['FAB_COV_1'].str.contains('.*02 DOSES.*|.*2DOSE.*|.*2 DOSE.*|.*2 DOSES.*|.*1/2DOSE.*|.*1.*/2.*DOSE', na=False), 'FAB_COV_2'] = df_all['FAB_COV_1']
df_all.loc[df_all['FAB_COV_1'].str.contains('.*03 DOSES.*|.*03 DOSE.*|.*3 DOSE.*|.*3 DOSES.*', na=False), 'FAB_COVREF'] = df_all['FAB_COV_1']

In [36]:
# Padronizando nomes da vacinas.
df_all.loc[df_all['FAB_COV_1'].str.contains('.*VAC.*|.*BUT.*|.*COR.*|.*TANT.*|.*BUNT.*|.*SINOV.*|BURANTAN', na=False), 'FAB_COV_1'] = 'CoronaVac'
df_all.loc[df_all['FAB_COV_1'].str.contains('.*ASTR.*|.*OX.*|.*FIO.*|.*OSWALDO.*|.*NECA.*|.*ZENICA.*|.*CRUZ.*|.*COVISH.*|COVISSHIELD|ATRAZENCA|OSFORD|COVIDSCHILD|.*AZTRA.*|.*ORXFORD.*|.*ATRAZ.*|.*COVIS.*', na=False), 'FAB_COV_1'] = 'Vexzevria'
df_all.loc[df_all['FAB_COV_1'].str.contains('.*PFIZER.*|.*PFAZER.*|.*PF.*|.*ZER.*|PIFAZER|PZIFER|.*BIONT.*|COMIRNATY|PZIER|BIOTECH|.*TECH.*|FAISER|COMINARTY', na=False), 'FAB_COV_1'] = 'Comirnaty'
df_all.loc[df_all['FAB_COV_1'].str.contains('.*JAN.*|.*JASS.*|.*JONH.*|.*JOHS.*|.*JHON.*|.*JHAN.*|.*JHOM.*|.*JOHN.*|.*JENS.*|JASEN|.*JAHNS.*|JONSSEN|.*J+J.*', na=False), 'FAB_COV_1'] = 'Janssen'

In [37]:
df_all.loc[df_all['FAB_COV_2'].str.contains('.*VAC.*|.*BUT.*|.*COR.*|.*TANT.*|BUANTAN|.*SINOVAS.*', na=False), 'FAB_COV_2'] = 'CoronaVac'
df_all.loc[df_all['FAB_COV_2'].str.contains('.*ASTR.*|.*OX.*|.*FIO.*|.*OSWALDO.*|.*NECA.*|.*ZENICA.*|.*CRUZ.*|214VCD089W|217VCD238Z|218VCD263Z|.*AZTRA.*|.*ORXFORD.*|OSFORD', na=False), 'FAB_COV_2'] = 'Vexzevria'
df_all.loc[df_all['FAB_COV_2'].str.contains('.*PFIZER.*|.*PFAZER.*|.*PF.*|PHIZER|.*ZER.*|PZIFER|PZIPER|.*TEC.*|J+J', na=False), 'FAB_COV_2'] = 'Comirnaty'
df_all.loc[df_all['FAB_COV_2'].str.contains('.*JAN.*|.*JASS.*|JHONSON|JAHSSEN', na=False), 'FAB_COV_2'] = 'Janssen'

In [38]:
df_all.loc[df_all['FAB_COVREF'].str.contains('.*VAC.*|.*BUTAN.*|.*COR.*', na=False), 'FAB_COVREF'] = 'CoronaVac'
df_all.loc[df_all['FAB_COVREF'].str.contains('.*ASTR.*|.*OXFORD.*|.*FIOCRUZ.*|.*OSWALDO.*|.*NECA.*|.*CRUZ.*|.*CUZ.*|.*AZTRA.*', na=False), 'FAB_COVREF'] = 'Vexzevria'
df_all.loc[df_all['FAB_COVREF'].str.contains('.*PFIZER.*|.*PFAZER.*|.*ZER.*|.*PF.*|.*P.*ER.*|PHIZER|FIZER|BIONTECH|PZIZER|FH8025|FN3543|.*TEC.*|COMIRNATY|.*BIO.*|FAESSER|COMINARTY', na=False), 'FAB_COVREF'] = 'Comirnaty'
df_all.loc[df_all['FAB_COVREF'].str.contains('.*JAN.*|.*JASS.*|.*JAIS.*', na=False), 'FAB_COVREF'] = 'Janssen'

In [39]:
# vaccines = ['CoronaVac', 'Vexzevria', 'Comirnaty', 'Janssen', np.NaN]
# Removendo Outliers

condition = (df_all['FAB_COV_1'] != 'CoronaVac') & (df_all['FAB_COV_1'] != 'Vexzevria') & (df_all['FAB_COV_1'] != 'Comirnaty') & (df_all['FAB_COV_1'] != 'Janssen') & (df_all['FAB_COV_1'].notnull())

index_list_remove_fab1 = df_all[condition].index
df_all.drop(index_list_remove_fab1, inplace=True)

condition = (df_all['FAB_COV_2'] != 'CoronaVac') & (df_all['FAB_COV_2'] != 'Vexzevria') & (df_all['FAB_COV_2'] != 'Comirnaty') & (df_all['FAB_COV_2'] != 'Janssen') & (df_all['FAB_COV_2'].notnull())

index_list_remove_fab2 = df_all[condition].index
df_all.drop(index_list_remove_fab2, inplace=True)

condition = (df_all['FAB_COVREF'] != 'CoronaVac') & (df_all['FAB_COVREF'] != 'Vexzevria') & (df_all['FAB_COVREF'] != 'Comirnaty') & (df_all['FAB_COVREF'] != 'Janssen') & (df_all['FAB_COVREF'].notnull())

index_list_remove_fabref = df_all[condition].index
df_all.drop(index_list_remove_fabref, inplace=True)

In [40]:
df_all.loc[(df_all['DOSE_2_COV'].notnull() & df_all['FAB_COV_2'].isnull()), 'FAB_COV_2'] = df_all['FAB_COV_1']
df_all.loc[(df_all['DOSE_REF'].notnull() & df_all['FAB_COVREF'].isnull()), 'FAB_COVREF'] = df_all['FAB_COV_1']

In [41]:
# Removendo linhas que tenham 1 data de vacinação e não tem o fabricante
condition = df_all['DOSE_1_COV'].notnull() & df_all['FAB_COV_1'].isnull()
index_list_remove = df_all[condition].index
df_all.drop(index_list_remove, inplace=True)

In [42]:
# Removendo linhas que tenham 2 data de vacinação e não tem o fabricante
condition = df_all['DOSE_2_COV'].notnull() & df_all['FAB_COV_2'].isnull()
index_list_remove = df_all[condition].index
df_all.drop(index_list_remove, inplace=True)

In [43]:
# Removendo linhas que tenham 3 data de vacinação, dose de reforço, e não tem o fabricante da vacinação
condition = df_all['DOSE_REF'].notnull() & df_all['FAB_COVREF'].isnull()
index_list_remove = df_all[condition].index
df_all.drop(index_list_remove, inplace=True)

In [44]:
# Verificando se existem pacientes com status vacinado (VACINA_COV == 1) que não tem nehuma data ( DOSE_1_COV, DOSE_2_COV, DOSE_REF) e removendo essas linhas do dataset
condition = df_all['DOSE_1_COV'].isnull() & df_all['DOSE_2_COV'].isnull() & df_all['DOSE_REF'].isnull() & (df_all['VACINA_COV'] == 1)
index_list_remove = df_all[condition].index
df_all.drop(index_list_remove, inplace=True)

In [45]:
# Verificando a quantidade de doses que o paciente tomou
conditionlist = [
    (df_all['DOSE_1_COV'].notnull() & df_all['DOSE_2_COV'].notnull() & df_all['DOSE_REF'].notnull()),
    (df_all['DOSE_1_COV'].notnull() & df_all['DOSE_2_COV'].notnull() & df_all['DOSE_REF'].isnull()),
    (df_all['DOSE_1_COV'].notnull() & df_all['DOSE_2_COV'].isnull() & df_all['DOSE_REF'].isnull()),
    (df_all['DOSE_1_COV'].isnull() & df_all['DOSE_2_COV'].isnull() & df_all['DOSE_REF'].isnull())
]
choicelist = [3, 2, 1, 0]

df_all['NUM_DOSES_VACINAS'] = np.select(conditionlist, choicelist, default=np.NaN)

In [46]:
# Verificar vacina principal das doses tomadas
conditionlist = [
    (df_all['FAB_COV_1'] == df_all['FAB_COV_2']),
    (df_all['FAB_COV_2'] == df_all['FAB_COVREF']),
    (df_all['FAB_COV_1'] == df_all['FAB_COVREF']),
    (df_all['FAB_COV_1'].notnull() & df_all['FAB_COV_2'].isnull() & df_all['FAB_COVREF'].isnull()),
    (df_all['FAB_COV_1'].isnull() & df_all['FAB_COV_2'].notnull() & df_all['FAB_COVREF'].isnull()),
    (df_all['FAB_COV_1'].isnull() & df_all['FAB_COV_2'].isnull() & df_all['FAB_COVREF'].notnull())
]
choicelist = [df_all['FAB_COV_1'], df_all['FAB_COV_2'], df_all['FAB_COVREF'], df_all['FAB_COV_1'], df_all['FAB_COV_2'], df_all['FAB_COVREF']]

df_all['MAIN_VAC'] = np.select(conditionlist, choicelist, default=np.NaN)

# Separação das bases

In [51]:
select = (df_all['DT_INTERNA'] > '05/09/2021') & (df_all['DT_INTERNA'] < '18/12/2021')
df_all_exp_01 = df_all[select]

df_all_exp_01.to_csv('outputs/INFLUD_05-09-2021_&_18-12-2021.csv', sep=';', index=False)
df_all_exp_01

  return self._cmp_method(other, operator.lt)


Unnamed: 0,DT_SIN_PRI,SG_UF_NOT,CS_SEXO,NU_IDADE_N,TP_IDADE,CS_GESTANT,CS_RACA,CS_ESCOL_N,FEBRE,TOSSE,...,OUTCOME,REGION,RACE,EDUCATION,ICU,IMV,NIMV,DISEASE_SEVERITY,NUM_DOSES_VACINAS,MAIN_VAC
690,2021-04-30,SP,M,33,3,6,4,3.0,1.0,1.0,...,cure,Southeast,Brown,HS,1.0,0.0,1.0,critical,0.0,
700,2021-05-06,RS,M,37,3,6,1,,0.0,1.0,...,cure,South,White,,1.0,0.0,1.0,critical,0.0,
705,2021-05-01,DF,F,54,3,5,4,9.0,1.0,1.0,...,cure,Midwest,Brown,,1.0,1.0,0.0,critical,0.0,
716,2021-04-30,SP,M,53,3,6,1,3.0,1.0,1.0,...,death,Southeast,White,HS,0.0,0.0,1.0,severe,0.0,
718,2021-05-06,PR,M,69,3,6,4,9.0,0.0,1.0,...,death,South,Brown,,0.0,1.0,0.0,critical,1.0,Vexzevria
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2112290,2022-01-24,SP,M,62,3,6,1,9.0,,,...,cure,Southeast,White,,0.0,,,asymptomatic,2.0,Comirnaty
2113198,2022-01-19,RN,M,30,3,6,4,9.0,0.0,0.0,...,cure,Northeast,Brown,,1.0,0.0,1.0,critical,1.0,CoronaVac
2114915,2022-01-11,SP,M,52,3,6,1,9.0,1.0,1.0,...,cure,Southeast,White,,0.0,0.0,0.0,mild,2.0,Vexzevria
2117244,2022-01-17,CE,M,49,3,6,4,3.0,1.0,1.0,...,cure,Northeast,Brown,HS,0.0,0.0,1.0,moderate,2.0,Comirnaty


In [52]:
select = (df_all['DT_INTERNA'] > '19/12/2021') & (df_all['DT_INTERNA'] < '02/04/2022')
df_all_exp_02 = df_all[select]

df_all_exp_02.to_csv('outputs/INFLUD_19-12-2021_&_02-04-2022.csv', sep=';', index=False)
df_all_exp_02

  return self._cmp_method(other, operator.gt)


Unnamed: 0,DT_SIN_PRI,SG_UF_NOT,CS_SEXO,NU_IDADE_N,TP_IDADE,CS_GESTANT,CS_RACA,CS_ESCOL_N,FEBRE,TOSSE,...,OUTCOME,REGION,RACE,EDUCATION,ICU,IMV,NIMV,DISEASE_SEVERITY,NUM_DOSES_VACINAS,MAIN_VAC
1611,2021-12-30,SP,F,57,3,5,1,2.0,1.0,1.0,...,cure,Southeast,White,ES-2,0.0,0.0,1.0,severe,1.0,Vexzevria
1618,2021-12-13,CE,M,84,3,6,4,,1.0,1.0,...,cure,Northeast,Brown,,1.0,,,critical,0.0,
1622,2021-12-30,PE,M,62,3,6,4,0.0,1.0,1.0,...,cure,Northeast,Brown,Illiterate,0.0,0.0,1.0,severe,2.0,Vexzevria
1637,2022-01-01,SP,M,22,3,6,1,2.0,0.0,1.0,...,cure,Southeast,White,ES-2,1.0,0.0,0.0,critical,2.0,Comirnaty
1638,2021-12-30,SC,F,86,3,5,1,1.0,0.0,1.0,...,death,South,White,ES-1,0.0,0.0,1.0,severe,2.0,CoronaVac
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2121789,2022-01-17,BA,M,70,3,6,4,1.0,1.0,1.0,...,cure,Northeast,Brown,ES-1,1.0,0.0,1.0,critical,3.0,Vexzevria
2121790,2022-01-27,MG,M,70,3,6,1,,,1.0,...,death,Southeast,White,,1.0,1.0,0.0,critical,,CoronaVac
2121816,2022-01-10,GO,M,82,3,6,1,,1.0,0.0,...,death,Midwest,White,,1.0,1.0,0.0,critical,3.0,CoronaVac
2121835,2022-01-31,PA,F,87,3,6,4,9.0,1.0,1.0,...,cure,North,Brown,,0.0,0.0,0.0,severe,3.0,CoronaVac
