### Previsão de Mortes Neonatal

Neste projeto, vamos utilizar dados públicos do SINASC (Sistema de Nascidos Vivos) e do SIM (Sistema de Mortalidade) para construir modelos de aprendizado de máquina capazes de prever o risco de morte neonatal (até 28 dias após o nascimento).

*Alunos:*
- Júlia Moraes
- Luiz Eduardo

#### Imports necessários para o projeto

In [None]:
import pandas as pd
import numpy as np

#### 1.Datasets

##### 1.1 SINAC - Sistema de Nascidos Vivos 

Iniciaremos fazendo o tratamento e limpeza nos dados do SINAC, que adquirimos no site do Ministério da Saúde.

O Governo disponibiliza o [Dicionário de Dados](https://diaad.s3.sa-east-1.amazonaws.com/sinasc/SINASC+-+Estrutura.pdf) referente ao arquivo .csv utilizado. No entanto, neste trabalho serão abordados apenas os campos relevantes para o desenvolvimento do projeto.


##### Variáveis úteis para antes do parto

- Idade da Mãe (IDADEMAE): extremos de idade tais como adolescentes e mulheres mais velhas que 40 anos apresentam mais risco por fatores biológicos
- Número de consultas pré-natais (CONSULTAS): menos consultas significa mais risco de problemas não detectados
- Início pré-natal (MESPRENAT): início tardio pode significar mais risco de problemas não detectados
- Paridade (PARIDADE): primíparas e multíparas com histórico de perdas podem ter riscos diferentes
- Gravidez múltipla (GRAVIDEZ): gêmeos/trigêmeos têm maior risco de prematuridade e baixo peso.

##### Variáveis no nascimento
- Peso ao nascer (PESO): peso baixo ao nascer são fortes preditores de mortalidade
- Idade Gestacional (SEMAGESTAC): principal determinante
- Apgar 1 e 5 minutos (APGAR1, APGAR5): medida imediata da condição neonatal, baixo Apgar indica sofrimento perinatal e forte preditor nos primeiros dias
- Anomalias congênitas (IDANOMAL): se possuir pode aumentar o risco de morte neonatal
- Tipo de parto (PARTO): parto de emergência muitas vezes reflete complicação fetal/materna
- Índice de Kotelchuck ( KOTELCHUCK): avaliação da assistência pré-natal

In [4]:
sinac = pd.read_csv("SINASC_2023.csv", sep=";")

  sinac = pd.read_csv("SINASC_2023.csv", sep=";")


In [5]:
# ver as primeiras 5 linhas 
sinac.head()

Unnamed: 0,contador,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,...,TPFUNCRESP,TPDOCRESP,DTDECLARAC,ESCMAEAGR1,STDNEPIDEM,STDNNOVA,CODPAISRES,TPROBSON,PARIDADE,KOTELCHUCK
0,1,1,2679477.0,110001,1,32.0,2.0,4.0,999992.0,3.0,...,2.0,3.0,2012023.0,6.0,0.0,1,1.0,3,1,5
1,2,1,2679477.0,110001,1,18.0,1.0,4.0,999992.0,,...,2.0,3.0,25012023.0,6.0,0.0,1,1.0,10,0,5
2,3,1,2679477.0,110001,1,15.0,5.0,3.0,999992.0,0.0,...,2.0,3.0,10022023.0,3.0,0.0,1,1.0,6,0,3
3,4,1,2516500.0,110001,1,32.0,2.0,3.0,999992.0,1.0,...,2.0,3.0,18012023.0,3.0,0.0,1,1.0,5,1,5
4,5,1,2516500.0,110001,1,27.0,1.0,5.0,999991.0,0.0,...,2.0,3.0,18012023.0,8.0,0.0,1,1.0,1,0,5


In [6]:
# quantidade de linhas e colunas
sinac.shape

(2537576, 62)

In [7]:
# informações gerais
sinac.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2537576 entries, 0 to 2537575
Data columns (total 62 columns):
 #   Column      Dtype  
---  ------      -----  
 0   contador    int64  
 1   ORIGEM      int64  
 2   CODESTAB    float64
 3   CODMUNNASC  int64  
 4   LOCNASC     int64  
 5   IDADEMAE    float64
 6   ESTCIVMAE   float64
 7   ESCMAE      float64
 8   CODOCUPMAE  float64
 9   QTDFILVIVO  float64
 10  QTDFILMORT  float64
 11  CODMUNRES   int64  
 12  GESTACAO    float64
 13  GRAVIDEZ    float64
 14  PARTO       float64
 15  CONSULTAS   float64
 16  DTNASC      int64  
 17  HORANASC    float64
 18  SEXO        int64  
 19  APGAR1      float64
 20  APGAR5      float64
 21  RACACOR     float64
 22  PESO        float64
 23  IDANOMAL    float64
 24  DTCADASTRO  int64  
 25  CODANOMAL   object 
 26  NUMEROLOTE  float64
 27  VERSAOSIST  object 
 28  DTRECEBIM   float64
 29  DIFDATA     int64  
 30  OPORT_DN    int64  
 31  DTRECORIGA  int64  
 32  NATURALMAE  float64
 33  CODMUNN

In [8]:
# estatísticas descritivas
sinac.describe(include="all")

Unnamed: 0,contador,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,...,TPFUNCRESP,TPDOCRESP,DTDECLARAC,ESCMAEAGR1,STDNEPIDEM,STDNNOVA,CODPAISRES,TPROBSON,PARIDADE,KOTELCHUCK
count,2537576.0,2537576.0,2512801.0,2537576.0,2537576.0,2537553.0,2527680.0,2527838.0,2356750.0,2500450.0,...,2474101.0,2527016.0,2513036.0,2517499.0,2537573.0,2537576.0,2537555.0,2537576.0,2537576.0,2537576.0
unique,,,,,,,,,,,...,,,,,,,,,,
top,,,,,,,,,,,...,,,,,,,,,,
freq,,,,,,,,,,,...,,,,,,,,,,
mean,1268788.0,1.000139,2994136.0,320248.0,1.030377,27.65736,2.00628,4.122294,689868.4,1.027298,...,2.85632,3.220967,15783570.0,6.347344,0.6774816,0.9999882,1.0,4.155663,0.6351045,4.473895
std,732535.2,0.01179364,1999851.0,100699.7,0.2624615,6.724978,1.451708,0.6814163,305879.9,1.352322,...,1.424529,1.033406,8776789.0,2.33997,0.4674402,0.003438338,0.0,2.698849,0.4814009,1.398146
min,1.0,1.0,94.0,110001.0,1.0,8.0,1.0,1.0,10205.0,0.0,...,0.0,0.0,1012023.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0
25%,634394.8,1.0,2119528.0,260120.0,1.0,22.0,1.0,4.0,413205.0,0.0,...,2.0,3.0,8082023.0,5.0,0.0,1.0,1.0,2.0,0.0,4.0
50%,1268788.0,1.0,2461005.0,320530.0,1.0,27.0,1.0,4.0,622020.0,1.0,...,2.0,3.0,16022020.0,6.0,1.0,1.0,1.0,4.0,1.0,5.0
75%,1903182.0,1.0,2798220.0,355030.0,1.0,33.0,2.0,4.0,999992.0,2.0,...,5.0,4.0,23102020.0,8.0,1.0,1.0,1.0,5.0,1.0,5.0


In [9]:
# verificando porcentagem de valores nulos
sinac.isnull().mean() * 100

contador      0.000000
ORIGEM        0.000000
CODESTAB      0.976325
CODMUNNASC    0.000000
LOCNASC       0.000000
                ...   
STDNNOVA      0.000000
CODPAISRES    0.000828
TPROBSON      0.000000
PARIDADE      0.000000
KOTELCHUCK    0.000000
Length: 62, dtype: float64

In [10]:
# verificando os tipos de dados de cada coluna
for coluna, tipo in sinac.dtypes.items():
    print(f"{coluna}: {tipo}")

contador: int64
ORIGEM: int64
CODESTAB: float64
CODMUNNASC: int64
LOCNASC: int64
IDADEMAE: float64
ESTCIVMAE: float64
ESCMAE: float64
CODOCUPMAE: float64
QTDFILVIVO: float64
QTDFILMORT: float64
CODMUNRES: int64
GESTACAO: float64
GRAVIDEZ: float64
PARTO: float64
CONSULTAS: float64
DTNASC: int64
HORANASC: float64
SEXO: int64
APGAR1: float64
APGAR5: float64
RACACOR: float64
PESO: float64
IDANOMAL: float64
DTCADASTRO: int64
CODANOMAL: object
NUMEROLOTE: float64
VERSAOSIST: object
DTRECEBIM: float64
DIFDATA: int64
OPORT_DN: int64
DTRECORIGA: int64
NATURALMAE: float64
CODMUNNATU: float64
CODUFNATU: object
ESCMAE2010: float64
SERIESCMAE: float64
DTNASCMAE: float64
RACACORMAE: float64
QTDGESTANT: float64
QTDPARTNOR: float64
QTDPARTCES: float64
IDADEPAI: float64
DTULTMENST: float64
SEMAGESTAC: float64
TPMETESTIM: float64
CONSPRENAT: float64
MESPRENAT: float64
TPAPRESENT: float64
STTRABPART: float64
STCESPARTO: float64
TPNASCASSI: float64
TPFUNCRESP: float64
TPDOCRESP: float64
DTDECLARAC: float6

In [11]:
# renomear colunas para facilitar o entendimento
sinac.rename(columns={
    "IDADEMAE": "idade_mae",
    "CONSULTAS": "consultas_prenatal",
    "MESPRENAT": "mes_inicio_prenatal",
    "PARIDADE": "paridade",
    "GRAVIDEZ": "tipo_gravidez",
    "PESO": "peso_bebe",
    "SEMAGESTAC": "semanas_gestacao",
    "APGAR1": "apgar_1min",
    "APGAR5": "apgar_5min",
    "IDANOMAL": "anomalia_identificada",
    "PARTO": "tipo_parto",
    "KOTELCHUCK": "indice_kotelchuck",
    "ESCMAE": "escolaridade_mae"
}, inplace=True)

In [12]:
# remover linhas duplicadas
sinac.drop_duplicates(inplace=True)

Criação de variáveis clinicamente relevantes para a predição 

In [13]:
# Baixo peso e muito baixo peso
sinac["baixo_peso"] = (sinac["peso_bebe"] < 2500).astype(int)
sinac["muito_baixo_peso"] = (sinac["peso_bebe"] < 1500).astype(int)

In [14]:
# Prematuro ou prematuro extremo
sinac["prematuro"] = (sinac["semanas_gestacao"] < 37).astype(int)
sinac["prematuro_extremo"] = (sinac["semanas_gestacao"] < 28).astype(int)

In [15]:
# Apgar crítico ou baixo
sinac['apgar5_baixo'] = (sinac['apgar_5min'] < 7).astype(int)
sinac['apgar1_critico'] = (sinac['apgar_1min'] < 4).astype(int)

# Apgar sem melhoria entre o 1 e 5 minutos
sinac['apgar_sem_melhoria'] = ((sinac['apgar_5min'] - sinac['apgar_1min']) <= 2).astype(int)

In [16]:
#Idades da mãe
sinac['mae_adolescente'] = (sinac['idade_mae'] < 18).astype(int)
sinac['mae_idade_avancada'] = (sinac['idade_mae'] > 35).astype(int)

In [17]:
#Pré natal inadequado
sinac['prenatal_inadequado'] = sinac['indice_kotelchuck'].isin([1, 2]).astype(int)
sinac['poucas_consultas'] = (sinac['consultas_prenatal'] < 4).astype(int)
sinac['prenatal_tardio'] = (sinac['mes_inicio_prenatal'] > 3).astype(int)

In [18]:
# Variáveis compostas
sinac['risco_extremo'] = ((sinac['prematuro_extremo'] == 1) & (sinac['muito_baixo_peso'] == 1)).astype(int)
    
sinac['escore_risco_neonatal'] = (
    (sinac['baixo_peso'] == 1) +
        (sinac['prematuro'] == 1) + 
        (sinac['apgar5_baixo'] == 1) +
        (sinac['anomalia_identificada'] == 1)
    )

sinac['risco_materno'] = (
    (sinac['mae_adolescente'] == 1) +
    (sinac['mae_idade_avancada'] == 1) +
    (sinac['prenatal_inadequado'] == 1)
    )

#### 1.2 SIM (Sistema de mortalidade)

In [19]:
sim = pd.read_csv("DO23OPEN.csv", sep=";")

  sim = pd.read_csv("DO23OPEN.csv", sep=";")


In [None]:
sinac.rename(columns={
    'DTNASC': 'data_nasc',
    'SEXO': 'sexo',
    'CODMUNNASC': 'codmun_res',
    'DTCADASTRO': 'dt_cadastro',
    ''
}, inplace=True)

sim.rename(columns={
    'DTOBITO': 'data_obito', 
    'SEXO': 'sexo',
    'CODMUNRES': 'codmun_res',
    'IDADEMAE': 'idade_mae',
    'DTCADASTRO': 'dt_cadastro',
    'DTNASC': 'data_nasc'
}, inplace=True)


In [None]:
#deixando apenas os obitos que ocorreram em 1 mês de vida
sim = sim[sim['IDADE'] < 302]

In [59]:
sim.head()

Unnamed: 0,contador,ORIGEM,TIPOBITO,data_obito,HORAOBITO,NATURAL,CODMUNNATU,data_nasc,IDADE,sexo,...,TPRESGINFO,TPNIVELINV,DTCADINF,MORTEPARTO,DTCONCASO,ALTCAUSA,CAUSABAS_O,TPPOS,TP_ALTERA,CB_ALT
0,35,1,2,1012023,2150.0,835.0,350400.0,17122022.0,215,1,...,,,2022023.0,3.0,2022023.0,2.0,Q248,S,,
1,243,1,2,1012023,2030.0,823.0,230190.0,1012023.0,105,1,...,,,1032023.0,3.0,5012023.0,2.0,P228,S,,
4,414,1,2,1012023,624.0,835.0,355700.0,30122022.0,201,1,...,,,15022023.0,3.0,9022023.0,2.0,P369,S,,
5,429,1,2,1012023,2300.0,851.0,510760.0,14122022.0,218,2,...,,,20022024.0,9.0,,,Q042,N,,
7,451,1,2,1012023,120.0,841.0,411840.0,31122022.0,201,1,...,,,25032023.0,3.0,25032023.0,1.0,P072,S,,


In [60]:
sim.shape

(25094, 86)

In [None]:
#pegando os casos que estão nos dois datasets
matches = pd.merge(
    sinac,
    sim,
    left_on=['sexo', 'codmun_res', 'idade_mae', 'data_nasc', 'RACACOR'],
    right_on=['sexo', 'codmun_res', 'idade_mae', 'data_nasc', 'RACACOR'],
    suffixes=('_sinac', '_sim')
)

In [65]:
matches.shape

(27818, 159)

In [66]:
matches.head()

Unnamed: 0,contador_sinac,ORIGEM_sinac,CODESTAB_sinac,codmun_res,LOCNASC,idade_mae,ESTCIVMAE,escolaridade_mae,CODOCUPMAE,QTDFILVIVO_sinac,...,TPRESGINFO,TPNIVELINV,DTCADINF,MORTEPARTO,DTCONCASO,ALTCAUSA,CAUSABAS_O,TPPOS,TP_ALTERA,CB_ALT
0,29,1,2494299.0,110002,1,26.0,4.0,4.0,354705.0,0.0,...,,,15022023.0,3.0,15022023.0,2.0,P000,S,,
1,441,1,2494299.0,110002,1,33.0,4.0,4.0,512105.0,2.0,...,,,6062023.0,9.0,,,Q249,N,,
2,1723,1,2496046.0,110004,1,24.0,2.0,4.0,999992.0,0.0,...,,,14062023.0,9.0,,,Q000,S,,
3,2338,1,3049450.0,110009,1,25.0,1.0,4.0,621005.0,1.0,...,,,24042023.0,3.0,24042023.0,2.0,P363,,,
4,2591,1,2515768.0,110010,1,28.0,1.0,4.0,999992.0,1.0,...,,,15052023.0,3.0,15052023.0,2.0,Q878,N,,


In [68]:
matches['contador'] = range(len(matches))

In [69]:
matches['contador']

0            0
1            1
2            2
3            3
4            4
         ...  
27813    27813
27814    27814
27815    27815
27816    27816
27817    27817
Name: contador, Length: 27818, dtype: int64

#### Limpando o novo dataset

In [70]:
matches.drop(columns=['contador_sinac', 'contador_sim'], inplace=True)

In [74]:
matches.drop(columns=['ORIGEM_sinac', 'ORIGEM_sim', 'DIFDATA_sinac', 'DIFDATA_sim'], inplace=True)
matches.drop(columns=['ESC2010', 'SERIESCFAL', 'OCUP', 'ESC'], inplace=True)

In [75]:
matches.head()

Unnamed: 0,CODESTAB_sinac,codmun_res,LOCNASC,idade_mae,ESTCIVMAE,escolaridade_mae,CODOCUPMAE,QTDFILVIVO_sinac,QTDFILMORT_sinac,CODMUNRES,...,TPNIVELINV,DTCADINF,MORTEPARTO,DTCONCASO,ALTCAUSA,CAUSABAS_O,TPPOS,TP_ALTERA,CB_ALT,contador
0,2494299.0,110002,1,26.0,4.0,4.0,354705.0,0.0,0.0,110002,...,,15022023.0,3.0,15022023.0,2.0,P000,S,,,0
1,2494299.0,110002,1,33.0,4.0,4.0,512105.0,2.0,1.0,110002,...,,6062023.0,9.0,,,Q249,N,,,1
2,2496046.0,110004,1,24.0,2.0,4.0,999992.0,0.0,0.0,110004,...,,14062023.0,9.0,,,Q000,S,,,2
3,3049450.0,110009,1,25.0,1.0,4.0,621005.0,1.0,0.0,110009,...,,24042023.0,3.0,24042023.0,2.0,P363,,,,3
4,2515768.0,110010,1,28.0,1.0,4.0,999992.0,1.0,2.0,110010,...,,15052023.0,3.0,15052023.0,2.0,Q878,N,,,4


In [76]:
print(matches.isnull().sum())

CODESTAB_sinac      510
codmun_res            0
LOCNASC               0
idade_mae             0
ESTCIVMAE           100
                  ...  
CAUSABAS_O           15
TPPOS              8369
TP_ALTERA         27748
CB_ALT            27748
contador              0
Length: 148, dtype: int64


In [77]:
limite = 0.4

#remove colunas com mais de 40% de nulos
matches = matches.loc[:, matches.isnull().mean() < limite]

In [78]:
matches.head()

Unnamed: 0,CODESTAB_sinac,codmun_res,LOCNASC,idade_mae,ESTCIVMAE,escolaridade_mae,CODOCUPMAE,QTDFILVIVO_sinac,QTDFILMORT_sinac,CODMUNRES,...,STDOEPIDEM,STDONOVA,FONTES,DTCADINF,MORTEPARTO,DTCONCASO,ALTCAUSA,CAUSABAS_O,TPPOS,contador
0,2494299.0,110002,1,26.0,4.0,4.0,354705.0,0.0,0.0,110002,...,0.0,1,SXSSXX,15022023.0,3.0,15022023.0,2.0,P000,S,0
1,2494299.0,110002,1,33.0,4.0,4.0,512105.0,2.0,1.0,110002,...,0.0,1,XXXXXX,6062023.0,9.0,,,Q249,N,1
2,2496046.0,110004,1,24.0,2.0,4.0,999992.0,0.0,0.0,110004,...,0.0,1,XXXXXX,14062023.0,9.0,,,Q000,S,2
3,3049450.0,110009,1,25.0,1.0,4.0,621005.0,1.0,0.0,110009,...,0.0,1,SXSSXX,24042023.0,3.0,24042023.0,2.0,P363,,3
4,2515768.0,110010,1,28.0,1.0,4.0,999992.0,1.0,2.0,110010,...,0.0,1,XXSXXX,15052023.0,3.0,15052023.0,2.0,Q878,N,4
