In [51]:
from langchain_community.llms import Ollama 

llm = Ollama(model="mistral")

In [40]:
text = """
resumo 
  O peso do recém-nascido é um fator importante para sua saúde e seu desenvolvimento. Um individuo que nasce com peso abaixo do esperado pode representar riscos tanto para si quanto para a mãe. Baixo peso ao nascer está relacionado a problemas no desenvolvimento da linguagem. Conseguir prever o risco de baixo peso pode ser uma ferramenta médica importante. Trabalhos anteriores com o mesmo objetivo utilizaram tanto informações da mãe como informações do bebê, a partir de exames neonatal. Este trabalho propõe desenvolver um modelo de Machine Learning para prever o o risco de baixo peso ao nascer a partir de dados demográficos da mãe e do pai, disponíveis no SINASC DATASUS.
resumo

Introdução

Segundo a Organização Mundial da Saúde (OMS), Baixo Peso ao Nascer (BPN) é definido como peso inferior a 2500 gramas ao nascer independente do idade gestacional. Quando comparados com bebês que nasceram acima dessa linha de corte, nascidos de baixo peso possuem maior risco de óbito, podem apresentar problemas de crescimento e desenvolvimento intelectual. E quando adultos, podem apresentar maior risco de obesidade, desenvolvimento de doenças do coração e diabetes cite{WHO1. Parto prematuro, má nutrição materna, consumo de alcool e cigarro durante a gestação são fatores já conhecidos que aumentam o risco de BPN. 

A partir do momento que o médico possui a informação de que determinada gravidez possui alto risco de gerar um bebê com baixo peso, uma série de medidas podem ser tomadas para evitar esse desfecho. Melhorar o status nutricional da mãe e o acesso a acompanhamento pré-natal são medidas que tendem a diminuir o risco de Baixo Peso ao Nascer cite{WHO1.

Além disso, existe uma série de intervenções, em diferentes níveis, para previnir BPN. A nível nacional/regional podem ser adotados programas de proteção social, melhoria na qualidade de água, etc. Já a nível pessoa, a suplementação de nutrientes como ferro e ácido fólico contribuem para um melhor desenvolvimento da gravidez.

A proporção de BPN no mundo varia, em média, entre cerca de 7% e 17%, com algumas regiões chegando até 26%. A partir de dados obtidos no DATASUS SINASC, em 2022 a proporção de Baixo Peso ao Nascer foi de cerca de 9%. Conseguir prever com atencedência esse risco pode ser uma importante ferramenta para auxiliar o médico na condução daquela gestação.

Trabalhos anteriores anteriores se ocuparam em desenvolver modelos de Machine Learning (ML) utilizando dados demográficos, condições de saúde pré-existentes e informações de exames pré-natal cite{Ranjbar2023-la. Nesse artigo nós buscamos desenvolver um modelo de Machine Learning com o objetivo de calcular a probabilidade de Baixo Peso ao Nascer utilizando as variáveis disponíveis n'O Sistema de Informações sobre Nascidos Vivos (SINASC).

Revisão da Literatura

Diversos autores se ocuparam tanto em identificar fatores de risco quanto em desenvolver modelos de machine learning para prever baixo peso ao nascer. Chen et al. (2013), a partir de uma base de  101.163 partos em 14 diferentes regiões na China pôde identificar que idade da mãe menor que 20 anos, com baixo nível de educação e histórico de partos adversos são fatores associados ao risco de baixo peso ao nascer.

Ranjbar et al. (2023) testou o uso dos algoritmos Regressão Logística (RL), Árvore de Decisão, Floresta Aleatória, Deep Learning Fastforward, Light GBM, XGBoost, SVM e KNN com dados da Iranian Maternal and Neonatal Network (IMaN Net) de janeiro de 2020 até janeiro de 2022 para desenvolver um modelo de ML capaz de prever baixo peso ao nascer. Em um universo de 8.853 partos, 1.280 (14,5%) foram de bebês com o desfecho de interesse. Além disso, os pesquisadores dispunham tanto de dados demográficos da mãe quanto sua informações de saúde e comorbidades. Para o treino e validação do modelo, a base foi separada em amostra treino (70%) e teste (30%). Já a validação interna foi realiza com k-fold cross-validation. Com esses dados, a equipe constatou que o XGBoost foi o melhor modelo para a tarefa, com acurácia de 0,79, precisão de 0,87, recall de 0,69 e F1 score de 0,77. E, dentre as variáveis disponíveis, idade gestacional e histórico de BPN foram os principais preditores. 

Já Islam Pollob et al. (2022) trabalhou com uma base de 2351 respondentes proveniente da Bangladesh Demographic and Health Survey entre 2017 e 2018 para, também desenvolver um modelo capaz de prever BPN nesse contexto. Dentre as observações, 16.2% foram bebês com baixo peso ao nascer. O estudo dispunha de informações demográficas da mãe, do parto ee do bebê. Os algoritmos Regressão Logística e Árvore de Decisão foram utilizados, e observou-se que a RL atingiu os melhores resultados, com acurácia de 0,87 e AUC de 0,59. No entanto, a conclusão do estudo foi de que seria necessária uma solução mais eficiente para ser utilizada na realidade de Bangladesh. Além disso, esse estudo utilizou variáveis obtidas no momento do parto, como local e tipo de parto.

Singh et al. (2013) realizou um estudo num hospital universitário de cuidados terciários no norte da Índia, em uma base de  250 BPN e 250 com peso maior ou igual a 2.500g. Além disso, esse estudo teve acesso a informações de partos anteriores e de saúde da mãe, como ganho de peso durante a gravidez, incidência de anemia e má nutrição, nível educacional e etc. Os pesquisadores utilizaram seis variáveis preditoras, sendo elas: ganho de peso inadequado na mãe, quantidade de proteína inadequada na dieta da mãe, parto prematuro anterior, parto BPN anterior, anemia e fumante passiva. Modelando com uma regressão logística, a equipe atingiu, na base de validação, sensibilidade de 72% e especificidade de 64%.

Diferente dos trabalhos anteriores, esse estudo busca desenvolver um modelo capaz de indicar o risco de baixo peso ao nascer com base em informações pessoais e demográficas da mãe e do pai. Desse modo, na primeira consulta com o médico já seria possível entender a necessidade de cuidados especiais. Além disso, o Sistema de Informações sobre Nascidos Vivos (SINASC) possui um amplo registro dos partos no Brasil, o que nos permite trabalhar com uma base de dados muito maior do que os trabalhos anteriores.

Métodos

Base de dados

As descobertas desse estudo foram baseadas no Sistema de Informações sobre Nascidos Vivos (SINASC). Este programa foi implementado em 1990 com o objetivo de coletar dados sobre os nascimentos em todo território nacional e para todos os níveis do Sistema de Saúde. Agrupados por ano, as bases disponibilizadas contemplam uma série de informações demográficas sobre a mãe e o pai, além de informações sobre o próprio nascido. Foram selecionados os períodos de 2022 e 2023 para comporem a base de treino e o período de 2024 para a base de teste. Até a presente data, a base correspondente a 2024 possui nascimentos registrados até o dia 11 de junho de 2024.

Pré-processamento e modelagem

A população alvo foi divida conforme o seu peso, nascidos com menos de 2500g foram chamados Baixo Peso ao Nascer e nascidos com peso registrado maior ou igual a 2500g, Não Baixo Peso ao Nascer. Observações sem o peso registrado foram desconsiderados da base de dados. Além disso, as variáveis correspondentes a número de filhos vivos, número de gestações, número de partos normais, número de partos cesária e número de perdas fetais/abortos foram truncadas em 10, visto que uma proporção infima dos dados apresentaram valores maiores do que esse.

Para desenvolver o modelo preditor, os seguintes algorítmos foram testados na tarefa de prever Baixo Peso ao Nascer: eXtreme Gradient Boosting (XGB), Light Gradient Boosting (LGBM), CatBoost, Naive Bayes e Random Forest. Para selecionar quais variáveis seriam consideradas no estudos como preditoras, duas linhas foram seguidas: variáveis sem ligação direta com o bebê, e o parto, e variáveis comuns nos estudos citados na seção de Revisão da Literatura. Desse modo, foram mantidas como possíveis variáveis dependentes a idade da mãe, idade do pai, estado civil da mãe, escolaridade em anos de estudo concluídos da mãe, número de filhos vivos e perdas fetais/abortos, número de partos normais e cesáreos, cor da mãe e tipo de gravidez (Vide Tabela ref{). Todas as variáveis selecionadas possuiam valores faltantes, que foram substituídos pelo valor mais frequente correspondente. Com exceção das variáveis ESTCIVMAE e ESCMAE, que foram substituídas por 9, visto que é um valor padrão para dados faltantes da própria base. Além disso, as variáveis categóricas foram transformadas em variáveis dummy segundo as suas categorias, com a técnica de OneHotEncoder. A linguagem de programação escolhida para desenvolver o estudo foi o Python e as bibliotecas Scikit-learn, Pandas e Seaborn foi utilizada para gerar os modelos de Machine Learning e as análises sobre as variáveis.

Apesar dos dados estarem desbalanceados, optou-se por não aplicar nenhuma técnica de balanceamento. Segundo cite{elor2022smotesmote, técnicas de balanceamento de dados não melhoram a capacidade preditiva de modelos estado da arte, como os algoritmos de boosting. cite{elor2022smotesmote mostrou que balanceamento não melhora a capacidade preditiva de modelos Estado da Arte, como os modelos de Boosting. A recomendação é otimizar o threshold para melhorar modelos desbalanceados, o que foi aplicado neste artigo.

A base de dados correspondente aos períodos de 2022 e 2023 foi utilizada tanto para treino quanto para validação interna, em uma proporção de 70% e 30%, respectivamente. A partir dessas amostras foram selecionados os melhores hiperparametros pela biblioteca Optuna, escolhidas as variáveis preditoras finais e escolhido o melhor modelo para a tarefa de predizer o risco de Baixo Peso ao Nascer. Já a base de teste, dados disponíveis de 2024, foi utilizada para reportar as métricas finais de validação do modelo.

Métricas de validação

Já com relação as métricas de validação observadas, este trabalho reporta a matriz de confusão, acurácia, Precision e Recall. A matriz de confusão é uma ferramenta de auxilio para melhor entender a distribuição de acertos e erros do modelo. A acurácia calcula a proporção de acertos do modelo na base de dados. Dado o alto nível de desbalanceamento da variável dependente, esta métrica deve ser observada com cuidado para não levar a interpretações incorretas da capacidade preditiva do modelo. Precision mede a proporção de verdadeiros positivos. Recall mede a assertividade dentre as observações positivas. Em outras palavras, quando a classe verdadeira era positiva, com que frequência o modelo predisse como positiva. Entendendo que o custo de falsos negativos seja maior do que o de falsos positivos para esse estudo, a métrica Recall foi priorizada no treino do modelo.

Resultados

A base de treino do modelo possuia 9,5% de Baixo Peso ao Nascer, dentre 4.074.684 milhões de nascidos entre 2022 e 2023. As Tabelas ,  ref{ possuem uma série de informações sobre a amostra com relação ao desfecho estudado.

A Tabela  mostra que as médias de idade dos pais e das mães são muito similares entre os BPN e Não-BPN. No entanto, a Tabela ref{ mostra que mães com até 16 anos ou com mais de 35 anos apresentam maior proporção do desfecho. Assim como com relação a idade do pai, nos casos com até 16 anos ou maior que 45 anos.

Já na Tabela  pode-se observar uma maior proporção de Baixo Peso ao Nascer em mães Solteira, Viúvas e Divorciadas se comparadas com mães Casadas e em União Estável, indicando que um maior suporte na gestação tem efeito no peso do bebê. E quanto maior a escolaridade da mãe, menor a incidência de BPN. Além disso, o Tipo de Gravidez também indica alguma relação com o desfecho, visto que nos casos de gravidez Dupla e Tripla ou Mais, a proporção de Baixo Peso ao Nascer observada foi de 62,88% e 96,05%, respectivamente.

Também foi possível observar uma maior incidência de baixo peso ao nascer no caso de mães pretas. Se comparadas com mães brancas (menor valor), a proporção do desfecho é mais de 1,5% maior em mães pretas. Pode-se observar na Tabela  que a escolaridade da mãe tem um efeito negativo na proporção de baixo peso ao nascer: Quanto maior a escolaridade, menor a proporção do desfecho estudado.

A maior parte dos partos registrados são nulíparos, então vemos uma maior proporção de BPN nessa categoria. No entanto, na Figura ref{fig:quantidade_gest podemos observar que a proporção do desfecho aumenta conforme o número de gestações anteriores aumentam. O mesmo ocorre para a quantidade de partos normais e cesária, e para a quantidade de filhos vivos e mortos (Vide Figura ref{fig:quantidades_4plots). Para o treino do modelo a variável referente a quantidade de gestações não foi considerada, visto que ela é uma combinação das variáveis sobre a quantidade de partos normais e quantidade de partos cesáreas.

Os modelos Light Gradient Boosting (LGBM), CatBoost, Naive Bayes e Random Forest foram testados para verificar qual algoritmo desempenha melhor no problema em questão. A Tabela ref{ agrupa os resultados obtidos. Todos os modelos desempenharam de forma semelhante, de modo que poderíasse seguir com qualquer um dos 4. Optou-se por utilizar o Light Gradient Boosting por esse tipo de modelo já ser testado na literatura para essa mesma tarefa cite{Ranjbar2023-la.

Após a escolha do modelo, aplicou-se a otimização de threshold com foco em melhorar o F1-Score na base de Validação Interna. As Tabelas ref{tab:tabela_MetricasValid e ref{tab:tabela_MetricasTeste concentram as métricas de validação das bases de Validação Interna e Teste (jan/24 - jun/24), respectivamente. Pode-se observar que os resultados foram os mesmos em ambos os casos, indicando que não houve overfitting durante o treino do modelo e que as bases são bem homogêneas nos diferentes períodos. No entanto, os resultados obtidos não são satisfatórios. 

Como o objetivo deste trabalho é prever o desfecho de Baixo Peso ao Nascer, a métrica Recall foi considerada a mais importante. O Recall, nesse caso, trata da quantidade de bebês com BPN que foram classificados como BPN pelo modelo. Pode-se observar que o Recall observado foi de 0,22. Ou seja, o modelo foi capaz de identificar somente 22% dos bebês registrados com baixo peso ao nascer.

No entanto, a Tabela ref{tab:tabela_Acertos indica uma boa capacidade do modelo em prever Baixo Peso ao Nascer para os bebês com maior risco. Foram criadas 4 categorias de risco de BPN com base na probabilidade do desfecho:

Desse modo, todos os nascidos no período recebem uma dessas 4 classificações conforme a sua probabilidade do desfecho. A categoria Baixo possui a maior quantidade de observações muito em função do desbalanceamento da base, e nessa categoria o modelo acerta pouco e agrupa a maior parte dos Baixo Peso ao Nascer. No entanto, conforme aumenta-se o risco de BPN, a capacidade do modelo em identificar quem realmente foi BPN aumenta. Na faixa Alto foram identificadas 11.188 observações, entre as quais 7.597 foram de bebês com baixo peso ao nascer, representando um percentual de 67,9%. Já na faixa Muito Alto, das 302 observações identificadas, 92,7% realmente foram BPN. Esses resultados nos mostram uma boa capacidade do modelo em identificar pacientes com maior risco de baixo peso ao nascer.


Discussão

A proposta do trabalho foi desenvolver um modelo de machine learning capaz de prever o risco de baixo peso ao nascer em bebês brasileiros, utilizando a base de dados do SINASC. Como se trata dos registros de nascidos vivos do Brasil, o conjunto de dados era muito grande se comparados aos utilizados em trabalhos anteriores, como cite{Ranjbar2023-la, cite{Islam_Pollob2022-we e cite{Singh2013-xv. No entanto, esses trabalhos dispunham de informações não disponíveis no SINASC, como dados de saúde da mãe e do feto. Nos seus trabalhos essa variáveis desempenharam papel importante na capacidade preditiva dos modelos.

Além disso, este trabalho foi capaz de identificar fatores de risco para o desfecho de BPN e corroborar resultados encontrados anteriormente. cite{Chen2013 identificou que baixo nível de educação e histórico de partos adversos são fatores associados ao risco de baixo peso ao nascer. O mesmo resultado foi identificado aqui, onde a prevalencia do desfecho aumenta conforme a escolaridade diminui. Também foi observado um aumento no desfecho seguindo um aumento no histórico de filhos mortos, corroborando que partos adversos aumenta o risco de baixo peso ao nascer. Outrossim, seguindo o resultado obtido por cite{Ranjbar2023-la, o algoritmo de Machine Learning com melhores resultados foi o XGBoost.

Pôde-se observar um efeito no Estado Civil da mãe, de modo que mulheres solteiras, viúvas ou divorcidadas estão mais propensas a desenvolverem gestações com BPN. Esse fator pode estar associado a falta de amparo no momento da gravidez, mas carece de estudos mais aprofundados nesse quesito. Além disso, a Cor da mãe também apresentou efeito no desfecho. Mães brancas possuem a menor incidência do desfecho, ao passo que mães pretas possuem a maior ocorrência de Baixo Peso ao Nascer.

Também foi identificado um efeito muito significativo com relação ao Tipo de Gravidez. 96,05% dos partos triplos foram BPN, o que mostra a necessidade de uma maior atenção nesse tipo de ocasião. Por fim, a Quantidade de Gestações também parece ter impacto no desfecho, de modo que quanto mais partos (normal ou cesárea) a mãe passou, maior a incidência de BPN.

Já com relação as métricas de validação do modelo, os resultados obtidos não apontam para uma boa separabilidade dos dados com as variáveis disponíveis. O Recall observado na base de Teste foi de 0,15, indicando que o modelo é capaz de identificar corretamente somente 15% dos nascidos com o desfecho estudado. No entanto, ao estratificar a probabilidade do desfecho por faixas de risco, pode-se observar uma boa capacidade do modelo em identificar os casos de mais alto risco, indicando uma caminho de futuras investigações e uso.

Uma vez atingido o objetivo, esse modelo poderia ser utilizado para auxiliar médicos brasileiros na condução das gestações. Mas, para tal tarefa o modelo desenvolvido carece de boa acertividade. Os resultados aqui obtidos podem servir de indicativos para médicos no momento de iniciar um acompanhamento neonatal.

Conclusão

A proposta de desenvolver um modelo de Machine Learning capaz de prever o risco de baixo peso ao nascer utilizando a base de dados do SINASC não foi concluído de forma satisfatória, uma vez que o modelo criado carece de capacidade preditiva no desfecho de interesse. Utilizar o DATASUS limitou o tipo de variável disponível para o desenvolvimento, indicando que somente variáveis demográficas não são suficientes para a criação de um modelo preditivo.
"""


In [2]:
"""text = 
Segundo a Organização Mundial da Saúde (OMS), Baixo Peso ao Nascer (BPN) é definido como peso inferior a 2500 gramas ao nascer independente do idade gestacional. Quando comparados com bebês que nasceram acima dessa linha de corte, nascidos de baixo peso possuem maior risco de óbito, podem apresentar problemas de crescimento e desenvolvimento intelectual. E quando adultos, podem apresentar maior risco de obesidade, desenvolvimento de doenças do coração e diabetes. Parto prematuro, má nutrição materna, consumo de alcool e cigarro durante a gestação são fatores já conhecidos que aumentam o risco de BPN. 

A partir do momento que o médico possui a informação de que determinada gravidez possui alto risco de gerar um bebê com baixo peso, uma série de medidas podem ser tomadas para evitar esse desfecho. Melhorar o status nutricional da mãe e o acesso a acompanhamento pré-natal são medidas que tendem a diminuir o risco de Baixo Peso ao Nascer.

Além disso, existe uma série de intervenções, em diferentes níveis, para previnir BPN. A nível nacional/regional podem ser adotados programas de proteção social, melhoria na qualidade de água, etc. Já a nível pessoa, a suplementação de nutrientes como ferro e ácido fólico contribuem para um melhor desenvolvimento da gravidez.

A proporção de BPN no mundo varia, em média, entre cerca de 7% e 17%, com algumas regiões chegando até 26%. A partir de dados obtidos no DATASUS SINASC, em 2022 a proporção de Baixo Peso ao Nascer foi de cerca de 9% no Brasil. Conseguir prever com atencedência esse risco pode ser uma importante ferramenta para auxiliar o médico na condução daquela gestação.


"""


In [53]:
text = """
resumo 
  O peso do recém-nascido é um fator importante para sua saúde e seu desenvolvimento. Um individuo que nasce com peso abaixo do esperado pode representar riscos tanto para si quanto para a mãe. Baixo peso ao nascer está relacionado a problemas no desenvolvimento da linguagem. Conseguir prever o risco de baixo peso pode ser uma ferramenta médica importante. Trabalhos anteriores com o mesmo objetivo utilizaram tanto informações da mãe como informações do bebê, a partir de exames neonatal. Este trabalho propõe desenvolver um modelo de Machine Learning para prever o o risco de baixo peso ao nascer a partir de dados demográficos da mãe e do pai, disponíveis no SINASC DATASUS.
resumo

Introdução

Segundo a Organização Mundial da Saúde (OMS), Baixo Peso ao Nascer (BPN) é definido como peso inferior a 2500 gramas ao nascer independente do idade gestacional cite{WHO1. Quando comparados com bebês que nasceram acima dessa linha de corte, nascidos de baixo peso possuem maior risco de óbito, podem apresentar problemas de crescimento e desenvolvimento intelectual. E quando adultos, podem apresentar maior risco de obesidade, desenvolvimento de doenças do coração e diabetes. Parto prematuro, má nutrição materna, consumo de alcool e cigarro durante a gestação são fatores já conhecidos que aumentam o risco de BPN. 

A partir do momento que o médico possui a informação de que determinada gravidez possui alto risco de gerar um bebê com baixo peso, uma série de medidas podem ser tomadas para evitar esse desfecho. Melhorar o status nutricional da mãe e o acesso a acompanhamento pré-natal são medidas que tendem a diminuir o risco de Baixo Peso ao Nascer cite{WHO1.

Além disso, existe uma série de intervenções, em diferentes níveis, para previnir BPN. A nível nacional/regional podem ser adotados programas de proteção social, melhoria na qualidade de água, etc. Já a nível pessoa, a suplementação de nutrientes como ferro e ácido fólico contribuem para um melhor desenvolvimento da gravidez cite{WHO2.

A proporção de BPN no mundo varia, em média, entre cerca de 7% e 17%, com algumas regiões chegando até 26%. A partir de dados obtidos no DATASUS SINASC, em 2022 a proporção de Baixo Peso ao Nascer foi de cerca de 9% no Brasil. Conseguir prever com atencedência esse risco pode ser uma importante ferramenta para auxiliar o médico na condução daquela gestação.

Trabalhos anteriores anteriores se ocuparam em desenvolver modelos de Machine Learning (ML) utilizando dados demográficos, condições de saúde pré-existentes e informações de exames pré-natal cite{Ranjbar2023-la. Nesse artigo nós buscamos desenvolver um modelo de Machine Learning com o objetivo de calcular a probabilidade de Baixo Peso ao Nascer utilizando as variáveis disponíveis n'O Sistema de Informações sobre Nascidos Vivos (SINASC).

Revisão da Literatura

Diversos autores se ocuparam tanto em identificar fatores de risco quanto em desenvolver modelos de machine learning para prever baixo peso ao nascer. Chen et al. (2013), a partir de uma base de  101.163 partos em 14 diferentes regiões na China pôde identificar que idade da mãe menor que 20 anos, com baixo nível de educação e histórico de partos adversos são fatores associados ao risco de baixo peso ao nascer.

Ranjbar et al. (2023) testou o uso dos algoritmos Regressão Logística (RL), Árvore de Decisão, Floresta Aleatória, Deep Learning Fastforward, Light GBM, XGBoost, SVM e KNN com dados da Iranian Maternal and Neonatal Network (IMaN Net) de janeiro de 2020 até janeiro de 2022 para desenvolver um modelo de ML capaz de prever baixo peso ao nascer. Em um universo de 8.853 partos, 1.280 (14,5%) foram de bebês com o desfecho de interesse. Além disso, os pesquisadores dispunham tanto de dados demográficos da mãe quanto sua informações de saúde e comorbidades. Para o treino e validação do modelo, a base foi separada em amostra treino (70%) e teste (30%). Já a validação interna foi realiza com k-fold cross-validation. Com esses dados, a equipe constatou que o XGBoost foi o melhor modelo para a tarefa, com acurácia de 0,79, precisão de 0,87, recall de 0,69 e F1 score de 0,77. E, dentre as variáveis disponíveis, idade gestacional e histórico de BPN foram os principais preditores. 

Já Islam Pollob et al. (2022) trabalhou com uma base de 2351 respondentes proveniente da Bangladesh Demographic and Health Survey entre 2017 e 2018 para, também desenvolver um modelo capaz de prever BPN nesse contexto. Dentre as observações, 16.2% foram bebês com baixo peso ao nascer. O estudo dispunha de informações demográficas da mãe, do parto ee do bebê. Os algoritmos Regressão Logística e Árvore de Decisão foram utilizados, e observou-se que a RL atingiu os melhores resultados, com acurácia de 0,87 e AUC de 0,59. No entanto, a conclusão do estudo foi de que seria necessária uma solução mais eficiente para ser utilizada na realidade de Bangladesh. Além disso, esse estudo utilizou variáveis obtidas no momento do parto, como local e tipo de parto.

Singh et al. (2013) realizou um estudo num hospital universitário de cuidados terciários no norte da Índia, em uma base de  250 BPN e 250 com peso maior ou igual a 2.500g. Além disso, esse estudo teve acesso a informações de partos anteriores e de saúde da mãe, como ganho de peso durante a gravidez, incidência de anemia e má nutrição, nível educacional e etc. Os pesquisadores utilizaram seis variáveis preditoras, sendo elas: ganho de peso inadequado na mãe, quantidade de proteína inadequada na dieta da mãe, parto prematuro anterior, parto BPN anterior, anemia e fumante passiva. Modelando com uma regressão logística, a equipe atingiu, na base de validação, sensibilidade de 72% e especificidade de 64%.

Diferente dos trabalhos anteriores, esse estudo busca desenvolver um modelo capaz de indicar o risco de baixo peso ao nascer com base em informações pessoais e demográficas da mãe e do pai. Desse modo, na primeira consulta com o médico já seria possível entender a necessidade de cuidados especiais. Além disso, o Sistema de Informações sobre Nascidos Vivos (SINASC) possui um amplo registro dos partos no Brasil, o que nos permite trabalhar com uma base de dados muito maior do que os trabalhos anteriores.

Métodos

Base de dados

As descobertas desse estudo foram baseadas no Sistema de Informações sobre Nascidos Vivos (SINASC). Este programa foi implementado em 1990 com o objetivo de coletar dados sobre os nascimentos em todo território nacional e para todos os níveis do Sistema de Saúde. Agrupados por ano, as bases disponibilizadas contemplam uma série de informações demográficas sobre a mãe e o pai, além de informações sobre o próprio nascido. Foram selecionados os períodos de 2022 e 2023 para comporem a base de treino e o período de 2024 para a base de teste. Até a presente data, a base correspondente a 2024 possui nascimentos registrados até o dia 11 de junho de 2024.

Pré-processamento e modelagem

A população alvo foi divida conforme o seu peso, nascidos com menos de 2500g foram chamados Baixo Peso ao Nascer e nascidos com peso registrado maior ou igual a 2500g, Não Baixo Peso ao Nascer. Observações sem o peso registrado foram desconsiderados da base de dados. Além disso, as variáveis correspondentes a número de filhos vivos, número de gestações, número de partos normais, número de partos cesária e número de perdas fetais/abortos foram truncadas em 10, visto que uma proporção infima dos dados apresentaram valores maiores do que esse.

Para desenvolver o modelo preditor, os seguintes algorítmos foram testados na tarefa de prever Baixo Peso ao Nascer: eXtreme Gradient Boosting (XGB), Light Gradient Boosting (LGBM), CatBoost, Naive Bayes e Random Forest. Para selecionar quais variáveis seriam consideradas no estudos como preditoras, duas linhas foram seguidas: variáveis sem ligação direta com o bebê, e o parto, e variáveis comuns nos estudos citados na seção de Revisão da Literatura. Desse modo, foram mantidas como possíveis variáveis dependentes a idade da mãe, idade do pai, estado civil da mãe, escolaridade em anos de estudo concluídos da mãe, número de filhos vivos e perdas fetais/abortos, número de partos normais e cesáreos, cor da mãe e tipo de gravidez (Vide Tabela ref{). Todas as variáveis selecionadas possuiam valores faltantes, que foram substituídos pelo valor mais frequente correspondente. Com exceção das variáveis ESTCIVMAE e ESCMAE, que foram substituídas por 9, visto que é um valor padrão para dados faltantes da própria base. Além disso, as variáveis categóricas foram transformadas em variáveis dummy segundo as suas categorias, com a técnica de OneHotEncoder. A linguagem de programação escolhida para desenvolver o estudo foi o Python e as bibliotecas Scikit-learn, Pandas e Seaborn foi utilizada para gerar os modelos de Machine Learning e as análises sobre as variáveis.

Apesar dos dados estarem desbalanceados, optou-se por não aplicar nenhuma técnica de balanceamento. Segundo cite{elor2022smotesmote, técnicas de balanceamento de dados não melhoram a capacidade preditiva de modelos estado da arte, como os algoritmos de boosting. cite{elor2022smotesmote mostrou que balanceamento não melhora a capacidade preditiva de modelos Estado da Arte, como os modelos de Boosting. A recomendação é otimizar o threshold para melhorar modelos desbalanceados, o que foi aplicado neste artigo.

A base de dados correspondente aos períodos de 2022 e 2023 foi utilizada tanto para treino quanto para validação interna, em uma proporção de 70% e 30%, respectivamente. A partir dessas amostras foram selecionados os melhores hiperparametros pela biblioteca Optuna, escolhidas as variáveis preditoras finais e escolhido o melhor modelo para a tarefa de predizer o risco de Baixo Peso ao Nascer. Já a base de teste, dados disponíveis de 2024, foi utilizada para reportar as métricas finais de validação do modelo.

Métricas de validação

Já com relação as métricas de validação observadas, este trabalho reporta a matriz de confusão, acurácia, Precision e Recall. A matriz de confusão é uma ferramenta de auxilio para melhor entender a distribuição de acertos e erros do modelo. A acurácia calcula a proporção de acertos do modelo na base de dados. Dado o alto nível de desbalanceamento da variável dependente, esta métrica deve ser observada com cuidado para não levar a interpretações incorretas da capacidade preditiva do modelo. Precision mede a proporção de verdadeiros positivos. Recall mede a assertividade dentre as observações positivas. Em outras palavras, quando a classe verdadeira era positiva, com que frequência o modelo predisse como positiva. Entendendo que o custo de falsos negativos seja maior do que o de falsos positivos para esse estudo, a métrica Recall foi priorizada no treino do modelo.

Resultados

A base de treino do modelo possuia 9,5% de Baixo Peso ao Nascer, dentre 4.074.684 milhões de nascidos entre 2022 e 2023. As Tabelas ,  ref{ possuem uma série de informações sobre a amostra com relação ao desfecho estudado.

A Tabela  mostra que as médias de idade dos pais e das mães são muito similares entre os BPN e Não-BPN. No entanto, a Tabela ref{ mostra que mães com até 16 anos ou com mais de 35 anos apresentam maior proporção do desfecho. Assim como com relação a idade do pai, nos casos com até 16 anos ou maior que 45 anos.

Já na Tabela  pode-se observar uma maior proporção de Baixo Peso ao Nascer em mães Solteira, Viúvas e Divorciadas se comparadas com mães Casadas e em União Estável, indicando que um maior suporte na gestação tem efeito no peso do bebê. E quanto maior a escolaridade da mãe, menor a incidência de BPN. Além disso, o Tipo de Gravidez também indica alguma relação com o desfecho, visto que nos casos de gravidez Dupla e Tripla ou Mais, a proporção de Baixo Peso ao Nascer observada foi de 62,88% e 96,05%, respectivamente.

Também foi possível observar uma maior incidência de baixo peso ao nascer no caso de mães pretas. Se comparadas com mães brancas (menor valor), a proporção do desfecho é mais de 1,5% maior em mães pretas. Pode-se observar na Tabela  que a escolaridade da mãe tem um efeito negativo na proporção de baixo peso ao nascer: Quanto maior a escolaridade, menor a proporção do desfecho estudado.

A maior parte dos partos registrados são nulíparos, então vemos uma maior proporção de BPN nessa categoria. No entanto, na Figura ref{fig:quantidade_gest podemos observar que a proporção do desfecho aumenta conforme o número de gestações anteriores aumentam. O mesmo ocorre para a quantidade de partos normais e cesária, e para a quantidade de filhos vivos e mortos (Vide Figura ref{fig:quantidades_4plots). Para o treino do modelo a variável referente a quantidade de gestações não foi considerada, visto que ela é uma combinação das variáveis sobre a quantidade de partos normais e quantidade de partos cesáreas.

Os modelos Light Gradient Boosting (LGBM), CatBoost, Naive Bayes e Random Forest foram testados para verificar qual algoritmo desempenha melhor no problema em questão. A Tabela ref{ agrupa os resultados obtidos. Todos os modelos desempenharam de forma semelhante, de modo que poderíasse seguir com qualquer um dos 4. Optou-se por utilizar o Light Gradient Boosting por esse tipo de modelo já ser testado na literatura para essa mesma tarefa cite{Ranjbar2023-la.

Após a escolha do modelo, aplicou-se a otimização de threshold com foco em melhorar o F1-Score na base de Validação Interna. As Tabelas ref{tab:tabela_MetricasValid e ref{tab:tabela_MetricasTeste concentram as métricas de validação das bases de Validação Interna e Teste (jan/24 - jun/24), respectivamente. Pode-se observar que os resultados foram os mesmos em ambos os casos, indicando que não houve overfitting durante o treino do modelo e que as bases são bem homogêneas nos diferentes períodos. No entanto, os resultados obtidos não são satisfatórios. 

Como o objetivo deste trabalho é prever o desfecho de Baixo Peso ao Nascer, a métrica Recall foi considerada a mais importante. O Recall, nesse caso, trata da quantidade de bebês com BPN que foram classificados como BPN pelo modelo. Pode-se observar que o Recall observado foi de 0,22. Ou seja, o modelo foi capaz de identificar somente 22% dos bebês registrados com baixo peso ao nascer.

Desse modo, todos os nascidos no período recebem uma dessas 4 classificações conforme a sua probabilidade do desfecho. A categoria Baixo possui a maior quantidade de observações muito em função do desbalanceamento da base, e nessa categoria o modelo acerta pouco e agrupa a maior parte dos Baixo Peso ao Nascer. No entanto, conforme aumenta-se o risco de BPN, a capacidade do modelo em identificar quem realmente foi BPN aumenta. Na faixa Alto foram identificadas 11.188 observações, entre as quais 7.597 foram de bebês com baixo peso ao nascer, representando um percentual de 67,9%. Já na faixa Muito Alto, das 302 observações identificadas, 92,7% realmente foram BPN. Esses resultados nos mostram uma boa capacidade do modelo em identificar pacientes com maior risco de baixo peso ao nascer.

Discussão

A proposta do trabalho foi desenvolver um modelo de machine learning capaz de prever o risco de baixo peso ao nascer em bebês brasileiros, utilizando a base de dados do SINASC. Como se trata dos registros de nascidos vivos do Brasil, o conjunto de dados era muito grande se comparados aos utilizados em trabalhos anteriores, como cite{Ranjbar2023-la, cite{Islam_Pollob2022-we e cite{Singh2013-xv. No entanto, esses trabalhos dispunham de informações não disponíveis no SINASC, como dados de saúde da mãe e do feto. Nos seus trabalhos essa variáveis desempenharam papel importante na capacidade preditiva dos modelos.

Além disso, este trabalho foi capaz de identificar fatores de risco para o desfecho de BPN e corroborar resultados encontrados anteriormente. cite{Chen2013 identificou que baixo nível de educação e histórico de partos adversos são fatores associados ao risco de baixo peso ao nascer. O mesmo resultado foi identificado aqui, onde a prevalencia do desfecho aumenta conforme a escolaridade diminui. Também foi observado um aumento no desfecho seguindo um aumento no histórico de filhos mortos, corroborando que partos adversos aumenta o risco de baixo peso ao nascer. Outrossim, seguindo o resultado obtido por cite{Ranjbar2023-la, o algoritmo de Machine Learning com melhores resultados foi o XGBoost.

Pôde-se observar um efeito no Estado Civil da mãe, de modo que mulheres solteiras, viúvas ou divorcidadas estão mais propensas a desenvolverem gestações com BPN. Esse fator pode estar associado a falta de amparo no momento da gravidez, mas carece de estudos mais aprofundados nesse quesito. Além disso, a Cor da mãe também apresentou efeito no desfecho. Mães brancas possuem a menor incidência do desfecho, ao passo que mães pretas possuem a maior ocorrência de Baixo Peso ao Nascer.

Também foi identificado um efeito muito significativo com relação ao Tipo de Gravidez. 96,05% dos partos triplos foram BPN, o que mostra a necessidade de uma maior atenção nesse tipo de ocasião. Por fim, a Quantidade de Gestações também parece ter impacto no desfecho, de modo que quanto mais partos (normal ou cesárea) a mãe passou, maior a incidência de BPN.

Já com relação as métricas de validação do modelo, os resultados obtidos não apontam para uma boa separabilidade dos dados com as variáveis disponíveis. O Recall observado na base de Teste foi de 0,15, indicando que o modelo é capaz de identificar corretamente somente 15% dos nascidos com o desfecho estudado. No entanto, ao estratificar a probabilidade do desfecho por faixas de risco, pode-se observar uma boa capacidade do modelo em identificar os casos de mais alto risco, indicando uma caminho de futuras investigações e uso.

Uma vez atingido o objetivo, esse modelo poderia ser utilizado para auxiliar médicos brasileiros na condução das gestações. Mas, para tal tarefa o modelo desenvolvido carece de boa acertividade. Os resultados aqui obtidos podem servir de indicativos para médicos no momento de iniciar um acompanhamento neonatal.

Conclusão

A proposta de desenvolver um modelo de Machine Learning capaz de prever o risco de baixo peso ao nascer utilizando a base de dados do SINASC não foi concluído de forma satisfatória, uma vez que o modelo criado carece de capacidade preditiva no desfecho de interesse. Utilizar o DATASUS limitou o tipo de variável disponível para o desenvolvimento, indicando que somente variáveis demográficas não são suficientes para a criação de um modelo preditivo.
"""

In [54]:
import re

# Step 1: Remove extra whitespace and newlines
cleaned_text = re.sub(r'\s+', ' ', text)

# Step 2: Remove specific patterns like "resumo", "Introdução", etc.
cleaned_text = re.sub(r'\bresumo\b', '', cleaned_text, flags=re.IGNORECASE)
cleaned_text = re.sub(r'\bIntrodução\b', '', cleaned_text, flags=re.IGNORECASE)
cleaned_text = re.sub(r'\bRevisão da Literatura\b', '', cleaned_text, flags=re.IGNORECASE)
cleaned_text = re.sub(r'\bMétodos\b', '', cleaned_text, flags=re.IGNORECASE)
cleaned_text = re.sub(r'\bBase de dados\b', '', cleaned_text, flags=re.IGNORECASE)

# Step 3: Normalize text (optional)
cleaned_text = cleaned_text.lower()  # Convert to lowercase
#cleaned_text = re.sub(r'[^\w\s]', '', cleaned_text)  # Remove punctuation

# Remove any remaining extra spaces
cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()

text = [cleaned_text]

In [55]:
print(cleaned_text)
print(len(cleaned_text))

o peso do recém-nascido é um fator importante para sua saúde e seu desenvolvimento. um individuo que nasce com peso abaixo do esperado pode representar riscos tanto para si quanto para a mãe. baixo peso ao nascer está relacionado a problemas no desenvolvimento da linguagem. conseguir prever o risco de baixo peso pode ser uma ferramenta médica importante. trabalhos anteriores com o mesmo objetivo utilizaram tanto informações da mãe como informações do bebê, a partir de exames neonatal. este trabalho propõe desenvolver um modelo de machine learning para prever o o risco de baixo peso ao nascer a partir de dados demográficos da mãe e do pai, disponíveis no sinasc datasus. segundo a organização mundial da saúde (oms), baixo peso ao nascer (bpn) é definido como peso inferior a 2500 gramas ao nascer independente do idade gestacional cite{who1. quando comparados com bebês que nasceram acima dessa linha de corte, nascidos de baixo peso possuem maior risco de óbito, podem apresentar problemas d

In [56]:
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores.chroma import Chroma
from langchain_community.embeddings import OllamaEmbeddings

documents = [Document(page_content=str(text), 
                      metadata = {"autor": "Gabriel Miranda"})] #também poderia incluir a fonte do "text: source: "

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 4000,
    chunk_overlap = 400,
    length_function = len
)

chunks = text_splitter.split_documents(documents)

embedding = OllamaEmbeddings(
    model="mistral",
)

db = Chroma.from_documents(
    documents = chunks,
    embedding = embedding,
    persist_directory = "db")

In [42]:
retriever = db.as_retriever(
    search_type = "similarity",
    search_kwargs = {"k": 3}
)

In [43]:
retriever.get_relevant_documents(
    "Qual foi a proporção de Baixo Peso ao Nascer no Brasil em 2022?"
)

[Document(metadata={'autor': 'Gabriel Miranda'}, page_content='no entanto, conforme aumenta-se o risco de bpn, a capacidade do modelo em identificar quem realmente foi bpn aumenta. na faixa alto foram identificadas 11.188 observações, entre as quais 7.597 foram de bebês com baixo peso ao nascer, representando um percentual de 67,9%. já na faixa muito alto, das 302 observações identificadas, 92,7% realmente foram bpn. esses resultados nos mostram uma boa capacidade do modelo em identificar pacientes com maior risco de baixo peso ao nascer. discussão a proposta do trabalho foi desenvolver um modelo de machine learning capaz de prever o risco de baixo peso ao nascer em bebês brasileiros, utilizando a do sinasc. como se trata dos registros de nascidos vivos do brasil, o conjunto de dados era muito grande se comparados aos utilizados em trabalhos anteriores, como cite{ranjbar2023-la, cite{islam_pollob2022-we e cite{singh2013-xv. no entanto, esses trabalhos dispunham de informações não dispo

In [None]:
"""
Answer the user query based on context. If you dont't know the answer or the context do not have the answer, say that you don't know.
Answer in pt-BR.
Answer the question directly.
"""

In [47]:
#from langchain import hub 
#prompt= hub.pull("rlm/rag-prompt")
from langchain_core.prompts import PromptTemplate

template = PromptTemplate.from_template("""       
Answer the question based only on the following context:

{context}

---

Answer the question based on the above context: {question}
""")

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | template 
    | llm 
    | StrOutputParser()
)

In [50]:
rag_chain.invoke("Qual foi a proporção de Baixo Peso ao Nascer no Brasil em 2022 citada no contexto?")

'Segundo o texto, a proporção de Baixo Peso ao Nascer (BPN) no Brasil em 2022 foi cerca de 9% no Brasil, como mencionado no DATASUS SINASC.'

In [49]:
rag_chain.invoke("Quais modelos foram utilizados no treino do modelo?")

'Segundo a discussão, o algoritmo de Machine Learning com melhores resultados foi o XGBoost.'