# TTRN em Neonatologia
Projeto 1 da Disciplina de Aprendizado de M√°quina - PPgEEC/UFRN

Este projeto tem como objetivo desenvolver um *pipeline* para deposi√ß√£o de um modelo classificat√≥rio em um ambiente de produ√ß√£o.

O modelo se prop√µe a resolver um problema de **classifica√ß√£o** que tenta separar os rec√©m nascidos que possam desenvolver uma patologia chamada **Taquipneia Transit√≥ria do Rec√©m-Nascido(TTRN)** baseado nas seguintes vari√°veis(*labels*):

* Idade materna
* Fumo na gravidez
* Uso de √°lcool na gravidez
* Uso de drogas psicoativas na gravidez
* Trabalho de parto prematuro
* Doen√ßa Hipertensiva Espec√≠fica da Gravidez(DHEG)
* Diabetes Mellitus Gestacional(DMG)
* Sexo do rec√©m-nascido
* √çndice de Apgar no quinto minuto de vida
* Reanima√ß√£o neonatal
* Peso de nascimento
* Estatura ao nascimento
* Per√≠metro cef√°lico ao nascimento

Os dados para este modelo ser√£o fornecidos pelo banco de dados da uma UTI neonatal do Estado ap√≥s pr√©via autoriza√ß√£o por escrito do respons√°vel pelas informa√ß√µes.

## 1. Configura√ß√£o do Ambiente de Trabalho

In [3]:
# Importa√ß√µes

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import wandb
import requests
import json

In [2]:
# Login no wandb
!wandb login c4d070b0b80b59891761b50eb9912749a4af585e --relogin

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /Users/ericcalasans/.netrc


## 2.  Etapas do ETL

### 2.1. Aquisi√ß√£o dos Dados(*Fetch Data*)

Os dados s√£o provenientes da plataforma https://neo.redcaprn.org atrav√©s de API pr√≥pria da plataforma

In [4]:
# Conex√£o com a base de dados e aquisi√ß√£o
data = {
    'token': '4276F33FF3B3F9E3CEA6A50EFAD0C213',
    'content': 'record',
    'format': 'json',
    'type': 'flat',
    'csvDelimiter': '',
    'rawOrLabel': 'raw',
    'rawOrLabelHeaders': 'raw',
    'exportCheckboxLabel': 'false',
    'exportSurveyFields': 'false',
    'exportDataAccessGroups': 'false',
    'returnFormat': 'json'
}
r = requests.post('https://neo.redcaprn.org/api/',data=data)
r_dump = json.dumps(r.json())
df = pd.read_json(r_dump, dtype=True, convert_dates=True)

O *dataset* consiste de v√°rias tabelas do qual s√£o selecionadas as tabelas de interesse das quais ser√£o escolhidos os *labels*:

In [5]:
ident = df[['nome_pac', 'nascido_hsc', 'setor_origem_pac', 'idade_materna',
            'cor_pele', 'proc_materna', 'escolaridade_materna', 'trabalho_mae',
            'gesta', 'abortos', 'filhos_vivos', 'natimortos', 'mortos_menor_1_ano',
            'ts_mae', 'cons_prenatal']]

ant_maternos = df[['fumo', 'alcool', 'freq_alcool', 'psicoativas', 'violencia',
                   'corioamnionite', 'rcui', 'tpp', 'dpp', 'has', 'dheg', 'hellp',
                   'sulfatada', 'oligoamnio', 'dm', 'hiv', 'hep_b', 'hep_c', 'sifilis',
                   'toxoplasmose', 'cmv', 'rubeola', 'covid_mae',
                   'outras_doencas_maternas', 'cort_antenatal']]

parto = df[['data_nasc', 'sexo', 'tempo_br', 'tipo_parto', 'gemelar',
            'apgar_1_minuto', 'apgar_5_min', 'reanimacao', 'o2_21',
            'massagem_cardiaca', 'cpap_sp', 'drogas_reanimacao', 'liq_amniotico',
            'clamp_cu', 'ev_hipotermia', 'saco_plastico', 'touca', 'colchao']]

antrop = df[['peso_nasc', 'estatura', 'pc', 'ig_nasc', 'ts_rn']]

Da tabela **resp** vem a vari√°vel *target* **ttrn**:

In [6]:
resp = df[['apneia', 'sdr', 'ttrn', 'sam', 'hpprn', 'enfisema', 'hem_pulm',
           'pneu_congenita', 'pneu_adquirida', 'dbp', 'o2circ', 'hood', 'cpap',
           'vni', 'vm', 'ox_nitrico', 'tempo_o2', 'o2_28', 'o2_36', 'num_intub',
           'falha_extub', 'surfactante', 'dose_surf', 'hv_surf', 'extub_acid']]

Forma√ß√£o do *dataset* bruto(*raw* dataset) atrav√©s da sele√ß√£o das *labels* e *target*:

In [15]:
ttrn_raw = pd.concat(
    [
        ident['idade_materna'],
        ant_maternos['fumo'],
        ant_maternos['alcool'],
        ant_maternos['psicoativas'],
        ant_maternos['tpp'],
        ant_maternos['dheg'],
        ant_maternos['dm'],
        parto['sexo'],
        parto['apgar_5_min'],
        parto['reanimacao'],
        antrop['peso_nasc'],
        antrop['estatura'],
        antrop['pc'],
        resp['ttrn'] # target
    ],
    axis=1
)

In [16]:
ttrn_raw.head()

Unnamed: 0,idade_materna,fumo,alcool,psicoativas,tpp,dheg,dm,sexo,apgar_5_min,reanimacao,peso_nasc,estatura,pc,ttrn
0,20,,,,2,2,1,2,8,1,3875,50.0,34.0,2.0
1,21,,,,2,2,1,1,4,4,810,33.0,25.0,2.0
2,16,,,,2,1,6,2,2,4,2240,51.0,32.0,2.0
3,40,,,,2,1,1,1,9,1,565,31.0,22.0,2.0
4,24,,,,2,1,1,2,9,1,1860,,,


Cria√ß√£o do artefato inicial

In [17]:
#  Salva como .csv
ttrn_raw.to_csv('ttrn_raw.csv', index=False)

In [20]:
# Cria o artefato
!wandb artifact put --name mlttrn/ttrn_raw.csv --type ttrn_raw --description "TTRN - Dados brutos" ttrn_raw.csv

[34m[1mwandb[0m: Uploading file ttrn_raw.csv to: "ecalasans/mlttrn/ttrn_raw.csv:latest" (ttrn_raw)
[34m[1mwandb[0m: Currently logged in as: [33mecalasans[0m (use `wandb login --relogin` to force relogin)
[34m[1mwandb[0m: wandb version 0.12.16 is available!  To upgrade, please run:
[34m[1mwandb[0m:  $ pip install wandb --upgrade
[34m[1mwandb[0m: Tracking run with wandb version 0.12.15
[34m[1mwandb[0m: Run data is saved locally in [35m[1m/Users/ericcalasans/Documents/Projetos/ml_proj1/wandb/run-20220513_042753-28lv6kck[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
[34m[1mwandb[0m: Syncing run [33mglowing-jazz-1[0m
[34m[1mwandb[0m: ‚≠êÔ∏è View project at [34m[4mhttps://wandb.ai/ecalasans/mlttrn[0m
[34m[1mwandb[0m: üöÄ View run at [34m[4mhttps://wandb.ai/ecalasans/mlttrn/runs/28lv6kck[0m
Artifact uploaded, use this artifact in a run by adding:

    artifact = run.use_artifact("ecalasans/mlttrn/ttrn_raw.csv:lates

### 2.2. An√°lise Explorat√≥ria(*EDA*)

### 2.3. Preprocessamento(*Preprocessing*)

### 2.4. Limpeza dos Dados(*Clean Data*)