# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo SINASC_RO_2019.csv` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo `estrutura_sinasc_para_CD.pdf` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
`
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis `['ESTCIVMAE', 'CONSULTAS']` possuem o código `9`, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código `9`.<br>
6. Substitua os valores faltantes da quantitativa (`QTDFILVIVO`) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção `inplace = True`.

In [1]:
import pandas as pd
import requests

# 1) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc.shape)
sinasc_sem_duplicadas = sinasc.drop_duplicates().shape
print(sinasc_sem_duplicadas)
# Não há duplicados
print("Não há linhas duplicadas porque verificamos um número existente de linhas e depois utilizamos o método drop para eliminar as linhas duplicadas e com isso percebemos que continuamos com os mesmos números de linhas, então com esses dados sabemos qie não tem duplicação.")
      

(27028, 69)
(27028, 69)
Não há linhas duplicadas porque verificamos um número existente de linhas e depois utilizamos o método drop para eliminar as linhas duplicadas e com isso percebemos que  


In [4]:
sinasc

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,1,2604388.0,510340,1,32,2.0,12 anos ou mais,333115.0,1.0,0.0,...,5,2767632,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27024,1,2752654.0,510675,1,19,1.0,8 a 11 anos,999992.0,0.0,0.0,...,5,2772678,ATIVO,MUNIC,Chupinguaia,Rondônia,-12.55684,-60.90185,340.0,5126.723
27025,1,9659366.0,510787,1,24,2.0,8 a 11 anos,421125.0,0.0,1.0,...,5,2776905,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27026,1,9659366.0,510787,1,21,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2777105,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915


In [46]:
# 2) seu código aqui

origem = sinasc["ORIGEM"].isna().sum() 
codestab = sinasc["CODESTAB"].isna().sum()
codmun = sinasc["CODMUNNASC"].isna().sum()
locnasc = sinasc["LOCNASC"].isna().sum()
idademae = sinasc["IDADEMAE"].isna().sum()
estcivmae = sinasc["ESTCIVMAE"].isna().sum()
escmae = sinasc["ESCMAE"].isna().sum()
codocupmae = sinasc["CODOCUPMAE"].isna().sum()
qtdfilv = sinasc["QTDFILVIVO"].isna().sum()
qtdfilmort = sinasc["QTDFILMORT"].isna().sum()


print("Como são muitas variáveis, não sei se é para colocar de todas, portanto coloquei das 10 primeiras")
print("")
print(f"A coluna ORIGEM tem {origem} variáveis missing.")
print(f"A coluna CODESTAB tem {codestab} variáveis missing.")
print(f"A coluna CODMUNNASC tem {codmun} variáveis missing.")
print(f"A coluna LOCNASC tem {locnasc} variáveis missing.")
print(f"A coluna IDADEMAE tem {idademae} variáveis missing.")
print(f"A coluna ESTCIVMAE tem {estcivmae} variáveis missing.")
print(f"A coluna ESCMAE tem {escmae} variáveis missing.")
print(f"A coluna CODOCUPMAE tem {codocupmae} variáveis missing.")
print(f"A coluna QTDFILVIVO tem {qtdfilv} variáveis missing.")
print(f"A coluna QTDFILMORT tem {qtdfilmort} variáveis missing.")
print("...")

Como são muitas variáveis, não sei se é para colocar de todas, portanto coloquei das 10 primeiras

A coluna ORIGEM tem 0 variáveis missing.
A coluna CODESTAB tem 115 variáveis missing.
A coluna CODMUNNASC tem 0 variáveis missing.
A coluna LOCNASC tem 0 variáveis missing.
A coluna IDADEMAE tem 0 variáveis missing.
A coluna ESTCIVMAE tem 317 variáveis missing.
A coluna ESCMAE tem 312 variáveis missing.
A coluna CODOCUPMAE tem 2907 variáveis missing.
A coluna QTDFILVIVO tem 1573 variáveis missing.
A coluna QTDFILMORT tem 2098 variáveis missing.
...


In [71]:
# 3) seu código aqui
soma_individual = sinasc[['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',   'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] ].isna().sum()
print("Abaixo está a tabela da soma de cada categoria: ")
print("")
print(soma_individual)
print("")
soma_de_todos = soma_individual.sum()
print(f"A soma de todas as categorias pedidas no exercício é {soma_de_todos}.")


Abaixo está a tabela da soma de cada categoria: 

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64

A soma de todas as categorias pedidas no exercício é 3616.


In [86]:
# 4) seu código aqui
apgar5 = sinasc["APGAR5"].isna().sum()
apgar_total = sinasc["APGAR5"].shape
print(f"A coluna tem um total de {apgar_total} dados.")
print(f"A coluna APGAR5 tem um total de {apgar5} dados missing.")
apgar_sem_missing = sinasc["APGAR5"].dropna().shape
print(f"Tirando os dados missing, agora a coluna APGAR5 tem um total de {apgar_sem_missing} dados.")

A coluna tem um total de (27028,) dados.
A coluna APGAR5 tem um total de 103 dados missing.
Tirando os dados missing, agora a coluna APGAR5 tem um total de (26925,) dados.


In [94]:
# 5) seu código aqui

substituindo_valor_9 = sinasc[['ESTCIVMAE', 'CONSULTAS']].fillna(9)
print(substituindo_valor_9)


       ESTCIVMAE  CONSULTAS
0            5.0          4
1            2.0          4
2            9.0          4
3            5.0          3
4            2.0          4
...          ...        ...
27023        2.0          4
27024        1.0          4
27025        2.0          4
27026        2.0          4
27027        5.0          4

[27028 rows x 2 columns]


In [95]:
# 6) Seu código aqui

substituindo_valor_0 = sinasc['QTDFILVIVO'].fillna(0)
print(substituindo_valor_0)

0        0.0
1        1.0
2        2.0
3        0.0
4        1.0
        ... 
27023    1.0
27024    0.0
27025    0.0
27026    1.0
27027    1.0
Name: QTDFILVIVO, Length: 27028, dtype: float64


In [100]:
# 7) seu código aqui
sinasc.fillna("NÃO PREENCHIDO")
print("Coloquei no lugar dos dados faltantes na tabela por 'NÃO PREENCHIDO', isto porque eu vejo como cientista de dados tenho que ser o mais claro possível, caso eu fosse escolher números, só poderia ser 0 ou 1, porém 0 ou 1 em alguns casos pode ser positivo ou negativo e nesse caso, eu que estou montando tenho consciencia disso porém tenho que pensar caso outro ciensita analise o dado. Ele pode interpretar o 0 com mais de uma maneira, e com isso não posso deixar margem para duas interpretações, porque se isso acontecer estarei fazendo erradamente o meu trabalho. Eu colocando 'NÃO PREENCHIDO, o dado de fato não foi preenchido, portanto não há outra interpretação.'")

Coloquei no lugar dos dados faltantes na tabela por 'NÃO PREENCHIDO', isto porque eu vejo como cientista de dados tenho que ser o mais claro possível, caso eu fosse escolher números, só poderia ser 0 ou 1, porém 0 ou 1 em alguns casos pode ser positivo ou negativo e nesse caso, eu que estou montando tenho consciencia disso porém tenho que pensar caso outro ciensita analise o dado. Ele pode interpretar o 0 com mais de uma maneira, e com isso não posso deixar margem para duas interpretações, porque se isso acontecer estarei fazendo erradamente o meu trabalho. Eu colocando 'NÃO PREENCHIDO, o dado de fato não foi preenchido, portanto não há outra interpretação.'


In [106]:
# 8) seu código aqui
sinasc.loc[(sinasc["APGAR1"] >= 8) & (sinasc["APGAR1"] <= 10), "Nivel_de_asfixia"] = "Normal"
sinasc.loc[(sinasc["APGAR1"] >= 6) & (sinasc["APGAR1"] <= 7), "Nivel_de_asfixia"] = "Asfixia Leve"
sinasc.loc[(sinasc["APGAR1"] >= 4) & (sinasc["APGAR1"] <= 5), "Nivel_de_asfixia"] = "Asfixia Moderada"
sinasc.loc[(sinasc["APGAR1"] >= 0) & (sinasc["APGAR1"] <= 3), "Nivel_de_asfixia"] = "Asfixia Severa"
sinasc


Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea,Nivel_de_asfixia
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,Normal
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,Normal
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,Normal
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273,Normal
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,1,2604388.0,510340,1,32,2.0,12 anos ou mais,333115.0,1.0,0.0,...,2767632,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,Normal
27024,1,2752654.0,510675,1,19,1.0,8 a 11 anos,999992.0,0.0,0.0,...,2772678,ATIVO,MUNIC,Chupinguaia,Rondônia,-12.55684,-60.90185,340.0,5126.723,Normal
27025,1,9659366.0,510787,1,24,2.0,8 a 11 anos,421125.0,0.0,1.0,...,2776905,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,Normal
27026,1,9659366.0,510787,1,21,2.0,8 a 11 anos,999992.0,1.0,0.0,...,2777105,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,Normal


In [109]:
# 9) seu código aqui
sinasc.columns =

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea',
       'Nivel_de_asfixi

In [118]:
sinasc.columns = ["origem", "codes_tab", "cod_mun_nasc", "loc_nasc", "idade_mae", "est_civ_mae", "esc_mae", "cod_ocup_mae", "qtd_fil_vivo", "qtd_fil_mort", "cod_mun_res", "gestacao", "gravidez", "parto", "consultas", "dt_nasc", "hora_nasc", "sexo", "ap_gar_1", "ap_gar_5", "raca_cor", "peso", "ida_no_mal", "dt_cadastro", "cod_anormal", "numero_lote", "versao_sist", "dt_recebim", "dif_data", "dt_reco_riga", "natural_mae", "cod_mun_natu", "cod_uf_natu", "esc_mae_2010", "series_c_mae", "dt_nasc_mae", "raca_cor_mae", "qtd_gestant", "qtd_part_nor", "qtd_part_ces", "idade_pai", "dt_ult_mest", "sema_gestac", "tp_metes_tim", "cons_prenat", "mes_prenat", "tp_apresent", "st_trab_part", "st_ces_parto", "tp_nasc_assi", "tp_func_resp", "tp_doc_resp", "dt_declarac", "esc_mae_agr_1", "stdn_epidem", "stdn_nova", "cod_pais_res", "tp_robson", "par_idade", "kotel_chuck", "contador", "mun_res_status", "mun_res_tipo", "mun_res_nome", "mun_res_uf", "mun_res_lat", "mun_res_lon", "mun_res_alt", "mun_res_area", "nivel_de_asfixia", ]
sinasc.columns
sinasc

Unnamed: 0,origem,codes_tab,cod_mun_nasc,loc_nasc,idade_mae,est_civ_mae,esc_mae,cod_ocup_mae,qtd_fil_vivo,qtd_fil_mort,...,contador,mun_res_status,mun_res_tipo,mun_res_nome,mun_res_uf,mun_res_lat,mun_res_lon,mun_res_alt,mun_res_area,nivel_de_asfixia
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,Normal
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,Normal
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,Normal
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273,Normal
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,1,2604388.0,510340,1,32,2.0,12 anos ou mais,333115.0,1.0,0.0,...,2767632,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,Normal
27024,1,2752654.0,510675,1,19,1.0,8 a 11 anos,999992.0,0.0,0.0,...,2772678,ATIVO,MUNIC,Chupinguaia,Rondônia,-12.55684,-60.90185,340.0,5126.723,Normal
27025,1,9659366.0,510787,1,24,2.0,8 a 11 anos,421125.0,0.0,1.0,...,2776905,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,Normal
27026,1,9659366.0,510787,1,21,2.0,8 a 11 anos,999992.0,1.0,0.0,...,2777105,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,Normal
