# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
``` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [1]:
import pandas as pd

# 1) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc.shape)
sinasc.drop_duplicates().shape
# Não há duplicados

(27028, 69)


(27028, 69)

In [2]:
sinasc.head(10)

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
5,1,2516500.0,110001,1,33,5.0,1 a 3 anos,621005.0,2.0,1.0,...,5,6,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
6,1,2516500.0,110001,1,37,1.0,8 a 11 anos,999992.0,1.0,0.0,...,5,7,ATIVO,MUNIC,Novo Horizonte do Oeste,Rondônia,-11.70974,-61.99439,230.0,843.446
7,1,2516500.0,110001,1,27,2.0,12 anos ou mais,514120.0,0.0,0.0,...,5,8,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
8,1,2679477.0,110001,1,20,5.0,8 a 11 anos,621005.0,0.0,1.0,...,2,9,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
9,1,2679477.0,110001,1,30,2.0,1 a 3 anos,999992.0,1.0,1.0,...,5,10,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
# 2) seu código aqui - Conte o número de valores missing por variável.
sinasc.isna().sum()

ORIGEM          0
CODESTAB      115
CODMUNNASC      0
LOCNASC         0
IDADEMAE        0
             ... 
munResUf        0
munResLat       1
munResLon       1
munResAlt       1
munResArea      1
Length: 69, dtype: int64

In [4]:
# 3) seu código aqui - crie uma seleção dessa base somente com as colunas que interessam.
filtro_df = sinasc[[
    'LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 'GESTACAO',
    'GRAVIDEZ', 'CONSULTAS', 'APGAR5'
]].isna()
filtro_df

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
27023,False,False,False,False,False,False,False,False,False
27024,False,False,False,False,False,False,False,False,False
27025,False,False,False,False,False,False,False,False,False
27026,False,False,False,False,False,False,False,False,False


In [5]:
# 4) seu código aqui
drop, _ = drop, _ = sinasc[['APGAR5']].dropna().shape
comple, _ = sinasc[['APGAR5']].shape
print('Após a limpeza de dados nulos da coluna APGAR5 temos', drop,
      'pacientes, ao todo retiramos', comple - drop, ' linhas.')

Após a limpeza de dados nulos da coluna APGAR5 temos 26925 pacientes, ao todo retiramos 103  linhas.


In [6]:
sinasc[['APGAR5']].dropna()

Unnamed: 0,APGAR5
0,10.0
1,9.0
2,10.0
3,10.0
4,10.0
...,...
27023,9.0
27024,9.0
27025,10.0
27026,9.0


In [7]:
# 5) seu código aqui - ['ESTCIVMAE', 'CONSULTAS']
sinasc[['ESTCIVMAE', 'CONSULTAS']].fillna(9)

Unnamed: 0,ESTCIVMAE,CONSULTAS
0,5.0,4
1,2.0,4
2,9.0,4
3,5.0,3
4,2.0,4
...,...,...
27023,2.0,4
27024,1.0,4
27025,2.0,4
27026,2.0,4


In [8]:
# 6) Seu código aqui - (QTDFILVIVO)
sinasc[['QTDFILVIVO']].fillna(0)

Unnamed: 0,QTDFILVIVO
0,0.0
1,1.0
2,2.0
3,0.0
4,1.0
...,...
27023,1.0
27024,0.0
27025,0.0
27026,1.0


In [9]:
sinasc.isna()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,False,False,False,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
27024,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
27025,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
27026,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [10]:
# 7) seu código aqui

Considerando que a base de dados se refere aos nascidos vivos do estado de Roraima e tem como interesse os dados relacionados  
aos próprios nascidos, desconsiderei os dados não relacionados ao estado da criança, por exemplo dados relacionados aos pais 
(como por exemplo ocupação dos pais), versão do sistema e considerei apenas o nome do município para identificação do local 
dados como longitude e altitude também foram desconsiderados. Os dados quantitivos como quantidade de filhos mortos e vivos foram substituidos por 0 e quando aplicavel pelo codigo 9 de ignorado, e os demais dados nulos foram desconsiderados na analise.

In [11]:
sinasc_df = sinasc.drop(columns=[
    'ESTCIVMAE', 'ESCMAE', 'CODOCUPMAE', 'CODMUNRES', 'CODANOMAL',
    'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA', 'DTRECORIGA',
    'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010', 'SERIESCMAE',
    'DTNASCMAE', 'RACACORMAE', 'QTDPARTNOR', 'QTDPARTCES', 'IDADEPAI',
    'DTULTMENST', 'DTDECLARAC', 'ESCMAEAGR1', 'STDNEPIDEM', 'STDNNOVA',
    'CODPAISRES', 'TPROBSON', 'munResStatus', 'munResTipo', 'munResUf',
    'munResLat', 'munResLon', 'munResAlt', 'munResArea', 'CODMUNNASC',
    'LOCNASC', 'ORIGEM', 'CODESTAB', 'RACACOR', 'QTDGESTANT', 'SEMAGESTAC',
    'TPMETESTIM', 'CONSPRENAT', 'MESPRENAT', 'STTRABPART', 'IDANOMAL',
    'STCESPARTO', 'TPAPRESENT', 'KOTELCHUCK'
])

In [12]:
sinasc_df.isna().sum()

IDADEMAE         0
QTDFILVIVO    1573
QTDFILMORT    2098
GESTACAO      1232
GRAVIDEZ        79
PARTO           49
CONSULTAS        0
DTNASC           0
HORANASC        21
SEXO             4
APGAR1          96
APGAR5         103
PESO             0
DTCADASTRO       0
TPNASCASSI      61
TPFUNCRESP      67
TPDOCRESP       14
PARIDADE         0
CONTADOR         0
munResNome       0
dtype: int64

In [13]:
new_df = sinasc_df[['QTDFILVIVO', 'QTDFILMORT', 'SEXO']].fillna(0)
new_df = sinasc_df[['GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS']].fillna(9)
new_df = sinasc_df.dropna()

In [14]:
new_df.isna().sum()

IDADEMAE      0
QTDFILVIVO    0
QTDFILMORT    0
GESTACAO      0
GRAVIDEZ      0
PARTO         0
CONSULTAS     0
DTNASC        0
HORANASC      0
SEXO          0
APGAR1        0
APGAR5        0
PESO          0
DTCADASTRO    0
TPNASCASSI    0
TPFUNCRESP    0
TPDOCRESP     0
PARIDADE      0
CONTADOR      0
munResNome    0
dtype: int64

In [15]:
# 8) seu código aqui - O Apgar possui uma classificação indicando se o bebê passou por asfixia:

new_df.loc[new_df['APGAR5'] >= 8, 'class_asfixia'] = 'normal'
new_df.loc[(new_df['APGAR5'] >= 6) & (new_df['APGAR5'] <= 7),
           'class_asfixia'] = 'asfixia leve'
new_df.loc[(new_df['APGAR5'] >= 4) & (new_df['APGAR5'] <= 5),
           'class_asfixia'] = 'asfixia moderada'
new_df.loc[new_df['APGAR5'] <= 3, 'class_asfixia'] = 'asfixia severa'

new_df.head(5)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df.loc[new_df['APGAR5']>= 8, 'class_asfixia'] = 'normal'


Unnamed: 0,IDADEMAE,QTDFILVIVO,QTDFILMORT,GESTACAO,GRAVIDEZ,PARTO,CONSULTAS,DTNASC,HORANASC,SEXO,...,APGAR5,PESO,DTCADASTRO,TPNASCASSI,TPFUNCRESP,TPDOCRESP,PARIDADE,CONTADOR,munResNome,class_asfixia
0,19,0.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-02-19,1620.0,Masculino,...,10.0,3685,2019-03-08,1.0,2.0,3.0,0,1,Alta Floresta D'Oeste,normal
1,29,1.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-02-21,1830.0,Feminino,...,9.0,3055,2019-03-08,1.0,5.0,4.0,1,2,Alta Floresta D'Oeste,normal
2,37,2.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-02-25,915.0,Feminino,...,10.0,3460,2019-03-08,1.0,2.0,4.0,1,3,Alta Floresta D'Oeste,normal
3,30,0.0,0.0,37 a 41 semanas,Única,Cesáreo,3,2019-03-20,835.0,Feminino,...,10.0,2982,2019-04-03,1.0,2.0,3.0,0,4,Alto Alegre dos Parecis,normal
4,30,1.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-03-23,750.0,Feminino,...,10.0,3310,2019-04-03,1.0,2.0,3.0,1,5,Alta Floresta D'Oeste,normal


In [16]:
# 9) seu código aqui -Renomeie as variáveis para que fiquem no snake case, ou seja, em letras minúsculas,
#com um underscore entre as palávras. Dica: repare que se você não quiser
#criar um dataframe novo, você vai precisar usar a opção inplace = True.
new_df.rename(columns={'IDADEMAE': 'idade_da_mae'}, inplace=True)
new_df.rename(columns={'QTDFILVIVO': 'qtd_filhos_vivos'}, inplace=True)
new_df.rename(columns={'QTDFILMORT': 'qtd_filhos_mortos'}, inplace=True)
new_df.rename(columns={'GESTACAO': 'gestacao'}, inplace=True)
new_df.rename(columns={'GRAVIDEZ': 'gravidez'}, inplace=True)
new_df.rename(columns={'PARTO': 'parto'}, inplace=True)
new_df.rename(columns={'CONSULTAS': 'consulta'}, inplace=True)

## Ao tentar renomear as colunas indidualmente utilizando a opcao inplace=true
#dentro do mesmo DataFrame o Python levanta um SettingWithCopyWarning.

new_df.head(5)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df.rename(columns={'IDADEMAE': 'idade_da_mae'}, inplace = True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df.rename(columns={'QTDFILVIVO': 'qtd_filhos_vivos'}, inplace = True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df.rename(columns={'QTDFILMORT': 'qtd_filhos_mortos'}, inplace = True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guid

Unnamed: 0,idade_da_mae,qtd_filhos_vivos,qtd_filhos_mortos,gestacao,gravidez,parto,consulta,DTNASC,HORANASC,SEXO,...,APGAR5,PESO,DTCADASTRO,TPNASCASSI,TPFUNCRESP,TPDOCRESP,PARIDADE,CONTADOR,munResNome,class_asfixia
0,19,0.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-02-19,1620.0,Masculino,...,10.0,3685,2019-03-08,1.0,2.0,3.0,0,1,Alta Floresta D'Oeste,normal
1,29,1.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-02-21,1830.0,Feminino,...,9.0,3055,2019-03-08,1.0,5.0,4.0,1,2,Alta Floresta D'Oeste,normal
2,37,2.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-02-25,915.0,Feminino,...,10.0,3460,2019-03-08,1.0,2.0,4.0,1,3,Alta Floresta D'Oeste,normal
3,30,0.0,0.0,37 a 41 semanas,Única,Cesáreo,3,2019-03-20,835.0,Feminino,...,10.0,2982,2019-04-03,1.0,2.0,3.0,0,4,Alto Alegre dos Parecis,normal
4,30,1.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-03-23,750.0,Feminino,...,10.0,3310,2019-04-03,1.0,2.0,3.0,1,5,Alta Floresta D'Oeste,normal


In [17]:
new_df.columns

Index(['idade_da_mae', 'qtd_filhos_vivos', 'qtd_filhos_mortos', 'gestacao',
       'gravidez', 'parto', 'consulta', 'DTNASC', 'HORANASC', 'SEXO', 'APGAR1',
       'APGAR5', 'PESO', 'DTCADASTRO', 'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP',
       'PARIDADE', 'CONTADOR', 'munResNome', 'class_asfixia'],
      dtype='object')

In [18]:
new_df.columns = [
    'idade_da_mae', 'qtd_filhos_vivos', 'qtd_filhos_mortos', 'gestacao',
    'gravidez', 'parto', 'consulta', 'data_nasc', 'hora_nasc', 'sexo',
    'apgar_1', 'apgar_5', 'peso', 'data_cadastro', 'tp_nasc_assis',
    'tp_func_resp', 'tp_doc_resp', 'paridade', 'contador', 'munResNome',
    'class_asfixia'
]
new_df

Unnamed: 0,idade_da_mae,qtd_filhos_vivos,qtd_filhos_mortos,gestacao,gravidez,parto,consulta,data_nasc,hora_nasc,sexo,...,apgar_5,peso,data_cadastro,tp_nasc_assis,tp_func_resp,tp_doc_resp,paridade,contador,munResNome,class_asfixia
0,19,0.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-02-19,1620.0,Masculino,...,10.0,3685,2019-03-08,1.0,2.0,3.0,0,1,Alta Floresta D'Oeste,normal
1,29,1.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-02-21,1830.0,Feminino,...,9.0,3055,2019-03-08,1.0,5.0,4.0,1,2,Alta Floresta D'Oeste,normal
2,37,2.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-02-25,915.0,Feminino,...,10.0,3460,2019-03-08,1.0,2.0,4.0,1,3,Alta Floresta D'Oeste,normal
3,30,0.0,0.0,37 a 41 semanas,Única,Cesáreo,3,2019-03-20,835.0,Feminino,...,10.0,2982,2019-04-03,1.0,2.0,3.0,0,4,Alto Alegre dos Parecis,normal
4,30,1.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-03-23,750.0,Feminino,...,10.0,3310,2019-04-03,1.0,2.0,3.0,1,5,Alta Floresta D'Oeste,normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,32,1.0,0.0,32 a 36 semanas,Única,Cesáreo,4,2019-12-13,2030.0,Masculino,...,9.0,2110,2020-09-28,1.0,2.0,3.0,1,2767632,Vilhena,normal
27024,19,0.0,0.0,37 a 41 semanas,Única,Vaginal,4,2019-10-04,650.0,Masculino,...,9.0,3310,2019-10-16,1.0,2.0,3.0,0,2772678,Chupinguaia,normal
27025,24,0.0,1.0,37 a 41 semanas,Única,Cesáreo,4,2019-08-02,1430.0,Masculino,...,10.0,3065,2019-08-07,1.0,5.0,4.0,1,2776905,Vilhena,normal
27026,21,1.0,0.0,32 a 36 semanas,Única,Vaginal,4,2019-12-23,741.0,Masculino,...,9.0,2352,2020-01-07,1.0,2.0,3.0,1,2777105,Vilhena,normal
