# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo SINASC_RO_2019.csv` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo `estrutura_sinasc_para_CD.pdf` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
`
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis `['ESTCIVMAE', 'CONSULTAS']` possuem o código `9`, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código `9`.<br>
6. Substitua os valores faltantes da quantitativa (`QTDFILVIVO`) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção `inplace = True`.

1) Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. Há linhas duplicadas?

In [95]:
import pandas as pd
import numpy as np

In [97]:
# 1) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc.shape)

(27028, 69)


In [99]:
sinasc.drop_duplicates().shape
print(sinasc.duplicated().sum()) #verificando se há duplicados pela soma de valores True
# Não há duplicados

0


2) Conte o número de valores missing por variável.

In [102]:
with pd.option_context('display.max_rows', None): #solução para imprimir a lista inteira
    valores_NA = sinasc.isna().sum() #verificar valores missing dentro do arquivo CSV
    print(valores_NA)

ORIGEM              0
CODESTAB          115
CODMUNNASC          0
LOCNASC             0
IDADEMAE            0
ESTCIVMAE         317
ESCMAE            312
CODOCUPMAE       2907
QTDFILVIVO       1573
QTDFILMORT       2098
CODMUNRES           0
GESTACAO         1232
GRAVIDEZ           79
PARTO              49
CONSULTAS           0
DTNASC              0
HORANASC           21
SEXO                4
APGAR1             96
APGAR5            103
RACACOR           647
PESO                0
IDANOMAL          591
DTCADASTRO          0
CODANOMAL       26814
NUMEROLOTE          0
VERSAOSIST          0
DTRECEBIM           0
DIFDATA             0
DTRECORIGA      27028
NATURALMAE        298
CODMUNNATU        298
CODUFNATU         298
ESCMAE2010        249
SERIESCMAE      12710
DTNASCMAE          40
RACACORMAE        661
QTDGESTANT       1212
QTDPARTNOR       1879
QTDPARTCES       1791
IDADEPAI        19421
DTULTMENST      10072
SEMAGESTAC       1238
TPMETESTIM       1238
CONSPRENAT        930
MESPRENAT 

3) No item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:  ['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',   'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']  Refaça a contagem de valores missings.

In [105]:
df_interesse = sinasc[['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']]
df_interesse

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0


In [107]:
df_interesse.isna().sum()

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64

4) Apgar é uma nota que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de missings.

In [110]:
df_interesse.shape

(27028, 9)

In [112]:
with pd.option_context('display.max_rows', None): #solução para imprimir a lista inteira
    valores_NA_2 = df_interesse.isna().sum() #verificar valores missing da df_interesse
    print(valores_NA_2)

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64


In [114]:
df_interesse['APGAR5'].unique() #verificar se existe valores NA na coluna APGAR5

array([10.,  9.,  7.,  0.,  8.,  4.,  3.,  6.,  5., nan,  2.,  1.])

In [116]:
df_interesse['APGAR5'].dropna() 

0        10.0
1         9.0
2        10.0
3        10.0
4        10.0
         ... 
27023     9.0
27024     9.0
27025    10.0
27026     9.0
27027     8.0
Name: APGAR5, Length: 26925, dtype: float64

In [118]:
df_interesse['APGAR5'].sort_values() #Conferindo se os valores NA sairam. DropNA não está funcionando corretamente!?

25995    0.0
5800     0.0
24458    0.0
14144    0.0
19426    0.0
        ... 
25378    NaN
25864    NaN
26715    NaN
26923    NaN
26935    NaN
Name: APGAR5, Length: 27028, dtype: float64

In [120]:
df_limpo = df_interesse.dropna(how='any', subset=['APGAR5'], inplace=False) #Solução alternativa para remover os valores NA
df_limpo

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0


In [122]:
df_limpo['APGAR5'].sort_values() #os valores NA foram removidos

25995     0.0
5800      0.0
24458     0.0
14144     0.0
19426     0.0
         ... 
17928    10.0
17929    10.0
17930    10.0
17932    10.0
0        10.0
Name: APGAR5, Length: 26925, dtype: float64

In [124]:
df_limpo['APGAR5'].unique() #verificar novamente se existe valores NA na coluna APGAR5

array([10.,  9.,  7.,  0.,  8.,  4.,  3.,  6.,  5.,  2.,  1.])

5) observe que as variáveis ['ESTCIVMAE', 'CONSULTAS'] possuem o código 9, que significa ignorado. Vamos assumir que o não preenchido é o mesmo que o código 9.

In [127]:
print(df_limpo['ESTCIVMAE'].unique()) #verificar se existem valores NA em ambas as colunas
print(df_limpo['CONSULTAS'].unique())

[ 5.  2.  9.  1.  4. nan  3.]
[4 3 2 1 9]


In [129]:
df_6 = df_limpo['ESTCIVMAE'].fillna(9) #os valores A foram substituidos
df_6

0        5.0
1        2.0
2        9.0
3        5.0
4        2.0
        ... 
27023    2.0
27024    1.0
27025    2.0
27026    2.0
27027    5.0
Name: ESTCIVMAE, Length: 26925, dtype: float64

In [131]:
df_6.unique()

array([5., 2., 9., 1., 4., 3.])

6) Substitua os valores faltantes da quantitativa (QTDFILVIVO) por zero.

In [134]:
df_limpo['QTDFILVIVO'].unique() #verificar se existem valores NA

array([ 0.,  1.,  2.,  3., nan,  4.,  6.,  5.,  7., 12.,  9., 11.,  8.,
       30., 10., 14.])

In [136]:
df_7 = df_limpo['QTDFILVIVO'].fillna(0)

In [138]:
df_7.unique() #valores NA foram substituidos por 0

array([ 0.,  1.,  2.,  3.,  4.,  6.,  5.,  7., 12.,  9., 11.,  8., 30.,
       10., 14.])

7) Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.

In [141]:
#Colunas restantes: LOCNASC	IDADEMAE ESCMAE	GESTACAO GRAVIDEZ CONSULTAS
df_restante = df_limpo[['LOCNASC', 'IDADEMAE', 'ESCMAE', 'GESTACAO', 'GRAVIDEZ', 'CONSULTAS']]
df_restante.head(5)

Unnamed: 0,LOCNASC,IDADEMAE,ESCMAE,GESTACAO,GRAVIDEZ,CONSULTAS
0,1,19,8 a 11 anos,37 a 41 semanas,Única,4
1,1,29,8 a 11 anos,37 a 41 semanas,Única,4
2,1,37,8 a 11 anos,37 a 41 semanas,Única,4
3,1,30,12 anos ou mais,37 a 41 semanas,Única,3
4,1,30,8 a 11 anos,37 a 41 semanas,Única,4


In [143]:
#vamos entender melhor valores na nas colunas restantes
print('LOCNASC:', df_restante['LOCNASC'].unique()) #não possui NA
print('IDADEMAE', df_restante['IDADEMAE'].unique()) #não possui NA
print('ESCMAE', df_restante['ESCMAE'].unique()) #possui
print('GESTACAO', df_restante['GESTACAO'].unique()) #possui
print('GRAVIDEZ', df_restante['GRAVIDEZ'].unique()) #possui
print('CONSULTAS', df_restante['CONSULTAS'].unique()) #não possui NA

LOCNASC: [1 4 2 3]
IDADEMAE [19 29 37 30 33 27 20 31 21 18 24 22 25 26 34 23 28 14 17 40 16 35 39 38
 32 36 41 15 42 43 12 13 47 45 44 11 53 46 51 52]
ESCMAE ['8 a 11 anos' '12 anos ou mais' '1 a 3 anos' '4 a 7 anos' nan 'Nenhuma']
GESTACAO ['37 a 41 semanas' '42 semanas e mais' '32 a 36 semanas' '22 a 27 semanas'
 '28 a 31 semanas' nan 'Menos de 22 semanas']
GRAVIDEZ ['Única' 'Dupla' nan 'Tríplice e mais']
CONSULTAS [4 3 2 1 9]


In [145]:
#as colunas que possuem NA são variáveis tipo categóricas. 
#Para a coluna ESCMAE vamos mesclar os valores nan com "Nenhuma".
df7 = df_restante['ESCMAE'].replace(np.nan, 'Nenhuma')

In [147]:
df7.unique()

array(['8 a 11 anos', '12 anos ou mais', '1 a 3 anos', '4 a 7 anos',
       'Nenhuma'], dtype=object)

In [149]:
#Para a coluna GRAVIDEZ vamos substituir os valores nan por "Não informado".
df8 = df_restante['GRAVIDEZ']
df8 = df_restante['GRAVIDEZ'].replace(np.nan, 'Não informado')

In [151]:
df8.unique()

array(['Única', 'Dupla', 'Não informado', 'Tríplice e mais'], dtype=object)

In [153]:
#A coluna GESTACAO é categórica, porém trata de intervalos numéricos. Por isso acredito ser mais seguro apresentar a informação como "não informado" do que aplicar matemática para supor valores.
df9 = df_restante['GESTACAO'].replace(np.nan, 'Não informado')
df9

0        37 a 41 semanas
1        37 a 41 semanas
2        37 a 41 semanas
3        37 a 41 semanas
4        37 a 41 semanas
              ...       
27023    32 a 36 semanas
27024    37 a 41 semanas
27025    37 a 41 semanas
27026    32 a 36 semanas
27027    37 a 41 semanas
Name: GESTACAO, Length: 26925, dtype: object

In [155]:
df9.unique()

array(['37 a 41 semanas', '42 semanas e mais', '32 a 36 semanas',
       '22 a 27 semanas', '28 a 31 semanas', 'Não informado',
       'Menos de 22 semanas'], dtype=object)

8) O Apgar possui uma classificação indicando se o bebê passou por asfixia:

Entre 8 e 10 está em uma faixa 'normal'.
Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'.
Entre 4 e 5 significa 'asfixia moderada'.
Entre 0 e 3 significa 'asfixia severa'.
Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.

In [158]:
df_limpo['APGAR5'].unique() #conferindo se não existe valores NA 

array([10.,  9.,  7.,  0.,  8.,  4.,  3.,  6.,  5.,  2.,  1.])

In [160]:
 intervalos = [0, 3, 5, 7, 10] # Defina os intervalos e rótulos para usar o método pd.cut
rotulos = ['Asfixia Severa', 'Asfixia Moderada', 'Asfixia Leve', 'Normal']

In [162]:
df_limpo['SCORE_APGAR'] = pd.cut(df_limpo['APGAR5'], bins=intervalos, labels=rotulos, include_lowest=True) #recortar a tabela APGAR5, categorizar e incluir o 0 como menor número na contagem

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpo['SCORE_APGAR'] = pd.cut(df_limpo['APGAR5'], bins=intervalos, labels=rotulos, include_lowest=True) #recortar a tabela APGAR5, categorizar e incluir o 0 como menor número na contagem


In [164]:
contagem = df_limpo['SCORE_APGAR'].value_counts().sort_index()
frequencia = df_limpo['SCORE_APGAR'].value_counts(normalize=True).sort_index() * 100 #podemos usar o parametro normalize para calcular a frequência relativa
print(contagem)
print(frequencia)

SCORE_APGAR
Asfixia Severa         74
Asfixia Moderada       68
Asfixia Leve          320
Normal              26463
Name: count, dtype: int64
SCORE_APGAR
Asfixia Severa       0.274838
Asfixia Moderada     0.252553
Asfixia Leve         1.188487
Normal              98.284123
Name: proportion, dtype: float64


In [166]:
#criando uma série para cada coluna 
score_series = pd.Series(contagem.index, name='SCORE_APGAR') #vamos usar a coluna SCORE_APGAR como índice
contagem_series = pd.Series(contagem.values, name='Contagem')
frequencia_series = pd.Series(frequencia.values, name='Frequencia')

In [168]:
resultados = pd.concat([score_series, contagem_series, frequencia_series], axis=1)

In [170]:
resultados

Unnamed: 0,SCORE_APGAR,Contagem,Frequencia
0,Asfixia Severa,74,0.274838
1,Asfixia Moderada,68,0.252553
2,Asfixia Leve,320,1.188487
3,Normal,26463,98.284123


9) Renomeie as variáveis para que fiquem no snake case, ou seja, em letras minúsculas, com um underscore entre as palávras. Dica: repare que se você não quiser criar um dataframe novo, você vai precisar usar a opção inplace = True.

In [176]:
df_limpo

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5,SCORE_APGAR
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,Normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,Normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,Normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,Normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,Normal
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0,Normal
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0,Normal
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,Normal
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0,Normal


In [180]:
df_limpo_lowercase = df_limpo.columns = df_limpo.columns.str.lower()

In [184]:
print(df_limpo_lowercase)

Index(['locnasc', 'idademae', 'estcivmae', 'escmae', 'qtdfilvivo', 'gestacao',
       'gravidez', 'consultas', 'apgar5', 'score_apgar'],
      dtype='object')


In [188]:
df_limpo

Unnamed: 0,locnasc,idademae,estcivmae,escmae,qtdfilvivo,gestacao,gravidez,consultas,apgar5,score_apgar
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,Normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,Normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,Normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,Normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,Normal
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0,Normal
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0,Normal
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,Normal
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0,Normal
