# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.).

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
```
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'.
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'.
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

# 1.
Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**

In [2]:
import pandas as pd
import requests

# 1) seu código aqui
df = pd.read_csv('SINASC_RO_2019.csv')
print(df.shape)
df.drop_duplicates().shape
# Não há duplicados

(11509, 69)


(11509, 69)

# 2.
Conte o número de valores *missing* por variável.

In [3]:
# 2) seu código aqui
df.isna().sum() # Verificando a quantidade de dados faltantes

ORIGEM         0
CODESTAB      43
CODMUNNASC     0
LOCNASC        0
IDADEMAE       0
              ..
munResUf       1
munResLat      2
munResLon      2
munResAlt      2
munResArea     2
Length: 69, dtype: int64

In [4]:
colunas_com_soma_maior_que_0 = df.loc[:, df.isna().sum() > 0] # filtrando apenas as colunas que possuem dados faltantes
colunas_com_soma_maior_que_0.columns # mostrando as colunas com dados faltantes

Index(['CODESTAB', 'ESTCIVMAE', 'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO',
       'QTDFILMORT', 'GESTACAO', 'GRAVIDEZ', 'PARTO', 'HORANASC', 'SEXO',
       'APGAR1', 'APGAR5', 'RACACOR', 'IDANOMAL', 'CODANOMAL', 'DTRECORIGA',
       'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010', 'SERIESCMAE',
       'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR', 'QTDPARTCES',
       'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM', 'CONSPRENAT',
       'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO', 'TPNASCASSI',
       'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1', 'STDNEPIDEM',
       'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE', 'KOTELCHUCK',
       'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome', 'munResUf',
       'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [5]:
colunas_com_soma_maior_que_0.isna().sum().sort_values() # mostrando apenas as colunas que possuem dados faltantes e a quantidade de dados faltantes

CONTADOR            1
TPDOCRESP           1
STDNEPIDEM          1
munResUf            1
munResNome          1
munResTipo          1
munResStatus        1
STDNNOVA            1
CODPAISRES          1
TPROBSON            1
PARIDADE            1
KOTELCHUCK          1
munResArea          2
SEXO                2
munResLat           2
munResLon           2
munResAlt           2
HORANASC            7
DTNASCMAE          10
DTDECLARAC         19
TPNASCASSI         21
PARTO              22
TPFUNCRESP         23
GRAVIDEZ           37
APGAR1             41
CODESTAB           43
APGAR5             46
ESCMAE2010        106
ESCMAEAGR1        107
NATURALMAE        114
CODMUNNATU        114
CODUFNATU         114
TPAPRESENT        124
ESCMAE            133
ESTCIVMAE         138
RACACOR           307
RACACORMAE        308
CONSPRENAT        421
STCESPARTO        436
IDANOMAL          524
STTRABPART        560
GESTACAO          618
TPMETESTIM        619
SEMAGESTAC        619
QTDGESTANT        650
QTDFILVIVO

In [6]:
pocentagem_colunas_soma_maior_que_0 = (colunas_com_soma_maior_que_0.isnull().sum() / len(df)) * 100 # Achando a porcentagem de dados faltantes
pocentagem_colunas_soma_maior_que_0.sort_values(ascending=False)
#Para a maioria dos dados, temos uma quantidade baixa de dados faltantes

DTRECORIGA      100.000000
CODANOMAL        99.165870
IDADEPAI         69.293596
SERIESCMAE       50.186810
DTULTMENST       40.794161
MESPRENAT        12.034060
CODOCUPMAE       10.504822
QTDFILMORT        8.237032
QTDPARTCES        7.437657
QTDPARTNOR        7.368147
QTDFILVIVO        6.429751
QTDGESTANT        5.647754
TPMETESTIM        5.378400
SEMAGESTAC        5.378400
GESTACAO          5.369711
STTRABPART        4.865757
IDANOMAL          4.552959
STCESPARTO        3.788340
CONSPRENAT        3.658007
RACACORMAE        2.676166
RACACOR           2.667478
ESTCIVMAE         1.199062
ESCMAE            1.155617
TPAPRESENT        1.077418
CODMUNNATU        0.990529
CODUFNATU         0.990529
NATURALMAE        0.990529
ESCMAEAGR1        0.929707
ESCMAE2010        0.921018
APGAR5            0.399687
CODESTAB          0.373621
APGAR1            0.356243
GRAVIDEZ          0.321488
TPFUNCRESP        0.199844
PARTO             0.191155
TPNASCASSI        0.182466
DTDECLARAC        0.165088
D

In [7]:
porcentagem_alta = pocentagem_colunas_soma_maior_que_0[pocentagem_colunas_soma_maior_que_0 > 15] # Filtrando a quantidade as maiores porcentagens de dados faltantes
porcentagem_alta.sort_values() # Exibindo as colunas com maiores dados faltantes

DTULTMENST     40.794161
SERIESCMAE     50.186810
IDADEPAI       69.293596
CODANOMAL      99.165870
DTRECORIGA    100.000000
dtype: float64

# 3.
Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
```
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']
```
Refaça a contagem de valores *missings*.

In [8]:
# 3) seu código aqui
dados_filtrados = df[['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',
                  'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']]
dados_filtrados
#trazendo apenas algumas colunas com dados mais relevantes

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
...,...,...,...,...,...,...,...,...,...
11504,1,23,1.0,12 anos ou mais,0.0,37 a 41 semanas,Única,4,10.0
11505,1,25,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
11506,1,33,2.0,12 anos ou mais,1.0,37 a 41 semanas,Única,3,10.0
11507,1,33,4.0,12 anos ou mais,1.0,37 a 41 semanas,Única,4,10.0


In [9]:
dados_filtrados.isna().sum().sort_values() #verificando quais colunas possuem dados faltantes

LOCNASC         0
IDADEMAE        0
CONSULTAS       0
GRAVIDEZ       37
APGAR5         46
ESCMAE        133
ESTCIVMAE     138
GESTACAO      618
QTDFILVIVO    740
dtype: int64

In [10]:
colunas_com_soma_maior_que_0 = dados_filtrados.loc[:, dados_filtrados.isna().sum() > 0] #trazendo apenas as colunas com valores faltantes
colunas_com_soma_maior_que_0.columns

Index(['ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 'GESTACAO', 'GRAVIDEZ', 'APGAR5'], dtype='object')

# 4.
Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.

In [11]:
# 4) seu código aqui
df['APGAR5'].shape # contando a quantidade de linhas na coluna apgar5

(11509,)

In [12]:
df['APGAR5'].isna().sum() # contando a quantidade de linhas missing

46

In [13]:
# removendo os dados faltantes
apgar5_limpo = df['APGAR5'].dropna()
apgar5_limpo

0        10.0
1         9.0
2        10.0
3        10.0
4        10.0
         ... 
11504    10.0
11505    10.0
11506    10.0
11507    10.0
11508    10.0
Name: APGAR5, Length: 11463, dtype: float64

# 5.
observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>

In [14]:
# 5) seu código aqui
df['ESTCIVMAE'].value_counts().sort_index() #verificando a quantidade de dados faltantes

1.0    3650
2.0    4179
3.0      25
4.0     166
5.0    3286
9.0      65
Name: ESTCIVMAE, dtype: int64

In [15]:
df['CONSULTAS'].value_counts().sort_index() #verificando a quantidade de dados faltantes

1     459
2     650
3    2772
4    7605
9      23
Name: CONSULTAS, dtype: int64

In [16]:
df_sem_nove = df.loc[(df['CONSULTAS'] != 9) & (df['ESTCIVMAE'] != 9)] # Removendo os valores iguais a 9 do DataFrame
df_sem_nove['CONSULTAS'].value_counts().sort_index()

1     455
2     648
3    2754
4    7564
Name: CONSULTAS, dtype: int64

# 6.
Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.

In [17]:
# 6) Seu código aqui
df['QTDFILVIVO'].isna().sum() # verificando a quantidade de valores faltantes

740

In [18]:
filhos_vivos_preenchido = df['QTDFILVIVO'].fillna(0) #preenchendo os dados faltantes da coluna por 0
filhos_vivos_preenchido

0        0.0
1        1.0
2        2.0
3        0.0
4        1.0
        ... 
11504    0.0
11505    0.0
11506    1.0
11507    1.0
11508    1.0
Name: QTDFILVIVO, Length: 11509, dtype: float64

In [19]:
filhos_vivos_preenchido.value_counts() # contando a frequencia da quantidade de filhos vivos

0.0     4719
1.0     3919
2.0     1874
3.0      599
4.0      220
5.0       98
6.0       53
7.0       12
8.0        8
9.0        3
12.0       2
11.0       1
30.0       1
Name: QTDFILVIVO, dtype: int64

# 7.
Das restantes, decida que valor te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.

In [20]:
# 7) seu código aqui
colunas_com_soma_maior_que_0.columns # mostrando as colunas com dados faltantes

Index(['ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 'GESTACAO', 'GRAVIDEZ', 'APGAR5'], dtype='object')

In [34]:
df['GRAVIDEZ'].value_counts()

Única              11255
Dupla                216
Tríplice e mais        1
Name: GRAVIDEZ, dtype: int64

In [29]:
df['GRAVIDEZ'].isna().sum() # verificando a quantidade de dados faltantes na coluna Gravidez

37

Neste caso, pode ser muito arriscado preencher os dados faltantes com algum valor e gerar um viés, pois, temos um valor muito baixo de gravidez dupla e tríplice e mais. Portanto, iremos retrirar os valores nulos da coluna ```GRAVIDEZ```

In [37]:
gravidez_limpa = df['GRAVIDEZ'].dropna()
gravidez_limpa.value_counts()

Única              11255
Dupla                216
Tríplice e mais        1
Name: GRAVIDEZ, dtype: int64

Outra colunas que podemos remover os dados faltantes é a de estado civil, temos linhas vazias e também valores preenchidos com 9, que podemos considerar como nulos

In [50]:
df_estado_civil_limpo = df.loc[(df['ESTCIVMAE'] != 9) & (df['ESTCIVMAE'].notna())] # retirando os valores nulos e iguais a 9
df_estado_civil_limpo['ESTCIVMAE'].value_counts()

2.0    4179
1.0    3650
5.0    3286
4.0     166
3.0      25
Name: ESTCIVMAE, dtype: int64

# 8.
O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'.
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'.
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.

In [60]:
df['APGAR5'].value_counts().sort_values() # verificando os dados

2.0        5
3.0        7
0.0        8
4.0       10
1.0       16
5.0       19
6.0       36
7.0       87
8.0      859
10.0    3527
9.0     6889
Name: APGAR5, dtype: int64

In [89]:
# realizando a categorização dos dados
df.loc[df['APGAR5'] >= 8, 'apgar5_novo'] = 'normal'
df.loc[(df['APGAR5'] >=6) & (df['APGAR5'] <= 7),
           'apgar5_novo'] = 'asfixia leve'
df.loc[(df['APGAR5'] >= 4) & (df['APGAR5'] <= 5),
           'apgar5_novo'] = 'asfixia moderada'
df.loc[(df['APGAR5'] <= 3), 'apgar5_novo'] = 'asfixia severa'

In [90]:
df['apgar5_novo'].value_counts() #mostrando a frequência

normal              11275
asfixia leve          123
asfixia severa         36
asfixia moderada       29
Name: apgar5_novo, dtype: int64

# 9.
Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [92]:
# 9) seu código aqui
df['apgar5_novo'] = df['apgar5_novo'].str.replace(' ', '_').str.lower() # transformando os valores em snake case

In [94]:
df['apgar5_novo'].value_counts() #mostrando a frequencia

normal              11275
asfixia_leve          123
asfixia_severa         36
asfixia_moderada       29
Name: apgar5_novo, dtype: int64