# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
``` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [1]:
import pandas as pd
import requests

# 1) seu código aqui
#Leitura do arquivo
sinasc = pd.read_csv('./SINASC_RO_2019.csv')
print(f'Quantidade de linhas e colunas no arquivo: {sinasc.shape}')
print(f'Quantidade de linhas e colunas após remover duplicatas: {sinasc.drop_duplicates().shape}')
# Não há duplicados

Quantidade de linhas e colunas no arquivo: (27028, 69)
Quantidade de linhas e colunas após remover duplicatas: (27028, 69)


In [2]:
#3)
#Verificando a quantidade de valores ausentes para cada variável
sinasc.isna().sum()

ORIGEM          0
CODESTAB      115
CODMUNNASC      0
LOCNASC         0
IDADEMAE        0
             ... 
munResUf        0
munResLat       1
munResLon       1
munResAlt       1
munResArea      1
Length: 69, dtype: int64

In [3]:
#imprimindo apenas as colunas que possuem valores ausentes
for coluna in sinasc.columns:
    if sinasc[coluna].isna().sum() > 0:
        print(f'{coluna}: {sinasc[coluna].isna().sum()}')

CODESTAB: 115
ESTCIVMAE: 317
ESCMAE: 312
CODOCUPMAE: 2907
QTDFILVIVO: 1573
QTDFILMORT: 2098
GESTACAO: 1232
GRAVIDEZ: 79
PARTO: 49
HORANASC: 21
SEXO: 4
APGAR1: 96
APGAR5: 103
RACACOR: 647
IDANOMAL: 591
CODANOMAL: 26814
DTRECORIGA: 27028
NATURALMAE: 298
CODMUNNATU: 298
CODUFNATU: 298
ESCMAE2010: 249
SERIESCMAE: 12710
DTNASCMAE: 40
RACACORMAE: 661
QTDGESTANT: 1212
QTDPARTNOR: 1879
QTDPARTCES: 1791
IDADEPAI: 19421
DTULTMENST: 10072
SEMAGESTAC: 1238
TPMETESTIM: 1238
CONSPRENAT: 930
MESPRENAT: 2867
TPAPRESENT: 265
STTRABPART: 947
STCESPARTO: 747
TPNASCASSI: 61
TPFUNCRESP: 67
TPDOCRESP: 14
DTDECLARAC: 52
ESCMAEAGR1: 249
munResLat: 1
munResLon: 1
munResAlt: 1
munResArea: 1


In [4]:
# 3) seu código aqui
#Criando um DataFrame com as colunas específicas
df = sinasc[['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']]
#Verificando os valores faltantes no novo DataFrame
df.isna().sum()

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64

In [5]:
# 4) seu código aqui

print(f'Quantidade de linhas e colunas no DataFrame: {df.shape}')
print(f'Total faltantes: {df.isna().sum()}')

#Removendo os valores ausentes em APGAR5
df_limpo = df.dropna(subset=['APGAR5'])
print(f'Quantidade de linhas e colunas após remover NaN: {df_limpo.shape}')

#verificando se existem dados faltantes em APGAR5
print(f'Total faltantes: {df_limpo.isna().sum()}')

Quantidade de linhas e colunas no DataFrame: (27028, 9)
Total faltantes: LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64
Quantidade de linhas e colunas após remover NaN: (26925, 9)
Total faltantes: LOCNASC          0
IDADEMAE         0
ESTCIVMAE      315
ESCMAE         310
QTDFILVIVO    1566
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS        0
APGAR5           0
dtype: int64


In [6]:
# 5) seu código aqui
#Preenchendo os valores faltantes com 9
#Usando inplace=True para que a alteração se feita no próprio DataFrame
df_limpo['ESTCIVMAE'].fillna(9, inplace=True)

#Outra alternativa é preencher os valores faltantes usando loc
df_limpo.loc[df_limpo['CONSULTAS'].isna()] = 9

#verificando se os valores foram preenchidos
df_limpo.isna().sum()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpo['ESTCIVMAE'].fillna(9, inplace=True)


LOCNASC          0
IDADEMAE         0
ESTCIVMAE        0
ESCMAE         310
QTDFILVIVO    1566
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS        0
APGAR5           0
dtype: int64

In [7]:
# 6) Seu código aqui
#Preenchendo os valores faltantes do atributo QTDFILVIVO com o valor 0
df_limpo.loc[df_limpo['QTDFILVIVO'].isna()] = 0
df_limpo.isna().sum()

LOCNASC          0
IDADEMAE         0
ESTCIVMAE        0
ESCMAE         276
QTDFILVIVO       0
GESTACAO      1097
GRAVIDEZ        66
CONSULTAS        0
APGAR5           0
dtype: int64

#### Verificar possibilidades de preenchimento

Analisar se os atributos numéricos podem dar algum indicativo do melhor valor a ser utilizado no preenchimento dos dados faltantes. Irei utilizar a médias desses atributos numéricos

Realizei os seguintes testes:

    7.1) Relação entre os atributos ESCMAE e IDADEMAE. Imaginando que a idade possa apresentar algum indicativo de nível de escolaridade.

    7.2) Relação entre os atributos GESTACAO e CONSULTAS. Imaginando que gestações mais longas podem ter um número maior de consultas.

    7.3) O atributo GRAVIDEZ será preenchido com 9, que é o valor informado para Ignorado

In [8]:
# 7.1) #ESCMAE: Escolaridade, anos de estudo concluídos
df_limpo['ESCMAE'].value_counts()


df_limpo.groupby(['ESCMAE'])['IDADEMAE'].mean()

ESCMAE
0                   0.000000
1 a 3 anos         28.664622
12 anos ou mais    29.611835
4 a 7 anos         24.892610
8 a 11 anos        25.334263
Nenhuma            31.575000
Name: IDADEMAE, dtype: float64

In [9]:
#Analisando a quantidade de dados faltantes para ESCMAE por idades
#Verificando a quantidade de IDADEMAE a cada valor faltante de ESCMAE
df_limpo[df_limpo['ESCMAE'].isna()]['IDADEMAE'].value_counts().sort_index()

14     1
15     1
16     4
17     9
18     5
19    11
20    13
21    13
22    17
23    15
24    11
25    14
26    14
27    20
28     9
29     6
30    13
31    11
32    14
33     9
34     9
35     9
36    13
37    10
38     9
39     5
40     6
41     2
42     2
43     1
Name: IDADEMAE, dtype: int64

#### Definindo as faixas para preenchimento de ESCMAE
Como não observamos que existe uma relação de que a idade mais elevada indica tempo de estudo mais alto, optei por preencher considerando os registros anteriores.

Para isso, vou utilizar o comando 'fillna(method='ffill')' após ordenar pela idade IDADEMAE

In [10]:
#Ordenando os dados por 'IDADEMAE' e preenchendo o valor de 'ESCMAE'
df_limpo = df_limpo.sort_values(['IDADEMAE'])   
df_limpo['ESCMAE'].fillna(method='ffill', inplace = True)
df_limpo['ESCMAE'].isna().sum()

0

In [11]:
# 7.2) #GESTACAO
df_limpo['GESTACAO'].value_counts()
df_limpo['CONSULTAS'].value_counts()

#Fazendo uma análise quantitativa para verificar a quantidade de instâncias relacionadas para cada par GESTACAO e CONSULTAS
analise = df_limpo[['GESTACAO','CONSULTAS']].value_counts()
print(f'{analise}')
#Observa-se que há uma tendência de quando são 4 consultas, a GESTACAO é de 37 a 41 semanas

GESTACAO             CONSULTAS
37 a 41 semanas      4            15381
                     3             4427
0                    0             1566
32 a 36 semanas      4             1109
37 a 41 semanas      2              949
32 a 36 semanas      3              682
37 a 41 semanas      1              506
42 semanas e mais    4              496
32 a 36 semanas      2              171
42 semanas e mais    3              129
32 a 36 semanas      1              102
28 a 31 semanas      3               62
                     4               42
37 a 41 semanas      9               36
22 a 27 semanas      3               33
42 semanas e mais    2               30
28 a 31 semanas      2               27
22 a 27 semanas      2               20
                     4               14
28 a 31 semanas      1               13
22 a 27 semanas      1               12
42 semanas e mais    1                9
32 a 36 semanas      9                4
Menos de 22 semanas  2                3
         

In [12]:
#Qual é a média de consultas para cada período de gestação?
df_limpo.groupby(['GESTACAO'])['CONSULTAS'].mean()

GESTACAO
0                      0.000000
22 a 27 semanas        2.700000
28 a 31 semanas        2.923611
32 a 36 semanas        3.366538
37 a 41 semanas        3.640218
42 semanas e mais      3.674699
Menos de 22 semanas    2.857143
Name: CONSULTAS, dtype: float64

In [13]:
#Analisando a quantidade de dados faltantes para GESTACAO
#Verificando a quantidade de consultas a cada valor faltante
df_limpo[df_limpo['GESTACAO'].isna()]['CONSULTAS'].value_counts()

4    558
1    228
3    222
2     81
9      8
Name: CONSULTAS, dtype: int64

Definindo a GESTACAO com base nas análises anteriores:

1. Se CONSULTAS == 4, então GESTACAO 37 a 41 semanas
2. Se CONSULTAS == 3, então GESTACAO 32 a 36 semanas
3. Se CONSULTAS == 2, então GESTAÇÃO 28 a 31 semanas
4. Se CONSULTAS == 1, então GESTAÇÃO 22 a 27 semanas
5. Se CONSULTAS == 9, então GESTAÇÃO 9 (Ignorado)

In [14]:
# 7.2) Preenchendo os valores faltantes de GESTACAO
df_limpo.loc[(df_limpo['GESTACAO'].isna()) & (df_limpo['CONSULTAS'] == 9), 'GESTACAO'] = 9
df_limpo.loc[(df_limpo['GESTACAO'].isna()) & (df_limpo['CONSULTAS'] == 1), 'GESTACAO'] = '22 a 27 semanas'
df_limpo.loc[(df_limpo['GESTACAO'].isna()) & (df_limpo['CONSULTAS'] == 2), 'GESTACAO'] = '28 a 31 semanas'
df_limpo.loc[(df_limpo['GESTACAO'].isna()) & (df_limpo['CONSULTAS'] == 3), 'GESTACAO'] = '32 a 36 semanas'
df_limpo.loc[(df_limpo['GESTACAO'].isna()) & (df_limpo['CONSULTAS'] == 4), 'GESTACAO'] = '37 a 41 semanas'

#Verificando se todos os valores foram preenchidos
df_limpo.loc[(df_limpo['GESTACAO'].isna())].value_counts()

Series([], dtype: int64)

In [15]:
df_limpo[df_limpo['GRAVIDEZ'].isna()]

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
4221,1,17,5.0,4 a 7 anos,1.0,32 a 36 semanas,,4,9.0
685,1,18,5.0,4 a 7 anos,1.0,37 a 41 semanas,,4,9.0
25724,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,,3,9.0
18213,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,,4,10.0
1290,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,,4,9.0
...,...,...,...,...,...,...,...,...,...
22614,1,37,1.0,4 a 7 anos,4.0,37 a 41 semanas,,3,10.0
20742,1,38,1.0,8 a 11 anos,5.0,28 a 31 semanas,,2,9.0
21336,1,40,2.0,12 anos ou mais,0.0,37 a 41 semanas,,4,10.0
8427,1,42,5.0,8 a 11 anos,2.0,37 a 41 semanas,,1,8.0


In [16]:
#Preenchendo valores de dados faltantes em GRAVIDEZ por 9
df_limpo.loc[df_limpo['GRAVIDEZ'].isna(), 'GRAVIDEZ'] = 9

#Verificando se os dados foram preenchidos
df_limpo['GRAVIDEZ'].isna().sum()

0

## Definindo a regra de mapeamento

Cria-se o dicionário de mapeamento para aplicá-lo, posteriormente, no atributo 'Apga' no DataFrame.

- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

In [17]:
# 8) Categorizando a variável Apgar

#Definição da variável de mapeamento
mapeamento = {
    0 : 'asfixia severa',
    1 : 'asfixia severa',
    2 : 'asfixia severa',
    3 : 'asfixia severa',
    4 : 'asfixia moderada',
    5 : 'asfixia moderada',
    6 : 'asfixia leve',
    7 : 'asfixia leve',
    8 : 'normal',
    9 : 'normal',
    10 : 'normal'
}

#Criando uma coluna no DataFrame para armazenar as categorias de APGAR
df_limpo['CAT_APGAR'] = df_limpo['APGAR5'].map(mapeamento)
df_limpo

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5,CAT_APGAR
7695,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
6894,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
9232,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
6893,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
9271,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
...,...,...,...,...,...,...,...,...,...,...
25798,1,47,2.0,4 a 7 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
18592,1,51,2.0,12 anos ou mais,2.0,37 a 41 semanas,Única,3,9.0,normal
18901,1,52,1.0,Nenhuma,0.0,37 a 41 semanas,Única,4,9.0,normal
25372,1,53,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,1,9.0,normal


In [18]:
# 9) Renomenando o nome das colunas

#Definição da variável de mapeamento
map_rename_column = {
    'LOCNASC' : 'loc_nasc',
    'IDADEMAE' : 'idade_mae',
    'ESTCIVMAE' : 'estado_civil_mae',
    'ESCMAE' : 'escolaridade_mae',
    'QTDFILVIVO' : 'qtd_filhos_vivos',
    'GESTACAO' : 'gestacao',
    'GRAVIDEZ' : 'gravidez',
    'CONSULTAS' : 'consultas',
    'APGAR5' : 'apgar5',
    'CAT_APGAR' : 'categoria_apgar'
}

df_limpo = df_limpo.rename(columns=map_rename_column)
df_limpo

Unnamed: 0,loc_nasc,idade_mae,estado_civil_mae,escolaridade_mae,qtd_filhos_vivos,gestacao,gravidez,consultas,apgar5,categoria_apgar
7695,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
6894,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
9232,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
6893,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
9271,0,0,0.0,0,0.0,0,0,0,0.0,asfixia severa
...,...,...,...,...,...,...,...,...,...,...
25798,1,47,2.0,4 a 7 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
18592,1,51,2.0,12 anos ou mais,2.0,37 a 41 semanas,Única,3,9.0,normal
18901,1,52,1.0,Nenhuma,0.0,37 a 41 semanas,Única,4,9.0,normal
25372,1,53,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,1,9.0,normal
