# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
``` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [3]:
import pandas as pd
import requests

# 1) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc.shape)
sinasc.drop_duplicates().shape
# Não há duplicados

(27028, 69)


(27028, 69)

In [4]:
# 2) seu código aqui
sinasc.isnull().sum()

ORIGEM          0
CODESTAB      115
CODMUNNASC      0
LOCNASC         0
IDADEMAE        0
             ... 
munResUf        0
munResLat       1
munResLon       1
munResAlt       1
munResArea      1
Length: 69, dtype: int64

In [5]:
# 3) seu código aqui
colunas = ['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
df = sinasc[colunas]
print(df)


       LOCNASC  IDADEMAE  ESTCIVMAE           ESCMAE  QTDFILVIVO  \
0            1        19        5.0      8 a 11 anos         0.0   
1            1        29        2.0      8 a 11 anos         1.0   
2            1        37        9.0      8 a 11 anos         2.0   
3            1        30        5.0  12 anos ou mais         0.0   
4            1        30        2.0      8 a 11 anos         1.0   
...        ...       ...        ...              ...         ...   
27023        1        32        2.0  12 anos ou mais         1.0   
27024        1        19        1.0      8 a 11 anos         0.0   
27025        1        24        2.0      8 a 11 anos         0.0   
27026        1        21        2.0      8 a 11 anos         1.0   
27027        1        18        5.0      8 a 11 anos         1.0   

              GESTACAO GRAVIDEZ  CONSULTAS  APGAR5  
0      37 a 41 semanas    Única          4    10.0  
1      37 a 41 semanas    Única          4     9.0  
2      37 a 41 semanas  

In [6]:
# 4) seu código aqui
df.isnull().sum()

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64

In [7]:
# 5) seu código aqui
df['APGAR5'].isnull().sum()

103

In [8]:
df = df.dropna(subset= ["APGAR5"]) # o método subset deve ser utilizado quando se quer apagar dados de uma coluna específica

In [9]:
df['APGAR5'].isnull().sum()

0

In [10]:
# 6) Seu código aqui
df[['ESTCIVMAE', 'CONSULTAS']].isnull().sum() #sempre por colchetes duplos quando selecionar duas colunas

#como a coluna "CONSULTAS" não possui valores nulos, não é necessário substituir nenhum dado por 9

ESTCIVMAE    315
CONSULTAS      0
dtype: int64

In [11]:
df["ESTCIVMAE"] = df["ESTCIVMAE"].fillna(9) #lembrando que o método fillna não altera o DF original: 
#fillna apenas retorna os valores, desta forma, deve-se atribuir o método ao DF e às colunas originas.

In [12]:
df[['ESTCIVMAE', 'CONSULTAS']].isnull().sum()

ESTCIVMAE    0
CONSULTAS    0
dtype: int64

In [13]:
# 7) seu código aqui
df['QTDFILVIVO'] = df['QTDFILVIVO'].fillna(0) # mais uma vez, deve-se atribuir o comando fillna ao DF original
#caso contrário, a função irá apenas retnornar os valores preenchidos.

In [14]:
# 8) seu código aqui
df["QTDFILVIVO"].isnull().sum() #verificando se ainda há algum valor nulo em QTDFILVIVO

0

In [15]:
df.isnull().sum() #somente as colunas ESCMAE e GESTACAO e GRAVIDEZ ainda possuem valores nulos

LOCNASC          0
IDADEMAE         0
ESTCIVMAE        0
ESCMAE         310
QTDFILVIVO       0
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS        0
APGAR5           0
dtype: int64

In [16]:
df[["ESCMAE", "GESTACAO", "GRAVIDEZ"]] # a columa ESCMAE significa escolaridade da mãe.
# os dados dessa coluna correspondem a : Nenhuma  1 a 3 anos, 4 a 7 anos, 8 a 11 anos, 12 e mais, Ignorado #
#a coluna GESTACAO varia com 9 atributos, sendo desde ignorado até 42 semanas.
#a coluna GRAVIDEZ pode variar entre Ignorado, Única, Dupla, Tripla e mais


Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ
0,8 a 11 anos,37 a 41 semanas,Única
1,8 a 11 anos,37 a 41 semanas,Única
2,8 a 11 anos,37 a 41 semanas,Única
3,12 anos ou mais,37 a 41 semanas,Única
4,8 a 11 anos,37 a 41 semanas,Única
...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única
27024,8 a 11 anos,37 a 41 semanas,Única
27025,8 a 11 anos,37 a 41 semanas,Única
27026,8 a 11 anos,32 a 36 semanas,Única


# Verificando a média de valores nulos 
A função df.isnull() retorna um DataFrame de booleanos, onde cada valor é True se o valor correspondente no DataFrame original for nulo, e False caso contrário.
A função .sum() é usada para somar os valores em cada coluna, uma vez que o valor booleano True é considerado como 1 e False é considerado como 0.
A função / len(df) retorna o número de nulos dividido pelo total de linhas do DataFrame multiplicado por 100 




In [17]:
percentage = (df.isnull().sum() / len(df)) * 100 
percentage

LOCNASC       0.000000
IDADEMAE      0.000000
ESTCIVMAE     0.000000
ESCMAE        1.151346
QTDFILVIVO    0.000000
GESTACAO      4.516249
GRAVIDEZ      0.282266
CONSULTAS     0.000000
APGAR5        0.000000
dtype: float64

Nota-se que os valores nulos embora sejam importantes para analises com machine learning por ex, 
não são quantitativamente significativos:
Sendo para ESCMAR 1.15%, GESTACAO 4.4% e GRAVIDEZ 0.28%
Desta forma, minha escolha é substituir os dados nulos pelo código 9 que significa ignorado


In [18]:
df['ESCMAE'] = df['ESCMAE'].fillna(9)
df['GESTACAO'] = df['GESTACAO'].fillna(9)
df['GRAVIDEZ']= df["GRAVIDEZ"].fillna(9)

In [19]:
percentage = (df.isnull().sum() / len(df)) * 100  #verificando novamente a porcentagem de dados nulos
percentage

LOCNASC       0.0
IDADEMAE      0.0
ESTCIVMAE     0.0
ESCMAE        0.0
QTDFILVIVO    0.0
GESTACAO      0.0
GRAVIDEZ      0.0
CONSULTAS     0.0
APGAR5        0.0
dtype: float64

In [20]:
# 8 CLassificação da coluna APGAR5 "níveis de asfixia"
df["APGAR5"].value_counts()


9.0     16076
10.0     8393
8.0      1994
7.0       241
6.0        79
5.0        45
1.0        24
4.0        23
2.0        18
0.0        17
3.0        15
Name: APGAR5, dtype: int64

Criando categorização de APGAR5 baseando-se nas seguintes faixas:

Entre 8 e 10 está em uma faixa 'normal'.
Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'.
Entre 4 e 5 significa 'asfixia moderada'.
Entre 0 e 3 significa 'asfixia severa'.

In [26]:
df.loc[(df["APGAR5"] >= 8) & (df["APGAR5"] <= 10), "tp_asfixia"] = "normal"
df.loc[(df["APGAR5"] >= 6) & (df["APGAR5"] <= 7), "tp_asfixia"] = "asfixia leve"
df.loc[(df["APGAR5"] >= 4) & (df["APGAR5"] <= 5), "tp_asfixia"] = "asfixia moderada"
df.loc[(df["APGAR5"] >= 0) & (df["APGAR5"] <= 3), "tp_asfixia"] = "asfixia severa"

#OBS: a título de comparação, abaixo o primeiro código qie fiz no qual cometi os seguintes erros: 

#df.loc[(df["APGAR5"] => 8) & (df.loc[df["APGAR5"] <= 10), "tp_asfixia"] = "normal" 

#repetioço da função loc na segunda comparaçao
# sinal errado => o correto é >=
#Lembre-se, a comparação deve estar entre aparenteses e separada por &, 
#para facilitar a compreensão, tente acomodar os parentes após a construção do código




In [28]:
df[['APGAR5', "tp_asfixia"]].value_counts()

APGAR5  tp_asfixia      
9.0     normal              16076
10.0    normal               8393
8.0     normal               1994
7.0     asfixia leve          241
6.0     asfixia leve           79
5.0     asfixia moderada       45
1.0     asfixia severa         24
4.0     asfixia moderada       23
2.0     asfixia severa         18
0.0     asfixia severa         17
3.0     asfixia severa         15
dtype: int64

In [30]:
# 9) renomeando as variáveis para snake case, com underscore entre as palavras e com o método inplace=True
df.columns


Index(['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 'GESTACAO',
       'GRAVIDEZ', 'CONSULTAS', 'APGAR5', 'tp_asfixia'],
      dtype='object')

In [31]:
df.columns = df.columns.str.lower() 

#Somente para prática:
#usando método df.columns.str.lower() para transformar todas as colunas em minusculas


Unnamed: 0,locnasc,idademae,estcivmae,escmae,qtdfilvivo,gestacao,gravidez,consultas,apgar5,tp_asfixia
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,normal
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0,normal
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0,normal
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0,normal


In [34]:
#De qualquer forma, as colunas serão renomeadas para uma nomenclatura mais inteligível.
# o método será criar uma nova variável com as colunas em minusculo (snake case) e com underscore.
#em seguida essa nova variável (novas_colunas) será atribuida ao df original astravés do método df.columns = novas_colunas

novas_colunas = ['loc_nasc', 'idade_mae', 'est_civil_mae', 'esc_mae', 'qdt_fil_vivos', 'gestacao', 'gravidez', 
             'consultas', 'apgar5', 'tp_asfixia']


In [35]:
df.columns = novas_colunas

In [36]:
df

Unnamed: 0,loc_nasc,idade_mae,est_civil_mae,esc_mae,qdt_fil_vivos,gestacao,gravidez,consultas,apgar5,tp_asfixia
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,normal
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0,normal
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0,normal
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0,normal
