# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.).

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
```
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'.
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'.
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [1]:
import pandas as pd
import requests
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# 1) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc.shape)
sinasc.drop_duplicates().shape
# Não há duplicados

(27028, 69)


(27028, 69)

In [2]:
# 2) seu código aqui
sinasc.count()

ORIGEM        27028
CODESTAB      26913
CODMUNNASC    27028
LOCNASC       27028
IDADEMAE      27028
              ...  
munResUf      27028
munResLat     27027
munResLon     27027
munResAlt     27027
munResArea    27027
Length: 69, dtype: int64

In [3]:
pd.options.display.max_rows = None # utilizado para retirar o limite de tamanho de linhas em amostra
sinasc.isna().sum()
# valores missing de cada variavel

ORIGEM              0
CODESTAB          115
CODMUNNASC          0
LOCNASC             0
IDADEMAE            0
ESTCIVMAE         317
ESCMAE            312
CODOCUPMAE       2907
QTDFILVIVO       1573
QTDFILMORT       2098
CODMUNRES           0
GESTACAO         1232
GRAVIDEZ           79
PARTO              49
CONSULTAS           0
DTNASC              0
HORANASC           21
SEXO                4
APGAR1             96
APGAR5            103
RACACOR           647
PESO                0
IDANOMAL          591
DTCADASTRO          0
CODANOMAL       26814
NUMEROLOTE          0
VERSAOSIST          0
DTRECEBIM           0
DIFDATA             0
DTRECORIGA      27028
NATURALMAE        298
CODMUNNATU        298
CODUFNATU         298
ESCMAE2010        249
SERIESCMAE      12710
DTNASCMAE          40
RACACORMAE        661
QTDGESTANT       1212
QTDPARTNOR       1879
QTDPARTCES       1791
IDADEPAI        19421
DTULTMENST      10072
SEMAGESTAC       1238
TPMETESTIM       1238
CONSPRENAT        930
MESPRENAT 

In [4]:
# 3) seu código aqui
pd.options.display.max_rows = 11 # utilizado para deixar o limite de linhas em amostra = 11
sinasc = sinasc[['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',
 'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']]
sinasc

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0


In [5]:
sinasc.isna().sum()

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64

In [6]:
# 4) seu código aqui
sinasc.shape[0]

27028

In [7]:
sinasc.dropna(subset=['APGAR5'],inplace=True) # dropando apenas os NaN de APGAR5 // inplace = True para ser salvo o dropna
sinasc.shape[0] # valores alterados

26925

In [8]:
# 5) seu código aqui
sinasc.isna().sum() # antes da troca

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      315
ESCMAE         310
QTDFILVIVO    1566
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS        0
APGAR5           0
dtype: int64

In [9]:
sinasc['ESTCIVMAE'].replace(9,np.nan,inplace=True) # valores alterados de '9' para 'NaN'.
sinasc['CONSULTAS'].replace(9,np.nan,inplace=True)
sinasc.isna().sum() # depois da troca // visivel os valores alterados

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      459
ESCMAE         310
QTDFILVIVO    1566
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS       50
APGAR5           0
dtype: int64

In [10]:
# 6) Seu código aqui
sinasc['QTDFILVIVO'].fillna(0, inplace = True) # trocados pelo fillna
sinasc.isna().sum() # depois da troca // visivel os valores alterados

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      459
ESCMAE         310
QTDFILVIVO       0
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS       50
APGAR5           0
dtype: int64

In [11]:
# 7) seu código aqui
# Aos valores ESTCIVMAE (ESTADO CIVIL) e ESCMAE (ESCOLARIDADE) irei deixa-los como um(1), não são dados relevantes para a pesquisa.
# Para os restantes, julguei como importantes para a pesquisa, assim não se pode altera-los ou aproxima-los, dessa forma irei, em seguida, verificar a porcentagem ao remove-los
sinasc['ESTCIVMAE'].fillna(1, inplace = True)
sinasc['ESCMAE'].fillna(1, inplace = True)
sinasc.isna().sum() # depois da troca // visivel os valores alterados

LOCNASC          0
IDADEMAE         0
ESTCIVMAE        0
ESCMAE           0
QTDFILVIVO       0
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS       50
APGAR5           0
dtype: int64

In [12]:
# irei verificar a porcentagem em cada caso para averiguar a possibilidade de exclusao (dropna)
print('CONSULTAS:')
print(sinasc['CONSULTAS'].value_counts() / len(sinasc['CONSULTAS']) * 100)
print('\nGESTACAO:')
print(sinasc['GESTACAO'].value_counts() / len(sinasc['GESTACAO']) * 100)
print('\nGRAVIDEZ:')
print(sinasc['GRAVIDEZ'].value_counts() / len(sinasc['GRAVIDEZ']) * 100)
print('\nAPGAR5:')
print(sinasc['APGAR5'].value_counts() / len(sinasc['APGAR5']) * 100)

CONSULTAS:
4.0    69.032498
3.0    22.124420
2.0     5.047354
1.0     3.610028
Name: CONSULTAS, dtype: float64

GESTACAO:
37 a 41 semanas        83.650882
32 a 36 semanas         8.297122
42 semanas e mais       2.592386
28 a 31 semanas         0.601671
22 a 27 semanas         0.315692
Menos de 22 semanas     0.025998
Name: GESTACAO, dtype: float64

GRAVIDEZ:
Única              97.886722
Dupla               1.812442
Tríplice e mais     0.018570
Name: GRAVIDEZ, dtype: float64

APGAR5:
9.0     59.706592
10.0    31.171773
8.0      7.405757
7.0      0.895079
6.0      0.293408
5.0      0.167131
1.0      0.089136
4.0      0.085422
2.0      0.066852
0.0      0.063138
3.0      0.055710
Name: APGAR5, dtype: float64


In [13]:
sinasc.dropna(subset=['CONSULTAS'],inplace=True)
sinasc.dropna(subset=['GESTACAO'],inplace=True)
sinasc.dropna(subset=['GRAVIDEZ'],inplace=True)
print('NOVA CONSULTAS:')
print(sinasc['CONSULTAS'].value_counts() / len(sinasc['CONSULTAS']) * 100)
print('\nNOVA GESTACAO:')
print(sinasc['GESTACAO'].value_counts() / len(sinasc['GESTACAO']) * 100)
print('\nNOVA GRAVIDEZ:')
print(sinasc['GRAVIDEZ'].value_counts() / len(sinasc['GRAVIDEZ']) * 100)
print('\nNOVA APGAR5:')
print(sinasc['APGAR5'].value_counts() / len(sinasc['APGAR5']) * 100)

NOVA CONSULTAS:
4.0    70.087473
3.0    22.258669
2.0     4.959388
1.0     2.694470
Name: CONSULTAS, dtype: float64

NOVA GESTACAO:
37 a 41 semanas        87.609341
32 a 36 semanas         8.676976
42 semanas e mais       2.725711
28 a 31 semanas         0.632615
22 a 27 semanas         0.328022
Menos de 22 semanas     0.027335
Name: GESTACAO, dtype: float64

NOVA GRAVIDEZ:
Única              98.180256
Dupla               1.800219
Tríplice e mais     0.019525
Name: GRAVIDEZ, dtype: float64

NOVA APGAR5:
9.0     59.789909
10.0    31.119182
8.0      7.400031
7.0      0.909872
6.0      0.281162
5.0      0.156201
1.0      0.085911
4.0      0.082006
2.0      0.062480
0.0      0.058575
3.0      0.054670
Name: APGAR5, dtype: float64


In [14]:
# Ao observar a porcentagem, identifica-se pouca variação da APGAR5 ao realizar o dropna.
# Também ao realizar a verificação da quantidade não ocorreu uma mudança significativa em seus valores, diminuindo apenas 4.89%.
# Dessa forma, me parece mais adequado filtrar os valores julgados importantes e retira-los do que aproxima-los ou altera-los.
print('Linhas atualizadas:\n',sinasc.shape[0],'\n\nValores N/A:')
#print(2560800/26925)
#print(100-95.10863509749304)
sinasc.isna().sum()

Linhas atualizadas:
 25608 

Valores N/A:


LOCNASC       0
IDADEMAE      0
ESTCIVMAE     0
ESCMAE        0
QTDFILVIVO    0
GESTACAO      0
GRAVIDEZ      0
CONSULTAS     0
APGAR5        0
dtype: int64

In [15]:
# 8) seu código aqui
sinasc.loc[(sinasc['APGAR5'] <= 3), 'CONDICAO'] = 'ASFIXIA SEVERA'
sinasc.loc[(sinasc['APGAR5'] >  3), 'CONDICAO'] = 'ASFIXIA MODERADA'
sinasc.loc[(sinasc['APGAR5'] >  5), 'CONDICAO'] = 'ASFIXIA LEVE'
sinasc.loc[(sinasc['APGAR5'] >  7), 'CONDICAO'] = 'NORMAL'

sinasc

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5,CONDICAO
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4.0,10.0,NORMAL
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4.0,9.0,NORMAL
2,1,37,1.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4.0,10.0,NORMAL
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3.0,10.0,NORMAL
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4.0,10.0,NORMAL
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4.0,9.0,NORMAL
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4.0,9.0,NORMAL
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4.0,10.0,NORMAL
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4.0,9.0,NORMAL


In [16]:
print('CONDICAO %:')
print(round(sinasc['CONDICAO'].value_counts() / len(sinasc['CONDICAO']),4)*100)

CONDICAO %:
NORMAL              98.31
ASFIXIA LEVE         1.19
ASFIXIA SEVERA       0.26
ASFIXIA MODERADA     0.24
Name: CONDICAO, dtype: float64


In [17]:
# 9) seu código aqui
sinasc['CONDICAO'] = sinasc['CONDICAO'].str.replace(' ', '_').str.lower() # transformando os valores em snake case
sinasc['CONDICAO'].value_counts()

normal              25175
asfixia_leve          305
asfixia_severa         67
asfixia_moderada       61
Name: CONDICAO, dtype: int64