# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo SINASC_RO_2019.csv` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo `estrutura_sinasc_para_CD.pdf` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
`
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis `['ESTCIVMAE', 'CONSULTAS']` possuem o código `9`, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código `9`.<br>
6. Substitua os valores faltantes da quantitativa (`QTDFILVIVO`) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção `inplace = True`.

In [1]:
import pandas as pd
import requests
from tabulate import tabulate

# 1) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc.shape)
sinasc.drop_duplicates().shape
# Não há duplicados

df = pd.DataFrame(sinasc)
df.head(10)

(27028, 69)


Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
5,1,2516500.0,110001,1,33,5.0,1 a 3 anos,621005.0,2.0,1.0,...,5,6,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
6,1,2516500.0,110001,1,37,1.0,8 a 11 anos,999992.0,1.0,0.0,...,5,7,ATIVO,MUNIC,Novo Horizonte do Oeste,Rondônia,-11.70974,-61.99439,230.0,843.446
7,1,2516500.0,110001,1,27,2.0,12 anos ou mais,514120.0,0.0,0.0,...,5,8,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
8,1,2679477.0,110001,1,20,5.0,8 a 11 anos,621005.0,0.0,1.0,...,2,9,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
9,1,2679477.0,110001,1,30,2.0,1 a 3 anos,999992.0,1.0,1.0,...,5,10,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [2]:
# 2) Conte o número de valores missing por variável
missing_values = df.isna().sum()
missing_values = missing_values[missing_values>0]
missing_values

CODESTAB        115
ESTCIVMAE       317
ESCMAE          312
CODOCUPMAE     2907
QTDFILVIVO     1573
QTDFILMORT     2098
GESTACAO       1232
GRAVIDEZ         79
PARTO            49
HORANASC         21
SEXO              4
APGAR1           96
APGAR5          103
RACACOR         647
IDANOMAL        591
CODANOMAL     26814
DTRECORIGA    27028
NATURALMAE      298
CODMUNNATU      298
CODUFNATU       298
ESCMAE2010      249
SERIESCMAE    12710
DTNASCMAE        40
RACACORMAE      661
QTDGESTANT     1212
QTDPARTNOR     1879
QTDPARTCES     1791
IDADEPAI      19421
DTULTMENST    10072
SEMAGESTAC     1238
TPMETESTIM     1238
CONSPRENAT      930
MESPRENAT      2867
TPAPRESENT      265
STTRABPART      947
STCESPARTO      747
TPNASCASSI       61
TPFUNCRESP       67
TPDOCRESP        14
DTDECLARAC       52
ESCMAEAGR1      249
munResLat         1
munResLon         1
munResAlt         1
munResArea        1
dtype: int64

In [3]:
# percentual das colunas que precisam de ajustes
def calcula_percentual(df):
    percentual_faltando = (df.isna().mean() * 100).round(2)
    percentual_faltando = percentual_faltando[percentual_faltando>0]
    percentual_faltando = percentual_faltando.astype(str) + '%'
    return percentual_faltando

calcula_percentual(df)

CODESTAB       0.43%
ESTCIVMAE      1.17%
ESCMAE         1.15%
CODOCUPMAE    10.76%
QTDFILVIVO     5.82%
QTDFILMORT     7.76%
GESTACAO       4.56%
GRAVIDEZ       0.29%
PARTO          0.18%
HORANASC       0.08%
SEXO           0.01%
APGAR1         0.36%
APGAR5         0.38%
RACACOR        2.39%
IDANOMAL       2.19%
CODANOMAL     99.21%
DTRECORIGA    100.0%
NATURALMAE      1.1%
CODMUNNATU      1.1%
CODUFNATU       1.1%
ESCMAE2010     0.92%
SERIESCMAE    47.03%
DTNASCMAE      0.15%
RACACORMAE     2.45%
QTDGESTANT     4.48%
QTDPARTNOR     6.95%
QTDPARTCES     6.63%
IDADEPAI      71.86%
DTULTMENST    37.27%
SEMAGESTAC     4.58%
TPMETESTIM     4.58%
CONSPRENAT     3.44%
MESPRENAT     10.61%
TPAPRESENT     0.98%
STTRABPART      3.5%
STCESPARTO     2.76%
TPNASCASSI     0.23%
TPFUNCRESP     0.25%
TPDOCRESP      0.05%
DTDECLARAC     0.19%
ESCMAEAGR1     0.92%
dtype: object

In [4]:
# 3) Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. 
# Então crie uma seleção dessa base somente com as colunas que interessam.
# São elas:  ['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',   'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']
# Refaça a contagem de valores missings.

select = ['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',   'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']
df_novo = df[select]
df_novo = df_novo.copy()
missing_values = df_novo.isna().sum()
missing_values = missing_values[missing_values>0]
missing_values

ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
APGAR5         103
dtype: int64

In [5]:
calcula_percentual(df_novo)

ESTCIVMAE     1.17%
ESCMAE        1.15%
QTDFILVIVO    5.82%
GESTACAO      4.56%
GRAVIDEZ      0.29%
APGAR5        0.38%
dtype: object

In [6]:
# 4) Apgar é uma nota que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração.
# Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento.
# Apgar5 será a nossa variável de interesse principal.
# Então remova todos os registros com Apgar5 não preenchido.
# Para esta seleção, conte novamente o número de linhas e o número de missings.

print(f'Total antes da exclusão: {df_novo.shape[0]}')

df_sem_valores_ausentes = df_novo.dropna(subset=['APGAR5'])

print(f'Total depois da exclusão: {df_sem_valores_ausentes.shape[0]}')

print(f'Total de registros excluídos: {df_novo.shape[0]-df_sem_valores_ausentes.shape[0]}')

# Efetiva alteração
df_novo.dropna(subset=['APGAR5'], inplace=True)
df_novo.shape[0]

Total antes da exclusão: 27028
Total depois da exclusão: 26925
Total de registros excluídos: 103


26925

In [7]:
# 5) observe que as variáveis ['ESTCIVMAE', 'CONSULTAS'] possuem o código 9, que significa ignorado.
# Vamos assumir que o não preenchido é o mesmo que o código 9.

# soma linhas nulas (antes)
null_ESTCIVMAE = df_novo['ESTCIVMAE'].isna().sum()
null_CONSULTAS = df_novo['CONSULTAS'].isna().sum()
print(f'[Antes] Linhas nulas ESTCIVMAE: {null_ESTCIVMAE} e CONSULTAS: {null_CONSULTAS}')

df_novo['ESTCIVMAE'].fillna(9, inplace=True)
df_novo['CONSULTAS'].fillna(9, inplace=True)

# soma linhas nulas (depois)
null_ESTCIVMAE = df_novo['ESTCIVMAE'].isna().sum()
null_CONSULTAS = df_novo['CONSULTAS'].isna().sum()
print(f'[Depois] Linhas nulas ESTCIVMAE: {null_ESTCIVMAE} e CONSULTAS: {null_CONSULTAS}')

[Antes] Linhas nulas ESTCIVMAE: 315 e CONSULTAS: 0
[Depois] Linhas nulas ESTCIVMAE: 0 e CONSULTAS: 0


In [8]:
# 6) Substitua os valores faltantes da quantitativa (QTDFILVIVO) por zero.
# soma linhas nulas (antes)
null_QTDFILVIVO = df_novo['QTDFILVIVO'].isna().sum()
print(f'[Antes] Linhas nulas QTDFILVIVO: {null_QTDFILVIVO}')

df_novo['QTDFILVIVO'].fillna(0, inplace=True)

# soma linhas nulas (depois)
null_QTDFILVIVO = df_novo['QTDFILVIVO'].isna().sum()

print(f'[Depois] Linhas nulas QTDFILVIVO: {null_QTDFILVIVO}')

[Antes] Linhas nulas QTDFILVIVO: 1566
[Depois] Linhas nulas QTDFILVIVO: 0


In [9]:
# 7) Preparação (Analisando os dados)
# Verificar quais colunas possuem valores faltantes
colunas_com_faltantes = df_novo.columns[df_novo.isna().any()].tolist()

# Mostrar apenas as colunas que possuem valores faltantes
df_com_faltantes = df_novo[colunas_com_faltantes]
df_com_faltantes[~df_com_faltantes.isna()].head(25)

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ
0,8 a 11 anos,37 a 41 semanas,Única
1,8 a 11 anos,37 a 41 semanas,Única
2,8 a 11 anos,37 a 41 semanas,Única
3,12 anos ou mais,37 a 41 semanas,Única
4,8 a 11 anos,37 a 41 semanas,Única
5,1 a 3 anos,37 a 41 semanas,Única
6,8 a 11 anos,37 a 41 semanas,Única
7,12 anos ou mais,37 a 41 semanas,Única
8,8 a 11 anos,37 a 41 semanas,Única
9,1 a 3 anos,37 a 41 semanas,Única


In [10]:
# 7) Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha.
# Justifique.
# Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.

# Analisando a documentação, é informado que existe um parâmetro "Ignorado" para todas as restantes, vai ser esse parâmetro que vou adicionar devido a falta de dados

# soma linhas nulas (antes)
null_ESCMAE = df_novo['ESCMAE'].isna().sum()
null_GESTACAO = df_novo['GESTACAO'].isna().sum()
null_GRAVIDEZ = df_novo['GRAVIDEZ'].isna().sum()
print(f'[Antes] Linhas nulas ESCMAE: {null_ESCMAE}, GESTACAO: {null_GESTACAO} e GRAVIDEZ: {null_GRAVIDEZ}')

# Altera o df_novo
df_novo['ESCMAE'].fillna('Ignorado', inplace=True)
df_novo['GESTACAO'].fillna('Ignorado', inplace=True)
df_novo['GRAVIDEZ'].fillna('Ignorado', inplace=True)

# soma linhas nulas (depois)
null_ESCMAE = df_novo['ESCMAE'].isna().sum()
null_GESTACAO = df_novo['GESTACAO'].isna().sum()
null_GRAVIDEZ = df_novo['GRAVIDEZ'].isna().sum()
print(f'[Depois] Linhas nulas ESCMAE: {null_ESCMAE}, GESTACAO: {null_GESTACAO} e GRAVIDEZ: {null_GRAVIDEZ}')

[Antes] Linhas nulas ESCMAE: 310, GESTACAO: 1216 e GRAVIDEZ: 76
[Depois] Linhas nulas ESCMAE: 0, GESTACAO: 0 e GRAVIDEZ: 0


In [11]:
# 8) O Apgar possui uma classificação indicando se o bebê passou por asfixia:
# Entre 8 e 10 está em uma faixa 'normal'.
# Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'.
# Entre 4 e 5 significa 'asfixia moderada'.
# Entre 0 e 3 significa 'asfixia severa'
# Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.

df_novo.loc[df_novo['APGAR5']<=3, 'classificacaoApgar'] = 'asfixia severa'
df_novo.loc[df_novo['APGAR5'].between(4,5), 'classificacaoApgar'] = 'asfixia moderada'
df_novo.loc[df_novo['APGAR5'].between(6,7), 'classificacaoApgar'] = 'asfixia leve'
df_novo.loc[df_novo['APGAR5']>=8, 'classificacaoApgar'] = 'normal'

contagem = df_novo['classificacaoApgar'].value_counts()
contagem

classificacaoApgar
normal              26463
asfixia leve          320
asfixia severa         74
asfixia moderada       68
Name: count, dtype: int64

In [12]:
# 9) Renomeie as variáveis para que fiquem no snake case, ou seja, em letras minúsculas, com um underscore entre as palávras.
# Dica: repare que se você não quiser criar um dataframe novo, você vai precisar usar a opção inplace = True.
df_novo.rename(columns={'LOCNASC':'locNasc', 'IDADEMAE':'idadeMae', 'ESTCIVMAE':'estCivMae', 'ESCMAE':'escMae', 'QTDFILVIVO':'qtdFilVivo',
                        'GESTACAO':'gestacao', 'GRAVIDEZ':'gravidez', 'CONSULTAS':'consultas', 'APGAR5':'apgar5'}, inplace=True)
df_novo

Unnamed: 0,locNasc,idadeMae,estCivMae,escMae,qtdFilVivo,gestacao,gravidez,consultas,apgar5,classificacaoApgar
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,normal
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0,normal
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0,normal
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0,normal
