# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
``` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

## Resolução


<li style="font-size:120%;color:#005073"> Elaboração de uma função que retornará informações básicas sobre os dados que irá auxiliar na resolução dos problemas propostos. 

In [1]:
import pandas as pd
import requests
import numpy as np 


# 1) 
sinasc = pd.read_csv("C:\\Users\\alcid\\GitHub\\Portfolio\\EBAC\\Dados\\SINASC_RO_2019.csv")
def informations(dt: list) -> None: 
    faltantes = dt.isnull().sum(1)[dt.isnull().sum(1) > 0]
    perc_faltantes = round(((faltantes.sum())/(dt.shape[0]*dt.shape[1]))*100,2)
    print(f"\n\nO dataset apresenta um formato com \033[92m{dt.shape[0]}\033[0m dados e com \033[92m{dt.shape[1]}\033[0m atributos.")
    print(f"O total de linhas que apresentam dados faltantes é igual a \033[92m{faltantes.count()}\033[0m e de dados duplicados é de \033[92m{dt.duplicated().sum()}\033[0m.")
    print(f"De um total de \033[92m{dt.shape[0]*dt.shape[1]}\033[0m únidades de dados, \033[92m{faltantes.sum()}\033[0m são faltantes, representando um total de \033[92m{perc_faltantes}%\033[0m \ndos dados totais.")
    print('\nSendo os atributos contendo faltantes os apresentados abaixo')
    return display(dt.isnull().sum()[dt.isnull().sum() > 0].sort_values(ascending=False))

In [2]:
informations(sinasc)



O dataset apresenta um formato com [92m27028[0m dados e com [92m69[0m atributos.
O total de linhas que apresentam dados faltantes é igual a [92m27028[0m e de dados duplicados é de [92m0[0m.
De um total de [92m1864932[0m únidades de dados, [92m121594[0m são faltantes, representando um total de [92m6.52%[0m 
dos dados totais.

Sendo os atributos contendo faltantes os apresentados abaixo


DTRECORIGA    27028
CODANOMAL     26814
IDADEPAI      19421
SERIESCMAE    12710
DTULTMENST    10072
CODOCUPMAE     2907
MESPRENAT      2867
QTDFILMORT     2098
QTDPARTNOR     1879
QTDPARTCES     1791
QTDFILVIVO     1573
SEMAGESTAC     1238
TPMETESTIM     1238
GESTACAO       1232
QTDGESTANT     1212
STTRABPART      947
CONSPRENAT      930
STCESPARTO      747
RACACORMAE      661
RACACOR         647
IDANOMAL        591
ESTCIVMAE       317
ESCMAE          312
CODUFNATU       298
NATURALMAE      298
CODMUNNATU      298
TPAPRESENT      265
ESCMAE2010      249
ESCMAEAGR1      249
CODESTAB        115
APGAR5          103
APGAR1           96
GRAVIDEZ         79
TPFUNCRESP       67
TPNASCASSI       61
DTDECLARAC       52
PARTO            49
DTNASCMAE        40
HORANASC         21
TPDOCRESP        14
SEXO              4
munResLat         1
munResLon         1
munResAlt         1
munResArea        1
dtype: int64

<li style="font-size:120%;color:#005073"> Seleção de features.

In [3]:
# Alterar a base de dados
df = sinasc[['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO','GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']] 
informations(df)
display(df.head())



O dataset apresenta um formato com [92m27028[0m dados e com [92m9[0m atributos.
O total de linhas que apresentam dados faltantes é igual a [92m3307[0m e de dados duplicados é de [92m16970[0m.
De um total de [92m243252[0m únidades de dados, [92m3616[0m são faltantes, representando um total de [92m1.49%[0m 
dos dados totais.

Sendo os atributos contendo faltantes os apresentados abaixo


QTDFILVIVO    1573
GESTACAO      1232
ESTCIVMAE      317
ESCMAE         312
APGAR5         103
GRAVIDEZ        79
dtype: int64

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0


<li style="font-size:120%;color:#005073"> Apagar dados faltantes.

In [4]:
# 3) seu código aqui
df_apgar5 = df.dropna(subset='APGAR5')
informations(df_apgar5)



O dataset apresenta um formato com [92m26925[0m dados e com [92m9[0m atributos.
O total de linhas que apresentam dados faltantes é igual a [92m3204[0m e de dados duplicados é de [92m16969[0m.
De um total de [92m242325[0m únidades de dados, [92m3483[0m são faltantes, representando um total de [92m1.44%[0m 
dos dados totais.

Sendo os atributos contendo faltantes os apresentados abaixo


QTDFILVIVO    1566
GESTACAO      1216
ESTCIVMAE      315
ESCMAE         310
GRAVIDEZ        76
dtype: int64

<li style="font-size:120%;color:#005073"> Preencher os faltantes quantitativos com "9"

In [5]:
# 4) Confirmar que o valor máximo é 9
display(df_apgar5.describe().T)
for i in ['ESTCIVMAE','CONSULTAS']:
    df_apgar5.loc[:,i] = df_apgar5[i].fillna(9)
informations(df_apgar5)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
LOCNASC,26925.0,1.007168,0.126025,1.0,1.0,1.0,1.0,4.0
IDADEMAE,26925.0,26.095339,6.386409,11.0,21.0,26.0,31.0,53.0
ESTCIVMAE,26610.0,2.54472,1.670264,1.0,1.0,2.0,5.0,9.0
QTDFILVIVO,25359.0,1.050712,1.166966,0.0,0.0,1.0,2.0,30.0
CONSULTAS,26925.0,3.578793,0.78554,1.0,3.0,4.0,4.0,9.0
APGAR5,26925.0,9.179164,0.790574,0.0,9.0,9.0,10.0,10.0




O dataset apresenta um formato com [92m26925[0m dados e com [92m9[0m atributos.
O total de linhas que apresentam dados faltantes é igual a [92m2964[0m e de dados duplicados é de [92m16998[0m.
De um total de [92m242325[0m únidades de dados, [92m3168[0m são faltantes, representando um total de [92m1.31%[0m 
dos dados totais.

Sendo os atributos contendo faltantes os apresentados abaixo


QTDFILVIVO    1566
GESTACAO      1216
ESCMAE         310
GRAVIDEZ        76
dtype: int64

<li style="font-size:120%;color:#005073"> Preencher faltantes com "0"

In [6]:
# 6) 
df_apgar5.loc[:,'QTDFILVIVO'] = df_apgar5['QTDFILVIVO'].fillna(0)
informations(df_apgar5)



O dataset apresenta um formato com [92m26925[0m dados e com [92m9[0m atributos.
O total de linhas que apresentam dados faltantes é igual a [92m1550[0m e de dados duplicados é de [92m17541[0m.
De um total de [92m242325[0m únidades de dados, [92m1602[0m são faltantes, representando um total de [92m0.66%[0m 
dos dados totais.

Sendo os atributos contendo faltantes os apresentados abaixo


GESTACAO    1216
ESCMAE       310
GRAVIDEZ      76
dtype: int64

<li style="font-size:120%;color:#005073"> Preencher dados categóricos utilizando a biblioteca impute do scikit learning. 

In [7]:
# 7) 
from sklearn.impute import SimpleImputer

preencher = SimpleImputer(strategy='most_frequent')
df_apgar5.iloc[:,:] = preencher.fit_transform(df_apgar5)
informations(df_apgar5)



O dataset apresenta um formato com [92m26925[0m dados e com [92m9[0m atributos.
O total de linhas que apresentam dados faltantes é igual a [92m0[0m e de dados duplicados é de [92m18403[0m.
De um total de [92m242325[0m únidades de dados, [92m0[0m são faltantes, representando um total de [92m0.0%[0m 
dos dados totais.

Sendo os atributos contendo faltantes os apresentados abaixo


Series([], dtype: int64)

<li style="font-size:120%;color:#005073"> Criação de categorias com base em atributo numérico.

In [8]:
# 8) seu código aqui
def pass_to_cat(valor: float) -> str:
    if valor <= 3:
        return 'asfixia severa'
    elif (valor == 4) | (valor == 5):
        return 'asfixia moderada'
    elif (valor == 6) | (valor == 7):
        return 'asfixia leve'
    elif valor >= 8:
        return 'normal'
    
df_apgar5.loc[:,'APGAR5_CAT'] = df_apgar5['APGAR5'].apply(lambda x: pass_to_cat(x)).tolist()
df_apgar5['APGAR5_CAT'].value_counts()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_apgar5.loc[:,'APGAR5_CAT'] = df_apgar5['APGAR5'].apply(lambda x: pass_to_cat(x)).tolist()


APGAR5_CAT
normal              26463
asfixia leve          320
asfixia severa         74
asfixia moderada       68
Name: count, dtype: int64

<li style="font-size:120%;color:#005073"> Utilizando a função map para transformar o nome das colunas em minúsculo.

In [9]:
df_apgar5.columns = list(map(lambda x: x.lower() ,df_apgar5.columns))
df_apgar5.head()

Unnamed: 0,locnasc,idademae,estcivmae,escmae,qtdfilvivo,gestacao,gravidez,consultas,apgar5,apgar5_cat
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,normal
