# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo SINASC_RO_2019.csv` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo `estrutura_sinasc_para_CD.pdf` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
`
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis `['ESTCIVMAE', 'CONSULTAS']` possuem o código `9`, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código `9`.<br>
6. Substitua os valores faltantes da quantitativa (`QTDFILVIVO`) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção `inplace = True`.

1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?** 

In [87]:
import pandas as pd
import requests

# 1) seu código aqui
df = pd.read_csv('./output/SINASC_RO_2019.csv', keep_default_na=True)
print(df.shape)
df.drop_duplicates().shape
# Não há duplicados

(27028, 69)


(27028, 69)

In [None]:
df['QTDFILMORT'].isna().value_counts()

In [None]:
df.columns

2. Conte o número de valores *missing* por variável.

In [51]:
# 2) seu código aqui
class missing_information:
    def count_missing(coluna_verificada, dataframe):
        if isinstance(coluna_verificada, list):
       
            _dicionario0 = dict()
            for coluna in coluna_verificada:
                _dicionario = dict()
                verificacao = dataframe[coluna].isna().value_counts()
                verdadeiro = verificacao.get(True, 0)
                falso = verificacao.get(False, 0) 
                _dicionario['Dados Faltantes'] = verdadeiro
                _dicionario['Dados completos'] = falso
                _dicionario0[coluna]  = _dicionario
        
            return print(_dicionario0)
        
        else:   
            verificacao = dataframe[coluna_verificada].isna().value_counts()
            verdadeiro = verificacao.get(True, 0)
            falso = verificacao.get(False, 0) 
            conclusao = f"A relação de dados faltantes para esta coluna é de {verdadeiro}, comparados com {falso} dados presentes."
            return conclusao
        
    def return_true(coluna_verificada, dataframe):  
        if isinstance(coluna_verificada, list):
            soma = 0
            _dicionario0 = dict()
            for coluna in coluna_verificada:
                verificacao = dataframe[coluna].isna().value_counts()
                verdadeiro = verificacao.get(True, 0)
                soma += verdadeiro 
            return soma
        
        else:   
            verificacao = dataframe[coluna_verificada].isna().value_counts()
            verdadeiro = verificacao.get(True, 0) 
            return verdadeiro
        
        
    def count_lines_with_missing_data(coluna_verificada, dataframe):
        dataframe_transposto = dataframe.T
        missing_data_lines = 0
        
        for linha in dataframe_transposto.columns:
            verificacao = dataframe_transposto[linha].isna().value_counts()
            if verificacao.get(True, 0) >= 1:
                missing_data_lines += 1
        return missing_data_lines
    
    def avaliação_de_proporcao(coluna_verificada, dataframe):
        if isinstance (coluna_verificada, list):
            resultado = {}
            
            for coluna in coluna_verificada:
                proporcoes_de_coluna = {}
                _lista_de_valores = dataframe[coluna].unique().tolist()
                valores_contados = dataframe[coluna].value_counts()
                for valor in _lista_de_valores:
                    if pd.isna(valor):
                        continue
                    proporcao_do_item = round((valores_contados.get(valor, 0) / dataframe.shape[0]) *100 , 2) 
                    proporcoes_de_coluna[str(valor)] = proporcao_do_item
                resultado[coluna] = proporcoes_de_coluna
                   
            return resultado
                
        else:
            proporcoes_de_coluna = {}
            _lista_de_valores = dataframe[coluna_verificada].unique().tolist()
            valores_contados = dataframe[coluna_verificada].value_counts()
            for valor in _lista_de_valores:
                if pd.isna(valor):
                    continue
                proporcao_do_item = round((valores_contados.get(valor, 0) / dataframe.shape[0])* 100, 2)
                proporcoes_de_coluna[str(valor)] = proporcao_do_item
                
            return proporcoes_de_coluna


In [93]:
av = missing_information

In [57]:
lista_de_variaveis = ['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea']

In [94]:
av.count_missing(lista_de_variaveis, df)

{'ORIGEM': {'Dados Faltantes': 0, 'Dados completos': 27028}, 'CODESTAB': {'Dados Faltantes': 115, 'Dados completos': 26913}, 'CODMUNNASC': {'Dados Faltantes': 0, 'Dados completos': 27028}, 'LOCNASC': {'Dados Faltantes': 0, 'Dados completos': 27028}, 'IDADEMAE': {'Dados Faltantes': 0, 'Dados completos': 27028}, 'ESTCIVMAE': {'Dados Faltantes': 317, 'Dados completos': 26711}, 'ESCMAE': {'Dados Faltantes': 312, 'Dados completos': 26716}, 'CODOCUPMAE': {'Dados Faltantes': 2907, 'Dados completos': 24121}, 'QTDFILVIVO': {'Dados Faltantes': 1573, 'Dados completos': 25455}, 'QTDFILMORT': {'Dados Faltantes': 2098, 'Dados completos': 24930}, 'CODMUNRES': {'Dados Faltantes': 0, 'Dados completos': 27028}, 'GESTACAO': {'Dados Faltantes': 1232, 'Dados completos': 25796}, 'GRAVIDEZ': {'Dados Faltantes': 79, 'Dados completos': 26949}, 'PARTO': {'Dados Faltantes': 49, 'Dados completos': 26979}, 'CONSULTAS': {'Dados Faltantes': 0, 'Dados completos': 27028}, 'DTNASC': {'Dados Faltantes': 0, 'Dados comple

Foram constatados dados faltantes nas colunas 'CODESTAB', 'ESTCIVMAE', 'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'GESTACAO', 'GRAVIDEZ', 'PARTO', 'HORANASC', 'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'IDANOMAL', 'CODANOMAL', 'DTRECORIGA' e etc....

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
`
Refaça a contagem de valores *missings*.

In [59]:
# 3) seu código aqui
lista_de_colunas_de_interesse = ['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']


In [None]:
df_icol = pd.DataFrame()
for col in lista_de_colunas_de_interesse:
    df_icol[col] = df[col]
    
df_icol

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.

In [61]:
# 4) seu código aqui
df_icol.dropna(subset=['APGAR5'], inplace=True)

In [95]:
av.count_missing('APGAR5', df_icol)

'A relação de dados faltantes para esta coluna é de 0, comparados com 25375 dados presentes.'

In [96]:
av.count_missing(lista_de_colunas_de_interesse, df_icol)

{'LOCNASC': {'Dados Faltantes': 0, 'Dados completos': 25375}, 'IDADEMAE': {'Dados Faltantes': 0, 'Dados completos': 25375}, 'ESTCIVMAE': {'Dados Faltantes': 0, 'Dados completos': 25375}, 'ESCMAE': {'Dados Faltantes': 0, 'Dados completos': 25375}, 'QTDFILVIVO': {'Dados Faltantes': 0, 'Dados completos': 25375}, 'GESTACAO': {'Dados Faltantes': 0, 'Dados completos': 25375}, 'GRAVIDEZ': {'Dados Faltantes': 0, 'Dados completos': 25375}, 'CONSULTAS': {'Dados Faltantes': 0, 'Dados completos': 25375}, 'APGAR5': {'Dados Faltantes': 0, 'Dados completos': 25375}}


5. observe que as variáveis `['ESTCIVMAE', 'CONSULTAS']` possuem o código `9`, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código `9`

In [None]:
# 5) seu código aqui
lista_estado_civil_consultas = ['ESTCIVMAE', 'CONSULTAS']
av.count_missing(lista_estado_civil_consultas, df_icol )

In [None]:
df_icol['ESTCIVMAE'].fillna(9, inplace=True)

In [97]:
av.count_missing(lista_estado_civil_consultas, df_icol )

{'ESTCIVMAE': {'Dados Faltantes': 0, 'Dados completos': 25375}, 'CONSULTAS': {'Dados Faltantes': 0, 'Dados completos': 25375}}


6. Substitua os valores faltantes da quantitativa (`QTDFILVIVO`) por zero.

In [None]:
# 6) Seu código aqui
av.count_missing('QTDFILVIVO', df_icol)

In [None]:
df_icol['QTDFILVIVO'].fillna(0, inplace=True)

In [None]:
av.count_missing('QTDFILVIVO', df_icol)

7. Das restantes, decida que valores te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui. 

In [None]:
# 7) seu código aqui 
linhas_totais = df.shape[0]
linhas_com_dados_fantantes = av.count_lines_with_missing_data(lista_de_colunas_de_interesse, df_icol)
dados_faltantes = av.return_true(lista_de_colunas_de_interesse, df_icol)
print(f'O numero de dados faltantes deste dataframe é de: {dados_faltantes}')
print(f'O numero de linhas com dados faltantes nesse dataframe é de: {linhas_com_dados_fantantes}')


In [None]:
#Calculo da relação em porcentagem das linhas faltantes em relação as linhas totais
relacao_de_linhas_faltantes_e_totais = print(f'{round((linhas_com_dados_fantantes / linhas_totais) * 100, 2)}%')

In [None]:
lista_de_colunas_de_interesse

In [None]:
av.avaliação_de_proporcao(lista_de_colunas_de_interesse, df_icol)

In [None]:
av.avaliação_de_proporcao(lista_de_colunas_de_interesse, df_icol.dropna())

In [None]:
av.avaliação_de_proporcao('GESTACAO', df_icol)

In [None]:
av.avaliação_de_proporcao('GESTACAO', df_icol.dropna())

In [76]:
df_icol.dropna(inplace=True)

A escolha da utilização do método de exclusão das linhas com dados ausentes foi alicerciada por dois fatores, no código acima utilizamos um método da classe 'missing _information', desenvolvida neste Notebook, para averiguar possiveis distorções na relação de valores de cada coluna do dataframe, comparando suas grandezas anteriormente e posteriormente uma possivel exclusão, o dado coletado foi de que não há notórias alterações nas grandezas, sendo a coluna mais afetada a de 'GESTACAO' com é possivel notar nas células de código 152 e 153.

Foi realizada também uma análise da comparação do numero de linhas com dados ausentes ao numero total de linhas no Dataframe, e a relação foi de 5.73%

Ambos os dados endorsaram a decisão final de tratamento destas linhas com dados ausentes.

8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização. 

In [None]:
df_icol.head(n=5)

In [78]:
# 8) seu código aqui
df_icol.loc[(df_icol['APGAR5'] >= 8) & (df_icol['APGAR5'] <= 10), 'CAT_APGAR5'] = 'normal'
df_icol.loc[(df_icol['APGAR5']>= 6) & (df_icol['APGAR5'] <= 7), 'CAT_APGAR5'] = 'asfixia leve'
df_icol.loc[(df_icol['APGAR5']>= 4) & (df_icol['APGAR5'] <= 5), 'CAT_APGAR5'] = 'asfixia moderada'
df_icol.loc[(df_icol['APGAR5'] >= 0) & (df_icol['APGAR5'] <= 3), 'CAT_APGAR5'] = 'asfixia severa'

In [None]:
df_icol.loc[df_icol['CAT_APGAR5'] == 'normal']

In [None]:
df_icol.loc[df_icol['CAT_APGAR5'] == 'asfixia leve']

In [None]:
df_icol.loc[df_icol['CAT_APGAR5'] == 'asfixia moderada']

In [None]:
df_icol.loc[df_icol['CAT_APGAR5'] == 'asfixia severa']

9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção `inplace = True`.

In [None]:
# 9) seu código aqui
snake_case = lambda texto: texto.upper().replace(' ','_')
df_icol['CAT_APGAR5'] = df_icol['CAT_APGAR5'].apply(snake_case)
df_icol.loc[df_icol['CAT_APGAR5'] == 'ASFIXIA_SEVERA']