# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.).

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
```
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'.
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'.
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [1]:
import pandas as pd
import requests

In [2]:
# 1) Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o
# número de registros não duplicados da base. Dica: você aprendeu um método
# que remove duplicados, encadeie este método com um outro método que conta o
# número de linhas. Há linhas duplicadas?

sinasc = pd.read_csv('SINASC_RO_2019.csv')

# Primeiro, utilizamos o atributo shape para imprimir a quantidade total de
# linhas e colunas desse dataframe, utilizando a funçã print() para que essa
# informação seja impressa diretamente

print(sinasc.shape)

# Em seguida, utilizamos o método drop_duplicates(), que realiza a deleção
# de quaisquer linhas duplicadas que possam haver no dataframe e encadeamos a
# este método o atributo shape, para que possamos verificar novamente a
# quantidade de linhas e colunas dele.

sinasc.drop_duplicates().shape

# Por fim, comparamos as duas informações impressas para descobrir qual é
# a quantidade de valores duplicados totais no dataframe. Caso a quantidade
# de linhas fosse diferente entre as duas, saberíamos que essa quantidade.
# Em nosso dataframe, não há nenhum valor duplicado, pois é possível perceber
# que a quantidade de linhas permanece igual antes e depois do drop_duplicates()
# 27028.

(27028, 69)


(27028, 69)

In [3]:
sinasc.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [4]:
sinasc.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [5]:
sinasc

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,1,2604388.0,510340,1,32,2.0,12 anos ou mais,333115.0,1.0,0.0,...,5,2767632,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27024,1,2752654.0,510675,1,19,1.0,8 a 11 anos,999992.0,0.0,0.0,...,5,2772678,ATIVO,MUNIC,Chupinguaia,Rondônia,-12.55684,-60.90185,340.0,5126.723
27025,1,9659366.0,510787,1,24,2.0,8 a 11 anos,421125.0,0.0,1.0,...,5,2776905,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27026,1,9659366.0,510787,1,21,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2777105,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915


In [6]:
# 2) Conte o número de valores missing por variável.

# Ao utilizar o método isnull(), estamos criando uma cópia do dataframe
# original, porém com os valores substituídos por True (caso seja um
# valor vazio) e False (caso não seja)

# Em seguida, apliquei o método sum() ao dataframe e salvamos em uma
# variável. Esse método irá somar todos esses valores ao longo de
# cada coluna.

valores_vazios = sinasc.isnull().sum()

# Por fim, imprimimos a variável para que possamos ver o número de valores
# faltantes em cada coluna.

valores_vazios

ORIGEM          0
CODESTAB      115
CODMUNNASC      0
LOCNASC         0
IDADEMAE        0
             ... 
munResUf        0
munResLat       1
munResLon       1
munResAlt       1
munResArea      1
Length: 69, dtype: int64

In [7]:
# 3) Ok, no item anterior você deve ter achado pouco prático ler a informação
# de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma
# seleção dessa base somente com as colunas que interessam. São elas:

#['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',
# 'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']

# Refaça a contagem de valores missings.

# Nesse exercício, iniciei selecionando as colunas  desejadas do dataframe
# sinasc e armazenando-as em uma lista

colunas_de_interesse = ['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE',
                       'QTDFILVIVO', 'GESTACAO', 'GRAVIDEZ', 'CONSULTAS',
                        'APGAR5']

# Em seguida, selecionei as colunas na lista através da notação de colchetes,
# apliquei o método isnull() para realizar a contagem de valores vazios e,
# por fim, apliquei o método sum() para somar a quantidade total de valores
# vazios em cada uma dessas colunas. Isso tudo foi salvo numa variável que ao
# final da célula foi printada

valores_faltantes = sinasc[colunas_de_interesse].isnull().sum()

valores_faltantes

LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64

In [8]:
# 4) Apgar é uma nota que o pediatra dá ao bebê quando nasce de acordo com
# algumas características associadas principalmente à respiração. Apgar 1 e
# Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa
# variável de interesse principal. Então remova todos os registros com Apgar5
# não preenchido. Para esta seleção, conte novamente o número de linhas e o
# número de missings.

# Para fins de comparação:

# Calculando o número total de linhas no DataFrame original "sinasc"
# usando a função len()

linhas_originais = len(sinasc)

# Calculo o número de valores ausentes (NaN) na coluna "APGAR5" do
# dataframe original usando o método isnull().sum(). Todos os valores calculados
# foram salvos em variáveis distintas

apgar5_faltantes = sinasc['APGAR5'].isnull().sum()

In [9]:
# 4) Apgar é uma nota que o pediatra dá ao bebê quando nasce de acordo com
# algumas características associadas principalmente à respiração. Apgar 1 e
# Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa
# variável de interesse principal. Então remova todos os registros com Apgar5
# não preenchido. Para esta seleção, conte novamente o número de linhas e o
# número de missings.

# Criei um novo dataframe chamado "sinasc_limpo", que contém todas as linhas
# do dataframe original exceto aquelas que têm valores ausentes (NaN) na coluna
# "APGAR5". Isso é feito usando o método dropna()

sinasc.dropna(subset=['APGAR5'], inplace=True)

# Calculo também o número de linhas remanescentes no dataframe "sinasc_limpo",
# que é o número de linhas após a remoção das linhas com valores ausentes.

linhas_remanescentes = len(sinasc)

# Imprimindo as variáveis com os valores calculados

print("Quantidade de linhas no dataframe original:", linhas_originais)
print("Quantida de linhas remanescentes após a remoção dos valores faltantes:",
      linhas_remanescentes)
print("Quantidade de valores ausentes na coluna APGAR5:", apgar5_faltantes)

Quantidade de linhas no dataframe original: 27028
Quantida de linhas remanescentes após a remoção dos valores faltantes: 26925
Quantidade de valores ausentes na coluna APGAR5: 103


In [10]:
# 5) Observe que as variáveis ['ESTCIVMAE', 'CONSULTAS'] possuem o código 9,
# que significa ignorado. Vamos assumir que o não preenchido é o mesmo que o
# código 9. Escrever o valor 9 nos valores vazios dessa coluna.

# Nesta linha, estou preenchendo os valores ausentes na coluna "ESTCIVMAE"
# com o valor 9. O parâmetro "inplace=True" indica que a modificação deve ser
# feita diretamente no DataFrame 'sinasc', ou seja, ele será alterado
# permanentemente.

# O mesmo é feito na linha seguinte com a coluna "CONSULTAS".

sinasc['ESTCIVMAE'].fillna(9, inplace=True)
sinasc['CONSULTAS'].fillna(9, inplace=True)

# Por fim, seleciono as duas colunas para que seus valores sejam impressos e
# possamos ver as substituições realizadas

sinasc[['ESTCIVMAE', 'CONSULTAS']]

Unnamed: 0,ESTCIVMAE,CONSULTAS
0,5.0,4
1,2.0,4
2,9.0,4
3,5.0,3
4,2.0,4
...,...,...
27023,2.0,4
27024,1.0,4
27025,2.0,4
27026,2.0,4


In [11]:
# 6) Substitua os valores faltantes da quantitativa (QTDFILVIVO) por zero.

# Apenas para fins de comparação, inicialmente verifico a quantidade de valores
# faltantes nessa variável

qtd_valores_faltantes = sinasc['QTDFILVIVO'].isnull().sum()

# Printando a variável

print("Quantidade de valores faltantes antes da substituição:",
      qtd_valores_faltantes)

Quantidade de valores faltantes antes da substituição: 1566


In [12]:
# 6) Substitua os valores faltantes da quantitativa (QTDFILVIVO) por zero.

# Em seguida, substituo os valores faltantes da coluna "QTDFILVIVO", passando
# o parâmetro "inplace=True" para realizar a susbtituição diretamente no
# dataframe original

sinasc['QTDFILVIVO'].fillna(0, inplace=True)

# Imprimindo a coluna

sinasc['QTDFILVIVO']

0        0.0
1        1.0
2        2.0
3        0.0
4        1.0
        ... 
27023    1.0
27024    0.0
27025    0.0
27026    1.0
27027    1.0
Name: QTDFILVIVO, Length: 26925, dtype: float64

In [13]:
# 6) Substitua os valores faltantes da quantitativa (QTDFILVIVO) por zero.

# Verificando novamente a quantidade de valores faltantes nessa variável, dessa
# vez após a substituição

qtd_valores_faltantes_2 = sinasc['QTDFILVIVO'].isnull().sum()

# Imprimindo a variável

print("Quantidade de valores faltantes após da substituição:",
      qtd_valores_faltantes_2)

Quantidade de valores faltantes após da substituição: 0


In [14]:
# 7) Das restantes, decida que valores parecem mais adequados (um
# 'não preenchido' ou um valor 'mais provável' como no item anterior) e
# preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do
# cientista, e que estamos tomando decisões a todo o momento - não há
# necessariamente certo e errado aqui.

# Colunas_restantes 'LOCNASC', 'IDADEMAE', 'ESCMAE', 'GESTACAO', 'GRAVIDEZ'

# LOCNASC

sinasc['LOCNASC'].fillna("Não especificado", inplace=True)

In [15]:
# 7) Das restantes, decida que valores parecem mais adequados (um
# 'não preenchido' ou um valor 'mais provável' como no item anterior) e
# preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do
# cientista, e que estamos tomando decisões a todo o momento - não há
# necessariamente certo e errado aqui.

# IDADEMAE

mediana_idade_mae = sinasc['IDADEMAE'].median()

sinasc['IDADEMAE'].fillna(mediana_idade_mae, inplace=True)

In [16]:
# 7) Das restantes, decida que valores parecem mais adequados (um
# 'não preenchido' ou um valor 'mais provável' como no item anterior) e
# preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do
# cientista, e que estamos tomando decisões a todo o momento - não há
# necessariamente certo e errado aqui.

# ESCMAE

sinasc['ESCMAE'].fillna("Não especificado", inplace=True)

In [17]:
# 7) Das restantes, decida que valores parecem mais adequados (um
# 'não preenchido' ou um valor 'mais provável' como no item anterior) e
# preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do
# cientista, e que estamos tomando decisões a todo o momento - não há
# necessariamente certo e errado aqui.

# GESTACAO

# Neste código, estamos explicitamente convertendo os valores da coluna
# 'GESTACAO' para strings usando str(value) antes de aplicar a expressão
# regular.

import re

def convert_gestacao(value):
    value_str = str(value)
    match = re.match(r'(\d+)\s*a\s*(\d+)\s*semanas', value_str)

    if match:
        lower = int(match.group(1))
        upper = int(match.group(2))

        return (lower + upper) / 2
    elif 'mais' in value_str:
        return int(value_str.split()[0])
    else:
        return None

sinasc['GESTACAO'] = sinasc['GESTACAO'].apply(convert_gestacao)

mediana_gestacao = sinasc['GESTACAO'].median(skipna=True)

sinasc['GESTACAO'].fillna(mediana_gestacao, inplace=True)

print(sinasc['GESTACAO'])

0        39.0
1        39.0
2        39.0
3        39.0
4        39.0
         ... 
27023    34.0
27024    39.0
27025    39.0
27026    34.0
27027    39.0
Name: GESTACAO, Length: 26925, dtype: float64


In [18]:
# 7) Das restantes, decida que valores parecem mais adequados (um
# 'não preenchido' ou um valor 'mais provável' como no item anterior) e
# preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do
# cientista, e que estamos tomando decisões a todo o momento - não há
# necessariamente certo e errado aqui.

# GRAVIDEZ

# Inicio definindo um dicionário chamado "gravidez_mapping" que irá mapear os
# valores da coluna GRAVIDEZ para números correspondentes. Expandi o dicionário
# até a possibilidade de 5 gravidezes.

gravidez_mapping = {
    'Única': 1,
    'Dupla': 2,
    'Tripla': 3,
    'Quádrupla': 4,
    'Quíntupla': 5
}

# Utilizo o método map() para aplicar o mapeamento aos valores
# da coluna GRAVIDEZ

sinasc['GRAVIDEZ'] = sinasc['GRAVIDEZ'].map(gravidez_mapping)

# Calculo a mediana dos valores numéricos na coluna GRAVIDEZ, ignorando os
# valores ausentes através do parâmetro "skipna=True"

mediana_gravidez = sinasc['GRAVIDEZ'].median(skipna=True)

# Preenchi os valores ausentes na coluna GRAVIDEZ com a mediana calculada

sinasc['GRAVIDEZ'].fillna(mediana_gravidez, inplace=True)

In [19]:
# 7) Das restantes, decida que valores parecem mais adequados (um
# 'não preenchido' ou um valor 'mais provável' como no item anterior) e
# preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do
# cientista, e que estamos tomando decisões a todo o momento - não há
# necessariamente certo e errado aqui.

# Imprimindo o dataframe para verificar as colunas modificadas

sinasc

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,1,2604388.0,510340,1,32,2.0,12 anos ou mais,333115.0,1.0,0.0,...,5,2767632,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27024,1,2752654.0,510675,1,19,1.0,8 a 11 anos,999992.0,0.0,0.0,...,5,2772678,ATIVO,MUNIC,Chupinguaia,Rondônia,-12.55684,-60.90185,340.0,5126.723
27025,1,9659366.0,510787,1,24,2.0,8 a 11 anos,421125.0,0.0,1.0,...,5,2776905,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27026,1,9659366.0,510787,1,21,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2777105,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915


In [20]:
# 8) O Apgar possui uma classificação indicando se o bebê passou por asfixia:

# Entre 8 e 10 está em uma faixa 'normal'.
# Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'.
# Entre 4 e 5 significa 'asfixia moderada'.
# Entre 0 e 3 significa 'asfixia severa'.

# Crie uma categorização dessa variável com essa codificação e calcule as
# frequências dessa categorização.

# Criei um dicionário chamado "categorias", que mapeia as faixas de pontuação
# para as categorias correspondentes

categorias = {
    (8, 10): 'normal',
    (6, 7): 'asfixia leve',
    (4, 5): 'asfixia moderada',
    (0, 3): 'asfixia severa'
}

# Em seguida, a função categorize_apgar recebe uma pontuação de APGAR5 ("score")
# como entrada e itera sobre as faixas definidas no dicionário categorias para
# determinar em qual categoria a pontuação se encaixa

def categorize_apgar(score):
    for faixa, categoria in categorias.items():
        if faixa[0] <= score <= faixa[1]:
            return categoria

# Utilizo o método apply(), passando a função criada como parâmetro. Isso irá
# aplicar a função de categorização a cada valor na coluna APGAR5 e criar uma
# nova coluna "APGAR5_Categoria" com as categorias correspondentes

sinasc['APGAR5_Categoria'] = sinasc['APGAR5'].apply(categorize_apgar)

# Utilizando o método value_counts(), calculo as frequências das categorias na
# nova coluna

frequencias = sinasc['APGAR5_Categoria'].value_counts()

# Exibindo as frequências das categorias

print(frequencias)

normal              26463
asfixia leve          320
asfixia severa         74
asfixia moderada       68
Name: APGAR5_Categoria, dtype: int64


In [21]:
# 8) O Apgar possui uma classificação indicando se o bebê passou por asfixia:

# Entre 8 e 10 está em uma faixa 'normal'.
# Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'.
# Entre 4 e 5 significa 'asfixia moderada'.
# Entre 0 e 3 significa 'asfixia severa'.

# Crie uma categorização dessa variável com essa codificação e calcule as
# frequências dessa categorização.

# Imprimindo novamente o dataframe para verificar a nova coluna

sinasc

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea,APGAR5_Categoria
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273,normal
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,1,2604388.0,510340,1,32,2.0,12 anos ou mais,333115.0,1.0,0.0,...,2767632,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,normal
27024,1,2752654.0,510675,1,19,1.0,8 a 11 anos,999992.0,0.0,0.0,...,2772678,ATIVO,MUNIC,Chupinguaia,Rondônia,-12.55684,-60.90185,340.0,5126.723,normal
27025,1,9659366.0,510787,1,24,2.0,8 a 11 anos,421125.0,0.0,1.0,...,2776905,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,normal
27026,1,9659366.0,510787,1,21,2.0,8 a 11 anos,999992.0,1.0,0.0,...,2777105,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,normal


In [22]:
# 9) Renomeie as variáveis para que fiquem no snake case, ou seja, em letras
# minúsculas, com um underscore entre as palávras. Dica: repare que se você
# não quiser criar um dataframe novo, você vai precisar usar a opção
# inplace = True.

# Utilizei o método rename() para renomear todas as colunas no formato
# snake_case

sinasc.rename(columns={
    'ORIGEM': 'origem',
    'CODESTAB': 'cod_estab',
    'CODMUNNASC': 'cod_mun_nasc',
    'LOCNASC': 'loc_nasc',
    'IDADEMAE': 'idade_mae',
    'ESTCIVMAE': 'est_civ_mae',
    'ESCMAE': 'esc_mae',
    'CODOCUPMAE': 'cod_ocup_mae',
    'QTDFILVIVO': 'qtd_fil_vivo',
    'QTDFILMORT': 'qtd_fil_mort',
    'CODMUNRES': 'cod_mun_res',
    'GESTACAO': 'gestacao',
    'GRAVIDEZ': 'gravidez',
    'PARTO': 'parto',
    'CONSULTAS': 'consultas',
    'DTNASC': 'dt_nasc',
    'HORANASC': 'hora_nasc',
    'SEXO': 'sexo',
    'APGAR1': 'apgar1',
    'APGAR5': 'apgar5',
    'RACACOR': 'raca_cor',
    'PESO': 'peso',
    'IDANOMAL': 'id_anomal',
    'DTCADASTRO': 'dt_cadastro',
    'CODANOMAL': 'cod_anomal',
    'NUMEROLOTE': 'numero_lote',
    'VERSAOSIST': 'versao_sist',
    'DTRECEBIM': 'dt_recebim',
    'DIFDATA': 'dif_data',
    'DTRECORIGA': 'dt_recoriga',
    'NATURALMAE': 'natural_mae',
    'CODMUNNATU': 'cod_mun_natu',
    'CODUFNATU': 'cod_uf_natu',
    'ESCMAE2010': 'esc_mae2010',
    'SERIESCMAE': 'serie_esc_mae',
    'DTNASCMAE': 'dt_nasc_mae',
    'RACACORMAE': 'raca_cor_mae',
    'QTDGESTANT': 'qtd_gestant',
    'QTDPARTNOR': 'qtd_part_nor',
    'QTDPARTCES': 'qtd_part_ces',
    'IDADEPAI': 'idade_pai',
    'DTULTMENST': 'dt_ult_menst',
    'SEMAGESTAC': 'sem_agestac',
    'TPMETESTIM': 'tp_metestim',
    'CONSPRENAT': 'cons_prenat',
    'MESPRENAT': 'mes_prenat',
    'TPAPRESENT': 'tp_apresent',
    'STTRABPART': 'st_trab_part',
    'STCESPARTO': 'st_ces_parto',
    'TPNASCASSI': 'tp_nascassi',
    'TPFUNCRESP': 'tp_func_resp',
    'TPDOCRESP': 'tp_doc_resp',
    'DTDECLARAC': 'dt_declarac',
    'ESCMAEAGR1': 'esc_mae_agr1',
    'STDNEPIDEM': 'std_nepidem',
    'STDNNOVA': 'std_nnova',
    'CODPAISRES': 'cod_pais_res',
    'TPROBSON': 'tp_robson',
    'PARIDADE': 'paridade',
    'KOTELCHUCK': 'kotelchuck',
    'CONTADOR': 'contador',
    'munResStatus': 'mun_res_status',
    'munResTipo': 'mun_res_tipo',
    'munResNome': 'mun_res_nome',
    'munResUf': 'mun_res_uf',
    'munResLat': 'mun_res_lat',
    'munResLon': 'mun_res_lon',
    'munResAlt': 'mun_res_alt',
    'munResArea': 'mun_res_area',
    'APGAR5_Categoria': 'apgar5_categoria'
}, inplace=True)

# O parâmetr "inplace=True" faz com que as alterações sejam aplicadas
# diretamente ao dataframe sinasc

# Por fim, imprimo as colunas renomeadas para verificar o resultado

print(sinasc.columns)

Index(['origem', 'cod_estab', 'cod_mun_nasc', 'loc_nasc', 'idade_mae',
       'est_civ_mae', 'esc_mae', 'cod_ocup_mae', 'qtd_fil_vivo',
       'qtd_fil_mort', 'cod_mun_res', 'gestacao', 'gravidez', 'parto',
       'consultas', 'dt_nasc', 'hora_nasc', 'sexo', 'apgar1', 'apgar5',
       'raca_cor', 'peso', 'id_anomal', 'dt_cadastro', 'cod_anomal',
       'numero_lote', 'versao_sist', 'dt_recebim', 'dif_data', 'dt_recoriga',
       'natural_mae', 'cod_mun_natu', 'cod_uf_natu', 'esc_mae2010',
       'serie_esc_mae', 'dt_nasc_mae', 'raca_cor_mae', 'qtd_gestant',
       'qtd_part_nor', 'qtd_part_ces', 'idade_pai', 'dt_ult_menst',
       'sem_agestac', 'tp_metestim', 'cons_prenat', 'mes_prenat',
       'tp_apresent', 'st_trab_part', 'st_ces_parto', 'tp_nascassi',
       'tp_func_resp', 'tp_doc_resp', 'dt_declarac', 'esc_mae_agr1',
       'std_nepidem', 'std_nnova', 'cod_pais_res', 'tp_robson', 'paridade',
       'kotelchuck', 'contador', 'mun_res_status', 'mun_res_tipo',
       'mun_res_nome'

In [23]:
# 9) Renomeie as variáveis para que fiquem no snake case, ou seja, em letras
# minúsculas, com um underscore entre as palávras. Dica: repare que se você
# não quiser criar um dataframe novo, você vai precisar usar a opção
# inplace = True.

# Imprimindo novamente o dataframe para verificar os novos nomes das colunas

sinasc

Unnamed: 0,origem,cod_estab,cod_mun_nasc,loc_nasc,idade_mae,est_civ_mae,esc_mae,cod_ocup_mae,qtd_fil_vivo,qtd_fil_mort,...,contador,mun_res_status,mun_res_tipo,mun_res_nome,mun_res_uf,mun_res_lat,mun_res_lon,mun_res_alt,mun_res_area,apgar5_categoria
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273,normal
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,1,2604388.0,510340,1,32,2.0,12 anos ou mais,333115.0,1.0,0.0,...,2767632,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,normal
27024,1,2752654.0,510675,1,19,1.0,8 a 11 anos,999992.0,0.0,0.0,...,2772678,ATIVO,MUNIC,Chupinguaia,Rondônia,-12.55684,-60.90185,340.0,5126.723,normal
27025,1,9659366.0,510787,1,24,2.0,8 a 11 anos,421125.0,0.0,1.0,...,2776905,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,normal
27026,1,9659366.0,510787,1,21,2.0,8 a 11 anos,999992.0,1.0,0.0,...,2777105,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915,normal
