# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
``` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [1]:
import pandas as pd
import requests

# 1) seu código aqui


# Replace 'YOUR_RAW_CSV_URL' with the actual raw URL of your CSV file
csv_url = 'https://raw.githubusercontent.com/Alexisdmeneses/volta-zero/main/SINASC_RO_2019.csv'

# Carregar a base de dados
sinasc = pd.read_csv(csv_url)

# Contar o número de registros
num_registros_total = sinasc.shape[0]
num_registros_nao_duplicados = sinasc.drop_duplicates().shape[0]

# Exibir os resultados
print(f"Número total de registros: {num_registros_total}")
print(f"Número de registros não duplicados: {num_registros_nao_duplicados}")

Número total de registros: 27028
Número de registros não duplicados: 27028


In [2]:
# 2) seu código aqui

# Contar o número de valores ausentes por variável
valores_ausentes_por_variavel = sinasc.isnull().sum()

# Exibir os resultados
print("Número de valores ausentes por variável:")
print(valores_ausentes_por_variavel)

Número de valores ausentes por variável:
ORIGEM          0
CODESTAB      115
CODMUNNASC      0
LOCNASC         0
IDADEMAE        0
             ... 
munResUf        0
munResLat       1
munResLon       1
munResAlt       1
munResArea      1
Length: 69, dtype: int64


In [3]:
# 3) seu código aqui

# Selecionar apenas as colunas de interesse
colunas_interesse = ['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']
dados_selecionados_df = sinasc[colunas_interesse]

# Exibir as primeiras linhas da nova base de dados
print(dados_selecionados_df.head())

   LOCNASC  IDADEMAE  ESTCIVMAE           ESCMAE  QTDFILVIVO         GESTACAO  \
0        1        19        5.0      8 a 11 anos         0.0  37 a 41 semanas   
1        1        29        2.0      8 a 11 anos         1.0  37 a 41 semanas   
2        1        37        9.0      8 a 11 anos         2.0  37 a 41 semanas   
3        1        30        5.0  12 anos ou mais         0.0  37 a 41 semanas   
4        1        30        2.0      8 a 11 anos         1.0  37 a 41 semanas   

  GRAVIDEZ  CONSULTAS  APGAR5  
0    Única          4    10.0  
1    Única          4     9.0  
2    Única          4    10.0  
3    Única          3    10.0  
4    Única          4    10.0  


In [4]:
# Contar o número de valores ausentes por variável
valores_ausentes_por_variavel = sinasc.isnull().sum()

# Exibir os resultados
print("Número de valores ausentes por variável:")
print(valores_ausentes_por_variavel)

Número de valores ausentes por variável:
ORIGEM          0
CODESTAB      115
CODMUNNASC      0
LOCNASC         0
IDADEMAE        0
             ... 
munResUf        0
munResLat       1
munResLon       1
munResAlt       1
munResArea      1
Length: 69, dtype: int64


In [5]:
# 4) seu código aqui

# Contar o número de linhas antes da remoção
num_linhas_antes = sinasc.shape[0]

In [6]:
# Remover registros com valores ausentes em 'APGAR5'
sinasc = sinasc.dropna(subset=['APGAR5'])

In [7]:
# Contar o número de linhas após a remoção
num_linhas_apos = sinasc.shape[0]

In [8]:
# Contar o número de valores ausentes por variável após a remoção
valores_ausentes_por_variavel_apos = sinasc.isnull().sum()

In [9]:
# Exibir os resultados
print(f"Número de linhas antes da remoção: {num_linhas_antes}")
print(f"Número de linhas após a remoção: {num_linhas_apos}")
print("\nNúmero de valores ausentes por variável após a remoção:")
print(valores_ausentes_por_variavel_apos)

Número de linhas antes da remoção: 27028
Número de linhas após a remoção: 26925

Número de valores ausentes por variável após a remoção:
ORIGEM         0
CODESTAB      66
CODMUNNASC     0
LOCNASC        0
IDADEMAE       0
              ..
munResUf       0
munResLat      1
munResLon      1
munResAlt      1
munResArea     1
Length: 69, dtype: int64


In [10]:
# 5) seu código aqui

# Substituir o código 9 por NaN nas variáveis 'ESTCIVMAE' e 'CONSULTAS'
sinasc['ESTCIVMAE'].replace(9, pd.NA, inplace=True)
sinasc['CONSULTAS'].replace(9, pd.NA, inplace=True)

# Contar o número de linhas antes da remoção
num_linhas_antes = sinasc.shape[0]

# Remover registros com valores ausentes em 'APGAR5', 'ESTCIVMAE' e 'CONSULTAS'
sinasc = sinasc.dropna(subset=['APGAR5', 'ESTCIVMAE', 'CONSULTAS'])

# Contar o número de linhas após a remoção
num_linhas_apos = sinasc.shape[0]

# Contar o número de valores ausentes por variável após a remoção
valores_ausentes_por_variavel_apos = sinasc.isnull().sum()

# Exibir os resultados
print(f"Número de linhas antes da remoção: {num_linhas_antes}")
print(f"Número de linhas após a remoção: {num_linhas_apos}")
print("\nNúmero de valores ausentes por variável após a remoção:")
print(valores_ausentes_por_variavel_apos)

Número de linhas antes da remoção: 26925
Número de linhas após a remoção: 26416

Número de valores ausentes por variável após a remoção:
ORIGEM         0
CODESTAB      65
CODMUNNASC     0
LOCNASC        0
IDADEMAE       0
              ..
munResUf       0
munResLat      1
munResLon      1
munResAlt      1
munResArea     1
Length: 69, dtype: int64


In [11]:
# 6) Seu código aqui

# Substituir os valores faltantes em 'QTDFILVIVO' por zero
sinasc['QTDFILVIVO'].fillna(0, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_QTDFILVIVO = sinasc['QTDFILVIVO'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'QTDFILVIVO':")
print(valores_ausentes_QTDFILVIVO)

Número de valores ausentes em 'QTDFILVIVO':
0


In [12]:
# 7) seu código aqui

# LOCNASC usaremos a média da variável ja que e o mais provavel do local de ocorrrencia do nascimento
# Calcular a média da variável 'LOCNASC'
media_LOCNASC = sinasc['LOCNASC'].mean()

# Substituir os valores faltantes em 'QTDFILVIVO' pela media
sinasc['LOCNASC'].fillna(media_LOCNASC, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_LOCNASC = sinasc['LOCNASC'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'LOCNASC':")
print(valores_ausentes_LOCNASC)

Número de valores ausentes em 'LOCNASC':
0


In [13]:
# IDADEMAE usaremos a média da variável porque eh a idade mais provavel da mae
# Calcular a média da variável 'IDADEMAE'
media_IDADEMAE = sinasc['IDADEMAE'].mean()

# Substituir os valores faltantes em 'IDADEMAE' pela media
sinasc['IDADEMAE'].fillna(media_LOCNASC, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_IDADEMAE = sinasc['IDADEMAE'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'IDADEMAE':")
print(valores_ausentes_IDADEMAE)

Número de valores ausentes em 'IDADEMAE':
0


In [14]:
# ESTCIVMAE usaremos a média da variável porque eh o estado civil mais provavel da mae
# Calcular a média da variável 'ESTCIVMAE'
media_ESTCIVMAE = sinasc['ESTCIVMAE'].mean()

# Substituir os valores faltantes em 'ESTCIVMAE' pela media
sinasc['ESTCIVMAE'].fillna(media_ESTCIVMAE, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_ESTCIVMAE = sinasc['ESTCIVMAE'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'ESTCIVMAE':")
print(valores_ausentes_ESTCIVMAE)

Número de valores ausentes em 'ESTCIVMAE':
0


In [15]:
# Mapear os anos de estudo concluídos para os índices
mapeamento_anos_estudo = {
    'Nenhuma': 1,
    '1 a 3 anos': 2,
    '4 a 7 anos': 3,
    '8 a 11 anos': 4,
    '12 anos ou mais': 5,
    'Ignorado': 9
}

# Criar uma nova coluna com os índices mapeados
sinasc['ANOS_ESTUDO_CONCL_INDICE'] = sinasc['ESCMAE'].map(mapeamento_anos_estudo)

# Exibir as primeiras linhas da base de dados com a nova coluna
print(sinasc[['ESCMAE', 'ANOS_ESTUDO_CONCL_INDICE']].head())

            ESCMAE  ANOS_ESTUDO_CONCL_INDICE
0      8 a 11 anos                       4.0
1      8 a 11 anos                       4.0
3  12 anos ou mais                       5.0
4      8 a 11 anos                       4.0
5       1 a 3 anos                       2.0


In [16]:
# ESCMAE usaremos a média da variável porque eh a escolaridade mais provavel da mae
# Calcular a média da variável 'ESCMAE'
media_ESCMAE = sinasc['ANOS_ESTUDO_CONCL_INDICE'].mean()

# Substituir os valores faltantes em 'ESCMAE' pela media
sinasc['ANOS_ESTUDO_CONCL_INDICE'].fillna(media_ESCMAE, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_ESCMAE = sinasc['ANOS_ESTUDO_CONCL_INDICE'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'ANOS_ESTUDO_CONCL_INDICE':")
print(valores_ausentes_ESCMAE)

Número de valores ausentes em 'ANOS_ESTUDO_CONCL_INDICE':
0


In [17]:
# QTDFILVIVO usaremos a média da variável porque eh a quantidade de filhos vivos mais provavel
# Calcular a média da variável 'QTDFILVIVO'
moda_QTDFILVIVO = sinasc['QTDFILVIVO'].mode()

# Substituir os valores faltantes em 'QTDFILVIVO' pela moda
sinasc['QTDFILVIVO'].fillna(moda_QTDFILVIVO, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_QTDFILVIVO = sinasc['QTDFILVIVO'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'QTDFILVIVO':")
print(valores_ausentes_QTDFILVIVO)

Número de valores ausentes em 'QTDFILVIVO':
0


In [18]:
# Mapear as semanas de gestacao para os indices
mapeamento_semanas_gestacao = {
    'Menos de 22 semanas': 1,
    '22 a 27 semanas': 2,
    '28 a 31 semanas': 3,
    '32 a 36 semanas': 4,
    '37 a 41 semanas': 5,
    '42 semanas e mais': 6,
    'Ignorado': 9
}

# Criar uma nova coluna com os índices mapeados
sinasc['SEMANAS_GESTACAO_INDICE'] = sinasc['GESTACAO'].map(mapeamento_semanas_gestacao)

# Exibir as primeiras linhas da base de dados com a nova coluna
print(sinasc[['GESTACAO', 'SEMANAS_GESTACAO_INDICE']].head())

          GESTACAO  SEMANAS_GESTACAO_INDICE
0  37 a 41 semanas                      5.0
1  37 a 41 semanas                      5.0
3  37 a 41 semanas                      5.0
4  37 a 41 semanas                      5.0
5  37 a 41 semanas                      5.0


In [19]:
# GESTACAO usaremos a média da variável porque eh o tempo de gestacao mais provavel da mae
# Calcular a média da variável 'GESTACAO'
media_GESTACAO = sinasc['SEMANAS_GESTACAO_INDICE'].mean()

# Substituir os valores faltantes em 'GESTACAO' pela media
sinasc['SEMANAS_GESTACAO_INDICE'].fillna(media_GESTACAO, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_GESTACAO = sinasc['SEMANAS_GESTACAO_INDICE'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'SEMANAS_GESTACAO_INDICE':")
print(valores_ausentes_ESCMAE)

Número de valores ausentes em 'SEMANAS_GESTACAO_INDICE':
0


In [20]:
# Mapear as vezes que a mae esteve gravida para os indices
mapeamento_GRAVIDEZ = {
    'Única': 1,
    'Dupla': 2,
    'Tripla ou mais ': 3,
    'Ignorado': 9
}

# Criar uma nova coluna com os índices mapeados
sinasc['GRAVIDEZ_INDICE'] = sinasc['GRAVIDEZ'].map(mapeamento_GRAVIDEZ)

# Exibir as primeiras linhas da base de dados com a nova coluna
print(sinasc[['GRAVIDEZ', 'GRAVIDEZ_INDICE']].head())

  GRAVIDEZ  GRAVIDEZ_INDICE
0    Única              1.0
1    Única              1.0
3    Única              1.0
4    Única              1.0
5    Única              1.0


In [21]:
# GRAVIDEZ usaremos a média da variável porque sao as vezes que mais provaveis que a mae esteve gravida
# Calcular a média da variável 'GESTACAO'
media_GRAVIDEZ = sinasc['GRAVIDEZ_INDICE'].mean()

# Substituir os valores faltantes em 'GRAVIDEZ' pela media
sinasc['GRAVIDEZ_INDICE'].fillna(media_GRAVIDEZ, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_GRAVIDEZ = sinasc['GRAVIDEZ_INDICE'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'GRAVIDEZ_INDICE':")
print(valores_ausentes_GRAVIDEZ)

Número de valores ausentes em 'GRAVIDEZ_INDICE':
0


In [22]:
# CONSULTAS usaremos a média da variável porque sao as quantidades de consultas pre-natal mais provaveis que a mae fez
# Calcular a média da variável 'CONSULTAS'
media_CONSULTAS = sinasc['CONSULTAS'].mean()

# Substituir os valores faltantes em 'CONSULTAS' pela media
sinasc['CONSULTAS'].fillna(media_CONSULTAS, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_CONSULTAS= sinasc['CONSULTAS'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'CONSULTASE':")
print(valores_ausentes_CONSULTAS)

Número de valores ausentes em 'CONSULTASE':
0


In [23]:
# APGAR5 usaremos a média da variável porque sao as notas mais provaveis pros bebes de 5 minutos do nascimento
# Calcular a média da variável 'APGAR5'
media_APGAR5 = sinasc['APGAR5'].mean()

# Substituir os valores faltantes em 'APGAR5' pela media
sinasc['APGAR5'].fillna(media_APGAR5, inplace=True)

# Contar o número de valores ausentes por variável
valores_ausentes_APGAR5 = sinasc['APGAR5'].isnull().sum()

# Exibir os resultados
print("Número de valores ausentes em 'APGAR5':")
print(valores_ausentes_APGAR5)

Número de valores ausentes em 'APGAR5':
0


In [24]:
# 8) seu código aqui
# Definir os intervalos e rótulos para a categorização do Apgar
intervalos = [-1, 3, 5, 7, 10]
rotulos = ['asfixia severa', 'asfixia moderada', 'asfixia leve', 'normal']

# Criar a nova coluna 'APGAR_CATEGORIA' com a categorização
sinasc['APGAR_CATEGORIA'] = pd.cut(sinasc['APGAR5'], bins=intervalos, labels=rotulos, right=False)

# Calcular as frequências da categorização
frequencias_apgar_categoria = sinasc['APGAR_CATEGORIA'].value_counts()

# Exibir as frequências
print("Frequências da categorização do Apgar:")
print(frequencias_apgar_categoria)

Frequências da categorização do Apgar:
APGAR_CATEGORIA
normal              17966
asfixia leve          122
asfixia severa         57
asfixia moderada       38
Name: count, dtype: int64


In [25]:
# 9) seu código aqui
# Obter os nomes das colunas existentes
nomes_colunas = sinasc.columns

# Criar um dicionário de mapeamento para renomear todas as variáveis
mapeamento_renomeacao = {coluna: coluna.lower().replace(' ', '_') for coluna in nomes_colunas}

# Renomear as variáveis
sinasc.rename(columns=mapeamento_renomeacao, inplace=True)

# Exibir as primeiras linhas do DataFrame após a renomeação
print(sinasc.head())

   origem   codestab  codmunnasc  locnasc  idademae estcivmae  \
0       1  2679477.0      110001        1        19       5.0   
1       1  2679477.0      110001        1        29       2.0   
3       1  2516500.0      110001        1        30       5.0   
4       1  2516500.0      110001        1        30       2.0   
5       1  2516500.0      110001        1        33       5.0   

            escmae  codocupmae  qtdfilvivo  qtdfilmort  ...  \
0      8 a 11 anos         NaN         0.0         0.0  ...   
1      8 a 11 anos    999992.0         1.0         0.0  ...   
3  12 anos ou mais    231205.0         0.0         0.0  ...   
4      8 a 11 anos    999992.0         1.0         0.0  ...   
5       1 a 3 anos    621005.0         2.0         1.0  ...   

                munresnome  munresuf munreslat munreslon munresalt munresarea  \
0    Alta Floresta D'Oeste  Rondônia -11.93554 -61.99982     338.0   7067.025   
1    Alta Floresta D'Oeste  Rondônia -11.93554 -61.99982     338.0  