# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo SINASC_RO_2019.csv` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo `estrutura_sinasc_para_CD.pdf` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
`
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis `['ESTCIVMAE', 'CONSULTAS']` possuem o código `9`, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código `9`.<br>
6. Substitua os valores faltantes da quantitativa (`QTDFILVIVO`) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção `inplace = True`.

In [1]:
import pandas as pd
import requests

# 1) seu código aqui
#df = pd.Dataframe
sinasc = pd.read_csv('SINASC_RO_2019.csv', sep=',', encoding='utf-8')
#print(sinasc.head())
print(sinasc.to_string)
print(sinasc.shape) #mostra o tamanho da base de dados,linha e coluna
sinasc.drop_duplicates().shape #cria uma nova versão da tabela removendo linhas duplicadas (linhas exatamente iguais em todas as colunas).
# Não há duplicados

<bound method DataFrame.to_string of        ORIGEM   CODESTAB  CODMUNNASC  LOCNASC  IDADEMAE  ESTCIVMAE  \
0           1  2679477.0      110001        1        19        5.0   
1           1  2679477.0      110001        1        29        2.0   
2           1  2679477.0      110001        1        37        9.0   
3           1  2516500.0      110001        1        30        5.0   
4           1  2516500.0      110001        1        30        2.0   
...       ...        ...         ...      ...       ...        ...   
27023       1  2604388.0      510340        1        32        2.0   
27024       1  2752654.0      510675        1        19        1.0   
27025       1  9659366.0      510787        1        24        2.0   
27026       1  9659366.0      510787        1        21        2.0   
27027       1  2795655.0      510792        1        18        5.0   

                ESCMAE  CODOCUPMAE  QTDFILVIVO  QTDFILMORT  ...  KOTELCHUCK  \
0          8 a 11 anos         NaN         

(27028, 69)

In [19]:
# 2) seu código aqui
sinasc.isna()


Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,False,False,False,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
27024,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
27025,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
27026,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [23]:
# 2) seu código aqui
sinasc.isna().sum().sum()

121594

In [63]:
# 3) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv', sep=',', encoding='utf-8')

#Define uma lista com os nomes das colunas que você quer manter.
colunas_interesse = ['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']

#Cria um novo DataFrame contendo somente essas colunas.O resultado é armazenado em sinasc_reduzido.
sinasc_reduzido = sinasc[colunas_interesse] 

#Conta quantos valores estão faltando (NaN) em cada uma das colunas.
missing_por_coluna = sinasc_reduzido.isnull().sum() 

#Mostra o total de valores ausentes por variável.
print(missing_por_coluna) 


LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64


In [55]:
# 4) seu código aqui

#Verificar o numero de total de linhas antes da filtragem
print("Total de linhas antes da remoção:", len(sinasc))

#Contar quantos valores missing há na coluna APGAR5
print("valores missing em APGAR5:", sinasc['APGAR5'].isna().sum())

#Remover registros com APGAR5 ausente (NaN)
sinasc = sinasc.dropna(subset=['APGAR5'])

#Contar novamente o numero de linha apos remoção
print("Total de linha apos remoção:", len(sinasc))

#Conferir se ainda restaram valores missing
print("Valores missing restantes em Apgar5:", sinasc['APGAR5'].isna().sum())

#sinasc['APGAR5'].isna().sum() → conta quantos registros não têm valor em Apgar5.
#dropna(subset=['APGAR5']) → remove apenas as linhas onde essa variável está vazia.
#len(sinasc) → retorna o número de linhas no DataFrame.

Total de linhas antes da remoção: 26925
valores missing em APGAR5: 0
Total de linha apos remoção: 26925
Valores missing restantes em Apgar5: 0


In [63]:
# 5) seu código aqui

#Substituir codigo 9 por NaN nas colunas ESTCIVMAE e CONSULTAS
sinasc[['ESTCIVMAE','CONSULTAS']] = sinasc[['ESTCIVMAE','CONSULTAS']].replace(9,pd.NA)

#Contar quantos valores ausentes (Nan + ignorados) existem agora nessas colunas
print("Valores missing em ESTCIVMAE:", sinasc['ESTCIVMAE'].isna().sum())
print("Valores missing em ESTCIVMAE:", sinasc['CONSULTAS'].isna().sum())

#replace(9, pd.NA) substitui o código 9 por um valor nulo reconhecido pelo pandas.
#Depois disso, o isna() e o dropna() passam a tratar esses casos como realmente faltantes.

Valores missing em ESTCIVMAE: 459
Valores missing em ESTCIVMAE: 50


In [67]:
# 6) Seu código aqui

#Substituir valores faltantes (NaN) por zero
sinasc['QTDFILVIVO'] = sinasc['QTDFILVIVO'].fillna(0)

# Verificar se ainda existem valores ausentes
print("Valores missing em QTDFILVIVO:", sinasc['QTDFILVIVO'].isna().sum())

Valores missing em QTDFILVIVO: 0


In [3]:
# 7) seu código aqui
# Substituir valores faltantes categóricos por 'Ignorado'
cols_categoricas = ['ESCMAE', 'GESTACAO', 'LOCNASC']
sinasc[cols_categoricas] = sinasc[cols_categoricas].fillna('Ignorado')

# Substituir idade da mãe (se desejado) pela média
sinasc['IDADEMAE'] = sinasc['IDADEMAE'].fillna(sinasc['IDADEMAE'].mean())

# Conferir se ainda há missing
print(sinasc.isna().sum())

ORIGEM          0
CODESTAB      115
CODMUNNASC      0
LOCNASC         0
IDADEMAE        0
             ... 
munResUf        0
munResLat       1
munResLon       1
munResAlt       1
munResArea      1
Length: 69, dtype: int64


In [9]:
# 8) seu código aqui

def classificar_APGAR5(valor):
    if pd.isna(valor): #Verifica se o valor é ausente (nulo, NaN).
        return 'Não informado'
    elif 8 <= valor <= 10:
        return 'Normal'
    elif 6 <= valor <= 7:
        return 'Asfixia leve'
    elif 4 <= valor <= 5:
        return 'Asfixia moderada'
    elif 0 <= valor <= 3:
        return 'Asfixia severa'
    else:
        return 'Valor inválido'

# Aplicar a função
sinasc['APGAR5'] = sinasc['APGAR1'].apply(classificar_APGAR5) #cria uma nova coluna chamada APGAR1 no DataFrame. 
                                                            #.apply(classificar_APGAR5) aplica a função que criamos para cada linha da coluna APGAR1.

#Calcular as frequencias absolutas 
freq_abs =  sinasc['APGAR5'].value_counts() #conta quantas vezes cada categoria aparece.
                                            #Exemplo: quantos recém-nascidos foram “Normais”, “Asfixia leve”, etc.
                                            #O resultado é uma série do pandas com as categorias e suas contagens.

# Calcular as frequencias relativas (%)
freq_rel = sinasc['APGAR5'].value_counts(normalize=True)*100  #calcula a proporção percentual de cada categoria.
                                                            #O parâmetro normalize=True faz com que o value_counts() divida cada contagem pelo total, retornando uma fração (entre 0 e 1).
                                                            #Multiplicamos por 100 para obter o valor em percentual (%).

print("Frequência Absoluta:")
print(freq_abs)
print("\nFrequência Relativa (%):")
print(freq_rel.round(2))
        

Frequência Absoluta:
APGAR5
Normal              23802
Asfixia leve         2523
Asfixia moderada      376
Asfixia severa        231
Não informado          96
Name: count, dtype: int64

Frequência Relativa (%):
APGAR5
Normal              88.06
Asfixia leve         9.33
Asfixia moderada     1.39
Asfixia severa       0.85
Não informado        0.36
Name: proportion, dtype: float64


In [15]:
# 9) seu código aqui
# Converter todos os nomes das colunas para snake_case
sinasc.columns = (
    sinasc.columns
      .str.strip()                       # Remove espaços extras
      .str.replace(' ', '_')             # Substitui espaços por "_"
      .str.replace('-', '_')             # Substitui hifens por "_"
      .str.replace(r'(?<!^)(?=[A-Z])', '_', regex=True)  # Insere "_" antes de letras maiúsculas
      .str.lower()                       # Converte tudo para minúsculas
)

print(sinasc.columns)


Index(['o_r_i_g_e_m', 'c_o_d_e_s_t_a_b', 'c_o_d_m_u_n_n_a_s_c',
       'l_o_c_n_a_s_c', 'i_d_a_d_e_m_a_e', 'e_s_t_c_i_v_m_a_e', 'e_s_c_m_a_e',
       'c_o_d_o_c_u_p_m_a_e', 'q_t_d_f_i_l_v_i_v_o', 'q_t_d_f_i_l_m_o_r_t',
       'c_o_d_m_u_n_r_e_s', 'g_e_s_t_a_c_a_o', 'g_r_a_v_i_d_e_z', 'p_a_r_t_o',
       'c_o_n_s_u_l_t_a_s', 'd_t_n_a_s_c', 'h_o_r_a_n_a_s_c', 's_e_x_o',
       'a_p_g_a_r1', 'a_p_g_a_r5', 'r_a_c_a_c_o_r', 'p_e_s_o',
       'i_d_a_n_o_m_a_l', 'd_t_c_a_d_a_s_t_r_o', 'c_o_d_a_n_o_m_a_l',
       'n_u_m_e_r_o_l_o_t_e', 'v_e_r_s_a_o_s_i_s_t', 'd_t_r_e_c_e_b_i_m',
       'd_i_f_d_a_t_a', 'd_t_r_e_c_o_r_i_g_a', 'n_a_t_u_r_a_l_m_a_e',
       'c_o_d_m_u_n_n_a_t_u', 'c_o_d_u_f_n_a_t_u', 'e_s_c_m_a_e2010',
       's_e_r_i_e_s_c_m_a_e', 'd_t_n_a_s_c_m_a_e', 'r_a_c_a_c_o_r_m_a_e',
       'q_t_d_g_e_s_t_a_n_t', 'q_t_d_p_a_r_t_n_o_r', 'q_t_d_p_a_r_t_c_e_s',
       'i_d_a_d_e_p_a_i', 'd_t_u_l_t_m_e_n_s_t', 's_e_m_a_g_e_s_t_a_c',
       't_p_m_e_t_e_s_t_i_m', 'c_o_n_s_p_r_e_n_a_t', 'm_e_s_