# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
``` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [108]:
import pandas as pd
import requests

# 1) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc.shape)
sinasc.drop_duplicates().shape
# Não há duplicados

(27028, 69)


(27028, 69)

In [109]:
sinasc.head(3)

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [110]:
sinasc.isna()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,False,False,False,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
27024,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
27025,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
27026,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


#### 2. Conte o número de valores *missing* por variável.

In [203]:
# 2)seu código aqui
sinasc.isna().sum()

ORIGEM          0
CODESTAB      115
CODMUNNASC      0
LOCNASC         0
IDADEMAE        0
             ... 
munResUf        0
munResLat       1
munResLon       1
munResAlt       1
munResArea      1
Length: 69, dtype: int64

***

#### 3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
``` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']

In [204]:
# 3) seu código aqui
sisnasc_dados = sinasc[['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO','GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']]

In [207]:
sisnasc_dados

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0


***

#### 4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*. 

In [208]:
# 4) seu código aqui
sisnasc_dados['APGAR5'].isna().sum()

103

In [209]:
sisnasc_dados.dropna(subset=['APGAR5'], inplace=True) 
sisnasc_dados

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sisnasc_dados.dropna(subset=['APGAR5'], inplace=True)


Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0


In [210]:
sisnasc_dados['APGAR5'].isna().sum()

0

***

#### 5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>

In [211]:
# 5) seu código aqui
sisnasc_dados[sisnasc_dados == 9].count()

LOCNASC           0
IDADEMAE          0
ESTCIVMAE       144
ESCMAE            0
QTDFILVIVO        8
GESTACAO          0
GRAVIDEZ          0
CONSULTAS        50
APGAR5        16076
dtype: int64

In [212]:
sisnasc_dados[['ESTCIVMAE', 'CONSULTAS']].isna().sum()

ESTCIVMAE    315
CONSULTAS      0
dtype: int64

In [213]:
#sisnasc_dados[['ESTCIVMAE', 'CONSULTAS']].fillna(9, inplace=True)
sisnasc_dados[['ESTCIVMAE', 'CONSULTAS']] = sisnasc_dados[['ESTCIVMAE', 'CONSULTAS']].fillna(9)
# tentei usar o 'inplace=True' mas ele não estava gravando a substituição dos NaN por 9

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sisnasc_dados[['ESTCIVMAE', 'CONSULTAS']] = sisnasc_dados[['ESTCIVMAE', 'CONSULTAS']].fillna(9)


In [214]:
sisnasc_dados[['ESTCIVMAE', 'CONSULTAS']].isna().sum()

ESTCIVMAE    0
CONSULTAS    0
dtype: int64

***

#### 6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.

In [215]:
# 6) Seu código aqui
sisnasc_dados

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0


In [216]:
sisnasc_dados['QTDFILVIVO'].isna().sum()

1566

In [217]:
sisnasc_dados['QTDFILVIVO'].fillna(0, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sisnasc_dados['QTDFILVIVO'].fillna(0, inplace=True)


In [218]:
sisnasc_dados['QTDFILVIVO'].isna().sum()

0

***

#### 7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui. 

In [219]:
# 7) seu código aqui
sisnasc_dados.isna().sum() #localizando missing

LOCNASC          0
IDADEMAE         0
ESTCIVMAE        0
ESCMAE         310
QTDFILVIVO       0
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS        0
APGAR5           0
dtype: int64

In [220]:
sisnasc_dados['ESCMAE'].fillna(9, inplace=True) # tratando missing "ESCMAE"
sisnasc_dados['ESCMAE'].isna().sum()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sisnasc_dados['ESCMAE'].fillna(9, inplace=True) # tratando missing "ESCMAE"


0

Para o parâmetro 'ESCMAE', foi consideraro os valores nulos como ignorados (9), por aparentemente não terem relação com o 'APGAR5'

In [221]:
sisnasc_dados.isna().sum() #localizando missing

LOCNASC          0
IDADEMAE         0
ESTCIVMAE        0
ESCMAE           0
QTDFILVIVO       0
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS        0
APGAR5           0
dtype: int64

In [222]:
sisnasc_dados = sisnasc_dados.sort_values(['APGAR5']).reset_index() # Organizar tabela por ordem de 'APGAR5'
sisnasc_dados.drop(['index'], inplace=True, axis=1)

In [233]:
sisnasc_dados['GESTACAO'].value_counts()#Analizando 'GESTACAO"

37 a 41 semanas        22523
32 a 36 semanas         2234
9                       1216
42 semanas e mais        698
28 a 31 semanas          162
22 a 27 semanas           85
Menos de 22 semanas        7
Name: GESTACAO, dtype: int64

In [252]:
sisnasc_dados.loc[sisnasc_dados['APGAR5'] <= 6].value_counts(['GESTACAO'])

GESTACAO           
37 a 41 semanas        106
32 a 36 semanas         44
22 a 27 semanas         24
28 a 31 semanas         22
9                       20
42 semanas e mais        3
Menos de 22 semanas      2
dtype: int64

In [253]:
sisnasc_dados.loc[sisnasc_dados['APGAR5'] >= 6].value_counts(['GESTACAO'])

GESTACAO           
37 a 41 semanas        22462
32 a 36 semanas         2207
9                       1203
42 semanas e mais        696
28 a 31 semanas          147
22 a 27 semanas           63
Menos de 22 semanas        5
dtype: int64

In [254]:
sisnasc_dados.loc[sisnasc_dados['APGAR5'] >= 6].loc[sisnasc_dados['GESTACAO'] == '37 a 41 semanas']

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
142,1,23,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,6.0
144,1,17,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,6.0
146,1,28,2.0,4 a 7 anos,2.0,37 a 41 semanas,Única,3,6.0
148,1,40,2.0,8 a 11 anos,4.0,37 a 41 semanas,Única,4,6.0
149,1,18,1.0,8 a 11 anos,1.0,37 a 41 semanas,Única,1,6.0
...,...,...,...,...,...,...,...,...,...
26918,1,31,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
26920,1,38,2.0,12 anos ou mais,1.0,37 a 41 semanas,Única,4,10.0
26922,1,27,5.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
26923,1,33,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0


Nota-se que as GESTAÇÕES com maiores numeros de semana estão diretamente relacionada ao alto indice de 'APGAR5'. Gestações compeltas tentem a causarem menos asfixia no recem nascido

In [258]:
sisnasc_dados.loc[sisnasc_dados['APGAR5'] <= 6].loc[sisnasc_dados['GESTACAO'] == 'Menos de 22 semanas']

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
4,1,17,1.0,4 a 7 anos,0.0,Menos de 22 semanas,Única,2,0.0
51,1,30,2.0,12 anos ou mais,0.0,Menos de 22 semanas,Única,3,2.0


In [259]:
sisnasc_dados['GESTACAO'].fillna(9, inplace=True) # tratando missing "ESCMAE"
sisnasc_dados['GESTACAO'].isna().sum()

0

Desta forma adotamos o método 'ffill' para substituição dos missing(NaN) pelo valor diretamente acima, em relação a sequencia de 'APGAR5'

In [261]:
sisnasc_dados.isna().sum()

LOCNASC        0
IDADEMAE       0
ESTCIVMAE      0
ESCMAE         0
QTDFILVIVO     0
GESTACAO       0
GRAVIDEZ      76
CONSULTAS      0
APGAR5         0
dtype: int64

In [262]:
sisnasc_dados[['GRAVIDEZ', 'APGAR5']].value_counts()

GRAVIDEZ         APGAR5
Única            9.0       15733
                 10.0       8297
                 8.0        1896
Dupla            9.0         298
Única            7.0         226
Dupla            8.0          87
Única            6.0          74
Dupla            10.0         72
Única            5.0          41
                 1.0          22
                 4.0          21
                 0.0          17
                 2.0          15
Dupla            7.0          14
Única            3.0          14
Dupla            6.0           5
Tríplice e mais  9.0           4
Dupla            5.0           4
                 2.0           3
                 4.0           2
                 1.0           2
Tríplice e mais  8.0           1
Dupla            3.0           1
dtype: int64

In [263]:
sisnasc_dados['GRAVIDEZ'].value_counts()

Única              26356
Dupla                488
Tríplice e mais        5
Name: GRAVIDEZ, dtype: int64

In [266]:
sisnasc_dados.loc[sisnasc_dados['APGAR5'] >= 6].value_counts(['GRAVIDEZ'])

GRAVIDEZ       
Única              26226
Dupla                476
Tríplice e mais        5
dtype: int64

In [267]:
sisnasc_dados.loc[sisnasc_dados['APGAR5'] >= 6].loc[sisnasc_dados['GRAVIDEZ'] == 'Dupla'].value_counts().sum()

476

In [269]:
sisnasc_dados.loc[sisnasc_dados['APGAR5'] >= 6].loc[sisnasc_dados['GRAVIDEZ'] == 'Tríplice e mais'].value_counts().sum()

5

Notamos também que o parâmetro 'GRAVIDEZ' não tem uma relação direta com a asfixia, sendo que 100% de gravidez 'tripla e mais' e a maioria 
de gavidez 'dupla', obtiveram alto indice de APGAR5. Desta forma iremos apenas substituir os missisng pela condição (9), ou seja, ignorado.

In [270]:
sisnasc_dados['GRAVIDEZ'].fillna(9, inplace=True)
sisnasc_dados.isna().sum()

LOCNASC       0
IDADEMAE      0
ESTCIVMAE     0
ESCMAE        0
QTDFILVIVO    0
GESTACAO      0
GRAVIDEZ      0
CONSULTAS     0
APGAR5        0
dtype: int64

***

8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'. 

In [271]:
# 8) seu código aqui
sisnasc_dados

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,18,5.0,8 a 11 anos,1.0,22 a 27 semanas,Única,3,0.0
1,1,16,1.0,8 a 11 anos,0.0,22 a 27 semanas,Única,3,0.0
2,1,24,5.0,8 a 11 anos,1.0,42 semanas e mais,Única,4,0.0
3,1,19,5.0,8 a 11 anos,0.0,22 a 27 semanas,Única,2,0.0
4,1,17,1.0,4 a 7 anos,0.0,Menos de 22 semanas,Única,2,0.0
...,...,...,...,...,...,...,...,...,...
26920,1,38,2.0,12 anos ou mais,1.0,37 a 41 semanas,Única,4,10.0
26921,1,32,2.0,12 anos ou mais,3.0,9,Única,4,10.0
26922,1,27,5.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
26923,1,33,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0


In [272]:
sisnasc_dados.loc[sisnasc_dados['APGAR5'] >= 8, "ASFIXIA"] = 'Normal'
sisnasc_dados.loc[(sisnasc_dados['APGAR5'] >= 6) & (sisnasc_dados['APGAR5'] <=7), "ASFIXIA"] = 'Leve'
sisnasc_dados.loc[(sisnasc_dados['APGAR5'] >= 4) & (sisnasc_dados['APGAR5'] <=5), "ASFIXIA"] = 'Moderada'
sisnasc_dados.loc[sisnasc_dados['APGAR5'] <=3 , "ASFIXIA"] = 'Severa'

sisnasc_dados

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5,ASFIXIA
0,1,18,5.0,8 a 11 anos,1.0,22 a 27 semanas,Única,3,0.0,Severa
1,1,16,1.0,8 a 11 anos,0.0,22 a 27 semanas,Única,3,0.0,Severa
2,1,24,5.0,8 a 11 anos,1.0,42 semanas e mais,Única,4,0.0,Severa
3,1,19,5.0,8 a 11 anos,0.0,22 a 27 semanas,Única,2,0.0,Severa
4,1,17,1.0,4 a 7 anos,0.0,Menos de 22 semanas,Única,2,0.0,Severa
...,...,...,...,...,...,...,...,...,...,...
26920,1,38,2.0,12 anos ou mais,1.0,37 a 41 semanas,Única,4,10.0,Normal
26921,1,32,2.0,12 anos ou mais,3.0,9,Única,4,10.0,Normal
26922,1,27,5.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,Normal
26923,1,33,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,Normal


In [273]:
sisnasc_dados['ASFIXIA'].value_counts()

Normal      26463
Leve          320
Severa         74
Moderada       68
Name: ASFIXIA, dtype: int64

In [274]:
freq_asfixia = pd.DataFrame(index=['Normal', 'Leve', 'Moderada', 'Severa'],
                            columns=['Frequencia'])
freq_asfixia                            

Unnamed: 0,Frequencia
Normal,
Leve,
Moderada,
Severa,


In [275]:
freq_asfixia['Frequencia'] = (26463/26925)*100, (320/26925)*100, (75/26925)*100, (68/26925)*100
freq_asfixia.round(2)

Unnamed: 0,Frequencia
Normal,98.28
Leve,1.19
Moderada,0.28
Severa,0.25


***

In [276]:
# 9) seu código aqui
sisnasc_dados

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5,ASFIXIA
0,1,18,5.0,8 a 11 anos,1.0,22 a 27 semanas,Única,3,0.0,Severa
1,1,16,1.0,8 a 11 anos,0.0,22 a 27 semanas,Única,3,0.0,Severa
2,1,24,5.0,8 a 11 anos,1.0,42 semanas e mais,Única,4,0.0,Severa
3,1,19,5.0,8 a 11 anos,0.0,22 a 27 semanas,Única,2,0.0,Severa
4,1,17,1.0,4 a 7 anos,0.0,Menos de 22 semanas,Única,2,0.0,Severa
...,...,...,...,...,...,...,...,...,...,...
26920,1,38,2.0,12 anos ou mais,1.0,37 a 41 semanas,Única,4,10.0,Normal
26921,1,32,2.0,12 anos ou mais,3.0,9,Única,4,10.0,Normal
26922,1,27,5.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,Normal
26923,1,33,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,Normal
