# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
``` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [1]:
# import pandas as pd
import requests
import pandas as pd
import random as rd

# 1) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc.shape)
sinasc.drop_duplicates().shape
# Não há duplicados

(27028, 69)


(27028, 69)

**2) seu código aqui**

In [2]:
colunas = sinasc.columns
soma_NaN = list(map(lambda x: sinasc[x].isna().sum(), colunas))
somaNaN_variaveis = dict()
i = 0
while i <= (len(colunas) - 1):
    somaNaN_variaveis[colunas[i]] = soma_NaN[i]
    i += 1

somaNaN_variaveis

{'ORIGEM': 0,
 'CODESTAB': 115,
 'CODMUNNASC': 0,
 'LOCNASC': 0,
 'IDADEMAE': 0,
 'ESTCIVMAE': 317,
 'ESCMAE': 312,
 'CODOCUPMAE': 2907,
 'QTDFILVIVO': 1573,
 'QTDFILMORT': 2098,
 'CODMUNRES': 0,
 'GESTACAO': 1232,
 'GRAVIDEZ': 79,
 'PARTO': 49,
 'CONSULTAS': 0,
 'DTNASC': 0,
 'HORANASC': 21,
 'SEXO': 4,
 'APGAR1': 96,
 'APGAR5': 103,
 'RACACOR': 647,
 'PESO': 0,
 'IDANOMAL': 591,
 'DTCADASTRO': 0,
 'CODANOMAL': 26814,
 'NUMEROLOTE': 0,
 'VERSAOSIST': 0,
 'DTRECEBIM': 0,
 'DIFDATA': 0,
 'DTRECORIGA': 27028,
 'NATURALMAE': 298,
 'CODMUNNATU': 298,
 'CODUFNATU': 298,
 'ESCMAE2010': 249,
 'SERIESCMAE': 12710,
 'DTNASCMAE': 40,
 'RACACORMAE': 661,
 'QTDGESTANT': 1212,
 'QTDPARTNOR': 1879,
 'QTDPARTCES': 1791,
 'IDADEPAI': 19421,
 'DTULTMENST': 10072,
 'SEMAGESTAC': 1238,
 'TPMETESTIM': 1238,
 'CONSPRENAT': 930,
 'MESPRENAT': 2867,
 'TPAPRESENT': 265,
 'STTRABPART': 947,
 'STCESPARTO': 747,
 'TPNASCASSI': 61,
 'TPFUNCRESP': 67,
 'TPDOCRESP': 14,
 'DTDECLARAC': 52,
 'ESCMAEAGR1': 249,
 'STDN

 **3) seu código aqui**

In [3]:
coldeinteresse = ['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO',
                  'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
valdeinteresse = list(map(lambda x, y: {coldeinteresse[y] : somaNaN_variaveis[x]},
                          coldeinteresse, range(0, (len(coldeinteresse)-1))))

valdeinteresse

[{'LOCNASC': 0},
 {'IDADEMAE': 0},
 {'ESTCIVMAE': 317},
 {'ESCMAE': 312},
 {'QTDFILVIVO': 1573},
 {'GESTACAO': 1232},
 {'GRAVIDEZ': 79},
 {'CONSULTAS': 0}]

 **4) seu código aqui**

In [4]:
print(sinasc.isna().sum().sum())
print(sinasc['APGAR5'].isna().sum().sum())

121594
103


In [5]:
list_NaN_apgar5 = sinasc.loc[sinasc['APGAR5'].isna()].index
sinasc.drop(list_NaN_apgar5, inplace=True)

In [6]:
len(list_NaN_apgar5)

103

In [7]:
print(sinasc.isna().sum().sum())

#A conta está estranha,a tabela perdeu 816 linhas, não 103. Pode me ajudar a entender em quê errei?

120778


 **5) seu código aqui**

In [8]:
print(sinasc['ESTCIVMAE'].isna().sum())
#Há NaN
print(sinasc['CONSULTAS'].isna().sum())
#Não há NaN

315
0


In [9]:
#Index para verificar a substituição pelo número 9
sinasc.loc[sinasc['ESTCIVMAE'].isna()].index

Int64Index([   62,    68,    95,   113,   116,   128,   165,   179,   265,
              379,
            ...
            26112, 26119, 26231, 26532, 26556, 26585, 26589, 26911, 26946,
            26953],
           dtype='int64', length=315)

In [10]:
#Substituindo NaN por 9
sinasc['ESTCIVMAE'].fillna(9, inplace=True)

In [11]:
#Verificando os valores
sinasc['ESTCIVMAE'].loc[[62,68,113,116]]

#Substituição bem sucedida

62     9.0
68     9.0
113    9.0
116    9.0
Name: ESTCIVMAE, dtype: float64

 **6) seu código aqui**

In [12]:
sinasc['QTDFILVIVO'].fillna(0, inplace=True)

 **7) seu código aqui**

In [13]:
#Total de linhas há em todo nosso D.Frame
print(f' Total de linhas: {sinasc.shape[0]}')
total = sinasc.shape[0]

 Total de linhas: 26925


In [14]:
#Vamos descobrir quantas linhas não possuem NaN
listaNaN_por_linha = []
for i in range(0, (sinasc.shape[0])):
    listaNaN_por_linha.append(sum(sinasc.iloc[i].isna()))
    

In [15]:
#Verificando se há linhas sem dados faltantes

print(0 in listaNaN_por_linha) #Há zero (0) NaN em alguma linha?

print('Todas as linhas têm dados faltantes')

False
Todas as linhas têm dados faltantes


In [16]:
#Qual maior valor de dados faltantes uma linha possui?
print(f'Total de variáveis: {len(sinasc.keys())}')
print(f'Valor máx de missings em uma linha: {max(listaNaN_por_linha)}')

Total de variáveis: 69
Valor máx de missings em uma linha: 28


In [17]:
tolerancia_miss = len(list(filter(lambda x: x > 10, listaNaN_por_linha)))

#Quantas linhas estão com missings count superior a 10?
tolerancia_miss

442

In [18]:
tolerancia_miss/sinasc.shape[0]

#Qual percentual que isso representa na nossa base de dados?

0.016415970287836583

In [19]:
index_maior_dez = []
for i in range(0,len(listaNaN_por_linha) - 1):
    if listaNaN_por_linha[i] > 10:
        index_maior_dez.append(i)

index_maior_dez.remove(6781)
index_maior_dez.remove(7686)
index_maior_dez.remove(7971)
index_maior_dez.remove(20721)
index_maior_dez.remove(26715)

In [20]:
#Deletando linhas com missings > 10
sinasc.drop(index_maior_dez,axis= 0, inplace=True)

**Justificativa**

A decisão de eliminar linhas com mais de 10 valores missings é baseado no fato de que:
1. Há dados faltantes em todas as linhas.
2. Pressupondo que o tratamento de missings é em geral a substituição por um outro provável dado, uma linha com muitos missings substituídos seria uma linha "advinha".
3. O percentual de linhas com mais de 10 valores missings representa apenas 1% dos dados.

In [21]:
sinasc.shape[0]

26488

In [22]:
def percent_freq_data(df, var: str, _total: int):
    "Calcula o percentual das frequências de valores unique de uma variável do DF"
    _each_value = dict(df[var].value_counts())
    dicionar = {}
    for i in _each_value:
        dicionar[i] = _each_value[i]/_total 
    return dicionar

In [23]:
def cleaningNaNunique(df, var: str, _total: int):
    "O propósito desta função é substituir dados NaN proporcionalmente"
    qtd_nan = int(df[var].isnull().sum())
    print(f'Quantidade de NaN: {qtd_nan}')
    if qtd_nan == 0:
        return print('Não há dados faltantes para essa variável!')
    else:
        perc_ = percent_freq_data( df, var, _total)
        
        for k in range(0, 11):
            if (df[var].isnull().sum()) != 0:
                for i in perc_:
                    try:
                        df[var].fillna(i, limit= int(qtd_nan * (perc_[i])), inplace = True)
                    except ValueError: #problema tá aqui
                        pass  #df[var].fillna(i,limit= int((qtd_nan * (perc_[i]) + 1)), inplace = True)
            elif (df[var].isnull().sum()) == 0:
                break
        
    print(f"Resultado = Há {df[var].isnull().sum()} dados faltantes")

* Colunas 'munResLat','munResLon', 'munResAlt','munResArea'

In [24]:
print(sinasc[sinasc['munResLat'].isna()].index)
print(sinasc[sinasc['munResLon'].isna()].index)
print(sinasc[sinasc['munResAlt'].isna()].index)
print(sinasc[sinasc['munResArea'].isna()].index)

Int64Index([1863], dtype='int64')
Int64Index([1863], dtype='int64')
Int64Index([1863], dtype='int64')
Int64Index([1863], dtype='int64')


In [25]:
sinasc.drop([1863], axis=0, inplace=True)

**Justificativa**

Todas as colunas apresentam valores missings que compratilham a mesma linha, que é a de índice 1863, portanto, eliminei apenas esta única linha.

* Coluna 'SEXO'

In [26]:
sinasc[sinasc['SEXO'].isna()].index

Int64Index([7813, 8070, 13489, 20546], dtype='int64')

In [27]:
sinasc['SEXO'].value_counts() #Quero mudar a metade dos NaN para Masculino e Feminino

Masculino    13596
Feminino     12887
Name: SEXO, dtype: int64

In [28]:
sinasc['SEXO'].fillna('Masculino', inplace=True)

In [29]:
sinasc['SEXO'].loc[[7813,8070]].replace('Masculino', 'Feminino')

7813    Feminino
8070    Feminino
Name: SEXO, dtype: object

In [30]:
sinasc['SEXO'].value_counts()

Masculino    13600
Feminino     12887
Name: SEXO, dtype: int64

**Justificativa**

Substitui pela metade os 4 valores missings pela categoria 'Feminino' e 'Masculino', pois em value_counts() essas categorias estão equilibradas entre si. 

* Coluna 'ESTCIVMAE'

In [31]:
sinasc['ESTCIVMAE'].isnull().sum()

0

* Coluna 'ESCMAE'

In [32]:
sinasc['ESCMAE'].isnull().sum()

300

In [33]:
sinasc['ESCMAE'].value_counts()

8 a 11 anos        15358
12 anos ou mais     5629
4 a 7 anos          4657
1 a 3 anos           503
Nenhuma               40
Name: ESCMAE, dtype: int64

In [34]:
sinasc['ESCMAE'].fillna( '8 a 11 anos',axis = 0,inplace = True )

In [35]:
sinasc['ESCMAE'].value_counts()

8 a 11 anos        15658
12 anos ou mais     5629
4 a 7 anos          4657
1 a 3 anos           503
Nenhuma               40
Name: ESCMAE, dtype: int64

**Justificativa**

Como essa coluna possui valores categóricos, então substitui os dados pelo valor mais frequente.

* Coluna 'QTDFILVIVO'

In [36]:
sinasc['QTDFILVIVO'].isnull().sum()

0

* Coluna 'QTDFILMORT'

In [37]:
sinasc['QTDFILMORT'].isnull().sum()

1968

In [38]:
sinasc['QTDFILMORT'].median()

0.0

In [39]:
sinasc['QTDFILMORT'].fillna(0.0, axis = 0, inplace= True)

In [40]:
sinasc['QTDFILMORT'].value_counts()

0.0     21333
1.0      4155
2.0       769
3.0       168
4.0        38
5.0        13
6.0         6
9.0         2
7.0         1
8.0         1
28.0        1
Name: QTDFILMORT, dtype: int64

**Justificativa**

Como os valores são numéricos, eu substitui pela mediana que é uma medida que está em uso correto independente da distribuição dos dados.

* Coluna 'GESTACAO'

In [41]:
sinasc['GESTACAO'].isna().sum()

1176

In [42]:
sinasc['GESTACAO'].value_counts()

37 a 41 semanas        22198
32 a 36 semanas         2176
42 semanas e mais        692
28 a 31 semanas          156
22 a 27 semanas           82
Menos de 22 semanas        7
Name: GESTACAO, dtype: int64

In [43]:
cleaningNaNunique(sinasc, 'GESTACAO', total)

Quantidade de NaN: 1176
Resultado = Há 0 dados faltantes


In [44]:
sinasc['GESTACAO'].value_counts()

37 a 41 semanas        23240
32 a 36 semanas         2271
42 semanas e mais        722
28 a 31 semanas          162
22 a 27 semanas           85
Menos de 22 semanas        7
Name: GESTACAO, dtype: int64

**Justificativa**

Utilizei da função que desenvolvi para repor os dados proporcionalmente na substituição dessas 6 categorias, pois a distribuição segue o padrão encontrado nos dados.

* Coluna 'GRAVIDEZ'

In [45]:
sinasc['GRAVIDEZ'].isna().sum()

75

In [46]:
sinasc['GRAVIDEZ'].value_counts()

Única              25941
Dupla                466
Tríplice e mais        5
Name: GRAVIDEZ, dtype: int64

In [47]:
sinasc['GRAVIDEZ'].fillna('Única', axis = 0, inplace = True)

In [48]:
sinasc['GRAVIDEZ'].value_counts()

Única              26016
Dupla                466
Tríplice e mais        5
Name: GRAVIDEZ, dtype: int64

**Justificativa**

Como os dados desta variável são categorias, então substitui pelo valor mais frequente.

* Coluna 'PARTO'

In [49]:
sinasc['PARTO'].isnull().sum()

47

In [50]:
sinasc['PARTO'].value_counts()

Cesáreo    17696
Vaginal     8744
Name: PARTO, dtype: int64

In [51]:
sinasc['PARTO'].fillna('Cesáreo', axis = 0, inplace = True)

In [52]:
sinasc['PARTO'].value_counts()

Cesáreo    17743
Vaginal     8744
Name: PARTO, dtype: int64

**Justificativa**

Como os dados desta variável são categorias, então substitui pelo valor mais frequente.

 * Coluna 'HORANASC'

In [53]:
sinasc['HORANASC'].isnull().sum()

21

In [54]:
sinasc['HORANASC'].value_counts()

1000.0    116
1015.0     94
1030.0     91
930.0      91
1120.0     90
         ... 
314.0       1
309.0       1
136.0       1
339.0       1
323.0       1
Name: HORANASC, Length: 1439, dtype: int64

In [55]:
HORANASC_unique = list(sinasc['HORANASC'].unique())

In [56]:
for x in (rd.choices(HORANASC_unique, k = 21)):
    sinasc['HORANASC'].fillna( x, limit = 1, axis=0, inplace= True)

In [57]:
sinasc['HORANASC'].isnull().sum()

0

In [58]:
sinasc['HORANASC'].value_counts()

1000.0    116
1015.0     94
930.0      91
1030.0     91
1120.0     90
         ... 
314.0       1
309.0       1
136.0       1
339.0       1
323.0       1
Name: HORANASC, Length: 1439, dtype: int64

**Justificativa**

A hora de nascimento é um fenômeno independente e com extensa possibilidade de ocorrer (considerando 24 horas diferentes mais 60 minutos diferentes), por essa razão, aos valores faltantes, que não eram muitos, eu randomizei o horário de nascimento no processo de substituição.

* Coluna 'CODANOMAL'

In [59]:
sinasc['CODANOMAL'].isnull().sum() #O RESTO DOS DADOS SÃO BEBÊS SEM ANOMALIAS?

26281

In [60]:
sinasc['CODANOMAL'].value_counts()

Q699        16
Q909         9
Q668         8
Q793         8
Q709         7
            ..
Q660Q681     1
Q759         1
Q524         1
Q741         1
Q225Q250     1
Name: CODANOMAL, Length: 112, dtype: int64

In [61]:
verificar = sinasc[['IDANOMAL', 'CODANOMAL']]
print(verificar[verificar['IDANOMAL'] == 2.0].isnull().sum()) #2.0 Sem anomalia
print()
print(verificar[verificar['IDANOMAL'] == 1.0].isnull().sum())
print()
print(verificar[verificar['IDANOMAL'] == 9.0].isnull().sum())

IDANOMAL         0
CODANOMAL    25574
dtype: int64

IDANOMAL     0
CODANOMAL    0
dtype: int64

IDANOMAL       0
CODANOMAL    143
dtype: int64


In [62]:
 sinasc['CODANOMAL'].fillna('Sem anomalia', axis=0, inplace = True)

In [63]:
sinasc['CODANOMAL'].value_counts()

Sem anomalia    26281
Q699               16
Q909                9
Q668                8
Q793                8
                ...  
Q809                1
Q660Q681            1
Q759                1
Q524                1
Q225Q250            1
Name: CODANOMAL, Length: 113, dtype: int64

**Justificativa**

A coluna 'CODANOMAL' têm dados com códigos para atribuir o tipo de anomalia associado aos bebês que nasceram com, dessa forma, uma grande parte dos dados estavam em NaN e pensei que ou haviam bebês sem anomalia,ou haviam dados sem registro, ou bebês aos que não se identificou anomalia, equivalente a isso, outra coluna foi responsável pela identificação das anomalias (1.com anomalia, 2.sem anomalia, 9.não identificado) que é 'IDANOMAL'. Dessa maneira, praticamente os dados em NaN na coluna 'CODANOMAL' estão diretamente relacionados aos dados da coluna 'IDANOMAL' com número 2.0 de identificação (sem anomalia), por isso, eu substitui os NaN por 'Sem anomalia'. 

* Coluna 'RACACOR'

In [64]:
sinasc['RACACOR'].isnull().sum()

618

In [65]:
sinasc['RACACOR'].value_counts()

Parda       19188
Branca       5309
Preta         858
Indígena      400
Amarela       114
Name: RACACOR, dtype: int64

In [66]:
cleaningNaNunique(sinasc, 'RACACOR', total)

Quantidade de NaN: 618
Resultado = Há 0 dados faltantes


In [67]:
sinasc['RACACOR'].value_counts()

Parda       19655
Branca       5430
Preta         877
Indígena      409
Amarela       116
Name: RACACOR, dtype: int64

**Justificativa**

Utilizei da função que desenvolvi para repor os dados proporcionalmente na substituição dessas 5 categorias, pois a distribuição segue o padrão encontrado nos dados.

* Coluna 'IDANOMAL'

In [68]:
sinasc['IDANOMAL'].isnull().sum()

564

In [69]:
sinasc['IDANOMAL'].value_counts()

2.0    25574
1.0      206
9.0      143
Name: IDANOMAL, dtype: int64

In [70]:
sinasc['IDANOMAL'].fillna(2.0, axis = 0, inplace = True)

In [71]:
sinasc['IDANOMAL'].value_counts()

2.0    26138
1.0      206
9.0      143
Name: IDANOMAL, dtype: int64

**Justificativa**

Os valores dessa variável são categóricos, então substitui os valores faltantes pelo mais frequente.

* Coluna 'DTNASCMAE'

In [72]:
sinasc['DTNASCMAE'].isnull().sum()

39

In [73]:
sinasc['DTNASCMAE'].value_counts()

24031999.0    12
10031997.0    12
20061996.0    12
8031998.0     12
21061992.0    11
              ..
29061986.0     1
20022000.0     1
20101981.0     1
5071990.0      1
31032001.0     1
Name: DTNASCMAE, Length: 8705, dtype: int64

In [74]:
DTNASCMAE_unique = list(sinasc['DTNASCMAE'].unique())

In [75]:
for x in (rd.choices(DTNASCMAE_unique, k = 39)):
    sinasc['DTNASCMAE'].fillna( x, limit = 1, axis=0, inplace= True)

**Justificativa**

A data de nascimento é um fênomeno independente e pode ocorrer com inúmeras possibilidades (considerando 30 dias, 12 meses e os últimos 100 anos), ao ter apenas 39 dados faltantes, decidi randomizar os já existentes e preencher essa lacuna.

* Coluna 'RACACORMAE'

In [76]:
sinasc['RACACORMAE'].isnull().sum()

632

In [77]:
sinasc['RACACORMAE'].value_counts()

4.0    19181
1.0     5305
2.0      858
5.0      397
3.0      114
Name: RACACORMAE, dtype: int64

In [78]:
cleaningNaNunique(sinasc, 'RACACORMAE', total)

Quantidade de NaN: 632
Resultado = Há 0 dados faltantes


In [79]:
sinasc['RACACORMAE'].value_counts()

4.0    19658
1.0     5429
2.0      878
5.0      406
3.0      116
Name: RACACORMAE, dtype: int64

**Justificativa**

Utilizei da função que desenvolvi para repor os dados proporcionalmente na substituição dessas 5 categorias, pois a distribuição segue o padrão encontrado nos dados.

* Coluna 'QTDGESTANT'

In [80]:
sinasc['QTDGESTANT'].isnull().sum()

1115

In [81]:
sinasc['QTDGESTANT'].value_counts()

0.0     8501
1.0     8302
2.0     4861
3.0     2134
4.0      862
5.0      352
6.0      180
7.0       95
8.0       37
9.0       25
10.0      12
12.0       3
14.0       3
11.0       2
15.0       1
13.0       1
52.0       1
Name: QTDGESTANT, dtype: int64

In [82]:
cleaningNaNunique(sinasc, 'QTDGESTANT', total)

Quantidade de NaN: 1115
Resultado = Há 0 dados faltantes


In [83]:
sinasc['QTDGESTANT'].value_counts()

0.0     8923
1.0     8645
2.0     5062
3.0     2222
4.0      897
5.0      366
6.0      187
7.0       98
8.0       38
9.0       26
10.0      12
12.0       3
14.0       3
11.0       2
15.0       1
13.0       1
52.0       1
Name: QTDGESTANT, dtype: int64

**Justificativa**

Utilizei da função que desenvolvi para repor os dados proporcionalmente na substituição desses valores numéricos, pois a distribuição segue o padrão encontrado nos dados.

* Coluna 'QTDPARTNOR'

In [84]:
sinasc['QTDPARTNOR'].isnull().sum()

1755

In [85]:
sinasc['QTDPARTNOR'].value_counts()

0.0     17025
1.0      4281
2.0      1913
3.0       808
4.0       368
5.0       163
6.0        82
7.0        43
8.0        16
10.0       14
9.0        11
12.0        2
40.0        2
14.0        2
30.0        1
41.0        1
Name: QTDPARTNOR, dtype: int64

* Coluna 'QTDPARTCES'

In [86]:
sinasc['QTDPARTCES'].isnull().sum()

1668

In [87]:
sinasc['QTDPARTCES'].median()

0.0

In [88]:
sinasc['QTDPARTCES'].fillna(0.0, axis = 0, inplace = True)

**Justificativa**

Como os valores da variável são numéricos, então substitui pela mediana.

* Coluna 'IDADEPAI '

In [89]:
sinasc['IDADEPAI'].isnull().sum()

18938

In [90]:
#São muitos dados faltantes, não acho seguro aplicar a proporção 
18938 / sinasc.shape[0]

0.714992260354136

**Justificativa**

Esta variável tem 71.49% dos dados faltantes, compreendendo boa parte dos dados em missing. Por isso, raciocinei que caso eu substituisse esses missings com base em 28.49% dos dados poderia ocorrer um erro de estimativa, porque os dados reais são poucos.

* coluna APGAR1

In [91]:
sinasc['APGAR1'].isna().sum()

4

In [98]:
sinasc['APGAR1'].median()

8.0

In [93]:
sinasc['APGAR1'].fillna(8.0, axis=0, inplace=True)

**Jusificativa**

Os valores dessa variável são numéricos, logo substitui pela mediana.

* Coluna APGAR5

In [94]:
sinasc['APGAR5'].isnull().sum()

0

**8) seu código aqui**

In [95]:
sinasc.loc[(sinasc['APGAR1'] >= 8) & (sinasc['APGAR1'] <= 10), 
          'cat_APGAR1'] = 'normal'
sinasc.loc[(sinasc['APGAR1'] >= 6) &(sinasc['APGAR1'] <= 7),
          'cat_APGAR1'] = 'asfixia leve'
sinasc.loc[(sinasc['APGAR1'] >= 4) &(sinasc['APGAR1'] <= 5),
          'cat_APGAR1'] = 'asfixia moderada'
sinasc.loc[(sinasc['APGAR1'] >= 0) &(sinasc['APGAR1'] <= 3),
          'cat_APGAR1'] = 'asfixia severa'

In [96]:
sinasc['cat_APGAR1'].value_counts()

normal              23414
asfixia leve         2481
asfixia moderada      369
asfixia severa        223
Name: cat_APGAR1, dtype: int64

**9) seu código aqui**

In [99]:
sinasc.columns = ['origem', 'cod_estab', 'cod_mun_nasc', 'loc_nasc', 'idade_mae',
                 'est_civ_mae', 'esc_mae', 'cod_ocup_mae', 'qtd_fil_vivo', 'qtd\
                 _fil_mort', 'cod_mun_res', 'gestacao', 'gravidez', 'parto', 'con\
                 sultas', 'dt_nasc', 'hora_nasc', 'sexo', 'apgar_1', 'apgar_5',
                 'raca_cor', 'peso', 'id_anomal', 'dt_cadastro', 'cod_anomal',
                 'numero_lote', 'versao_sist', 'dt_recebim', 'dif_data', 'dt_recori\
                 ga', 'natural_mae', 'cod_mun_natu', 'cod_uf_natu', 'esc_mae_2010',
                 'series_c_mae', 'dt_nasc_mae', 'raca_cor_mae', 'qtd_gestant',
                 'qtd_part_nor', 'qtd_part_ces', 'idade_pai', 'dt_ult_menst', 'sema\
                 _gestac', 'tpmestim', 'cons_prenat', 'tpa_present', 'st_trab_part',
                 'st_ces_parto', 'tp_nasc_assi', 'tp_fun_cresp', 'tp_do_cresp', 
                 'dt_declarac', 'esc_mae_agr1', 'std_nepidem', 'std_n_nova', 'cod_pa\
                 is_res', 'tp_robson', 'par_idade', 'kotel_chuck', 'contador', 'mun_\
                 res_status', 'mun_res_tipo', 'mun_res_nome', 'mun_res_uf', 'mun_res_\
                 lat', 'mun_res_lon','mun_res_lon','mun_res_alt','mun_res_area','cat_\
                 apgar1']

In [100]:
sinasc.head(3)

Unnamed: 0,origem,cod_estab,cod_mun_nasc,loc_nasc,idade_mae,est_civ_mae,esc_mae,cod_ocup_mae,qtd_fil_vivo,qtd _fil_mort,...,mun_ res_status,mun_res_tipo,mun_res_nome,mun_res_uf,mun_res_ lat,mun_res_lon,mun_res_lon.1,mun_res_alt,mun_res_area,cat_ apgar1
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,normal
