# Módulo 5 Tarefa 1
## Base de nascidos vivos do DataSUS
O DataSUS disponibiliza diversos arquivos de dados com relação a seus segurados, conforme a [lei da transparência de informações públicas](https://www.sisgov.com/transparencia-acesso-informacao/#:~:text=A%20Lei%20da%20Transpar%C3%AAncia%20(LC,em%20um%20site%20na%20internet.). 

Essas informações podem ser obtidas pela internet [aqui](http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1). Como o processo de obtenção desses arquivos foge um pouco do nosso escopo, deixamos o arquivo ```SINASC_RO_2019.csv``` já como vai ser encontrado no DataSUS. O dicionário de dados está no arquivo ```estrutura_sinasc_para_CD.pdf``` (o nome do arquivo tal qual no portal do DataSUS).

### Nosso objetivo
Queremos deixar uma base organizada para podermos estudar a relação entre partos com risco para o bebê e algumas condições como tempo de parto, consultas de pré-natal etc.

#### Preparação da base
1. Carregue a base 'SINASC_RO_2019.csv'. Conte o número de registros e o número de registros não duplicados da base. Dica: você aprendeu um método que remove duplicados, encadeie este método com um outro método que conta o número de linhas. **Há linhas duplicadas?**  

2. Conte o número de valores *missing* por variável.  

3. Ok, no item anterior você deve ter achado pouco prático ler a informação de tantas variáveis, muitas delas nem devem ser interesantes. Então crie uma seleção dessa base somente com as colunas que interessam. São elas:
``` 
['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO', 
    'GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5'] 
```
Refaça a contagem de valores *missings*.  

4. Apgar é uma *nota* que o pediatra dá ao bebê quando nasce de acordo com algumas características associadas principalmente à respiração. Apgar 1 e Apgar 5 são as notas 1 e 5 minutos do nascimento. Apgar5 será a nossa variável de interesse principal. Então remova todos os registros com Apgar5 não preenchido. Para esta seleção, conte novamente o número de linhas e o número de *missings*.  

5. observe que as variáveis ```['ESTCIVMAE', 'CONSULTAS']``` possuem o código ```9```, que significa *ignorado*. Vamos assumir que o não preenchido é o mesmo que o código ```9```.<br>
6. Substitua os valores faltantes da quantitativa (```QTDFILVIVO```) por zero.  
7. Das restantes, decida que valore te parece mais adequado (um 'não preenchido' ou um valor 'mais provável' como no item anterior) e preencha. Justifique. Lembre-se de que tratamento de dados é trabalho do cientista, e que estamos tomando decisões a todo o momento - não há necessariamente certo e errado aqui.  
8. O Apgar possui uma classificação indicando se o bebê passou por asfixia:
- Entre 8 e 10 está em uma faixa 'normal'. 
- Entre 6 e 7, significa que o recém-nascido passou por 'asfixia leve'. 
- Entre 4 e 5 significa 'asfixia moderada'.
- Entre 0 e 3 significa 'asfixia severa'.  

Crie uma categorização dessa variável com essa codificação e calcule as frequências dessa categorização.  
<br>
9. Renomeie as variáveis para que fiquem no *snake case*, ou seja, em letras minúsculas, com um *underscore* entre as palávras. Dica: repare que se você não quiser criar um *dataframe* novo, você vai precisar usar a opção ```inplace = True```.

In [1]:
import pandas as pd
import requests
from IPython.display import display

# 1) seu código aqui
sinasc = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc.shape)
sinasc.drop_duplicates().shape
# Não há duplicados


(27028, 69)


(27028, 69)

In [2]:
df = pd.DataFrame(pd.read_csv('SINASC_RO_2019.csv'))
pd.options.display.max_columns = None
display(df)


Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,CODMUNRES,GESTACAO,GRAVIDEZ,PARTO,CONSULTAS,DTNASC,HORANASC,SEXO,APGAR1,APGAR5,RACACOR,PESO,IDANOMAL,DTCADASTRO,CODANOMAL,NUMEROLOTE,VERSAOSIST,DTRECEBIM,DIFDATA,DTRECORIGA,NATURALMAE,CODMUNNATU,CODUFNATU,ESCMAE2010,SERIESCMAE,DTNASCMAE,RACACORMAE,QTDGESTANT,QTDPARTNOR,QTDPARTCES,IDADEPAI,DTULTMENST,SEMAGESTAC,TPMETESTIM,CONSPRENAT,MESPRENAT,TPAPRESENT,STTRABPART,STCESPARTO,TPNASCASSI,TPFUNCRESP,TPDOCRESP,DTDECLARAC,ESCMAEAGR1,STDNEPIDEM,STDNNOVA,CODPAISRES,TPROBSON,PARIDADE,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,110001,37 a 41 semanas,Única,Cesáreo,4,2019-02-19,1620.0,Masculino,9.0,10.0,Branca,3685,2.0,2019-03-08,,20190004,3.2.01,2019-03-08,17,,811.0,110001.0,11.0,3.0,,20121999.0,1.0,0.0,0.0,0.0,26.0,15052018.0,39.0,8.0,8.0,1.0,1.0,2.0,2.0,1.0,2.0,3.0,19022019.0,12.0,0,1,1,1,0,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,110001,37 a 41 semanas,Única,Cesáreo,4,2019-02-21,1830.0,Feminino,8.0,9.0,Branca,3055,2.0,2019-03-08,,20190004,3.2.01,2019-03-08,15,,811.0,110015.0,11.0,3.0,,27041989.0,1.0,1.0,0.0,1.0,24.0,27052018.0,38.0,8.0,10.0,2.0,1.0,2.0,2.0,1.0,5.0,4.0,21022019.0,12.0,0,1,1,5,1,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,110001,37 a 41 semanas,Única,Cesáreo,4,2019-02-25,915.0,Feminino,8.0,10.0,Branca,3460,2.0,2019-03-08,,20190004,3.2.01,2019-03-08,11,,841.0,410045.0,41.0,3.0,,6031981.0,1.0,2.0,1.0,1.0,32.0,18052018.0,40.0,8.0,8.0,1.0,2.0,2.0,2.0,1.0,2.0,4.0,25022019.0,12.0,0,1,1,7,1,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,110037,37 a 41 semanas,Única,Cesáreo,3,2019-03-20,835.0,Feminino,9.0,10.0,Parda,2982,2.0,2019-04-03,,20190005,3.2.01,2019-04-09,20,,841.0,410480.0,41.0,5.0,,15071988.0,4.0,0.0,0.0,0.0,24.0,25062018.0,38.0,8.0,6.0,2.0,1.0,2.0,1.0,1.0,2.0,3.0,20032019.0,8.0,0,1,1,2,0,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,110001,37 a 41 semanas,Única,Cesáreo,4,2019-03-23,750.0,Feminino,8.0,10.0,Parda,3310,2.0,2019-04-03,,20190005,3.2.01,2019-04-09,17,,811.0,110001.0,11.0,3.0,,12111988.0,4.0,1.0,0.0,1.0,27.0,27062018.0,38.0,8.0,8.0,2.0,1.0,2.0,1.0,1.0,2.0,3.0,23032019.0,12.0,0,1,1,5,1,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,1,2604388.0,510340,1,32,2.0,12 anos ou mais,333115.0,1.0,0.0,110030,32 a 36 semanas,Única,Cesáreo,4,2019-12-13,2030.0,Masculino,8.0,9.0,Branca,2110,2.0,2020-09-28,,20200044,3.2.01,2020-10-13,305,,825.0,251620.0,25.0,5.0,,3071987.0,1.0,1.0,1.0,0.0,35.0,23042019.0,33.0,8.0,7.0,1.0,2.0,2.0,2.0,1.0,2.0,3.0,14122019.0,8.0,0,1,1,7,1,5,2767632,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27024,1,2752654.0,510675,1,19,1.0,8 a 11 anos,999992.0,0.0,0.0,110092,37 a 41 semanas,Única,Vaginal,4,2019-10-04,650.0,Masculino,8.0,9.0,Branca,3310,2.0,2019-10-16,,20190038,3.2.01,2019-10-21,17,,811.0,110030.0,11.0,3.0,2.0,17111999.0,1.0,0.0,0.0,0.0,,,39.0,2.0,12.0,1.0,1.0,2.0,3.0,1.0,2.0,3.0,4102019.0,5.0,0,1,1,1,0,5,2772678,ATIVO,MUNIC,Chupinguaia,Rondônia,-12.55684,-60.90185,340.0,5126.723
27025,1,9659366.0,510787,1,24,2.0,8 a 11 anos,421125.0,0.0,1.0,110030,37 a 41 semanas,Única,Cesáreo,4,2019-08-02,1430.0,Masculino,9.0,10.0,Parda,3065,2.0,2019-08-07,,20190025,3.2.00,2019-08-07,5,,811.0,110004.0,11.0,3.0,3.0,14071995.0,4.0,1.0,0.0,0.0,30.0,,39.0,1.0,8.0,1.0,1.0,2.0,2.0,1.0,5.0,4.0,2082019.0,6.0,0,1,1,3,1,5,2776905,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27026,1,9659366.0,510787,1,21,2.0,8 a 11 anos,999992.0,1.0,0.0,110030,32 a 36 semanas,Única,Vaginal,4,2019-12-23,741.0,Masculino,8.0,9.0,Parda,2352,2.0,2020-01-07,,20200003,3.2.00,2020-01-07,15,,811.0,110030.0,11.0,3.0,3.0,23071998.0,4.0,1.0,0.0,1.0,24.0,,35.0,2.0,10.0,1.0,1.0,2.0,3.0,1.0,2.0,3.0,23122019.0,6.0,0,1,1,10,1,5,2777105,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915


In [3]:
# 2) seu código aqui
df2 = pd.DataFrame(pd.read_csv('SINASC_RO_2019.csv'))
df2.isna().sum()

ORIGEM          0
CODESTAB      115
CODMUNNASC      0
LOCNASC         0
IDADEMAE        0
             ... 
munResUf        0
munResLat       1
munResLon       1
munResAlt       1
munResArea      1
Length: 69, dtype: int64

In [4]:
# 3) seu código aqui
df3 = df[['LOCNASC', 'IDADEMAE', 'ESTCIVMAE', 'ESCMAE', 'QTDFILVIVO','GESTACAO', 'GRAVIDEZ', 'CONSULTAS', 'APGAR5']]
df3.isna().sum()


LOCNASC          0
IDADEMAE         0
ESTCIVMAE      317
ESCMAE         312
QTDFILVIVO    1573
GESTACAO      1232
GRAVIDEZ        79
CONSULTAS        0
APGAR5         103
dtype: int64

In [5]:
# 4) seu código aqui
df4 = df3.dropna(subset=['APGAR5'])
df4.isna().sum()


LOCNASC          0
IDADEMAE         0
ESTCIVMAE      315
ESCMAE         310
QTDFILVIVO    1566
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS        0
APGAR5           0
dtype: int64

In [6]:
# 5) seu código aqui
df5 = df4
df5['CONSULTAS'].fillna(9, inplace = True)
df5['ESTCIVMAE'].fillna(9, inplace = True)
df5.isna().sum()



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return self._update_inplace(result)


LOCNASC          0
IDADEMAE         0
ESTCIVMAE        0
ESCMAE         310
QTDFILVIVO    1566
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS        0
APGAR5           0
dtype: int64

In [7]:
# 6) Seu código aqui
df6 = df5
df6['QTDFILVIVO'].fillna(0, inplace = True)
df6.isna().sum()


LOCNASC          0
IDADEMAE         0
ESTCIVMAE        0
ESCMAE         310
QTDFILVIVO       0
GESTACAO      1216
GRAVIDEZ        76
CONSULTAS        0
APGAR5           0
dtype: int64

In [8]:
# 7) seu código aqui
df6

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0


In [9]:
print((df6['ESCMAE'].value_counts()/26925)*100,'\n')
print((df6['GESTACAO'].value_counts()/26925)*100,'\n')
print((df6['GRAVIDEZ'].value_counts()/26925)*100,'\n')
print((df6['APGAR5'].value_counts()/26925)*100,'\n')

#Proporção dos dados faltantes
print('Porcentagem de dados faltantes para a variável ESCMAE  ', (df6['ESCMAE'].isna().sum()/26925)*100)
print('Porcentagem de dados faltantes para a variável GESTACAO', (df6['GESTACAO'].isna().sum()/26925)*100)
print('Porcentagem de dados faltantes para a variável GRAVIDEZ', (df6['GRAVIDEZ'].isna().sum()/26925)*100)
print('Porcentagem de dados faltantes para a variável APGAR5  ', (df6['APGAR5'].isna().sum()/26925)*100)

8 a 11 anos        57.868152
12 anos ou mais    21.381616
4 a 7 anos         17.556175
1 a 3 anos          1.894150
Nenhuma             0.148561
Name: ESCMAE, dtype: float64 

37 a 41 semanas        83.650882
32 a 36 semanas         8.297122
42 semanas e mais       2.592386
28 a 31 semanas         0.601671
22 a 27 semanas         0.315692
Menos de 22 semanas     0.025998
Name: GESTACAO, dtype: float64 

Única              97.886722
Dupla               1.812442
Tríplice e mais     0.018570
Name: GRAVIDEZ, dtype: float64 

9.0     59.706592
10.0    31.171773
8.0      7.405757
7.0      0.895079
6.0      0.293408
5.0      0.167131
1.0      0.089136
4.0      0.085422
2.0      0.066852
0.0      0.063138
3.0      0.055710
Name: APGAR5, dtype: float64 

Porcentagem de dados faltantes para a variável ESCMAE   1.1513463324048283
Porcentagem de dados faltantes para a variável GESTACAO 4.516248839368616
Porcentagem de dados faltantes para a variável GRAVIDEZ 0.2822655524605385
Porcentagem de dados

**Aproximadamente 97% das mães nesta base de dados tiveram gravidez única e os dados faltantes representam somente 0.29% de toda a base de dados. Desta forma, levando em consideração que esta variável não tenha impacto significativo para a variável em análise (default), o que em outro momento caberia uma comparação quanto a significancia, optaremos por substituir os dados faltantes pelo valor de maior frequência. O mesmo raciocínio será adotado para as variáveis "ESCMAE" e "GESTACAO", onde que para a primeira, observamos uma ocorrência de aproximadamente 58% para "8 a 11 anos" e 1.5% de dados faltantes e para a varável "GESTACAO" temos 83% de ocorrência para "37 a 41 semanas" contra 4.5% de dados vazios.**

In [10]:
df7 = df6
df7['ESCMAE'].fillna('8 a 11 anos', inplace = True)
df7['GESTACAO'].fillna('37 a 41 semanas', inplace = True)
df7['GRAVIDEZ'].fillna('Única', inplace = True)
df7

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return self._update_inplace(result)


Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0
...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0


In [11]:
print('Porcentagem de dados faltantes para a variável ESCMAE  ', (df7['ESCMAE'].isna().sum()/26925)*100)
print('Porcentagem de dados faltantes para a variável GESTACAO', (df7['GESTACAO'].isna().sum()/26925)*100)
print('Porcentagem de dados faltantes para a variável GRAVIDEZ', (df7['GRAVIDEZ'].isna().sum()/26925)*100,'\n')

print((df7['ESCMAE'].value_counts()/26925)*100,'\n')
print((df7['GESTACAO'].value_counts()/26925)*100,'\n')
print((df7['GRAVIDEZ'].value_counts()/26925)*100,'\n')

Porcentagem de dados faltantes para a variável ESCMAE   0.0
Porcentagem de dados faltantes para a variável GESTACAO 0.0
Porcentagem de dados faltantes para a variável GRAVIDEZ 0.0 

8 a 11 anos        59.019499
12 anos ou mais    21.381616
4 a 7 anos         17.556175
1 a 3 anos          1.894150
Nenhuma             0.148561
Name: ESCMAE, dtype: float64 

37 a 41 semanas        88.167131
32 a 36 semanas         8.297122
42 semanas e mais       2.592386
28 a 31 semanas         0.601671
22 a 27 semanas         0.315692
Menos de 22 semanas     0.025998
Name: GESTACAO, dtype: float64 

Única              98.168988
Dupla               1.812442
Tríplice e mais     0.018570
Name: GRAVIDEZ, dtype: float64 



In [12]:
# 8) seu código aqui
df8 = df7
df8.loc[df8["APGAR5"] >= 8, 'APGAR5_cat'] = 'normal'
df8.loc[(df8["APGAR5"] < 8) & (df8["APGAR5"] >= 6), 'APGAR5_cat'] = 'asfixia leve'
df8.loc[(df8["APGAR5"] < 6) & (df8["APGAR5"] >= 5), 'APGAR5_cat'] = 'asfixia moderada'
df8.loc[df8["APGAR5"] < 5, 'APGAR5_cat'] = 'asfixia severa'
df8



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[key] = infer_fill_value(value)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5,APGAR5_cat
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,normal
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0,normal
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0,normal
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0,normal


In [13]:
df8['APGAR5_cat'].value_counts()

normal              26463
asfixia leve          320
asfixia severa         97
asfixia moderada       45
Name: APGAR5_cat, dtype: int64

In [14]:
# 9) seu código aqui
df9 = df8
df9

Unnamed: 0,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,QTDFILVIVO,GESTACAO,GRAVIDEZ,CONSULTAS,APGAR5,APGAR5_cat
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,normal
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0,normal
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0,normal
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0,normal


In [15]:
df9 = df9.rename(columns = str.lower)
df9


Unnamed: 0,locnasc,idademae,estcivmae,escmae,qtdfilvivo,gestacao,gravidez,consultas,apgar5,apgar5_cat
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,normal
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0,normal
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0,normal
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0,normal


In [17]:
df9.columns

Index(['locnasc', 'idademae', 'estcivmae', 'escmae', 'qtdfilvivo', 'gestacao',
       'gravidez', 'consultas', 'apgar5', 'apgar5_cat'],
      dtype='object')

In [20]:
df9.columns = ['loc_nasc', 'idade_mae', 'est_civ_mae', 'esc_mae', 'qtd_fil_vivo', 'gestacao',
       'gravidez', 'consultas', 'apgar5', 'apgar5_cat']
df9

Unnamed: 0,loc_nasc,idade_mae,est_civ_mae,esc_mae,qtd_fil_vivo,gestacao,gravidez,consultas,apgar5,apgar5_cat
0,1,19,5.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
1,1,29,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,9.0,normal
2,1,37,9.0,8 a 11 anos,2.0,37 a 41 semanas,Única,4,10.0,normal
3,1,30,5.0,12 anos ou mais,0.0,37 a 41 semanas,Única,3,10.0,normal
4,1,30,2.0,8 a 11 anos,1.0,37 a 41 semanas,Única,4,10.0,normal
...,...,...,...,...,...,...,...,...,...,...
27023,1,32,2.0,12 anos ou mais,1.0,32 a 36 semanas,Única,4,9.0,normal
27024,1,19,1.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,9.0,normal
27025,1,24,2.0,8 a 11 anos,0.0,37 a 41 semanas,Única,4,10.0,normal
27026,1,21,2.0,8 a 11 anos,1.0,32 a 36 semanas,Única,4,9.0,normal
