# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw = sinasc_raw.drop_duplicates()
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [4]:
sinasc_1 = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]
nome_mun = sinasc_1.groupby('munResNome')
round(nome_mun.mean())

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,26.0,30.0
Alto Alegre dos Parecis,25.0,29.0
Alto Paraíso,25.0,29.0
Alvorada D'Oeste,26.0,31.0
Ariquemes,26.0,32.0
Buritis,26.0,31.0
Cabixi,26.0,34.0
Cacaulândia,26.0,36.0
Cacoal,27.0,31.0
Campo Novo de Rondônia,25.0,30.0


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [5]:
sinasc_2 = sinasc_raw[['PESO', 'SEXO', 'DTNASC', 'ESCMAE']]
sinasc_2 = sinasc_2.fillna('Nenhuma')
data_nasc = sinasc_2[sinasc_2['DTNASC'] == '2019-03-12']
data_nasc['DTNASC'] = pd.to_datetime(data_nasc['DTNASC'])

data_nasc.groupby(['DTNASC', 'SEXO', 'ESCMAE'])['PESO'].mean()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_nasc['DTNASC'] = pd.to_datetime(data_nasc['DTNASC'])


DTNASC      SEXO       ESCMAE         
2019-03-12  Feminino   12 anos ou mais    3212.000000
                       4 a 7 anos         2967.500000
                       8 a 11 anos        3276.850000
            Masculino  12 anos ou mais    3215.583333
                       4 a 7 anos         3220.714286
                       8 a 11 anos        3138.666667
                       Nenhuma             740.000000
Name: PESO, dtype: float64

In [6]:
round(data_nasc.groupby(['DTNASC', 'SEXO', 'ESCMAE'])['PESO'].mean().to_frame(), 2)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PESO
DTNASC,SEXO,ESCMAE,Unnamed: 3_level_1
2019-03-12,Feminino,12 anos ou mais,3212.0
2019-03-12,Feminino,4 a 7 anos,2967.5
2019-03-12,Feminino,8 a 11 anos,3276.85
2019-03-12,Masculino,12 anos ou mais,3215.58
2019-03-12,Masculino,4 a 7 anos,3220.71
2019-03-12,Masculino,8 a 11 anos,3138.67
2019-03-12,Masculino,Nenhuma,740.0


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [7]:
sinasc_3 = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]
sinasc_3["munResNome"].value_counts().to_frame('count')

Unnamed: 0_level_0,count
munResNome,Unnamed: 1_level_1
Porto Velho,8437
Ji-Paraná,2182
Ariquemes,1729
Vilhena,1590
Cacoal,1374
Rolim de Moura,927
Jaru,881
Guajará-Mirim,781
Ouro Preto do Oeste,631
Pimenta Bueno,616


In [8]:
# O município que nasceu menos bebês em Ro no ano de 2019 foi Castanheiras com 32 bebês, 
#se ignorarmos o "Município ignorado - RO":

sinasc_casta = sinasc_3[sinasc_3['munResNome'] == 'Castanheiras']
sinasc_casta

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome
2067,18,17.0,Castanheiras
2300,31,36.0,Castanheiras
4512,22,,Castanheiras
5881,26,24.0,Castanheiras
5952,32,29.0,Castanheiras
10762,21,19.0,Castanheiras
10768,31,31.0,Castanheiras
10882,23,25.0,Castanheiras
10962,29,32.0,Castanheiras
10988,31,42.0,Castanheiras


In [9]:
sinasc_casta.groupby('munResNome').aggregate([np.median, 'min', max])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,median,min,max,median,min,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,27.0,17,39,31.5,17.0,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [10]:
sinasc_4 = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome', 'DTNASC', 'QTDFILVIVO']]

sinasc_4['DTNASC'] = pd.to_datetime(sinasc_4['DTNASC'])
sinasc_4

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sinasc_4['DTNASC'] = pd.to_datetime(sinasc_4['DTNASC'])


Unnamed: 0,IDADEMAE,IDADEPAI,munResNome,DTNASC,QTDFILVIVO
0,19,26.0,Alta Floresta D'Oeste,2019-02-19,0.0
1,29,24.0,Alta Floresta D'Oeste,2019-02-21,1.0
2,37,32.0,Alta Floresta D'Oeste,2019-02-25,2.0
3,30,24.0,Alto Alegre dos Parecis,2019-03-20,0.0
4,30,27.0,Alta Floresta D'Oeste,2019-03-23,1.0
...,...,...,...,...,...
27023,32,35.0,Vilhena,2019-12-13,1.0
27024,19,,Chupinguaia,2019-10-04,0.0
27025,24,30.0,Vilhena,2019-08-02,0.0
27026,21,24.0,Vilhena,2019-12-23,1.0


In [11]:
sinasc_4_marco = sinasc_4[ sinasc_4['DTNASC'].dt.month == 3 ]

sinasc_4_marco["munResNome"].value_counts().to_frame()

Unnamed: 0_level_0,count
munResNome,Unnamed: 1_level_1
Porto Velho,744
Ji-Paraná,188
Vilhena,148
Ariquemes,141
Cacoal,133
Jaru,80
Guajará-Mirim,75
Rolim de Moura,69
Ouro Preto do Oeste,67
Pimenta Bueno,62


In [12]:
mun_maior = sinasc_4_marco['munResNome'].value_counts().idxmax()
# mostra qual o maior valor encontrado na coluna
print("O município que mais nasceu bebês no mês de março foi: ", mun_maior)

O município que mais nasceu bebês no mês de março foi:  Porto Velho


In [13]:
value_com_maior_cont_df = sinasc_4_marco['munResNome'].value_counts()
porcentagem_1 = round((value_com_maior_cont_df['Porto Velho']/sinasc_4_marco['munResNome'].value_counts().sum())*100, 2)
porcentagem_2 = round((value_com_maior_cont_df['Ji-Paraná']/sinasc_4_marco['munResNome'].value_counts().sum())*100, 2)
print(f'No mês de março Porto velho teve {porcentagem_1}% dos nascimentos em Roraima enquanto o segundo maior município',
      f'em nascimentos nesse mês foi Ji-Paraná com {porcentagem_2}%')

No mês de março Porto velho teve 30.29% dos nascimentos em Roraima enquanto o segundo maior município em nascimentos nesse mês foi Ji-Paraná com 7.65%


In [14]:
#- qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
porto_velho = sinasc_4_marco[sinasc_4_marco['munResNome'] == 'Porto Velho']

porto_velho.groupby('munResNome')['QTDFILVIVO'].aggregate([np.median, 'min', max])

Unnamed: 0_level_0,median,min,max
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,1.0,0.0,9.0


In [15]:
#- qual a idade media, maxima, minima dos pais nesse municipio?

porto_velho.drop(columns= ['DTNASC','QTDFILVIVO'], axis = 1, inplace = True)

porto_velho.groupby('munResNome').aggregate([np.median, 'min', max])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  porto_velho.drop(columns= ['DTNASC','QTDFILVIVO'], axis = 1, inplace = True)


Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,median,min,max,median,min,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,26.0,14,44,34.0,19.0,62.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [16]:
#maior_media = df.value_count().idxmax()
idade_med = nome_mun.mean()
round(idade_med.median().to_frame())

Unnamed: 0,0
IDADEMAE,26.0
IDADEPAI,31.0


## No exercício 1:

Um insight interessante extraído da análise dos dados é que a idade mediana das mulheres que deram à luz em 2019 no município de Porto Velho é significativamente maior do que a de Governador Jorge Teixeira. Além disso, observou-se que a média de idade das mulheres que deram à luz em 2019 é de 26 anos, enquanto a dos homens é de 31 anos.

## No exercício 2:

Um insight revelador do exercício é que há uma correlação positiva entre o tempo de escolaridade da mãe e o peso dos bebês ao nascer. Quanto maior o nível de educação da mãe, maior tende a ser o peso dos bebês ao nascer, sugerindo uma possível associação entre educação materna e saúde fetal.

## No exercício 3:

Um insight significativo do exercício é que o município de Castanheiras, em Rondônia, registrou o menor número de nascimentos de bebês em 2019, com um total de 32 nascimentos, excluindo o "Município ignorado - RO". Além disso, foi observado que a média de idade das mães foi de 27 anos, enquanto a dos pais foi de 31,5 anos. A faixa etária mais jovem registrada para mães e pais nesse município foi de 17 anos, enquanto as idades mais avançadas foram de 39 anos para mães e 43 anos para pais.

## No exercício 4:

Um insight revelador do exercício é que Porto Velho liderou em número de nascimentos no mês de março de 2019, com um total de 744 nascimentos, representando 30,29% de todos os nascimentos naquele mês. Em segundo lugar, Ji-Paraná registrou 188 nascimentos, aproximadamente 7,65% do total. A média de idade mínima das mães nesse município foi de 14 anos, ainda menos que o de Castanheiras. Além disso, a média de filhos vivos em Porto Velho foi de 1 filho, com o mínimo de nenhum filho e o máximo de 9 filhos registrados no mês de março.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')