# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [4]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head(3)

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [5]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [6]:
media_parental = sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI']]
media_parental.head(2)

Unnamed: 0,munResNome,IDADEMAE,IDADEPAI
0,Alta Floresta D'Oeste,19,26.0
1,Alta Floresta D'Oeste,29,24.0


In [7]:
media_parental = media_parental.groupby('munResNome').aggregate('mean')
media_parental.head(4)

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [8]:
# Filtrando a data 11 de dezembro
data_nasc = pd.DataFrame(sinasc_raw[sinasc_raw['DTNASC']=='2019-12-11'])
# data_nasc['DTNASC'].value_counts()
data_nasc = data_nasc[['DTNASC','ESCMAE','SEXO', 'PESO']]
data_nasc = data_nasc .groupby(['ESCMAE','DTNASC','SEXO']).aggregate('mean')
data_nasc

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PESO
ESCMAE,DTNASC,SEXO,Unnamed: 3_level_1
1 a 3 anos,2019-12-11,Masculino,4050.0
12 anos ou mais,2019-12-11,Feminino,3105.2
12 anos ou mais,2019-12-11,Masculino,3305.0
4 a 7 anos,2019-12-11,Feminino,3262.5
4 a 7 anos,2019-12-11,Masculino,2890.0
8 a 11 anos,2019-12-11,Feminino,3245.961538
8 a 11 anos,2019-12-11,Masculino,3198.52


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [9]:
# Castanheiras | 32 nascimentos
idade_menos = pd.DataFrame(sinasc_raw[sinasc_raw['munResNome']=='Castanheiras'])
idade_menos.head(3)

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
2067,1,2496046.0,110004,1,18,1.0,8 a 11 anos,999992.0,0.0,0.0,...,3,2087,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
2300,1,7648693.0,110004,1,31,5.0,8 a 11 anos,999992.0,0.0,0.0,...,5,2323,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
4512,1,2495279.0,110012,1,22,1.0,8 a 11 anos,521135.0,0.0,0.0,...,2,4538,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842


In [10]:
idade_mae_menos = idade_menos[['munResNome','IDADEMAE']]
media_mae = idade_mae_menos.groupby('munResNome').aggregate('mean')
media_mae

Unnamed: 0_level_0,IDADEMAE
munResNome,Unnamed: 1_level_1
Castanheiras,27.28125


In [11]:
max_mae = idade_mae_menos.groupby('munResNome').aggregate(max)
max_mae

Unnamed: 0_level_0,IDADEMAE
munResNome,Unnamed: 1_level_1
Castanheiras,39


In [12]:
min_mae = idade_mae_menos.groupby('munResNome').aggregate(min)
min_mae

Unnamed: 0_level_0,IDADEMAE
munResNome,Unnamed: 1_level_1
Castanheiras,17


In [13]:
# pai
idade_pai_menos = idade_menos[['munResNome','IDADEPAI']]
media_pai = idade_pai_menos.groupby('munResNome').aggregate('mean')
media_pai

Unnamed: 0_level_0,IDADEPAI
munResNome,Unnamed: 1_level_1
Castanheiras,30.392857


In [14]:
max_pai = idade_pai_menos.groupby('munResNome').aggregate(max)
max_pai

Unnamed: 0_level_0,IDADEPAI
munResNome,Unnamed: 1_level_1
Castanheiras,43.0


In [15]:
min_pai = idade_pai_menos.groupby('munResNome').aggregate(min)
min_pai

Unnamed: 0_level_0,IDADEPAI
munResNome,Unnamed: 1_level_1
Castanheiras,17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [16]:
sinasc_raw['DTNASC'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 27028 entries, 0 to 27027
Series name: DTNASC
Non-Null Count  Dtype 
--------------  ----- 
27028 non-null  object
dtypes: object(1)
memory usage: 211.3+ KB


In [38]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'], errors='coerce')
sinasc_raw['DTNASC'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 27028 entries, 0 to 27027
Series name: DTNASC
Non-Null Count  Dtype         
--------------  -----         
27028 non-null  datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 211.3 KB


In [40]:
sinasc_mar = sinasc_raw[['munResNome', 'QTDFILVIVO', 'IDADEMAE', 'IDADEPAI']]
sinasc_mar

Unnamed: 0,munResNome,QTDFILVIVO,IDADEMAE,IDADEPAI
0,Alta Floresta D'Oeste,0.0,19,26.0
1,Alta Floresta D'Oeste,1.0,29,24.0
2,Alta Floresta D'Oeste,2.0,37,32.0
3,Alto Alegre dos Parecis,0.0,30,24.0
4,Alta Floresta D'Oeste,1.0,30,27.0
...,...,...,...,...
27023,Vilhena,1.0,32,35.0
27024,Chupinguaia,0.0,19,
27025,Vilhena,0.0,24,30.0
27026,Vilhena,1.0,21,24.0


In [41]:
sinasc_mar['Mes'] = sinasc_raw['DTNASC'].apply(lambda x: x.month)
sinasc_mar.head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sinasc_mar['Mes'] = sinasc_raw['DTNASC'].apply(lambda x: x.month)


Unnamed: 0,munResNome,QTDFILVIVO,IDADEMAE,IDADEPAI,Mes
0,Alta Floresta D'Oeste,0.0,19,26.0,2
1,Alta Floresta D'Oeste,1.0,29,24.0,2
2,Alta Floresta D'Oeste,2.0,37,32.0,2
3,Alto Alegre dos Parecis,0.0,30,24.0,3
4,Alta Floresta D'Oeste,1.0,30,27.0,3
5,Alta Floresta D'Oeste,2.0,33,40.0,3
6,Novo Horizonte do Oeste,1.0,37,42.0,4
7,Alta Floresta D'Oeste,0.0,27,27.0,4
8,Alta Floresta D'Oeste,0.0,20,25.0,2
9,Alta Floresta D'Oeste,1.0,30,41.0,3


In [47]:
sinasc_mar[sinasc_mar['Mes']==3].groupby('munResNome')['QTDFILVIVO'].count().sort_values(ascending = False)[:3]

munResNome
Porto Velho    627
Ji-Paraná      187
Vilhena        147
Name: QTDFILVIVO, dtype: int64

In [60]:
sinasc_mar = sinasc_mar[sinasc_mar['Mes'] == 3]
sinasc_mar = sinasc_mar[sinasc_mar['munResNome'] == 'Porto Velho']
sinasc_mar

Unnamed: 0,munResNome,QTDFILVIVO,IDADEMAE,IDADEPAI,Mes
612,Porto Velho,0.0,19,,3
700,Porto Velho,1.0,19,,3
3232,Porto Velho,0.0,34,,3
3238,Porto Velho,1.0,24,,3
6818,Porto Velho,2.0,38,41.0,3
...,...,...,...,...,...
13668,Porto Velho,1.0,19,,3
13669,Porto Velho,0.0,21,,3
13670,Porto Velho,0.0,24,,3
13671,Porto Velho,2.0,24,,3


In [61]:
# Porto Velho | 627 filhos vivos

sinasc_mar.groupby('munResNome')[['QTDFILVIVO',	'IDADEMAE',	'IDADEPAI']].aggregate('mean')


Unnamed: 0_level_0,QTDFILVIVO,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,1.295056,26.596774,34.629032


In [62]:
sinasc_mar.groupby('munResNome')[['QTDFILVIVO',	'IDADEMAE',	'IDADEPAI']].aggregate('max')

Unnamed: 0_level_0,QTDFILVIVO,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,9.0,44,62.0


In [64]:
sinasc_mar.groupby('munResNome')[['QTDFILVIVO',	'IDADEMAE',	'IDADEPAI']].aggregate('min')

Unnamed: 0_level_0,QTDFILVIVO,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,0.0,14,19.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

**-> Pelas análises pude perceber a diferença de idade entre mães e pais. Sendo, em Porto Velho, a idade mínima para mães 14 e para 19 anos.**