# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [11]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [14]:
sinasc_raw = pd.read_csv('./SINASC_RO_2019 .csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [25]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [45]:
avg_age = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]
avg_age.isna().value_counts()

IDADEMAE  IDADEPAI  munResNome
False     True      False         19421
          False     False          7607
dtype: int64

In [57]:
avg_age = avg_age.dropna()
avg_age = avg_age.groupby('munResNome').aggregate('mean')
avg_age

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,53.0,58.0
Alto Alegre dos Parecis,41.0,50.0
Alto Paraíso,32.0,49.0
Alvorada D'Oeste,40.0,52.0
Ariquemes,39.0,51.0
Buritis,42.0,49.0
Cabixi,38.0,47.0
Cacaulândia,42.0,50.0
Cacoal,47.0,66.0
Campo Novo de Rondônia,40.0,40.0


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [59]:
peso_medio = sinasc_raw[['PESO', 'DTNASC', 'ESCMAE']]
peso_medio

Unnamed: 0,PESO,DTNASC,ESCMAE
0,3685,2019-02-19,8 a 11 anos
1,3055,2019-02-21,8 a 11 anos
2,3460,2019-02-25,8 a 11 anos
3,2982,2019-03-20,12 anos ou mais
4,3310,2019-03-23,8 a 11 anos
...,...,...,...
27023,2110,2019-12-13,12 anos ou mais
27024,3310,2019-10-04,8 a 11 anos
27025,3065,2019-08-02,8 a 11 anos
27026,2352,2019-12-23,8 a 11 anos


In [61]:
peso_medio.isna().value_counts()

PESO   DTNASC  ESCMAE
False  False   False     26716
               True        312
dtype: int64

In [62]:
peso_medio = peso_medio.dropna()

Unnamed: 0,PESO,DTNASC,ESCMAE
0,3685,2019-02-19,8 a 11 anos
1,3055,2019-02-21,8 a 11 anos
2,3460,2019-02-25,8 a 11 anos
3,2982,2019-03-20,12 anos ou mais
4,3310,2019-03-23,8 a 11 anos
...,...,...,...
27023,2110,2019-12-13,12 anos ou mais
27024,3310,2019-10-04,8 a 11 anos
27025,3065,2019-08-02,8 a 11 anos
27026,2352,2019-12-23,8 a 11 anos


In [82]:
peso_medio = peso_medio.loc[peso_medio['DTNASC']=='2019-11-12']
peso_medio.groupby('ESCMAE').agg('mean')

Unnamed: 0_level_0,PESO
ESCMAE,Unnamed: 1_level_1
1 a 3 anos,3150.0
12 anos ou mais,3261.578947
4 a 7 anos,3290.5625
8 a 11 anos,3244.131579


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [116]:
mun_less = sinasc_raw[['QTDFILVIVO', 'munResNome', 'IDADEMAE', 'IDADEPAI']]
mun_less.groupby('QTDFILVIVO').agg('min').head()

Unnamed: 0_level_0,munResNome,IDADEMAE,IDADEPAI
QTDFILVIVO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0.0,Alta Floresta D'Oeste,12,15.0
1.0,Alta Floresta D'Oeste,13,17.0
2.0,Alta Floresta D'Oeste,15,17.0
3.0,Alta Floresta D'Oeste,18,19.0
4.0,Alta Floresta D'Oeste,19,19.0


In [117]:
mun_less.groupby('QTDFILVIVO').agg('min').tail()

Unnamed: 0_level_0,munResNome,IDADEMAE,IDADEPAI
QTDFILVIVO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10.0,Buritis,34,
11.0,Guajará-Mirim,42,
12.0,Espigão D'Oeste,40,43.0
14.0,Costa Marques,39,43.0
30.0,Santa Luzia D'Oeste,24,25.0


In [118]:
idades_munless = mun_less[['IDADEMAE', 'IDADEPAI', 'munResNome']].groupby('munResNome').aggregate(['min', np.median, 'max'])
idades_munless.head(1)

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,min,median,max,min,median,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Alta Floresta D'Oeste,14,25.0,53,17.0,28.5,58.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [129]:
mun_top = sinasc_raw[['QTDFILVIVO', 'munResNome', 'IDADEPAI']]
mun_top.groupby('QTDFILVIVO').agg(max).tail(1)

Unnamed: 0_level_0,munResNome,IDADEPAI
QTDFILVIVO,Unnamed: 1_level_1,Unnamed: 2_level_1
30.0,Santa Luzia D'Oeste,25.0


In [134]:
mun_top2 = mun_top.loc[mun_top['munResNome'] == "Santa Luzia D'Oeste"]
mun_top2.dropna()

Unnamed: 0,QTDFILVIVO,munResNome,IDADEPAI
1459,0.0,Santa Luzia D'Oeste,28.0
1469,1.0,Santa Luzia D'Oeste,45.0
1695,1.0,Santa Luzia D'Oeste,27.0
1757,0.0,Santa Luzia D'Oeste,37.0
1882,0.0,Santa Luzia D'Oeste,30.0
...,...,...,...
24896,1.0,Santa Luzia D'Oeste,39.0
24897,1.0,Santa Luzia D'Oeste,28.0
24916,0.0,Santa Luzia D'Oeste,19.0
24931,1.0,Santa Luzia D'Oeste,36.0


In [137]:
mun_top2.groupby('munResNome').aggregate(['min', np.median, 'max'])

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,min,median,max,min,median,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Santa Luzia D'Oeste,0.0,1.0,30.0,18.0,30.0,53.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

- Os municípios com menor número de filhos vivos são aqueles onde ambas as mães e os pais tem idades menores.
- A idade mínima do município com menor número de quantidade de filhos vivos é de apenas 12 anos de idade para a mãe, e 15 para o pai.
- A idade média do município com menor quantidade de filhos vivos é de -> Alta Floresta D'Oeste	Mãe = 53 anos e Pai= 58 anos.
- Consequentemente é o mesmo município onde a menor idade é a de 12 anos para a mãe. Isto pode mostrar que a disparidade entre idades das quais as pessoas decidem ter filhos pode afetar o desenvolvimento do bebê. 


In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')