# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [4]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [5]:
sinasc_raw = pd.read_csv('../../../Datasets/SINASC_RO_2019.csv', sep=',')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)

utilizando groupby, pivot_table e agregações.


In [11]:
# groupby
sinasc_raw.groupby('munResNome')['IDADEMAE'].mean()

munResNome
Alta Floresta D'Oeste        25.991826
Alto Alegre dos Parecis      24.844156
Alto Paraíso                 24.960177
Alvorada D'Oeste             25.770732
Ariquemes                    25.607866
Buritis                      25.559177
Cabixi                       26.037500
Cacaulândia                  25.546667
Cacoal                       26.890102
Campo Novo de Rondônia       24.825301
Candeias do Jamari           25.243323
Castanheiras                 27.281250
Cerejeiras                   27.240506
Chupinguaia                  25.333333
Colorado do Oeste            27.602804
Corumbiara                   24.716535
Costa Marques                24.412017
Cujubim                      24.482927
Espigão D'Oeste              26.093333
Governador Jorge Teixeira    24.401786
Guajará-Mirim                25.462228
Itapuã do Oeste              26.064220
Jaru                         25.982974
Ji-Paraná                    26.361137
Machadinho D'Oeste           25.480000
Ministro Andre

In [12]:
# pivot_table
sinasc_raw.pivot_table(index='munResNome', values='IDADEMAE', aggfunc='mean')

Unnamed: 0_level_0,IDADEMAE
munResNome,Unnamed: 1_level_1
Alta Floresta D'Oeste,25.991826
Alto Alegre dos Parecis,24.844156
Alto Paraíso,24.960177
Alvorada D'Oeste,25.770732
Ariquemes,25.607866
Buritis,25.559177
Cabixi,26.0375
Cacaulândia,25.546667
Cacoal,26.890102
Campo Novo de Rondônia,24.825301


In [13]:
# agregações
sinasc_raw.groupby('munResNome').agg({'IDADEMAE': 'mean'})

Unnamed: 0_level_0,IDADEMAE
munResNome,Unnamed: 1_level_1
Alta Floresta D'Oeste,25.991826
Alto Alegre dos Parecis,24.844156
Alto Paraíso,24.960177
Alvorada D'Oeste,25.770732
Ariquemes,25.607866
Buritis,25.559177
Cabixi,26.0375
Cacaulândia,25.546667
Cacoal,26.890102
Campo Novo de Rondônia,24.825301


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [19]:
# groupby
sinasc_raw[sinasc_raw['DTNASC'] == '2019-08-10'].groupby(['SEXO', 'ESCMAE'])['PESO'].mean()

SEXO       ESCMAE         
Feminino   12 anos ou mais    3282.000000
           4 a 7 anos         3271.666667
           8 a 11 anos        3199.047619
Masculino  12 anos ou mais    3571.000000
           4 a 7 anos         3457.833333
           8 a 11 anos        3035.000000
Name: PESO, dtype: float64

In [21]:
# pivot_table
sinasc_raw[sinasc_raw['DTNASC'] == '2019-08-10'].pivot_table(index=['SEXO', 'ESCMAE'], values='PESO', aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
SEXO,ESCMAE,Unnamed: 2_level_1
Feminino,12 anos ou mais,3282.0
Feminino,4 a 7 anos,3271.666667
Feminino,8 a 11 anos,3199.047619
Masculino,12 anos ou mais,3571.0
Masculino,4 a 7 anos,3457.833333
Masculino,8 a 11 anos,3035.0


In [23]:
# agregações
sinasc_raw[sinasc_raw['DTNASC'] == '2019-08-10'].groupby(['SEXO', 'ESCMAE']).agg({'PESO': 'mean'})

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
SEXO,ESCMAE,Unnamed: 2_level_1
Feminino,12 anos ou mais,3282.0
Feminino,4 a 7 anos,3271.666667
Feminino,8 a 11 anos,3199.047619
Masculino,12 anos ou mais,3571.0
Masculino,4 a 7 anos,3457.833333
Masculino,8 a 11 anos,3035.0


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [39]:
# groupby municipio que nasceu menos bebe
menos_bebe = sinasc_raw.groupby('munResNome').size().idxmin()

In [38]:
# pivot_table
sinasc_raw.pivot_table(index='munResNome', values=['IDADEMAE', 'IDADEPAI'],
                       aggfunc={'IDADEMAE': ['mean', 'max', 'min'],
                                'IDADEPAI': ['mean', 'max', 'min']}).loc[menos_bebe]

IDADEMAE  max     24.0
          mean    24.0
          min     24.0
IDADEPAI  max     22.0
          mean    22.0
          min     22.0
Name: Município ignorado - RO, dtype: float64

In [40]:
# agregações
sinasc_raw.groupby('munResNome').agg({'IDADEMAE': ['mean', 'max', 'min'],
                                      'IDADEPAI': ['mean', 'max', 'min']}).loc[menos_bebe]

IDADEMAE  mean    24.0
          max     24.0
          min     24.0
IDADEPAI  mean    22.0
          max     22.0
          min     22.0
Name: Município ignorado - RO, dtype: float64

### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [66]:
# groupby e value counts municipio que nasceu mais bebe no mês de março
mun_mais_nasc = sinasc_raw[sinasc_raw['DTNASC'].str.contains('2019-03')].groupby('munResNome')[
    'IDADEMAE'].count().idxmax()

In [71]:

# groupby 
sinasc_raw.groupby('munResNome')[['QTDFILVIVO','IDADEMAE','IDADEPAI']].mean().loc[mun_mais_nasc]


QTDFILVIVO     1.167236
IDADEMAE      26.312670
IDADEPAI      32.352679
Name: Porto Velho, dtype: float64

In [64]:
# pivot_table
sinasc_raw[sinasc_raw['munResNome'] == mun_mais_nasc].pivot_table(index='munResNome',
                                                                  values=['IDADEMAE', 'IDADEPAI', 'QTDFILVIVO'],
                                                                  aggfunc={'IDADEMAE': ['mean', 'max', 'min'],
                                                                           'IDADEPAI': ['mean', 'max', 'min'],
                                                                           'QTDFILVIVO': ['mean', 'max', 'min']})

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,max,mean,min,max,mean,min,max,mean,min
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Porto Velho,47,26.31267,12,65.0,32.352679,16.0,12.0,1.167236,0.0


In [60]:
# agregações
sinasc_raw.groupby('munResNome').agg({'IDADEMAE': ['mean', 'max', 'min'],
                                      'IDADEPAI': ['mean', 'max', 'min'],
                                      'QTDFILVIVO': ['mean', 'max', 'min']}).loc[mun_mais_nasc]

IDADEMAE    mean    26.312670
            max     47.000000
            min     12.000000
IDADEPAI    mean    32.352679
            max     65.000000
            min     16.000000
QTDFILVIVO  mean     1.167236
            max     12.000000
            min      0.000000
Name: Porto Velho, dtype: float64

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Análise: O município com menos nascimentos não nos deu muitas informações, ele têm apenas 1 registro e nem o nome do município está correto, teriamos que aplicar um filtro para selecionar um com mais pelo menos algumas entradas. Os pais são em média mais velhos que as mães, mas Meu Deus têm registro de uma menina que foi mãe aos 12 anos! 

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64', 'float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')