# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [4]:
media_idade_maes = sinasc_raw.groupby('munResNome')['IDADEMAE'].mean()

media_idade_pais = sinasc_raw.groupby('munResNome')['IDADEPAI'].mean()

In [5]:
media_idade_maes

munResNome
Alta Floresta D'Oeste        25.991826
Alto Alegre dos Parecis      24.844156
Alto Paraíso                 24.960177
Alvorada D'Oeste             25.770732
Ariquemes                    25.607866
Buritis                      25.559177
Cabixi                       26.037500
Cacaulândia                  25.546667
Cacoal                       26.890102
Campo Novo de Rondônia       24.825301
Candeias do Jamari           25.243323
Castanheiras                 27.281250
Cerejeiras                   27.240506
Chupinguaia                  25.333333
Colorado do Oeste            27.602804
Corumbiara                   24.716535
Costa Marques                24.412017
Cujubim                      24.482927
Espigão D'Oeste              26.093333
Governador Jorge Teixeira    24.401786
Guajará-Mirim                25.462228
Itapuã do Oeste              26.064220
Jaru                         25.982974
Ji-Paraná                    26.361137
Machadinho D'Oeste           25.480000
Ministro Andre

In [6]:
media_idade_pais

munResNome
Alta Floresta D'Oeste        29.548701
Alto Alegre dos Parecis      29.179104
Alto Paraíso                 28.833333
Alvorada D'Oeste             30.757282
Ariquemes                    32.466667
Buritis                      30.812500
Cabixi                       34.333333
Cacaulândia                  36.333333
Cacoal                       30.931854
Campo Novo de Rondônia       30.500000
Candeias do Jamari           29.894737
Castanheiras                 30.392857
Cerejeiras                   31.652778
Chupinguaia                  29.629630
Colorado do Oeste            34.354839
Corumbiara                   32.470588
Costa Marques                30.613636
Cujubim                      31.400000
Espigão D'Oeste              31.198113
Governador Jorge Teixeira    29.222222
Guajará-Mirim                30.470588
Itapuã do Oeste              42.500000
Jaru                         32.197183
Ji-Paraná                    31.132239
Machadinho D'Oeste           31.326923
Ministro Andre

### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [16]:
sinasc_raw[sinasc_raw['DTNASC'].str[5:] == '09-03'].groupby(['SEXO', 'ESCMAE'])['PESO'].mean()

SEXO       ESCMAE         
Feminino   12 anos ou mais    3087.857143
           4 a 7 anos         3075.888889
           8 a 11 anos        3225.956522
Masculino  1 a 3 anos         3990.000000
           12 anos ou mais    3183.000000
           4 a 7 anos         2987.500000
           8 a 11 anos        3509.481481
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [37]:
df_2019 = sinasc_raw[sinasc_raw['DTNASC'].str[:4] == '2019']

resultados = df_2019.groupby('munResNome').agg(
    nascimentos=('munResNome', 'count'),
    idade_media_maes=('IDADEMAE', 'mean'),
    idade_maxima_maes=('IDADEMAE', 'max'),
    idade_minima_maes=('IDADEMAE', 'min'),
    idade_media_pais=('IDADEPAI', 'mean'),
    idade_maxima_pais=('IDADEPAI', 'max'),
    idade_minima_pais=('IDADEPAI', 'min')
)

resultados

Unnamed: 0_level_0,nascimentos,idade_media_maes,idade_maxima_maes,idade_minima_maes,idade_media_pais,idade_maxima_pais,idade_minima_pais
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alta Floresta D'Oeste,367,25.991826,53,14,29.548701,58.0,17.0
Alto Alegre dos Parecis,154,24.844156,41,14,29.179104,50.0,16.0
Alto Paraíso,226,24.960177,42,11,28.833333,49.0,21.0
Alvorada D'Oeste,205,25.770732,44,15,30.757282,52.0,17.0
Ariquemes,1729,25.607866,44,13,32.466667,51.0,20.0
Buritis,583,25.559177,44,14,30.8125,49.0,18.0
Cabixi,80,26.0375,39,13,34.333333,47.0,19.0
Cacaulândia,75,25.546667,42,16,36.333333,50.0,28.0
Cacoal,1374,26.890102,47,14,30.931854,66.0,17.0
Campo Novo de Rondônia,166,24.825301,40,13,30.5,40.0,21.0


In [38]:
resultados['nascimentos'].idxmin()

'Município ignorado - RO'

### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [43]:
df_marco = sinasc_raw[sinasc_raw['DTNASC'].str[5:7] == '03']

resultados_marco = df_marco.groupby('munResNome').agg(
    nascimentos=('munResNome', 'count'),
    qtd_filhos_vivos_media=('QTDFILVIVO', 'mean'),
    qtd_filhos_vivos_maxima=('QTDFILVIVO', 'max'),
    qtd_filhos_vivos_minima=('QTDFILVIVO', 'min'),
    idade_media_pais_marco=('IDADEPAI', 'mean'),
    idade_maxima_pais_marco=('IDADEPAI', 'max'),
    idade_minima_pais_marco=('IDADEPAI', 'min')
)

resultados_marco

Unnamed: 0_level_0,nascimentos,qtd_filhos_vivos_media,qtd_filhos_vivos_maxima,qtd_filhos_vivos_minima,idade_media_pais_marco,idade_maxima_pais_marco,idade_minima_pais_marco
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alta Floresta D'Oeste,31,0.903226,4.0,0.0,30.125,45.0,20.0
Alto Alegre dos Parecis,10,0.888889,2.0,0.0,29.222222,38.0,21.0
Alto Paraíso,22,1.285714,3.0,0.0,26.0,29.0,23.0
Alvorada D'Oeste,22,1.0,3.0,0.0,33.4,42.0,26.0
Ariquemes,141,1.064748,4.0,0.0,28.666667,29.0,28.0
Buritis,59,1.421053,4.0,0.0,32.115385,48.0,18.0
Cabixi,6,0.833333,3.0,0.0,,,
Cacaulândia,10,1.2,4.0,0.0,,,
Cacoal,133,0.969697,7.0,0.0,30.008197,47.0,17.0
Campo Novo de Rondônia,13,1.285714,2.0,0.0,29.375,40.0,21.0


In [44]:
resultados_marco['nascimentos'].idxmax()

'Porto Velho'

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
O municipio de São felipe do Oeste parece não estar calculando certo pois a média de filhos vivos é 0 o que é meio estranho

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')