# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5.0,1.0,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5.0,2.0,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5.0,3.0,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4.0,4.0,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5.0,5.0,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [4]:
print('Quantidade de linhas duplicadas:',
      sinasc_raw.duplicated().sum())

Quantidade de linhas duplicadas: 0


In [5]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16064 entries, 0 to 16063
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        16064 non-null  int64  
 1   CODESTAB      15999 non-null  float64
 2   CODMUNNASC    16064 non-null  int64  
 3   LOCNASC       16064 non-null  int64  
 4   IDADEMAE      16064 non-null  int64  
 5   ESTCIVMAE     15883 non-null  float64
 6   ESCMAE        15900 non-null  object 
 7   CODOCUPMAE    14596 non-null  float64
 8   QTDFILVIVO    15158 non-null  float64
 9   QTDFILMORT    14857 non-null  float64
 10  CODMUNRES     16064 non-null  int64  
 11  GESTACAO      15414 non-null  object 
 12  GRAVIDEZ      16024 non-null  object 
 13  PARTO         16041 non-null  object 
 14  CONSULTAS     16064 non-null  int64  
 15  DTNASC        16064 non-null  object 
 16  HORANASC      16055 non-null  float64
 17  SEXO          16060 non-null  object 
 18  APGAR1        16016 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [6]:
sinasc_raw.groupby(by='munResNome')[['IDADEMAE',
                                     'IDADEPAI']].agg({'IDADEMAE':[('Média','mean')],
                                                       'IDADEPAI':[('Média','mean')]})

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
Unnamed: 0_level_1,Média,Média
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2
Alta Floresta D'Oeste,25.924901,29.540284
Alto Alegre dos Parecis,24.967742,29.588235
Alto Paraíso,24.962441,24.25
Alvorada D'Oeste,25.787879,31.333333
Ariquemes,25.622461,31.333333
Buritis,25.560748,30.516667
Cabixi,25.228571,34.666667
Cacaulândia,25.536232,36.666667
Cacoal,26.893473,30.894184
Campo Novo de Rondônia,24.982301,30.192308


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [7]:
sinasc_raw.DTNASC = pd.to_datetime(sinasc_raw.DTNASC)
sinasc_raw.DTNASC

0       2019-02-19
1       2019-02-21
2       2019-02-25
3       2019-03-20
4       2019-03-23
           ...    
16059   2019-08-06
16060   2019-08-09
16061   2019-08-23
16062   2019-08-23
16063   2019-08-25
Name: DTNASC, Length: 16064, dtype: datetime64[ns]

In [12]:
sinasc_day = sinasc_raw[(sinasc_raw.DTNASC.dt.day == 26) &
                                (sinasc_raw.DTNASC.dt.month == 1) &
                                (sinasc_raw.DTNASC.dt.year == 2019)]

print('Em 2019, dos {} nascimentos registrados no Estado de Rondônia, {} ocorreram no dia 26 de janeiro.'.format(
    len(sinasc_raw),
    len(sinasc_day)
))


sinasc_day = sinasc_day.groupby(by=['DTNASC',
                                                    'SEXO',
                                                    'ESCMAE'])['PESO'].mean()

sinasc_day = sinasc_day.to_frame().reindex(labels=['1 a 3 anos',
                                                                   '4 a 7 anos',
                                                                   '8 a 11 anos',
                                                                   '12 anos ou mais'],
                                                           level='ESCMAE')

sinasc_day

Em 2019, dos 16064 nascimentos registrados no Estado de Rondônia, 55 ocorreram no dia 26 de janeiro.


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PESO
DTNASC,SEXO,ESCMAE,Unnamed: 3_level_1
2019-01-26,Feminino,4 a 7 anos,3003.333333
2019-01-26,Feminino,8 a 11 anos,3337.736842
2019-01-26,Feminino,12 anos ou mais,3208.333333
2019-01-26,Masculino,4 a 7 anos,3335.25
2019-01-26,Masculino,8 a 11 anos,3367.941176
2019-01-26,Masculino,12 anos ou mais,3375.0


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [13]:
print('Municípios em que nasceram menos bebês:\n')
print(sinasc_raw.munResNome.value_counts().sort_values().head())

sinasc_raw['COUNT'] = 1
sinasc_3 = sinasc_raw.groupby(by='munResNome')[['COUNT',
                                                'IDADEMAE',
                                                'IDADEPAI']].agg(
    {'COUNT':[('Quantidade de bebês nascidos','count')],
     'IDADEMAE':[('idade média','mean'),
                 ('idade máxima',max),
                 ('idade mínima',min)],
     'IDADEPAI':[('idade média','mean'),
                 ('idade máxima',max),
                 ('idade mínima',min)]})

sinasc_3.sort_values(('COUNT', 'Quantidade de bebês nascidos'))

Municípios em que nasceram menos bebês:

munResNome
Município ignorado - RO     1
Castanheiras               17
Parecis                    23
Pimenteiras do Oeste       23
Primavera de Rondônia      26
Name: count, dtype: int64


Unnamed: 0_level_0,COUNT,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,Quantidade de bebês nascidos,idade média,idade máxima,idade mínima,idade média,idade máxima,idade mínima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Município ignorado - RO,1,24.0,24,24,22.0,22.0,22.0
Castanheiras,17,26.882353,35,18,30.333333,42.0,17.0
Pimenteiras do Oeste,23,25.73913,40,16,35.6,45.0,25.0
Parecis,23,26.434783,41,16,32.333333,48.0,18.0
Primavera de Rondônia,26,27.538462,39,17,32.208333,44.0,21.0
Cabixi,35,25.228571,38,16,34.666667,38.0,31.0
Teixeirópolis,36,25.888889,36,16,31.321429,67.0,20.0
São Felipe D'Oeste,37,26.324324,41,17,31.294118,57.0,18.0
Vale do Paraíso,45,24.8,40,16,30.458333,51.0,19.0
Novo Horizonte do Oeste,46,27.521739,39,16,32.439024,56.0,22.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [14]:
sinasc_mar = sinasc_raw[sinasc_raw.DTNASC.dt.month == 3].copy()

print('O município que mais nasceu bebê no mês de março foi {} com {} nascimentos.'.format(
    sinasc_mar['munResNome'].value_counts().index[0],
    sinasc_mar['munResNome'].value_counts().values[0]))

sinasc_mar['MES'] = sinasc_mar['DTNASC'].dt.month_name()
sinasc_mar['COUNT'] = 1
sinasc_4 = sinasc_mar.groupby(by=['MES',
                                  'munResNome']
                             )[['COUNT',
                                'QTDFILVIVO',
                                'IDADEMAE',
                                'IDADEPAI']
                              ].agg({'COUNT':[('Qtd de bebês nascidos','count')],
                                     'QTDFILVIVO':[('Média','mean'),
                                                   ('Máx',max),
                                                   ('Mín',min)],
                                     'IDADEMAE':[('Média','mean'),
                                                 ('Máx',max),
                                                 ('Mín',min),
                                                 ('Amplitude',lambda x: x.max()-x.min())],
                                     'IDADEPAI':[('Média','mean'),
                                                 ('Máx',max),
                                                 ('Mín',min),
                                                 ('Amplitude',lambda x: x.max()-x.min())]
                                    })

sinasc_4['Diferença da média IDADEPAI-IDADEMAE'] = sinasc_4[('IDADEPAI','Média')]-sinasc_4[('IDADEMAE','Média')]
sinasc_4.sort_values(('COUNT', 'Qtd de bebês nascidos'),
                     ascending=False
                    )

O município que mais nasceu bebê no mês de março foi Porto Velho com 744 nascimentos.


Unnamed: 0_level_0,Unnamed: 1_level_0,COUNT,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,Diferença da média IDADEPAI-IDADEMAE
Unnamed: 0_level_1,Unnamed: 1_level_1,Qtd de bebês nascidos,Média,Máx,Mín,Média,Máx,Mín,Amplitude,Média,Máx,Mín,Amplitude,Unnamed: 14_level_1
MES,munResNome,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
March,Porto Velho,744,1.295056,9.0,0.0,26.596774,44,14,30,34.629032,62.0,19.0,43.0,8.032258
March,Ji-Paraná,188,0.828877,4.0,0.0,25.37766,44,13,31,30.831579,56.0,16.0,40.0,5.453919
March,Vilhena,148,0.979592,5.0,0.0,26.412162,39,16,23,33.5625,47.0,27.0,20.0,7.150338
March,Ariquemes,141,1.064748,4.0,0.0,25.304965,42,14,28,28.666667,29.0,28.0,1.0,3.361702
March,Cacoal,133,0.969697,7.0,0.0,26.466165,40,15,25,30.008197,47.0,17.0,30.0,3.542031
March,Jaru,80,1.025641,5.0,0.0,26.55,40,14,26,33.5,41.0,21.0,20.0,6.95
March,Guajará-Mirim,75,1.534247,8.0,0.0,26.333333,43,14,29,34.5,43.0,26.0,17.0,8.166667
March,Rolim de Moura,69,0.724638,5.0,0.0,27.594203,41,18,23,31.257576,50.0,19.0,31.0,3.663373
March,Ouro Preto do Oeste,67,1.014925,5.0,0.0,25.522388,44,14,30,30.175,57.0,19.0,38.0,4.652612
March,Pimenta Bueno,62,0.836066,4.0,0.0,25.177419,39,14,25,29.611111,49.0,17.0,32.0,4.433692


In [18]:
print('Mediana de todos os municípios no mês de março:')
round(sinasc_4.groupby(by='MES').median())

Mediana de todos os municípios no mês de março:


Unnamed: 0_level_0,COUNT,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,Diferença da média IDADEPAI-IDADEMAE
Unnamed: 0_level_1,Qtd de bebês nascidos,Média,Máx,Mín,Média,Máx,Mín,Amplitude,Média,Máx,Mín,Amplitude,Unnamed: 13_level_1
MES,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
March,18.0,1.0,3.0,0.0,26.0,37.0,16.0,21.0,31.0,40.0,24.0,17.0,5.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Com base nos resultados apresentados, podemos observar que:

- A média de filhos vivos se mantém em torno de 1, independentemente da quantidade de bebês nascidos, em todos os municípios do estado.
- A média de idade dos pais é geralmente maior do que a das mães na maioria dos municípios.
- Embora o município de Ariquemes seja um dos cinco com maior número de bebês nascidos, com um total de 141 nascimentos, a variação de idade entre os pais é uma das menores, com uma diferença de apenas 1 ano, de 28 a 29 anos.