# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [5]:
sinasc_raw['munResNome']

0          Alta Floresta D'Oeste
1          Alta Floresta D'Oeste
2          Alta Floresta D'Oeste
3        Alto Alegre dos Parecis
4          Alta Floresta D'Oeste
                  ...           
27023                    Vilhena
27024                Chupinguaia
27025                    Vilhena
27026                    Vilhena
27027    Novo Horizonte do Oeste
Name: munResNome, Length: 27028, dtype: object

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [6]:
sinasc_1 = sinasc_raw[['munResNome' ,'IDADEMAE', 'IDADEPAI']]
sinasc_1.groupby('munResNome').mean().sort_values(by=['IDADEPAI'])



Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Município ignorado - RO,24.0,22.0
Rio Crespo,26.66,28.0
Alto Paraíso,24.960177,28.833333
Alto Alegre dos Parecis,24.844156,29.179104
Governador Jorge Teixeira,24.401786,29.222222
Alta Floresta D'Oeste,25.991826,29.548701
Chupinguaia,25.333333,29.62963
Pimenta Bueno,25.199675,29.745174
Candeias do Jamari,25.243323,29.894737
Vale do Paraíso,25.679012,29.976744


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [7]:
sinasc_2 = sinasc_raw[['DTNASC','PESO', 'SEXO',  'ESCMAE']]
sinasc_2.loc[sinasc_2['DTNASC'] == '2019-06-28'].groupby(['ESCMAE', 'SEXO'])['PESO'].mean().to_frame()


Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Masculino,3462.0
12 anos ou mais,Feminino,3081.0
12 anos ou mais,Masculino,3280.8
4 a 7 anos,Feminino,3307.125
4 a 7 anos,Masculino,3293.375
8 a 11 anos,Feminino,3158.076923
8 a 11 anos,Masculino,3205.241379


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [8]:
sinasc_3 = sinasc_raw[['IDADEMAE','munResNome', 'IDADEPAI', 'SEXO']].copy()
sinasc_3.groupby(['munResNome'])['SEXO'].count().to_frame().sort_values(by='SEXO')

Unnamed: 0_level_0,SEXO
munResNome,Unnamed: 1_level_1
Município ignorado - RO,1
Castanheiras,32
Pimenteiras do Oeste,40
Primavera de Rondônia,43
Parecis,44
Rio Crespo,50
São Felipe D'Oeste,54
Teixeirópolis,64
Cacaulândia,75
Cabixi,80


In [9]:
sinasc_3.loc[sinasc_3['munResNome'] == 'Castanheiras'].groupby('munResNome').agg({'IDADEMAE': ['min','mean','max'],
                                                                                   'IDADEPAI': ['min','mean','max']})

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,min,mean,max,min,mean,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,17,27.28125,39,17.0,30.392857,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [10]:
sinasc_4 = sinasc_raw[['DTNASC','munResNome', 'IDADEMAE',  'IDADEPAI','SEXO', 'GRAVIDEZ','QTDFILVIVO', 'PARTO']].copy()
sinasc_4['DTNASC'] = pd.to_datetime(sinasc_4['DTNASC'])
marco = sinasc_4.loc[sinasc_4['DTNASC'].dt.month == 3]
marco.groupby(['munResNome'])['PARTO'].count().to_frame().sort_values(by='PARTO', ascending=False)


Unnamed: 0_level_0,PARTO
munResNome,Unnamed: 1_level_1
Porto Velho,740
Ji-Paraná,188
Vilhena,148
Ariquemes,141
Cacoal,133
Jaru,80
Guajará-Mirim,75
Rolim de Moura,68
Ouro Preto do Oeste,67
Pimenta Bueno,62


In [11]:
sinasc_4.loc[sinasc_4['munResNome'] == 'Porto Velho'].groupby('munResNome').agg({'QTDFILVIVO': ['min','mean','max'],
                                                                            'IDADEMAE': ['min','mean','max'],
                                                                            'IDADEPAI': ['min','mean','max']})


Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,min,mean,max,min,mean,max,min,mean,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Porto Velho,0.0,1.167236,12.0,12,26.31267,47,16.0,32.352679,65.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

### Insight questão 1

Analisando a idade media de mães e pais entre os municipios é possivel afirmar que
a idade media de maes variam entre 24 e 27 anos enquanto a dos pais variam entre 28
e 34 anos com casos unicos de 22 anos sendo o minimo e de 35, 36 e 42 anos sendo o maximo.

### Insight questão 2

analisando o peso médio de bebes por sexo que nasceram nos dias 28-06-2019 por faixa de escolaridade da mae, podemos notar que as mães tem ao menos de 1 a 3 anos de escolaridade e que o bebê mais pesado é masculino e o menos pesado é feminino.

### Insight questão 3
ao analisar o municipio que nasceu menos bebes notamos um dado erroneo com apenas 1 contagem, vamos ignorar e iremos prosseguir com o municipio de Castanheiras que contem 32 bebes nascidos em 2019.
temos as medias de idade de mae sendo 27 e de pai sendo 30, enquanto a idade minima para ambos é de 17.

### Insight questão 4  *CORRIGIDA*

podemos analisar com os dados que temos, que a cidade de Porto Velho foi o municipio que mais teve bebes nascidos em março, com uma taxa minima de filhos vivos de 0.0 e maximo 12.0 vemos também que a idade minima das maes é de 12 e dos pais 16 anos. Notamos também que a idade maxima de pais é de 65 anos.

In [12]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [15]:
sinasc_raw.select_dtypes(exclude=['object']).columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES', 'CONSULTAS',
       'HORANASC', 'APGAR1', 'APGAR5', 'PESO', 'IDANOMAL', 'NUMEROLOTE',
       'DIFDATA', 'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU',
       'ESCMAE2010', 'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT',
       'QTDPARTNOR', 'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC',
       'TPMETESTIM', 'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART',
       'STCESPARTO', 'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC',
       'ESCMAEAGR1', 'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON',
       'PARIDADE', 'KOTELCHUCK', 'CONTADOR', 'munResLat', 'munResLon',
       'munResAlt', 'munResArea'],
      dtype='object')

In [14]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')