# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [3]:
sinasc_raw[['IDADEMAE','IDADEPAI','munResNome']].groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [4]:
sinasc_2901 = sinasc_raw[sinasc_raw['DTNASC'] == '2019-01-29']

In [5]:
sinasc_2901[['PESO','SEXO','ESCMAE']].groupby(['ESCMAE', 'SEXO'])['PESO'].mean().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Feminino,3177.5
12 anos ou mais,Feminino,3370.454545
12 anos ou mais,Masculino,3776.0
4 a 7 anos,Feminino,3170.0
4 a 7 anos,Masculino,3276.0
8 a 11 anos,Feminino,3259.666667
8 a 11 anos,Masculino,3358.1875


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [6]:
sinasc_raw['munResNome'].value_counts(ascending=True).head()

munResNome
Município ignorado - RO     1
Castanheiras               32
Pimenteiras do Oeste       40
Primavera de Rondônia      43
Parecis                    44
Name: count, dtype: int64

**Resposta:** O município em que nasceu menos bebê em 2019 foi **Castanheiras**.

In [7]:
sinasc_2 = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras'][['IDADEMAE','IDADEPAI']]
sinasc_2.aggregate(['mean','max','min']).round(2)

Unnamed: 0,IDADEMAE,IDADEPAI
mean,27.28,30.39
max,39.0,43.0
min,17.0,17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [8]:
#Convertendo data para formato correto
sinasc_3 = sinasc_raw
sinasc_3.loc[:,'DTNASC'] = pd.to_datetime(sinasc_3['DTNASC'])
sinasc_3.set_index('DTNASC', inplace=True)
sinasc_3.head()

Unnamed: 0_level_0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
DTNASC,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2019-02-19,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2019-02-21,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2019-02-25,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2019-03-20,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
2019-03-23,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [9]:
sinasc_3 = sinasc_3[sinasc_3.index.month == 3]

In [10]:
sinasc_3['munResNome'].value_counts().head()

munResNome
Porto Velho    744
Ji-Paraná      188
Vilhena        148
Ariquemes      141
Cacoal         133
Name: count, dtype: int64

**Resposta:** O município em que nasceu mais bebê em março foi **Porto Velho**.

In [11]:
sinasc_4 = sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho'][['QTDFILVIVO','IDADEPAI']]
sinasc_4.aggregate(['mean','max','min']).round(2)

Unnamed: 0,QTDFILVIVO,IDADEPAI
mean,1.17,32.35
max,12.0,65.0
min,0.0,16.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

In [12]:
sinasc_raw.groupby('ESCMAE')['PARTO'].value_counts().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,count
ESCMAE,PARTO,Unnamed: 2_level_1
1 a 3 anos,Cesáreo,273
1 a 3 anos,Vaginal,242
12 anos ou mais,Cesáreo,4698
12 anos ou mais,Vaginal,1051
4 a 7 anos,Cesáreo,2606
4 a 7 anos,Vaginal,2150
8 a 11 anos,Cesáreo,10208
8 a 11 anos,Vaginal,5399
Nenhuma,Vaginal,21
Nenhuma,Cesáreo,19


Descobri que mães com escolaridade "nenhuma", "1 a 3 anos" e "4 a 7 anos" tem realizam parto "vaginal" em uma proporção próxima de "cesáreo".

Enquanto isso, mães com escolaridade "8 a 10 anos" ou "12 anos ou mais" tem maior probabilidade de fazer parto "Cesáreo".