# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [4]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [5]:
sinasc_raw = pd.read_csv('../../../Datasets/SINASC_RO_2019.csv', sep=',')
sinasc_raw.head()

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)

utilizando groupby, pivot_table e agregações.


In [11]:
# groupby
sinasc_raw.groupby('munResNome')['IDADEMAE'].mean()

In [12]:
# pivot_table
sinasc_raw.pivot_table(index='munResNome', values='IDADEMAE', aggfunc='mean')

In [13]:
# agregações
sinasc_raw.groupby('munResNome').agg({'IDADEMAE': 'mean'})

### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [19]:
# groupby
sinasc_raw[sinasc_raw['DTNASC'] == '2019-08-10'].groupby(['SEXO', 'ESCMAE'])['PESO'].mean()

In [21]:
# pivot_table
sinasc_raw[sinasc_raw['DTNASC'] == '2019-08-10'].pivot_table(index=['SEXO', 'ESCMAE'], values='PESO', aggfunc='mean')

In [23]:
# agregações
sinasc_raw[sinasc_raw['DTNASC'] == '2019-08-10'].groupby(['SEXO', 'ESCMAE']).agg({'PESO': 'mean'})

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [39]:
# groupby municipio que nasceu menos bebe
menos_bebe = sinasc_raw.groupby('munResNome').size().idxmin()

In [38]:
# pivot_table
sinasc_raw.pivot_table(index='munResNome', values=['IDADEMAE', 'IDADEPAI'],
                       aggfunc={'IDADEMAE': ['mean', 'max', 'min'],
                                'IDADEPAI': ['mean', 'max', 'min']}).loc[menos_bebe]

In [40]:
# agregações
sinasc_raw.groupby('munResNome').agg({'IDADEMAE': ['mean', 'max', 'min'],
                                      'IDADEPAI': ['mean', 'max', 'min']}).loc[menos_bebe]

### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [66]:
# groupby e value counts municipio que nasceu mais bebe no mês de março
mun_mais_nasc = sinasc_raw[sinasc_raw['DTNASC'].str.contains('2019-03')].groupby('munResNome')[
    'IDADEMAE'].count().idxmax()

In [71]:

# groupby 
sinasc_raw.groupby('munResNome')[['QTDFILVIVO','IDADEMAE','IDADEPAI']].mean().loc[mun_mais_nasc]


In [64]:
# pivot_table
sinasc_raw[sinasc_raw['munResNome'] == mun_mais_nasc].pivot_table(index='munResNome',
                                                                  values=['IDADEMAE', 'IDADEPAI', 'QTDFILVIVO'],
                                                                  aggfunc={'IDADEMAE': ['mean', 'max', 'min'],
                                                                           'IDADEPAI': ['mean', 'max', 'min'],
                                                                           'QTDFILVIVO': ['mean', 'max', 'min']})

In [60]:
# agregações
sinasc_raw.groupby('munResNome').agg({'IDADEMAE': ['mean', 'max', 'min'],
                                      'IDADEPAI': ['mean', 'max', 'min'],
                                      'QTDFILVIVO': ['mean', 'max', 'min']}).loc[mun_mais_nasc]

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Análise: O município com menos nascimentos não nos deu muitas informações, ele têm apenas 1 registro e nem o nome do município está correto, teriamos que aplicar um filtro para selecionar um com mais pelo menos algumas entradas. Os pais são em média mais velhos que as mães, mas Meu Deus têm registro de uma menina que foi mãe aos 12 anos! 

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [6]:
sinasc_raw.dtypes

In [7]:
sinasc_raw.select_dtypes(exclude=['int64', 'float64'])

In [4]:
sinasc_raw.columns