## Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 0. Índice <a name="Contents"></a>
1. [Importando bibliotecas](#import)
2. [Carregando o dataframe](#read)
5. [GroupBy: Dividir, Aplicar, Combinar (Split, Apply, Combine)](#split)
5. [Estrutura do Groupby](#estrutura)
5. [Pivot table](#pivot)
5. [Group by DTNASC e contagem da IDADEMAE](#dtnasc)
    1. [Em SQL](#sql)
    1. [Em Excel](#excel)
    1. [Python com ``groupby()``](#py_group)
    1. [Python com ``pivot_table()``](#py_pivot)



# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_theme() 
%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

SINASC - Sistema de Informações de Nascidos Vivos

     
O DATASUS desenvolveu o Sistema de Informações sobre Nascidos Vivos (SINASC) visando reunir informações epidemiológicas referentes aos nascimentos informados em todo território nacional. Sua implantação ocorreu de forma lenta e gradual em todas as Unidades da Federação.     
     
http://www2.datasus.gov.br/DATASUS/index.php?area=060702


In [None]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

In [None]:
sinasc_raw.info()

# 3.0 GroupBy: Dividir, Aplicar, Combinar (Split, Apply, Combine)<a name="split"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)</div>


<img src="split-apply-combine.png" width="750" align="center">


https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html

In [None]:
sinasc_1 = sinasc_raw[['ESCMAE', 'IDADEMAE','DTNASC']]
sinasc_1.head()

In [None]:
sinasc_1.mean()

In [None]:
sinasc_1.ESCMAE.value_counts()

# 4.0  Estrutura do Groupby <a name="estrutura"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)



In [None]:
sinasc_1.groupby('ESCMAE')

In [None]:
sinasc_1.groupby('ESCMAE').mean()


``` python
df.groupby(by = None, axis = 0, level = None, as_index: bool = True,
           sort: bool = True, group_keys: bool = True,
           squeeze: bool = <object object at 0x00000225ADF7E510>,
           observed: bool = False, dropna: bool = True
) -> 'DataFrameGroupBy'

```

# 5.0 Pivot table<a name="pivot"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

``` python 
sinasc_3.pivot_table(values=None, index=None, columns=None, aggfunc='mean',
                    fill_value=None, margins=False, dropna=True, margins_name='All',
                    observed=False,
) -> 'DataFrame'

```

In [None]:
sinasc_1.pivot_table(index='ESCMAE',
                     aggfunc='mean')

# 6.0 Group by DTNASC e contagem da IDADEMAE <a name="dtnasc"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

##  6.1 Em SQL <a name="sql"></a>

``` sql
SELECT DTNASC, count(IDADEMAE) 
FROM sinasc
GROUP BY DTNASC

```

## 6.2 Em excel <a name="excel"></a>

<img src="groupby_gif_2.gif" width="750" align="center">

## 6.3 Python com ``groupby()`` <a name="py_group"></a>

In [None]:
sinasc_1.groupby('DTNASC')['IDADEMAE'].count().to_frame()

## 6.4 Python com ``pivot_table()`` <a name="py_pivot"></a>

In [None]:
sinasc_1.pivot_table(values = 'IDADEMAE',index = 'DTNASC', aggfunc='count')

In [None]:
sinasc_1.pivot_table(values = 'IDADEMAE',index = 'DTNASC', aggfunc='mean').plot(figsize=[18,5]);