## Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 0. Índice <a name="Contents"></a>
1. [Importando bibliotecas](#import)
2. [Carregando o dataframe](#read)
5. [GroupBy: Dividir, Aplicar, Combinar (Split, Apply, Combine)](#split)
5. [Estrutura do Groupby](#estrutura)
5. [Pivot table](#pivot)
5. [Group by DTNASC e contagem da IDADEMAE](#dtnasc)
    1. [Em SQL](#sql)
    1. [Em Excel](#excel)
    1. [Python com ``groupby()``](#py_group)
    1. [Python com ``pivot_table()``](#py_pivot)



# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_theme() 
%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

SINASC - Sistema de Informações de Nascidos Vivos

     
O DATASUS desenvolveu o Sistema de Informações sobre Nascidos Vivos (SINASC) visando reunir informações epidemiológicas referentes aos nascimentos informados em todo território nacional. Sua implantação ocorreu de forma lenta e gradual em todas as Unidades da Federação.     
     
http://www2.datasus.gov.br/DATASUS/index.php?area=060702


In [3]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [4]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# 3.0 GroupBy: Dividir, Aplicar, Combinar (Split, Apply, Combine)<a name="split"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)



<img src="split-apply-combine.png" width="750" align="center">


https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html

In [5]:
sinasc_1 = sinasc_raw[['ESCMAE', 'IDADEMAE','DTNASC']]
sinasc_1.head()

Unnamed: 0,ESCMAE,IDADEMAE,DTNASC
0,8 a 11 anos,19,2019-02-19
1,8 a 11 anos,29,2019-02-21
2,8 a 11 anos,37,2019-02-25
3,12 anos ou mais,30,2019-03-20
4,8 a 11 anos,30,2019-03-23


In [7]:
sinasc_1.mean()

TypeError: can only concatenate str (not "int") to str

In [8]:
sinasc_1.ESCMAE.value_counts()

ESCMAE
8 a 11 anos        15633
12 anos ou mais     5767
4 a 7 anos          4760
1 a 3 anos           516
Nenhuma               40
Name: count, dtype: int64

# 4.0  Estrutura do Groupby <a name="estrutura"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)



In [9]:
sinasc_1.groupby('ESCMAE')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f1da84b9a90>

In [10]:
sinasc_1.groupby('ESCMAE').mean()

TypeError: Could not convert 2019-03-272019-03-112019-03-282019-01-102019-01-242019-01-082019-01-142019-01-122019-01-232019-01-102019-01-152019-01-192019-01-242019-01-312019-02-152019-02-212019-02-112019-02-032019-02-142019-02-162019-02-162019-02-262019-02-232019-03-012019-03-012019-03-072019-03-152019-03-062019-03-032019-03-042019-03-182019-03-232019-03-262019-03-232019-03-262019-04-152019-04-082019-04-122019-04-232019-04-022019-04-082019-04-082019-04-122019-04-122019-04-192019-04-202019-04-222019-05-152019-05-082019-05-082019-05-102019-05-112019-05-272019-05-282019-06-172019-06-062019-06-172019-06-182019-06-292019-02-262019-03-272019-05-022019-05-092019-05-182019-01-022019-02-272019-06-202019-01-042019-02-182019-03-032019-04-112019-05-282019-05-312019-01-012019-02-132019-02-172019-02-172019-03-132019-04-032019-04-142019-05-132019-06-202019-01-272019-03-062019-03-222019-04-102019-05-122019-05-212019-05-202019-05-232019-01-282019-01-292019-01-192019-02-252019-06-272019-04-102019-01-052019-02-022019-02-222019-03-262019-04-032019-04-172019-04-252019-06-042019-06-122019-06-102019-06-102019-05-162019-06-042019-01-072019-01-092019-01-102019-01-102019-01-112019-01-122019-01-132019-01-132019-01-142019-01-052019-01-182019-01-202019-01-222019-01-162019-01-162019-01-162019-01-282019-02-042019-02-082019-02-082019-02-092019-02-222019-02-232019-02-242019-02-262019-02-262019-02-262019-03-012019-03-032019-03-032019-03-052019-03-092019-03-162019-03-172019-03-172019-03-172019-03-062019-03-202019-03-212019-03-302019-04-082019-04-252019-04-132019-04-152019-04-142019-04-142019-04-152019-04-152019-04-212019-05-012019-05-012019-05-182019-05-242019-05-242019-05-252019-05-262019-05-262019-05-262019-06-012019-06-042019-06-052019-06-062019-06-082019-06-132019-06-182019-06-272019-06-292019-06-192019-06-212019-06-212019-01-022019-01-252019-01-272019-02-102019-02-192019-02-212019-02-212019-03-052019-03-232019-03-232019-04-032019-04-062019-04-132019-04-172019-04-182019-04-262019-04-272019-04-302019-05-042019-05-072019-05-232019-05-242019-06-012019-06-052019-06-052019-06-102019-06-172019-06-212019-06-262019-06-302019-06-262019-01-132019-02-072019-02-162019-05-022019-04-102019-05-092019-06-142019-02-032019-02-062019-02-102019-02-112019-03-212019-04-202019-05-022019-05-032019-06-282019-03-252019-02-172019-05-072019-01-292019-04-222019-05-282019-05-162019-06-032019-03-272019-03-202019-04-072019-01-102019-01-172019-02-112019-02-132019-02-222019-03-112019-05-042019-05-152019-05-152019-06-132019-01-112019-03-072019-01-242019-04-102019-04-172019-05-092019-06-142019-06-152019-05-092019-07-082019-07-122019-08-172019-09-102019-09-232019-07-052019-07-152019-07-162019-07-012019-07-072019-07-102019-07-232019-07-212019-08-132019-08-072019-08-032019-08-172019-09-072019-09-092019-09-152019-09-212019-09-212019-09-242019-10-302019-10-142019-10-042019-10-092019-11-052019-11-052019-11-022019-11-032019-11-132019-11-262019-11-172019-11-062019-11-172019-11-202019-12-092019-12-292019-12-302019-12-142019-12-152019-12-172019-12-042019-12-212019-12-302019-12-312019-07-242019-08-192019-09-162019-11-072019-11-092019-11-112019-11-262019-07-112019-08-092019-07-242019-07-292019-08-232019-07-192019-07-132019-08-022019-09-012019-09-072019-09-202019-10-212019-11-102019-12-292019-07-182019-07-232019-08-222019-09-082019-09-112019-09-112019-09-202019-11-292019-12-042019-11-222019-11-042019-07-022019-07-282019-08-252019-08-262019-09-062019-10-132019-08-022019-08-262019-08-292019-08-312019-09-042019-09-102019-08-172019-11-082019-12-052019-09-042019-10-232019-10-032019-11-062019-07-042019-08-252019-09-112019-10-082019-10-112019-10-142019-07-062019-11-102019-11-272019-12-012019-12-182019-07-032019-07-102019-07-172019-07-192019-07-232019-07-252019-07-252019-07-312019-07-312019-08-062019-08-052019-08-072019-08-062019-08-032019-07-042019-08-082019-08-092019-08-132019-08-142019-08-142019-08-152019-08-152019-08-172019-08-172019-08-302019-09-052019-09-182019-09-182019-09-202019-09-212019-09-212019-09-122019-09-152019-09-242019-09-262019-09-272019-10-052019-10-052019-10-052019-10-112019-10-112019-10-112019-10-112019-09-242019-09-132019-09-062019-10-162019-10-232019-10-242019-10-192019-10-252019-07-182019-11-092019-11-092019-11-132019-11-142019-11-152019-11-152019-11-192019-11-192019-11-122019-11-202019-11-212019-11-182019-12-052019-11-282019-11-282019-11-282019-12-122019-12-152019-12-192019-12-192019-12-192019-12-212019-12-192019-12-242019-12-262019-12-272019-12-282019-12-292019-12-312019-07-082019-07-102019-07-262019-08-022019-08-052019-08-092019-08-202019-08-272019-09-132019-09-252019-10-242019-11-022019-11-042019-11-152019-11-292019-12-102019-12-132019-12-142019-12-162019-12-192019-12-202019-07-182019-07-242019-08-212019-09-142019-10-022019-11-202019-11-112019-12-302019-12-302019-07-312019-09-152019-09-272019-12-112019-07-112019-11-152019-11-302019-09-262019-08-182019-08-092019-09-262019-10-092019-10-032019-11-142019-11-232019-12-042019-08-312019-09-032019-09-142019-09-282019-09-282019-09-232019-09-232019-10-122019-12-182019-08-192019-07-212019-07-262019-07-262019-08-122019-08-152019-08-312019-09-132019-09-192019-09-262019-10-052019-11-212019-11-232019-12-152019-12-28 to numeric


``` python
df.groupby(by = None, axis = 0, level = None, as_index: bool = True,
           sort: bool = True, group_keys: bool = True,
           squeeze: bool = <object object at 0x00000225ADF7E510>,
           observed: bool = False, dropna: bool = True
) -> 'DataFrameGroupBy'

```

# 5.0 Pivot table<a name="pivot"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

``` python 
sinasc_3.pivot_table(values=None, index=None, columns=None, aggfunc='mean',
                    fill_value=None, margins=False, dropna=True, margins_name='All',
                    observed=False,
) -> 'DataFrame'

```

In [11]:
sinasc_1.pivot_table(index='ESCMAE',
                     aggfunc='mean')

TypeError: Could not convert 2019-03-272019-03-112019-03-282019-01-102019-01-242019-01-082019-01-142019-01-122019-01-232019-01-102019-01-152019-01-192019-01-242019-01-312019-02-152019-02-212019-02-112019-02-032019-02-142019-02-162019-02-162019-02-262019-02-232019-03-012019-03-012019-03-072019-03-152019-03-062019-03-032019-03-042019-03-182019-03-232019-03-262019-03-232019-03-262019-04-152019-04-082019-04-122019-04-232019-04-022019-04-082019-04-082019-04-122019-04-122019-04-192019-04-202019-04-222019-05-152019-05-082019-05-082019-05-102019-05-112019-05-272019-05-282019-06-172019-06-062019-06-172019-06-182019-06-292019-02-262019-03-272019-05-022019-05-092019-05-182019-01-022019-02-272019-06-202019-01-042019-02-182019-03-032019-04-112019-05-282019-05-312019-01-012019-02-132019-02-172019-02-172019-03-132019-04-032019-04-142019-05-132019-06-202019-01-272019-03-062019-03-222019-04-102019-05-122019-05-212019-05-202019-05-232019-01-282019-01-292019-01-192019-02-252019-06-272019-04-102019-01-052019-02-022019-02-222019-03-262019-04-032019-04-172019-04-252019-06-042019-06-122019-06-102019-06-102019-05-162019-06-042019-01-072019-01-092019-01-102019-01-102019-01-112019-01-122019-01-132019-01-132019-01-142019-01-052019-01-182019-01-202019-01-222019-01-162019-01-162019-01-162019-01-282019-02-042019-02-082019-02-082019-02-092019-02-222019-02-232019-02-242019-02-262019-02-262019-02-262019-03-012019-03-032019-03-032019-03-052019-03-092019-03-162019-03-172019-03-172019-03-172019-03-062019-03-202019-03-212019-03-302019-04-082019-04-252019-04-132019-04-152019-04-142019-04-142019-04-152019-04-152019-04-212019-05-012019-05-012019-05-182019-05-242019-05-242019-05-252019-05-262019-05-262019-05-262019-06-012019-06-042019-06-052019-06-062019-06-082019-06-132019-06-182019-06-272019-06-292019-06-192019-06-212019-06-212019-01-022019-01-252019-01-272019-02-102019-02-192019-02-212019-02-212019-03-052019-03-232019-03-232019-04-032019-04-062019-04-132019-04-172019-04-182019-04-262019-04-272019-04-302019-05-042019-05-072019-05-232019-05-242019-06-012019-06-052019-06-052019-06-102019-06-172019-06-212019-06-262019-06-302019-06-262019-01-132019-02-072019-02-162019-05-022019-04-102019-05-092019-06-142019-02-032019-02-062019-02-102019-02-112019-03-212019-04-202019-05-022019-05-032019-06-282019-03-252019-02-172019-05-072019-01-292019-04-222019-05-282019-05-162019-06-032019-03-272019-03-202019-04-072019-01-102019-01-172019-02-112019-02-132019-02-222019-03-112019-05-042019-05-152019-05-152019-06-132019-01-112019-03-072019-01-242019-04-102019-04-172019-05-092019-06-142019-06-152019-05-092019-07-082019-07-122019-08-172019-09-102019-09-232019-07-052019-07-152019-07-162019-07-012019-07-072019-07-102019-07-232019-07-212019-08-132019-08-072019-08-032019-08-172019-09-072019-09-092019-09-152019-09-212019-09-212019-09-242019-10-302019-10-142019-10-042019-10-092019-11-052019-11-052019-11-022019-11-032019-11-132019-11-262019-11-172019-11-062019-11-172019-11-202019-12-092019-12-292019-12-302019-12-142019-12-152019-12-172019-12-042019-12-212019-12-302019-12-312019-07-242019-08-192019-09-162019-11-072019-11-092019-11-112019-11-262019-07-112019-08-092019-07-242019-07-292019-08-232019-07-192019-07-132019-08-022019-09-012019-09-072019-09-202019-10-212019-11-102019-12-292019-07-182019-07-232019-08-222019-09-082019-09-112019-09-112019-09-202019-11-292019-12-042019-11-222019-11-042019-07-022019-07-282019-08-252019-08-262019-09-062019-10-132019-08-022019-08-262019-08-292019-08-312019-09-042019-09-102019-08-172019-11-082019-12-052019-09-042019-10-232019-10-032019-11-062019-07-042019-08-252019-09-112019-10-082019-10-112019-10-142019-07-062019-11-102019-11-272019-12-012019-12-182019-07-032019-07-102019-07-172019-07-192019-07-232019-07-252019-07-252019-07-312019-07-312019-08-062019-08-052019-08-072019-08-062019-08-032019-07-042019-08-082019-08-092019-08-132019-08-142019-08-142019-08-152019-08-152019-08-172019-08-172019-08-302019-09-052019-09-182019-09-182019-09-202019-09-212019-09-212019-09-122019-09-152019-09-242019-09-262019-09-272019-10-052019-10-052019-10-052019-10-112019-10-112019-10-112019-10-112019-09-242019-09-132019-09-062019-10-162019-10-232019-10-242019-10-192019-10-252019-07-182019-11-092019-11-092019-11-132019-11-142019-11-152019-11-152019-11-192019-11-192019-11-122019-11-202019-11-212019-11-182019-12-052019-11-282019-11-282019-11-282019-12-122019-12-152019-12-192019-12-192019-12-192019-12-212019-12-192019-12-242019-12-262019-12-272019-12-282019-12-292019-12-312019-07-082019-07-102019-07-262019-08-022019-08-052019-08-092019-08-202019-08-272019-09-132019-09-252019-10-242019-11-022019-11-042019-11-152019-11-292019-12-102019-12-132019-12-142019-12-162019-12-192019-12-202019-07-182019-07-242019-08-212019-09-142019-10-022019-11-202019-11-112019-12-302019-12-302019-07-312019-09-152019-09-272019-12-112019-07-112019-11-152019-11-302019-09-262019-08-182019-08-092019-09-262019-10-092019-10-032019-11-142019-11-232019-12-042019-08-312019-09-032019-09-142019-09-282019-09-282019-09-232019-09-232019-10-122019-12-182019-08-192019-07-212019-07-262019-07-262019-08-122019-08-152019-08-312019-09-132019-09-192019-09-262019-10-052019-11-212019-11-232019-12-152019-12-28 to numeric

# 6.0 Group by DTNASC e contagem da IDADEMAE <a name="dtnasc"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

##  6.1 Em SQL <a name="sql"></a>

``` sql
SELECT DTNASC, count(IDADEMAE) 
FROM sinasc
GROUP BY DTNASC

```

## 6.2 Em excel <a name="excel"></a>

<img src="groupby_gif_2.gif" width="750" align="center">

## 6.3 Python com ``groupby()`` <a name="py_group"></a>

In [None]:
sinasc_1.groupby('DTNASC')['IDADEMAE'].count().to_frame()

## 6.4 Python com ``pivot_table()`` <a name="py_pivot"></a>

In [None]:
sinasc_1.pivot_table(values = 'IDADEMAE',index = 'DTNASC', aggfunc='count')

In [None]:
sinasc_1.pivot_table(values = 'IDADEMAE',index = 'DTNASC', aggfunc='mean').plot(figsize=[18,5]);