# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [44]:
# Carregando a Base de Dados
sinasc_raw = pd.read_csv('https://raw.githubusercontent.com/vinisavordelli/exercicios_ebac/main/Ci%C3%AAncia%20de%20Dados/Exercicio_5/SINASC_RO_2019.csv')

## Deixando o formato padrão de floats para 2 casas decimais
pd.options.display.float_format = '{:,.2f}'.format

sinasc_raw.head()


Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.94,-62.0,338.0,7067.02
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.94,-62.0,338.0,7067.02
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.94,-62.0,338.0,7067.02
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13,-61.85,397.0,3958.27
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.94,-62.0,338.0,7067.02


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [79]:
## Substitui os dados faltantes da idade do pai pela média
sinasc_raw['IDADEPAI'].fillna(sinasc_raw['IDADEPAI'].mean(), inplace=True)
sinasc_raw.groupby('CODMUNNASC')['IDADEMAE', 'IDADEPAI'].mean().astype(int)


  sinasc_raw.groupby('CODMUNNASC')['IDADEMAE', 'IDADEPAI'].mean().astype(int)


Unnamed: 0_level_0,IDADEMAE,IDADEPAI
CODMUNNASC,Unnamed: 1_level_1,Unnamed: 2_level_1
110001,26,30
110002,25,31
110004,27,31
110005,26,30
110006,26,30
...,...,...
510787,22,27
510790,26,31
510792,18,31
510795,23,26


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [57]:
# Checa por dados faltantes nas colunas utilizadas
print(sinasc_raw.shape)
print(sinasc_raw[['DTNASC', 'ESCMAE', 'PESO']].isna().sum())
# Analisa que a unica coluna com dados faltantes é a coluna de escolaridade da mae
print(f"Os valores faltantes de Escolaridade da mãe representam {((sinasc_raw['ESCMAE'].isna().sum() / sinasc_raw.shape[0])*100).round(2)} % da base")
# Dropa os dados faltantes pois são poucos
sinasc_raw['ESCMAE'].dropna()

born_12_08 = sinasc_raw[sinasc_raw['DTNASC'] == '2019-08-12']
## Como o peso é em gramas, utilzaremos a media como valor inteiro.
born_12_08.groupby('ESCMAE')['PESO'].mean().astype(int)


(27027, 69)
DTNASC      0
ESCMAE    312
PESO        0
dtype: int64
Os valores faltantes de Escolaridade da mãe representam 1.15 % da base


ESCMAE
1 a 3 anos         4315
12 anos ou mais    3203
4 a 7 anos         3205
8 a 11 anos        3172
Name: PESO, dtype: int64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [73]:
# Pega a cidade com menos nascimento, a variável peso foi escolhida pois não possui dados faltantes
cidade = sinasc_raw.groupby('CODMUNNASC')['PESO'].count().sort_values(ascending=True).head(1)
print(cidade)

# Reestabelece a variavel dado e cria um uma variavel com o nome da cidade

lowest_city = pd.DataFrame(cidade).index[0]

aggregated = sinasc_raw.groupby('CODMUNNASC')['IDADEMAE', 'IDADEPAI'].agg([('min', 'min'), ('media', 'mean'), ('max', 'max')]).astype(int)
aggregated[aggregated.index == lowest_city]


CODMUNNASC
110143    1
Name: PESO, dtype: int64


  aggregated = sinasc_raw.groupby('CODMUNNASC')['IDADEMAE', 'IDADEPAI'].agg([('min', 'min'), ('media', 'mean'), ('max', 'max')]).astype(int)


Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,min,media,max,min,media,max
CODMUNNASC,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
110143,19,19,19,20,20,20


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [80]:
# Substitui os faltantes da quantidade de filhos vivos pela média
sinasc_raw['QTDFILVIVO'].fillna(sinasc_raw['QTDFILVIVO'].mean(), inplace=True)

highest_city = sinasc_raw.groupby('CODMUNNASC')['PESO'].count().sort_values(ascending=False).head(1).index[0]

agg = sinasc_raw.groupby('CODMUNNASC')['QTDFILVIVO', 'IDADEPAI', 'IDADEMAE'].agg([('min', 'min'), ('media', 'mean'), ('max', 'max')]).astype(int)
agg[agg.index == highest_city]

  agg = sinasc_raw.groupby('CODMUNNASC')['QTDFILVIVO', 'IDADEPAI', 'IDADEMAE'].agg([('min', 'min'), ('media', 'mean'), ('max', 'max')]).astype(int)


Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEPAI,IDADEPAI,IDADEPAI,IDADEMAE,IDADEMAE,IDADEMAE
Unnamed: 0_level_1,min,media,max,min,media,max,min,media,max
CODMUNNASC,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
110020,0,1,12,16,31,65,11,26,47


#### Insight:

Apesar de ter sido a cidade que registrou mais nascimentos, podemos notar que a média de filhos vivos é de apenas 1, o que não nos sugere que a cidade tenha uma acima da média. Esse número pode ser fácilmente explicado pois Porto Velho (cidade cujo código é mostrado acima) é de longe a maior cidade do estado de Rondônia.

Podemos perceber também que em todos os cortes utilizados, a idade do pai sempre é maior do que a da mãe. Mas para tirar qualquer proveito substancial dessa informação, precisaríamos de um estudo mais aprofundado.