# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [64]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline
print( 'Setup Completo' )

Setup Completo


# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [65]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw['PESO'].head()

0    3685
1    3055
2    3460
3    2982
4    3310
Name: PESO, dtype: int64

In [66]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [67]:
media_idades = sinasc_raw.groupby('munResNome').agg({'IDADEMAE': 'mean', 'IDADEPAI': 'mean'})

media_idades.head(5)

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [68]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'], errors='coerce')

filtered_data = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 4]
filtered_data = filtered_data[filtered_data['DTNASC'].dt.day == 28]

peso_medio = filtered_data.groupby(['SEXO', 'ESCMAE'])['PESO'].mean()

peso_medio.head()


SEXO       ESCMAE         
Feminino   12 anos ou mais    3559.666667
           4 a 7 anos         3209.250000
           8 a 11 anos        3061.470588
Masculino  12 anos ou mais    3261.500000
           4 a 7 anos         3772.333333
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [69]:
quant_nasc_cidade = sinasc_raw.groupby('munResNome').size()

#3.2 - qual a idade media, maxima, minima das maes nesse municipio?

estatisticas_idade_mae = sinasc_raw.groupby('munResNome')['IDADEMAE'].agg(['mean', 'max', 'min'])

estatisticas_idade_mae.head()
#3.3 - qual a idade media, maxima, minima dos pais nesse municipio?

estatisticas_idade_pai = sinasc_raw.groupby('munResNome')['IDADEPAI'].agg(['mean', 'max', 'min'])
estatisticas_idade_pai.head()

Unnamed: 0_level_0,mean,max,min
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alta Floresta D'Oeste,29.548701,58.0,17.0
Alto Alegre dos Parecis,29.179104,50.0,16.0
Alto Paraíso,28.833333,49.0,21.0
Alvorada D'Oeste,30.757282,52.0,17.0
Ariquemes,32.466667,51.0,20.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [108]:
#4.0 - Qual o municipio que nasceu mais bebe no mês de março?

marco = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]
nascimentos_por_municipio = marco.groupby('munResNome').size()
municipio_mais_nascimentos = nascimentos_por_municipio.idxmax()
nascimentos_totais_por_municipio = marco.groupby('munResNome')['QTDFILVIVO'].sum()
total_filhos_vivos = nascimentos_totais_por_municipio.sum()
max_nascimentos = nascimentos_por_municipio.max()
print(municipio_mais_nascimentos)
print('O municipio que teve mais nascimentos em março foi', municipio_mais_nascimentos)
print('A quantidade de nascimento em março foi de', max_nascimentos)

#4.1 - Qual a quantidade de filhos vivos media, maxima, minima nesse municipio?


dados_municipio = sinasc_raw[(sinasc_raw['munResNome'] == municipio_mais_nascimentos) & (sinasc_raw['DTNASC'].dt.month == 3)]
filhos_vivos_estatisticas = dados_municipio['QTDFILVIVO'].agg(['mean', 'max', 'min']).rename({
    'mean': 'Média de Filhos Vivos',
    'max': 'Máximo de Filhos Vivos',
    'min': 'Mínimo de Filhos Vivos'
})
print(filhos_vivos_estatisticas)

#4.2 - qual a idade media, maxima, minima dos pais nesse municipio?

pais_estatisticas = dados_municipio['IDADEPAI'].agg(['mean', 'max', 'min']).rename({
    'mean': 'Média de Filhos Vivos',
    'max': 'Máximo de Filhos Vivos',
    'min': 'Mínimo de Filhos Vivos'
})
print(pais_estatisticas)

print('com as informações obtidas podemos afirmar se tratar da capital que houveram 744 nascimentos no periodo de março e as familias tem em média 1.3 filhos e a maior familia no municipio tem 9 a idade do pai varia de 19 a menor e 62 a maior com média de 35 anos.')
      

Porto Velho
O municipio que teve mais nascimentos em março foi Porto Velho
A quantidade de nascimento em março foi de 744
Média de Filhos Vivos     1.295056
Máximo de Filhos Vivos    9.000000
Mínimo de Filhos Vivos    0.000000
Name: QTDFILVIVO, dtype: float64
Média de Filhos Vivos     34.629032
Máximo de Filhos Vivos    62.000000
Mínimo de Filhos Vivos    19.000000
Name: IDADEPAI, dtype: float64
com as informações obtidas podemos afirmar se tratar da capital que houveram 744 nascimentos no periodo de março e as familias tem em média 1.3 filhos e a maior familia no municipio tem 9 a idade do pai varia de 19 a menor e 62 a maior com média de 35 anos.
