# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
df = pd.read_csv('datasus.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [3]:
# colunas 'IDADEMAE' | 'munResNome'

media_idade = df.groupby('munResNome')[['IDADEMAE', 'IDADEPAI']].mean()
media_idade

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### Logo acima temos a idade média das mães e pais de recem nascidos, separados por municício:

> Ex.: Idade média das mães na cidade de Alta Floresta D'Oeste é aproximadamente 26 anos.

### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [4]:
media_peso = df[df['DTNASC'] == '2019-06-07'].groupby(
    ['ESCMAE', 'SEXO'], as_index=False)['PESO'].mean()

media_peso

Unnamed: 0,ESCMAE,SEXO,PESO
0,12 anos ou mais,Feminino,3360.571429
1,12 anos ou mais,Masculino,3463.75
2,4 a 7 anos,Feminino,3410.0
3,4 a 7 anos,Masculino,2869.25
4,8 a 11 anos,Feminino,3044.666667
5,8 a 11 anos,Masculino,3278.8
6,Nenhuma,Feminino,3845.0
7,Nenhuma,Masculino,350.0


### No meu caso, sou nascido no dia 07 de junho, logo o dataframe está ajustado para mostrar apenas crianças que nasceram nesse mesmo dia, separados  por sexo e anos de estudo da mãe:

> Ex.: mães que tem de 4 a 7 anos de estudo, tiveram filhos do sexo masculino com peso em média de 2,86 Kg.

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [98]:

menosbbs = df.groupby('munResNome').agg(
    nascimentos = ('munResNome', 'size'),
    idade_mae_media = ('IDADEMAE', 'mean'),
    idade_mae_max = ('IDADEMAE', 'max'),
    idade_mae_min = ('IDADEMAE', 'min'),
    idade_pai_media = ('IDADEPAI', 'mean'),
    idade_pai_max = ('IDADEPAI', 'max'),
    idade_pai_min = ('IDADEPAI', 'min')
)

menosbbs_ordem = menosbbs.sort_values(by = 'nascimentos', ascending= True)
menosbbs_ordem

Unnamed: 0_level_0,nascimentos,idade_mae_media,idade_mae_max,idade_mae_min,idade_pai_media,idade_pai_max,idade_pai_min
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Município ignorado - RO,1,24.0,24,24,22.0,22.0,22.0
Castanheiras,32,27.28125,39,17,30.392857,43.0,17.0
Pimenteiras do Oeste,40,25.075,40,14,35.6,45.0,25.0
Primavera de Rondônia,43,27.023256,39,16,31.888889,44.0,21.0
Parecis,44,26.454545,41,16,32.473684,61.0,18.0
Rio Crespo,50,26.66,39,16,28.0,28.0,28.0
São Felipe D'Oeste,54,26.481481,41,17,31.395833,57.0,18.0
Teixeirópolis,64,26.03125,39,16,31.5,67.0,20.0
Cacaulândia,75,25.546667,42,16,36.333333,50.0,28.0
Cabixi,80,26.0375,39,13,34.333333,47.0,19.0


### Utilizando groupby do pandas, podemos observar que o município que teve o menor número de nascidos em um dia, foi o Município ignorado - RO, que contou com um nascimento.

> Nesse dia, já que tinha apenas uma mãe, a idade média, mínima e máxima das mães foi de 24 anos, já do pai como só teve apenas um, as idade média, mínima e máxima dos pais, foi de 22 anos.


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [12]:
df['DTNASC'] = pd.to_datetime(df['DTNASC'])
marco_df = df[df['DTNASC'].dt.month == 3]

maisbbs = marco_df.groupby('munResNome').agg(
    nascimentos = ('munResNome', 'size'),
    idade_mae_media = ('IDADEMAE', 'mean'),
    idade_mae_max = ('IDADEMAE', 'max'),
    idade_mae_min = ('IDADEMAE', 'min'),
    idade_pai_media = ('IDADEPAI', 'mean'),
    idade_pai_max = ('IDADEPAI', 'max'),
    idade_pai_min = ('IDADEPAI', 'min')
)

maisbbs_ordem = maisbbs.sort_values(by = 'nascimentos', ascending= False)
maisbbs_ordem

Unnamed: 0_level_0,nascimentos,idade_mae_media,idade_mae_max,idade_mae_min,idade_pai_media,idade_pai_max,idade_pai_min
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Porto Velho,744,26.596774,44,14,34.629032,62.0,19.0
Ji-Paraná,188,25.37766,44,13,30.831579,56.0,16.0
Vilhena,148,26.412162,39,16,33.5625,47.0,27.0
Ariquemes,141,25.304965,42,14,28.666667,29.0,28.0
Cacoal,133,26.466165,40,15,30.008197,47.0,17.0
Jaru,80,26.55,40,14,33.5,41.0,21.0
Guajará-Mirim,75,26.333333,43,14,34.5,43.0,26.0
Rolim de Moura,69,27.594203,41,18,31.257576,50.0,19.0
Ouro Preto do Oeste,67,25.522388,44,14,30.175,57.0,19.0
Pimenta Bueno,62,25.177419,39,14,29.611111,49.0,17.0


### Utilizando groupby do pandas, podemos observar que o município que teve o maior número de nascidos em um dia, foi o município de Porto Velho, que contou com 744 nascimentos.

> Nesse dia a idade média, mínima e máxima das mães foram respectivamente de 27, 44 e 14 anos, já para os pais, a idade média, mínima e máxima dos pais, foram de respectivamente 35, 62 e 19 anos.

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

### Como o número de consultas pré-natal, impacta na saúde do bebê nos primeiros minutos do seu nascimento. Existe alguma correlação?

In [33]:
# Filtrando o dataframe para as colunas que serão usadas:

df1 = df[['APGAR1', 'APGAR5', 'CONSPRENAT']].dropna().reset_index()
df1 = df1.drop(columns=['index'])

In [40]:
# correlação entre a quantidade de consultas pré-natal e APGAR1:

corr_con_apgar1 = df1['CONSPRENAT'].corr(df1['APGAR1'])
corr_con_apgar1

-0.006317218193724421

In [41]:
# correlação entre a quantidade de consultas pré-natal e APGAR5:

corr_con_apgar5 = df1['CONSPRENAT'].corr(df1['APGAR5'])
corr_con_apgar5

-0.0038707509612093045

#### Não existe nenhuma relação linear:

> Através dos resultados das correlações, podemos observar que por incrivel que pareça, não existe nenhuma relação entre o número de **consultas pré-natal** e o grau de **APGAR** do bebê.

- Vale resaltar que essa resposta se restringe a essa base de dados