# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [4]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [6]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [7]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [10]:
sinasc_raw.groupby("munResNome") [["IDADEPAI", "IDADEMAE"]].mean()


Unnamed: 0_level_0,IDADEPAI,IDADEMAE
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,29.548701,25.991826
Alto Alegre dos Parecis,29.179104,24.844156
Alto Paraíso,28.833333,24.960177
Alvorada D'Oeste,30.757282,25.770732
Ariquemes,32.466667,25.607866
Buritis,30.8125,25.559177
Cabixi,34.333333,26.0375
Cacaulândia,36.333333,25.546667
Cacoal,30.931854,26.890102
Campo Novo de Rondônia,30.5,24.825301


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [12]:
# convertendo a coluna "DTNASC" em data

sinasc_raw["DTNASC"] = pd.to_datetime(sinasc_raw["DTNASC"]) 
sinasc_raw["DTNASC"]

0       2019-02-19
1       2019-02-21
2       2019-02-25
3       2019-03-20
4       2019-03-23
           ...    
27023   2019-12-13
27024   2019-10-04
27025   2019-08-02
27026   2019-12-23
27027   2019-12-27
Name: DTNASC, Length: 27028, dtype: datetime64[ns]

In [13]:
# Definindo o dia eo mês desejados
dia = 29
mes = 1

fil_aniver_aluno = (sinasc_raw["DTNASC"].dt.day == dia) & (sinasc_raw["DTNASC"].dt.month == mes)

In [14]:
# Passando filtro para nossa base de dados
sinasc_fill = sinasc_raw[fil_aniver_aluno] 

In [15]:
# Agrupamento 
sinasc_fill.groupby(["SEXO", "ESCMAE"])["PESO"].mean()


SEXO       ESCMAE         
Feminino   1 a 3 anos         3177.500000
           12 anos ou mais    3370.454545
           4 a 7 anos         3170.000000
           8 a 11 anos        3259.666667
Masculino  12 anos ou mais    3776.000000
           4 a 7 anos         3276.000000
           8 a 11 anos        3358.187500
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [17]:
# Verificando quantos nascimentos cada município teve.
sinasc_raw["munResNome"].value_counts()


munResNome
Porto Velho                  8437
Ji-Paraná                    2182
Ariquemes                    1729
Vilhena                      1590
Cacoal                       1374
Rolim de Moura                927
Jaru                          881
Guajará-Mirim                 781
Ouro Preto do Oeste           631
Pimenta Bueno                 616
Buritis                       583
Machadinho D'Oeste            500
Espigão D'Oeste               450
Nova Mamoré                   432
Alta Floresta D'Oeste         367
São Miguel do Guaporé         353
Candeias do Jamari            337
Presidente Médici             304
São Francisco do Guaporé      303
Nova Brasilândia D'Oeste      261
Cerejeiras                    237
Costa Marques                 233
Alto Paraíso                  226
Colorado do Oeste             214
Alvorada D'Oeste              205
Cujubim                       205
Monte Negro                   199
Urupá                         170
Seringueiras                  168
Cam

Existe um município ignorado; por isso, vamos considerar o município com menos nascimentos, 'Castanheiras'.

In [19]:
sin_menor_pai = sinasc_raw[sinasc_raw["munResNome"] == "Castanheiras"]["IDADEPAI"]
sin_menor_mae = sinasc_raw[sinasc_raw["munResNome"] == "Castanheiras"]["IDADEMAE"]

In [20]:
print(f"A média da idade dos pais na cidade que menos nasceu crianças é de {sin_menor_pai.mean():.2f} anos. A idade mínima dos pai é de  {sin_menor_pai.min()} anos e a máxima é {sin_menor_pai.max()} anos.")
print("-----------------------------------")
print(f"A média da idade das mães na cidade que menos nasceu crianças é de {sin_menor_mae.mean():.2f} anos. A idade  mínima das mães é de {sin_menor_pai.min()} anos e a máxima é {sin_menor_pai.max()} anos.")

A média da idade dos pais na cidade que menos nasceu crianças é de 30.39 anos. A idade mínima dos pai é de  17.0 anos e a máxima é 43.0 anos.
-----------------------------------
A média da idade das mães na cidade que menos nasceu crianças é de 27.28 anos. A idade  mínima das mães é de 17.0 anos e a máxima é 43.0 anos.


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [78]:
# Definindo o mês desejados

mes = 3

fil_mes = sinasc_raw[sinasc_raw["DTNASC"].dt.month == mes]
fil_mes["munResNome"].value_counts()


munResNome
Porto Velho                  744
Ji-Paraná                    188
Vilhena                      148
Ariquemes                    141
Cacoal                       133
Jaru                          80
Guajará-Mirim                 75
Rolim de Moura                69
Ouro Preto do Oeste           67
Pimenta Bueno                 62
Buritis                       59
Nova Mamoré                   53
Machadinho D'Oeste            44
Espigão D'Oeste               44
São Miguel do Guaporé         41
Candeias do Jamari            33
São Francisco do Guaporé      31
Alta Floresta D'Oeste         31
Presidente Médici             29
Costa Marques                 24
Alto Paraíso                  22
Alvorada D'Oeste              22
Monte Negro                   20
Nova Brasilândia D'Oeste      20
Seringueiras                  19
Colorado do Oeste             19
Chupinguaia                   18
Cujubim                       17
Cerejeiras                    16
Urupá                         14

O município com mais nascimentos em março, em Rondônia, é Porto Velho, com 744 nascimentos.

In [100]:
print(f"""A quantidade média de filhos vivos em Porto Velho é de: {sinasc_raw[sinasc_raw["munResNome"] == "Porto Velho"]["QTDFILVIVO"].mean():.2f}, 
a quantidade máxima é de: {sinasc_raw[sinasc_raw["munResNome"] == "Porto Velho"]["QTDFILVIVO"].max()}, 
e a mínima é de: {sinasc_raw[sinasc_raw["munResNome"] == "Porto Velho"]["QTDFILVIVO"].min()}.""")

A quantidade média de filhos vivos em Porto Velho é de: 1.17, 
a quantidade máxima é de: 12.0, 
e a mínima é de: 0.0.


In [108]:
print(f"""A idade média dos pai em Porto Velho é de: {sinasc_raw[sinasc_raw["munResNome"] == "Porto Velho"]["IDADEPAI"].mean():.2f}, 
a idade máxima é de: {sinasc_raw[sinasc_raw["munResNome"] == "Porto Velho"]["IDADEPAI"].max()}, 
e a mínima é de: {sinasc_raw[sinasc_raw["munResNome"] == "Porto Velho"]["IDADEPAI"].min()}.""")

A idade média dos pai em Porto Velho é de: 32.35, 
a iade máxima é de: 65.0, 
e a mínima é de: 16.0.


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [110]:
sinasc_fill.groupby(["SEXO", "ESCMAE"])["PESO"].mean()

SEXO       ESCMAE         
Feminino   1 a 3 anos         3177.500000
           12 anos ou mais    3370.454545
           4 a 7 anos         3170.000000
           8 a 11 anos        3259.666667
Masculino  12 anos ou mais    3776.000000
           4 a 7 anos         3276.000000
           8 a 11 anos        3358.187500
Name: PESO, dtype: float64

# insight:

"Algo me chama a atenção na tabela acima: quanto maior a escolaridade da mãe, maior o peso médio do recém-nascido. Isso me leva a pensar que uma maior escolaridade possivelmente refleta em uma melhor condição financeira e em uma nutrição mais adequada para a mãe e o bebê."