# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [53]:
sinasc_1 = sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI']]

In [54]:
sinasc_1

Unnamed: 0,munResNome,IDADEMAE,IDADEPAI
0,Alta Floresta D'Oeste,19,26.0
1,Alta Floresta D'Oeste,29,24.0
2,Alta Floresta D'Oeste,37,32.0
3,Alto Alegre dos Parecis,30,24.0
4,Alta Floresta D'Oeste,30,27.0
...,...,...,...
27023,Vilhena,32,35.0
27024,Chupinguaia,19,
27025,Vilhena,24,30.0
27026,Vilhena,21,24.0


In [55]:
sinasc_1['IDADEPAI'].isna().sum()

19421

In [56]:
sinasc_1.groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [6]:
sinasc_raw.groupby(['DTNASC', 'SEXO'])[['PESO']].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
DTNASC,SEXO,Unnamed: 2_level_1
2019-01-01,Feminino,20
2019-01-01,Masculino,28
2019-01-02,Feminino,31
2019-01-02,Masculino,37
2019-01-03,Feminino,30
...,...,...
2019-12-29,Masculino,28
2019-12-30,Feminino,34
2019-12-30,Masculino,42
2019-12-31,Feminino,17


In [10]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'], errors='coerce', format='%Y-%m-%d')

In [12]:
print(sinasc_raw['DTNASC'].head())

0   2019-02-19
1   2019-02-21
2   2019-02-25
3   2019-03-20
4   2019-03-23
Name: DTNASC, dtype: datetime64[ns]


In [13]:
data_aniversario = '30-09'

In [14]:
df = sinasc_raw[sinasc_raw['DTNASC'].dt.strftime('%d-%m') == data_aniversario]

In [17]:
print(df['DTNASC'].head())

14234   2019-09-30
14246   2019-09-30
14285   2019-09-30
14464   2019-09-30
14465   2019-09-30
Name: DTNASC, dtype: datetime64[ns]


In [18]:
peso_medio = df.groupby(['ESCMAE', 'SEXO'])['PESO'].mean().reset_index()

In [19]:
peso_medio

Unnamed: 0,ESCMAE,SEXO,PESO
0,12 anos ou mais,Feminino,3350.0
1,12 anos ou mais,Masculino,3286.0
2,4 a 7 anos,Feminino,3249.666667
3,4 a 7 anos,Masculino,3428.333333
4,8 a 11 anos,Feminino,3118.846154
5,8 a 11 anos,Masculino,3256.193548


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [57]:
sinasc_raw.groupby('munResNome')['DTNASC'].count().sort_values().head(5)

munResNome
Município ignorado - RO     1
Castanheiras               32
Pimenteiras do Oeste       40
Primavera de Rondônia      43
Parecis                    44
Name: DTNASC, dtype: int64

In [59]:
sinasc_castanheiras = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras'].groupby('munResNome')[['IDADEMAE', 'IDADEPAI']]

In [60]:
sinasc_castanheiras.agg([('idade minima', 'min'), ('idade média', 'mean'), ('idade máxima', 'max')])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,idade minima,idade média,idade máxima,idade minima,idade média,idade máxima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,17,27.28125,39,17.0,30.392857,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [61]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])

In [62]:
nascimentos_marco = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]
nascimentos_marco.head(2)

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [63]:
nascimentos_marco.shape[0]

2456

In [64]:
nascimentos_marco['munResNome'].value_counts().idxmax()

'Porto Velho'

In [65]:
nascimentos_marco['munResNome'].value_counts().max()

744

In [66]:
porto_velho = nascimentos_marco[nascimentos_marco['munResNome'] == 'Porto Velho'].groupby('munResNome')

In [68]:
porto_velho[['QTDFILVIVO', 'QTDFILMORT']].agg([('minimo', 'min'), ('média', 'mean'), ('máxima', 'max')])

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILMORT,QTDFILMORT,QTDFILMORT
Unnamed: 0_level_1,minimo,média,máxima,minimo,média,máxima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,0.0,1.295056,9.0,0.0,0.352734,4.0


In [72]:
porto_velho[['IDADEMAE', 'IDADEPAI']].agg([('idade minima', 'min'), ('idade média', 'mean'), ('idade máxima', 'max')])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,idade minima,idade média,idade máxima,idade minima,idade média,idade máxima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,14,26.596774,44,19.0,34.629032,62.0


## insight


Idade Média das Mães e dos Pais por Município:

Podemos observar que a idade média das mães e dos pais varia consideravelmente entre os diferentes municípios de Rondônia. Isso pode refletir diferenças socioeconômicas, culturais e educacionais entre esses locais. Por exemplo, em "Itapuã do Oeste", a idade média das mães é de 26 anos, enquanto em "Cacaulândia" é de 25.5 anos. Da mesma forma, a idade média dos pais varia de cerca de 29 anos em "Cacaulândia" a cerca de 42.5 anos em "Itapuã do Oeste".

Número de Nascimentos por Município:
É interessante notar que o município "Município ignorado - RO" teve apenas um nascimento registrado em 2019. Isso pode ser devido a várias razões, como falhas nos registros ou pouca população no município.

Estatísticas de Idade e Número de Filhos Vivos e Mortos:
Ao analisar as estatísticas de idade e número de filhos vivos e mortos em um município específico, como "Castanheiras", podemos observar que a idade média das mães é de aproximadamente 27 anos, com a idade mínima registrada de 17 anos. Além disso, a média de filhos vivos é de cerca de 1.3, com um máximo de 9 filhos vivos registrados.