# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
csv = pd.read_csv('SINASC_RO_2019.csv')
df_sinasc = pd.DataFrame(csv)

In [3]:
# Filtrando somente as colunas necessarias para essa analise exploratoria.

df_fil = df_sinasc[['IDADEMAE','DTNASC', 'IDADEPAI', 'APGAR5', 'APGAR1', 'PESO','munResNome', 'PARTO', 'RACACOR', 'SEXO','ESCMAE','QTDFILVIVO', 'GESTACAO']]

In [8]:
df_fil.dropna().head(5)

Unnamed: 0,IDADEMAE,DTNASC,IDADEPAI,APGAR5,APGAR1,PESO,munResNome,PARTO,RACACOR,SEXO,ESCMAE,QTDFILVIVO,GESTACAO,MesesGestacao,DifIdaPaiMae
0,19,2019-02-19,26.0,10.0,9.0,3685,Alta Floresta D'Oeste,Cesáreo,Branca,Masculino,8 a 11 anos,0.0,37 a 41 semanas,9.0,-7.0
1,29,2019-02-21,24.0,9.0,8.0,3055,Alta Floresta D'Oeste,Cesáreo,Branca,Feminino,8 a 11 anos,1.0,37 a 41 semanas,9.0,5.0
2,37,2019-02-25,32.0,10.0,8.0,3460,Alta Floresta D'Oeste,Cesáreo,Branca,Feminino,8 a 11 anos,2.0,37 a 41 semanas,9.0,5.0
3,30,2019-03-20,24.0,10.0,9.0,2982,Alto Alegre dos Parecis,Cesáreo,Parda,Feminino,12 anos ou mais,0.0,37 a 41 semanas,9.0,6.0
4,30,2019-03-23,27.0,10.0,8.0,3310,Alta Floresta D'Oeste,Cesáreo,Parda,Feminino,8 a 11 anos,1.0,37 a 41 semanas,9.0,3.0


In [12]:
# convertendo semanas em meses (INT)
mapeamento_meses = {
    "37 a 41 semanas": 9,
    "32 a 36 semanas": 8,
    "42 semanas e mais": 10,
    "28 a 31 semanas": 7,
    "22 a 27 semanas": 6,
    "Menos de 22 semanas": 5
}

pd.set_option('future.no_silent_downcasting', True)
df_fil.loc[:, 'MesesGestacao'] = df_fil['GESTACAO'].replace(mapeamento_meses).astype(float)
df_fil['MesesGestacao'].value_counts()

MesesGestacao
9.0     22589
8.0      2249
10.0      700
7.0       165
6.0        86
5.0         7
Name: count, dtype: int64

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [13]:
# tirando diferença de idade entre o pai e mãe

df_fil.loc[:, 'DifIdaPaiMae'] = df_fil['IDADEMAE'] - df_fil['IDADEPAI'] 
df_ordenado = df_fil.groupby(['munResNome'])[['IDADEMAE', 'IDADEPAI', 'DifIdaPaiMae', 'MesesGestacao']].mean()
df_ordenado = df_ordenado.sort_values(by='IDADEMAE', ascending = False)
df_ordenado

Unnamed: 0_level_0,IDADEMAE,IDADEPAI,DifIdaPaiMae,MesesGestacao
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ministro Andreazza,27.904762,33.849315,-5.958904,8.892857
Colorado do Oeste,27.602804,34.354839,-3.193548,8.948598
Castanheiras,27.28125,30.392857,-2.321429,8.90625
Cerejeiras,27.240506,31.652778,-3.291667,8.893162
Primavera de Rondônia,27.023256,31.888889,-3.805556,8.860465
Novo Horizonte do Oeste,26.938776,31.588235,-4.6,8.979592
Nova União,26.894231,31.371429,-4.0,8.941176
Cacoal,26.890102,30.931854,-3.953249,8.91035
Urupá,26.688235,31.008929,-3.892857,8.91358
Rio Crespo,26.66,28.0,-2.0,8.84


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [14]:
df_data_nas = df_fil[df_fil['DTNASC'] == '2019-06-08']
df_data_nas.groupby(['SEXO', 'ESCMAE'])['PESO'].mean().unstack()

ESCMAE,1 a 3 anos,12 anos ou mais,4 a 7 anos,8 a 11 anos
SEXO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Feminino,,3022.0,3107.6,3052.0
Masculino,2795.0,3062.5,3600.0,3331.052632


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [15]:
#deletando o outliner 'Município ignorado - RO'
df_filtrado = df_fil[df_fil['munResNome'] != 'Município ignorado - RO']

#agrupando e somando as linhas 
nascimentos_por_municipio = df_filtrado.groupby('munResNome').size()

#deixando o index com o nome do municipio
municipio_menos_nascimentos = nascimentos_por_municipio.idxmin()
municipio_mais_nascimentos = nascimentos_por_municipio.idxmax()

#buscando o maior numero e menor numero
quantidade_mais_nascimentos = nascimentos_por_municipio.max()
quantidade_menos_nascimentos = nascimentos_por_municipio.min()
print(f"O município com o maior número de nascimentos é {municipio_mais_nascimentos}, com {quantidade_mais_nascimentos} nascimentos.")
print(f"O município com o menor número de nascimentos é {municipio_menos_nascimentos}, com {quantidade_menos_nascimentos} nascimentos.")


O município com o maior número de nascimentos é Porto Velho, com 8437 nascimentos.
O município com o menor número de nascimentos é Castanheiras, com 32 nascimentos.


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [17]:
#convertendo em dateTime
df_fil.loc[:,'DTNASC'] = pd.to_datetime(df_fil['DTNASC'], errors = 'coerce')

#puxando o nome do mês
df_fil.loc[:, 'Mes'] = df_fil['DTNASC'].dt.month_name()

#filtando DF com o mês de Março
df_mar = df_fil[df_fil['Mes'] == 'March']

#soma de narcidos no mês
nascidos_por_municipio_mar = df_mar.groupby('munResNome').size()

#municipio com o maior numero de nascidos
municipio_mais_nascidos_mar = nascidos_por_municipio_mar.idxmax()
qtd_mais_nascimentos = nascidos_por_municipio_mar.max()

print(f"O município com o maior número de nascimentos em março é {municipio_mais_nascidos_mar}, com {qtd_mais_nascimentos} nascimentos.")


O município com o maior número de nascimentos em março é Porto Velho, com 744 nascimentos.


# Analise Descritiva da base de dados SENASC_2019_RO

Os bebes com maior peso apresentam um APGAR elevado, desmostrando mais saude, visto isso, analisando os dados vimos que a idade do pai não se relaciona a saude do bebe já o da mãe é totalmente relevante, o peso e saude do bebe tambem estão relacionados a gestação, quanto menor, menos saude o bebe nasce. Em analise, podemos dizer que uma garantia de saude ou APGAR maior que 8 são de crianças com mães em média de 27 anos de idade, gestação entre ou igual a 8.6 a 9.8 meses.