# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [11]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [12]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [13]:
# Calcula a idade média das mães por município
media_maes = (
    sinasc_raw
    .groupby("munResNome")["IDADEMAE"]
    .mean()
    .reset_index(name="idade_media_mae")
)

# Calcula a idade média dos pais por município
media_pais = (
    sinasc_raw
    .groupby("munResNome")["IDADEPAI"]
    .mean()
    .reset_index(name="idade_media_pai")
)

# Junta os dois resultados
resultado = pd.merge(media_maes, media_pais, on="munResNome", how="outer")

# Arredonda as médias para uma casa decimal
resultado = resultado.round(1)

# Exibe o resultado final
resultado

Unnamed: 0,munResNome,idade_media_mae,idade_media_pai
0,Alta Floresta D'Oeste,26.0,29.5
1,Alto Alegre dos Parecis,24.8,29.2
2,Alto Paraíso,25.0,28.8
3,Alvorada D'Oeste,25.8,30.8
4,Ariquemes,25.6,32.5
5,Buritis,25.6,30.8
6,Cabixi,26.0,34.3
7,Cacaulândia,25.5,36.3
8,Cacoal,26.9,30.9
9,Campo Novo de Rondônia,24.8,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [14]:
sinasc_raw["DTNASC"] = pd.to_datetime(sinasc_raw["DTNASC"], errors="coerce")

resultado = (
    sinasc_raw[
        (sinasc_raw["DTNASC"].dt.day == 3) & (sinasc_raw["DTNASC"].dt.month == 8)
    ]
    .groupby(["SEXO", "ESCMAE"])["PESO"]
    .mean()
    .reset_index(name="peso_medio")
    .round(1)
)

resultado

Unnamed: 0,SEXO,ESCMAE,peso_medio
0,Feminino,1 a 3 anos,3675.0
1,Feminino,12 anos ou mais,2390.0
2,Feminino,4 a 7 anos,3232.3
3,Feminino,8 a 11 anos,3147.2
4,Masculino,1 a 3 anos,3225.0
5,Masculino,12 anos ou mais,3500.0
6,Masculino,4 a 7 anos,3325.5
7,Masculino,8 a 11 anos,3265.6


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [22]:
# Qual o municipio que nasceu menos bebe em 2019?

# Filtra apenas nascimentos de 2019 e remove municípios com "ignorado" no nome
dados_2019 = sinasc_raw[
    (sinasc_raw["DTNASC"].dt.year == 2019) &
    (~sinasc_raw["munResNome"].str.contains("ignorado", case=False, na=False))
]

# Encontra o município com menos nascimentos em 2019 (ignorando os "ignorados")
mun_menos_nasc = (
    dados_2019["munResNome"]
    .value_counts()
    .idxmin()
)

print(f"Município com menos nascimentos em 2019: {mun_menos_nasc}")

Município com menos nascimentos em 2019: Castanheiras


In [29]:
# qual a idade media, maxima, minima das maes nesse municipio?
# qual a idade media, maxima, minima dos pais nesse municipio?

def stats(df, col):
    return df[col].agg(["mean", "min", "max"]).round(1)

# Município com MENOS nascimentos
mun_menos_nasc = dados_2019["munResNome"].value_counts().idxmin()
dados_mun = dados_2019[dados_2019["munResNome"] == mun_menos_nasc]

# Calcula estatísticas
estat_mae = stats(dados_mun, "IDADEMAE")
estat_pai = stats(dados_mun, "IDADEPAI")

# Junta em um único DataFrame
resultado = pd.DataFrame({
    "Mães": estat_mae,
    "Pais": estat_pai
})

# Traduz os rótulos do índice
resultado.index = resultado.index.map({
    "mean": "média",
    "min": "mínima",
    "max": "máxima"
})

print(f"Município com menos nascimentos em 2019: {mun_menos_nasc}\n")
resultado

Município com menos nascimentos em 2019: Castanheiras



Unnamed: 0,Mães,Pais
média,27.3,30.4
mínima,17.0,17.0
máxima,39.0,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [30]:
def stats(df, col):
    return df[col].agg(["mean", "min", "max"]).round(1)

# Filtra apenas nascimentos de Março
dados_marco = dados_2019[dados_2019["DTNASC"].dt.month == 3]

# Município com MAIS nascimentos em Março
mun_mais_marco = dados_marco["munResNome"].value_counts().idxmax()
dados_mun = dados_marco[dados_marco["munResNome"] == mun_mais_marco]

# Calcula estatísticas
estat_filhos = stats(dados_mun, "QTDFILVIVO")
estat_pais = stats(dados_mun, "IDADEPAI")

# Junta resultados em um único DataFrame
resultado = pd.DataFrame({
    "Filhos vivos": estat_filhos,
    "Pais": estat_pais
})

# Traduz índices
resultado.index = resultado.index.map({"mean": "média", "min": "mínima", "max": "máxima"})

print(f"Município com mais nascimentos em março de 2019: {mun_mais_marco}\n")
resultado

Município com mais nascimentos em março de 2019: Porto Velho



Unnamed: 0,Filhos vivos,Pais
média,1.3,34.6
mínima,0.0,19.0
máxima,9.0,62.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

- **Idade dos pais:** Em média, os pais são cerca de **4 anos mais velhos que as mães**. Isso indica que a diferença de idade nos casais é consistente entre os municípios.

- **Peso dos bebês:** O peso médio dos recém-nascidos é **maior em mães com menor escolaridade**, sugerindo possíveis diferenças nos hábitos ou acompanhamento pré-natal entre faixas educacionais.

- **Perfil demográfico:** O município com mais nascimentos concentra **pais mais velhos e mais filhos vivos**, refletindo um padrão urbano com famílias mais consolidadas e maior experiência parental.