# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [7]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [9]:
import pandas as pd
import numpy as np

# Carregar a base
sinasc = pd.read_csv('sinasc_RO_2019.csv')

# Verificar as primeiras linhas (opcional, apenas para confirmar que carregou)
print(sinasc.head())

   ORIGEM   CODESTAB  CODMUNNASC  LOCNASC  IDADEMAE  ESTCIVMAE  \
0       1  2679477.0      110001        1        19        5.0   
1       1  2679477.0      110001        1        29        2.0   
2       1  2679477.0      110001        1        37        9.0   
3       1  2516500.0      110001        1        30        5.0   
4       1  2516500.0      110001        1        30        2.0   

            ESCMAE  CODOCUPMAE  QTDFILVIVO  QTDFILMORT  ...  KOTELCHUCK  \
0      8 a 11 anos         NaN         0.0         0.0  ...           5   
1      8 a 11 anos    999992.0         1.0         0.0  ...           5   
2      8 a 11 anos    513205.0         2.0         0.0  ...           5   
3  12 anos ou mais    231205.0         0.0         0.0  ...           4   
4      8 a 11 anos    999992.0         1.0         0.0  ...           5   

  CONTADOR munResStatus munResTipo               munResNome  munResUf  \
0        1        ATIVO      MUNIC    Alta Floresta D'Oeste  Rondônia   
1     

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [13]:
# Agrupando por município e calculando a média das idades
media_idade_por_municipio = sinasc.groupby('munResNome')[['IDADEMAE', 'IDADEPAI']].mean()

print("Idade Média de Mães e Pais por Município:")
print(media_idade_por_municipio.head())

Idade Média de Mães e Pais por Município:
                          IDADEMAE   IDADEPAI
munResNome                                   
Alta Floresta D'Oeste    25.991826  29.548701
Alto Alegre dos Parecis  24.844156  29.179104
Alto Paraíso             24.960177  28.833333
Alvorada D'Oeste         25.770732  30.757282
Ariquemes                25.607866  32.466667


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [17]:
# Converta a coluna 'DTNASC' para o tipo datetime
sinasc['DTNASC'] = pd.to_datetime(sinasc['DTNASC'])

# Defina a data do seu aniversário no formato MM-DD (mês-dia)
# EX: '01-10' para 10 de janeiro
sua_data_de_aniversario = '02-11' 

# Filtre os dados para os bebês que nasceram na sua data de aniversário (dia e mês)
nascidos_no_aniversario = sinasc[
    (sinasc['DTNASC'].dt.month == int(sua_data_de_aniversario.split('-')[0])) &
    (sinasc['DTNASC'].dt.day == int(sua_data_de_aniversario.split('-')[1]))
]

# Calcule o peso médio dos bebês por sexo e escolaridade da mãe
peso_medio_por_sexo_escolaridade = nascidos_no_aniversario.groupby(['SEXO', 'ESCMAE'])['PESO'].mean().unstack()

print(f"\nPeso médio dos bebês por sexo e escolaridade da mãe (nascidos em {sua_data_de_aniversario}):")
print(peso_medio_por_sexo_escolaridade)


Peso médio dos bebês por sexo e escolaridade da mãe (nascidos em 02-11):
ESCMAE     1 a 3 anos  12 anos ou mais  4 a 7 anos  8 a 11 anos
SEXO                                                           
Feminino       3002.5      3276.538462     2946.25  3239.105263
Masculino      4035.0      3338.500000     2990.00  3365.681818


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [21]:
# Contar nascimentos por município
contagem_nascimentos_municipio = sinasc['munResNome'].value_counts()

# Encontrar o município com menos nascimentos
municipio_menos_bebes = contagem_nascimentos_municipio.idxmin()
quantidade_menos_bebes = contagem_nascimentos_municipio.min()

print(f"\nO município com menos bebês nascidos em 2019 foi '{municipio_menos_bebes}' com {quantidade_menos_bebes} nascimentos.")

# Filtrar os dados para o município com menos bebês
dados_municipio_menos_bebes = sinasc[sinasc['munResNome'] == municipio_menos_bebes]

# Idade das mães nesse município
idade_mae_min_min_mun = dados_municipio_menos_bebes['IDADEMAE'].min()
idade_mae_max_min_mun = dados_municipio_menos_bebes['IDADEMAE'].max()
idade_mae_media_min_mun = dados_municipio_menos_bebes['IDADEMAE'].mean()

print(f"  Idade das mães nesse município: Média={idade_mae_media_min_mun:.2f}, Máxima={idade_mae_max_min_mun}, Mínima={idade_mae_min_mun}")

# Idade dos pais nesse município (lidando com valores ausentes)
# Verificando se há dados válidos de idade do pai antes de calcular e imprimir
if not dados_municipio_menos_bebes['IDADEPAI'].dropna().empty:
    idade_pai_min_min_mun = dados_municipio_menos_bebes['IDADEPAI'].min()
    idade_pai_max_min_mun = dados_municipio_menos_bebes['IDADEPAI'].max()
    idade_pai_media_min_mun = dados_municipio_menos_bebes['IDADEPAI'].mean()
    print(f"  Idade dos pais nesse município: Média={idade_pai_media_min_mun:.2f}, Máxima={idade_pai_max_min_mun}, Mínima={idade_pai_min_min_mun}") # Corrigido aqui
else:
    print("  Não há dados de idade do pai para este município com menos bebês.")


O município com menos bebês nascidos em 2019 foi 'Município ignorado - RO' com 1 nascimentos.
  Idade das mães nesse município: Média=24.00, Máxima=24, Mínima=24
  Idade dos pais nesse município: Média=22.00, Máxima=22.0, Mínima=22.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [23]:
# Garanta que 'DTNASC' é datetime
sinasc['DTNASC'] = pd.to_datetime(sinasc['DTNASC'])

# Filtrar nascimentos em março
nascimentos_marco = sinasc[sinasc['DTNASC'].dt.month == 3]

# Contar nascimentos em março por município
contagem_nascimentos_marco_municipio = nascimentos_marco['munResNome'].value_counts()

# Encontrar o município com mais nascimentos em março
municipio_mais_bebes_marco = contagem_nascimentos_marco_municipio.idxmax()
quantidade_mais_bebes_marco = contagem_nascimentos_marco_municipio.max()

print(f"\nO município com mais bebês nascidos em março de 2019 foi '{municipio_mais_bebes_marco}' com {quantidade_mais_bebes_marco} nascimentos.")

# Filtrar os dados para o município com mais bebês em março
dados_municipio_mais_bebes_marco = sinasc[sinasc['munResNome'] == municipio_mais_bebes_marco]

# Quantidade de filhos vivos nesse município (FVIVAS)
filhos_vivos_min = dados_municipio_mais_bebes_marco['QTDFILVIVO'].min()
filhos_vivos_max = dados_municipio_mais_bebes_marco['QTDFILVIVO'].max()
filhos_vivos_media = dados_municipio_mais_bebes_marco['QTDFILVIVO'].mean()

print(f"  Filhos vivos nesse município: Média={filhos_vivos_media:.2f}, Máxima={filhos_vivos_max}, Mínima={filhos_vivos_min}")

# Idade dos pais nesse município (lidando com valores ausentes)
if not dados_municipio_mais_bebes_marco['IDADEPAI'].dropna().empty:
    idade_pai_min_mais_mun = dados_municipio_mais_bebes_marco['IDADEPAI'].min()
    idade_pai_max_mais_mun = dados_municipio_mais_bebes_marco['IDADEPAI'].max()
    idade_pai_media_mais_mun = dados_municipio_mais_bebes_marco['IDADEPAI'].mean()
    print(f"  Idade dos pais nesse município: Média={idade_pai_media_mais_mun:.2f}, Máxima={idade_pai_max_mais_mun}, Mínima={idade_pai_min_mais_mun}")
else:
    print("  Não há dados de idade do pai para este município.")


O município com mais bebês nascidos em março de 2019 foi 'Porto Velho' com 744 nascimentos.
  Filhos vivos nesse município: Média=1.17, Máxima=12.0, Mínima=0.0
  Idade dos pais nesse município: Média=32.35, Máxima=65.0, Mínima=16.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [31]:
#Análise e Insights
#Análise de Nascimentos em Rondônia (2019)
#Nos dados de nascimentos de Rondônia em 2019 (base SINASC), observamos padrões importantes relacionados à idade dos pais, peso dos bebês e fatores socioeconômicos.

#Principais Insights:
#Idade dos Pais: A idade média dos pais é consistentemente superior à das mães em todos os municípios analisados, um padrão demográfico comum que indica que homens tendem a ter filhos mais tarde na vida. Variações entre municípios podem sinalizar diferentes contextos sociais e econômicos.
#Escolaridade da Mãe e Peso do Bebê: Para os bebês nascidos na data de 02/11, notamos uma tendência: bebês de mães com maior escolaridade apresentaram peso médio superior. Este é um insight crucial, pois a maior escolaridade da mãe frequentemente se associa a maior renda, que por sua vez permite melhor acesso à nutrição adequada e a mais informações sobre saúde e cuidados pré-natais. Todos esses fatores são vitais para o desenvolvimento saudável do bebê e impactam diretamente seu peso ao nascer. Isso sugere que o investimento em educação feminina tem um impacto positivo direto na saúde neonatal.

#Variação Geográfica dos Nascimentos:
#O município com menos nascimentos em 2019 foi "Município ignorado - RO", com apenas 1 registro, destacando um desafio na completude dos dados geográficos.
#Porto Velho, a capital, registrou o maior número de nascimentos em março de 2019 (744 bebês), o que é esperado devido à sua maior população e infraestrutura de saúde centralizada. As idades dos pais nesse município variaram amplamente (de 16 a 65 anos), refletindo a diversidade populacional da capital.
#Em resumo, a análise revela que fatores sociais como a escolaridade da mãe atuam como importantes preditores da saúde do recém-nascido, influenciando diretamente o peso do bebê ao nascer. Isso ocorre porque maior escolaridade tende a levar a melhores condições de vida, maior renda, e consequentemente, acesso a nutrição de qualidade e cuidados pré-natais mais eficazes. Além disso, a distribuição dos nascimentos reflete a dinâmica populacional e de serviços de saúde no estado de Rondônia.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')