# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [5]:
dados_mae = sinasc_raw[['munResNome', 'IDADEMAE']]

dados_mae = dados_mae.dropna(subset=['IDADEMAE'])

media_idade_mae_por_municipio = dados_mae.groupby('munResNome')['IDADEMAE'].mean()

media_idade_mae_por_municipio

munResNome
Alta Floresta D'Oeste        25.991826
Alto Alegre dos Parecis      24.844156
Alto Paraíso                 24.960177
Alvorada D'Oeste             25.770732
Ariquemes                    25.607866
Buritis                      25.559177
Cabixi                       26.037500
Cacaulândia                  25.546667
Cacoal                       26.890102
Campo Novo de Rondônia       24.825301
Candeias do Jamari           25.243323
Castanheiras                 27.281250
Cerejeiras                   27.240506
Chupinguaia                  25.333333
Colorado do Oeste            27.602804
Corumbiara                   24.716535
Costa Marques                24.412017
Cujubim                      24.482927
Espigão D'Oeste              26.093333
Governador Jorge Teixeira    24.401786
Guajará-Mirim                25.462228
Itapuã do Oeste              26.064220
Jaru                         25.982974
Ji-Paraná                    26.361137
Machadinho D'Oeste           25.480000
Ministro Andre

### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [7]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])

bebês_aniversário = sinasc_raw[sinasc_raw['DTNASC'].dt.day == sinasc_raw['DTNASC'].dt.day]

peso_medio_por_sexo_escolaridade = bebês_aniversário.groupby(['SEXO', 'ESCMAE'])['PESO'].mean()

peso_medio_por_sexo_escolaridade

SEXO       ESCMAE         
Feminino   1 a 3 anos         3126.363636
           12 anos ou mais    3182.427912
           4 a 7 anos         3158.036123
           8 a 11 anos        3193.250588
           Nenhuma            2972.333333
Masculino  1 a 3 anos         3191.354386
           12 anos ou mais    3309.658421
           4 a 7 anos         3288.963439
           8 a 11 anos        3305.898320
           Nenhuma            3178.181818
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [9]:
nascimentos_por_municipio = sinasc_raw[sinasc_raw['DTNASC'].dt.year == 2019]['munResNome'].value_counts()

municipio_menos_bebes = nascimentos_por_municipio.idxmin()
menor_numero_bebes = nascimentos_por_municipio.min()

print(f"O município com menos nascimentos em 2019 foi '{municipio_menos_bebes}' com {menor_numero_bebes} na "
      f"lista de nascimentos.")

O município com menos nascimentos em 2019 foi 'Município ignorado - RO' com 1 na lista de nascimentos.


In [10]:
dados_municipio_menos_bebes = sinasc_raw[(sinasc_raw['DTNASC'].dt.year == 2019) & (sinasc_raw['munResNome'] == municipio_menos_bebes)]

idade_media_mae = dados_municipio_menos_bebes['IDADEMAE'].mean()
idade_maxima_mae = dados_municipio_menos_bebes['IDADEMAE'].max()
idade_minima_mae = dados_municipio_menos_bebes['IDADEMAE'].min()

idade_media_pai = dados_municipio_menos_bebes['IDADEPAI'].mean()
idade_maxima_pai = dados_municipio_menos_bebes['IDADEPAI'].max()
idade_minima_pai = dados_municipio_menos_bebes['IDADEPAI'].min()

print(f"No município '{municipio_menos_bebes}' em 2019:")
print(f"Idade média das mães: {idade_media_mae:.2f} anos")
print(f"Idade máxima das mães: {idade_maxima_mae} anos")
print(f"Idade mínima das mães: {idade_minima_mae} anos")

if not dados_municipio_menos_bebes['IDADEPAI'].isnull().all():
    print(f"Idade média dos pais: {idade_media_pai:.2f} anos")
    print(f"Idade máxima dos pais: {idade_maxima_pai} anos")
    print(f"Idade mínima dos pais: {idade_minima_pai} anos")
else:
    print("Não há informações de idade dos pais neste conjunto de dados.")

No município 'Município ignorado - RO' em 2019:
Idade média das mães: 24.00 anos
Idade máxima das mães: 24 anos
Idade mínima das mães: 24 anos
Idade média dos pais: 22.00 anos
Idade máxima dos pais: 22.0 anos
Idade mínima dos pais: 22.0 anos


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [11]:
nascimentos_marco = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]

nascimentos_por_municipio_marco = nascimentos_marco['munResNome'].value_counts()

municipio_mais_bebes_marco = nascimentos_por_municipio_marco.idxmax()
maior_numero_bebes_marco = nascimentos_por_municipio_marco.max()

print(f"O município com mais nascimentos em março foi '{municipio_mais_bebes_marco}' com {maior_numero_bebes_marco} nascimentos.")

O município com mais nascimentos em março foi 'Porto Velho' com 744 nascimentos.


In [12]:
dados_municipio_mais_bebes_marco = nascimentos_marco[nascimentos_marco['munResNome'] == municipio_mais_bebes_marco]

qtde_filhos_vivos_media = dados_municipio_mais_bebes_marco['QTDFILVIVO'].mean()
qtde_filhos_vivos_maxima = dados_municipio_mais_bebes_marco['QTDFILVIVO'].max()
qtde_filhos_vivos_minima = dados_municipio_mais_bebes_marco['QTDFILVIVO'].min()

idade_media_pai_marco = dados_municipio_mais_bebes_marco['IDADEPAI'].mean()
idade_maxima_pai_marco = dados_municipio_mais_bebes_marco['IDADEPAI'].max()
idade_minima_pai_marco = dados_municipio_mais_bebes_marco['IDADEPAI'].min()

print(f"No mês de março, no município '{municipio_mais_bebes_marco}':")
print(f"Quantidade média de filhos vivos: {qtde_filhos_vivos_media:.2f}")
print(f"Quantidade máxima de filhos vivos: {qtde_filhos_vivos_maxima}")
print(f"Quantidade mínima de filhos vivos: {qtde_filhos_vivos_minima}")

if not dados_municipio_mais_bebes_marco['IDADEPAI'].isnull().all():
    print(f"Idade média dos pais: {idade_media_pai_marco:.2f} anos")
    print(f"Idade máxima dos pais: {idade_maxima_pai_marco} anos")
    print(f"Idade mínima dos pais: {idade_minima_pai_marco} anos")
else:
    print("Não há informações de idade dos pais neste conjunto de dados.")

No mês de março, no município 'Porto Velho':
Quantidade média de filhos vivos: 1.30
Quantidade máxima de filhos vivos: 9.0
Quantidade mínima de filhos vivos: 0.0
Idade média dos pais: 34.63 anos
Idade máxima dos pais: 62.0 anos
Idade mínima dos pais: 19.0 anos


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

RESPOSTA:Os dados sugerem uma variedade de tamanhos de família, desde pais sem filhos vivos até aqueles com um número maior de filhos.

Pais em 'Porto Velho' durante março tendiam a ter, em média, cerca de 30 e poucos anos quando seus filhos nasceram, com uma ampla faixa etária incluindo pais mais jovens (idade mínima de 19 anos) e mais velhos (idade máxima de 62 anos).

Essas estatísticas fornecem uma visão geral da diversidade nos tamanhos das famílias e idades dos pais durante aquele período específico em 'Porto Velho'.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')