# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [3]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [4]:
media_idades = sinasc_raw.groupby('munResNome')[['IDADEMAE', 'IDADEPAI']].mean()
media_idades

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [5]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])

dia = 8
mes = 12

nasc_aniversario = sinasc_raw[
    (sinasc_raw['DTNASC'].dt.day == dia) &
    (sinasc_raw['DTNASC'].dt.month == mes)
]

peso_medio_bebe = nasc_aniversario.groupby(['SEXO', 'ESCMAE'])['PESO'].mean()

peso_medio_bebe

SEXO       ESCMAE         
Feminino   12 anos ou mais    3358.000000
           4 a 7 anos         3103.636364
           8 a 11 anos        3190.200000
Masculino  12 anos ou mais    3338.333333
           4 a 7 anos         3966.666667
           8 a 11 anos        3133.636364
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [6]:
mun_menos_bebe = sinasc_raw.groupby('munResNome')['ESCMAE'].count().sort_values(ascending=True)
mun_menos_bebe

munResNome
Município ignorado - RO         1
Castanheiras                   32
Pimenteiras do Oeste           40
Primavera de Rondônia          43
Parecis                        44
Rio Crespo                     49
São Felipe D'Oeste             54
Teixeirópolis                  64
Cacaulândia                    74
Cabixi                         80
Vale do Paraíso                81
Ministro Andreazza             84
Vale do Anari                  92
Theobroma                      95
Santa Luzia D'Oeste            98
Novo Horizonte do Oeste        98
Nova União                    103
Itapuã do Oeste               107
Governador Jorge Teixeira     111
Corumbiara                    127
Alto Alegre dos Parecis       151
Chupinguaia                   160
Campo Novo de Rondônia        164
Mirante da Serra              164
Seringueiras                  167
Urupá                         168
Monte Negro                   188
Alvorada D'Oeste              202
Cujubim                       203
Col

In [7]:
munc_menor = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras']
estatisticas = munc_menor[['IDADEMAE', 'IDADEPAI']].agg(['min', 'max', 'mean'])
estatisticas

Unnamed: 0,IDADEMAE,IDADEPAI
min,17.0,17.0
max,39.0,43.0
mean,27.28125,30.392857


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [8]:
dados_marco = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]
nasc_por_mun = dados_marco['munResNome'].value_counts()
municipio_mais = nasc_por_mun.idxmax()

print("Município com mais nascimentos em março:", municipio_mais)

Município com mais nascimentos em março: Porto Velho


In [9]:
munc_mais = dados_marco[dados_marco['munResNome'] == municipio_mais].copy()

colunas_numericas = ['QTDFILVIVO', 'IDADEPAI', 'IDADEMAE']
for col in colunas_numericas:
    munc_mais[col] = pd.to_numeric(munc_mais[col], errors='coerce')

estatisticas = munc_mais[colunas_numericas].agg(['mean', 'max', 'min'])
estatisticas = estatisticas.rename(columns={
    'QTDFILVIVO': 'Filhos_Vivos',
    'IDADEPAI': 'Idade_Pai',
    'IDADEMAE': 'Idade_Mae'
})

print("\nEstatísticas do município com mais nascimentos em março:\n")
print(estatisticas)


Estatísticas do município com mais nascimentos em março:

      Filhos_Vivos  Idade_Pai  Idade_Mae
mean      1.295056  34.629032  26.596774
max       9.000000  62.000000  44.000000
min       0.000000  19.000000  14.000000


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Uma coisa que achei nova e relevante para mim, foi saber quantos bebês nasceram no mesmo dia que eu em 2019, usando o dataframe filtrado que criei no 2:

In [11]:
quantidade = len(nasc_aniversario)

print(f"Número de bebês que nasceram em {dia}/{mes}: {quantidade}")

Número de bebês que nasceram em 8/12: 49


Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [None]:
sinasc_raw.dtypes

In [None]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

In [None]:
sinasc_raw.columns