# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [5]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [35]:
sinasc_raw.columns
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [9]:
idade_pais_mun = sinasc_raw.groupby('munResNome')[['IDADEMAE', 'IDADEPAI']].mean()
idade_pais_mun

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [11]:
data_aniver = sinasc_raw[sinasc_raw['DTNASC'] == '2019-04-30']
peso_medio_sex_aniv = data_aniver.groupby('ESCMAE')['PESO'].mean()
peso_medio_sex_aniv

ESCMAE
1 a 3 anos         3890.000000
12 anos ou mais    3232.142857
4 a 7 anos         3209.812500
8 a 11 anos        3265.953488
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [13]:
nascimentos_por_municipio = sinasc_raw.groupby('munResNome').size()
nascimentos_por_municipio



munResNome
Alta Floresta D'Oeste         367
Alto Alegre dos Parecis       154
Alto Paraíso                  226
Alvorada D'Oeste              205
Ariquemes                    1729
Buritis                       583
Cabixi                         80
Cacaulândia                    75
Cacoal                       1374
Campo Novo de Rondônia        166
Candeias do Jamari            337
Castanheiras                   32
Cerejeiras                    237
Chupinguaia                   162
Colorado do Oeste             214
Corumbiara                    127
Costa Marques                 233
Cujubim                       205
Espigão D'Oeste               450
Governador Jorge Teixeira     112
Guajará-Mirim                 781
Itapuã do Oeste               109
Jaru                          881
Ji-Paraná                    2182
Machadinho D'Oeste            500
Ministro Andreazza             84
Mirante da Serra              164
Monte Negro                   199
Município ignorado - RO         1
Nov

In [14]:
municipio_menos_nasc = nascimentos_por_municipio.idxmin()
municipio_menos_nasc


'Município ignorado - RO'

In [15]:
dados_municipio = sinasc_raw[sinasc_raw['munResNome'] == municipio_menos_nasc]
dados_municipio

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
1863,1,2496046.0,110004,1,24,5.0,8 a 11 anos,752105.0,1.0,1.0,...,1,1881,IGNOR,IGNOR,Município ignorado - RO,Rondônia,,,,


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [51]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])
marco_nascimentos = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]
nascimentos_por_municipio_03 = marco_nascimentos.groupby('munResNome').size()
nascimentos_por_municipio_03

munResNome
Alta Floresta D'Oeste         31
Alto Alegre dos Parecis       10
Alto Paraíso                  22
Alvorada D'Oeste              22
Ariquemes                    141
Buritis                       59
Cabixi                         6
Cacaulândia                   10
Cacoal                       133
Campo Novo de Rondônia        13
Candeias do Jamari            33
Castanheiras                   4
Cerejeiras                    16
Chupinguaia                   18
Colorado do Oeste             19
Corumbiara                    12
Costa Marques                 24
Cujubim                       17
Espigão D'Oeste               44
Governador Jorge Teixeira     10
Guajará-Mirim                 75
Itapuã do Oeste                8
Jaru                          80
Ji-Paraná                    188
Machadinho D'Oeste            44
Ministro Andreazza             6
Mirante da Serra               9
Monte Negro                   20
Nova Brasilândia D'Oeste      20
Nova Mamoré                   53

In [55]:
municipio_mais_nasc = nascimentos_por_municipio_03.idxmax()
municipio_mais_nasc

'Porto Velho'

In [75]:
porto_velho_df = sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho']

porto_velho_df['FILHOS_VIVOS'] = pd.to_numeric(porto_velho_df['QTDFILVIVO'], errors='coerce')
porto_velho_df['IDADE_PAIS'] = pd.to_numeric(porto_velho_df['IDADEPAI'], errors='coerce')

media_filhos_vivos = porto_velho_df['FILHOS_VIVOS'].mean()
max_filhos_vivos = porto_velho_df['FILHOS_VIVOS'].max()
min_filhos_vivos = porto_velho_df['FILHOS_VIVOS'].min()

media_idade_pais = porto_velho_df['IDADE_PAIS'].mean()
max_idade_pais = porto_velho_df['IDADE_PAIS'].max()
min_idade_pais = porto_velho_df['IDADE_PAIS'].min()

estatisticas_df = pd.DataFrame({
    'Média Filhos Vivos': [media_filhos_vivos],
    'Máxima Filhos Vivos': [max_filhos_vivos],
    'Mínima Filhos Vivos': [min_filhos_vivos],
    'Média Idade Pais': [media_idade_pais],
    'Máxima Idade Pais': [max_idade_pais],
    'Mínima Idade Pais': [min_idade_pais]
})

estatisticas_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  porto_velho_df['FILHOS_VIVOS'] = pd.to_numeric(porto_velho_df['QTDFILVIVO'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  porto_velho_df['IDADE_PAIS'] = pd.to_numeric(porto_velho_df['IDADEPAI'], errors='coerce')


Unnamed: 0,Média Filhos Vivos,Máxima Filhos Vivos,Mínima Filhos Vivos,Média Idade Pais,Máxima Idade Pais,Mínima Idade Pais
0,1.167236,12.0,0.0,32.352679,65.0,16.0


Insight: A diferença significativa entre a mínima (0) e a máxima (12) sugere uma grande diversidade nas estruturas familiares em "Porto Velho". Isso pode indicar que enquanto a maioria das famílias tende a ter poucos filhos, algumas podem seguir tradições culturais ou religiosas que favorecem um número maior de filhos. Essa variação pode refletir desigualdades sociais, onde algumas famílias têm acesso a mais recursos e apoio.

Insight: Com uma média de 1,17 filhos, a presença de uma família com 12 filhos é uma grande discrepância. Isso pode sugerir que as famílias maiores são a exceção, não a norma. Esse fenômeno pode impactar as políticas de planejamento familiar e assistência social, uma vez que o padrão médio não reflete completamente a realidade de todas as famílias.

Insight: A média de 1,17 em contraste com a mínima de 0 indica que, mesmo que algumas famílias não tenham filhos vivos, há famílias que têm múltiplos filhos (como a família com 12). Essa dinâmica pode sugerir que a média é influenciada por um número pequeno de famílias com muitos filhos, o que pode distorcer a percepção sobre a taxa de natalidade na região.
