# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv("SINASC_RO_2019.csv")
sinasc_raw.info() # optei por esse método para relembrar o carater do arquivo e extrair o nome correto das colunas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [3]:
sinasc_raw.groupby("munResNome")[["IDADEMAE", "IDADEPAI"]].mean().round()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,26.0,30.0
Alto Alegre dos Parecis,25.0,29.0
Alto Paraíso,25.0,29.0
Alvorada D'Oeste,26.0,31.0
Ariquemes,26.0,32.0
Buritis,26.0,31.0
Cabixi,26.0,34.0
Cacaulândia,26.0,36.0
Cacoal,27.0,31.0
Campo Novo de Rondônia,25.0,30.0


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [4]:
sinasc_raw["DTNASC"].head() # apenas para verificar o formato das datas 

0    2019-02-19
1    2019-02-21
2    2019-02-25
3    2019-03-20
4    2019-03-23
Name: DTNASC, dtype: object

In [5]:
sinasc_raw[sinasc_raw["DTNASC"] == "2019-03-30"].groupby(["ESCMAE", "SEXO"])["PESO"].mean().round()

ESCMAE           SEXO     
1 a 3 anos       Masculino    4205.0
12 anos ou mais  Feminino     3056.0
                 Masculino    2932.0
4 a 7 anos       Feminino     3343.0
                 Masculino    3129.0
8 a 11 anos      Feminino     3252.0
                 Masculino    3175.0
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [6]:
# pesquisei esse método - idxmin - extra para obter facilmente índice do valor mínimo
menos_bebes = sinasc_raw[sinasc_raw["munResNome"] != "Município ignorado - RO"].groupby("munResNome")["CONTADOR"].sum().idxmin()
menos_bebes

'Rio Crespo'

In [7]:
sinasc_raw[sinasc_raw["munResNome"] == "Rio Crespo"].groupby("munResNome").agg({"IDADEMAE":
                                                                                [("média", "mean"),
                                                                                 ("máx.", "max"),
                                                                                 ("mín.", "min")],
                                                                                "IDADEPAI":
                                                                                [("média", "mean"),
                                                                                 ("máx.", "max"),
                                                                                 ("mín.", "min")]}).round()

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máx.,mín.,média,máx.,mín.
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Rio Crespo,27.0,39,16,28.0,28.0,28.0


In [8]:
# Verificando o porquê das estatísticas do pai serem iguais -> apenas no indice 34 há dado da idade do pai
sinasc_raw[sinasc_raw["munResNome"] == "Rio Crespo"][["IDADEMAE", "IDADEPAI"]].reset_index(drop=True)

Unnamed: 0,IDADEMAE,IDADEPAI
0,28,
1,39,
2,19,
3,21,
4,34,
5,16,
6,32,
7,25,
8,21,
9,31,


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [9]:
# essa restrição demandou mais trabalho para entender como fazer
sinasc_marco = sinasc_raw[pd.to_datetime(sinasc_raw["DTNASC"], format="%Y-%m-%d").dt.month == 3]

mais_bebes = sinasc_marco.groupby("munResNome")["CONTADOR"].sum().idxmax()
mais_bebes

'Porto Velho'

In [10]:
sinasc_marco[sinasc_marco["munResNome"] == "Porto Velho"].groupby("munResNome").agg({"QTDFILVIVO":
                                                                                 [("média", "mean"),
                                                                                 ("máx.", "max"),
                                                                                 ("mín.", "min")],
                                                                                 "IDADEMAE":
                                                                                [("média", "mean"),
                                                                                 ("máx.", "max"),
                                                                                 ("mín.", "min")],
                                                                                "IDADEPAI":
                                                                                [("média", "mean"),
                                                                                 ("máx.", "max"),
                                                                                 ("mín.", "min")]}).round()

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máx.,mín.,média,máx.,mín.,média,máx.,mín.
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Porto Velho,1.0,9.0,0.0,27.0,44,14,35.0,62.0,19.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Insights significativos sobre as respostas encontradas:
- nº1: Em todos os municípios, as mães são sempre mais novas que os pais dos bebês; com excessão do Município Ignorado. Essa discrepância pode indicar a herança da desigualdade de gênero, onde as mulheres tendem a engravidar em idades mais jovens, enquanto os homens adiam a paternidade. Isso pode ser influenciado por fatores socioeconômicos: como pressões sociais, expectativas familiares, acesso limitado à educação, oportunidades de trabalho restritas e falta de serviços de planejamento familiar eficazes.

- nº2: As meninas nascidas em Março de 2019 são mais pesadas; o que pode indicar mais saúde ao nascer, do que os meninos. Fato interessante, pois a sociedade patriarcal que cerca esse cenário transforma essa situação; desvalorizando as mulheres, mesmo elas nascendo mais fortes.

- nº3: Em Rio Crespo, nasceram 49 crianças no ano inteiro. Além de apresentar um valor absoluto baixíssimo para 365 dias (1 nascimento a cada 7 dias), como o Governo não tem dados do pai delas, há indicíos de que é uma região fragilisada: ou muita evasão paterna, ou muitos orfãos paternos. Para obter uma compreensão mais precisa e completa da situação, seria necessário um estudo mais aprofundado, com uma base de dados mais atualizada para uma análise sociodemográfica mais detalhada.

- nº4: Porto Velho é a capital do Estado, também é o município com mais nascimentos no ano todo de 2019 (em especial, também em Março), os dados estatísticos obtidos da capital reforçam o insight nº1; exibindo homogeneidade significativa nos dados, onde a maior amostra se assemelha ao conjunto completo.

In [11]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [12]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [13]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')