# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [4]:
sinasc_raw = pd.read_csv('M9_SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [7]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [9]:
sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']].groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [11]:
"""
PESO
SEXO  
ESCMAE
DTNASC
"""

sinasc1104 = sinasc_raw[sinasc_raw['DTNASC'] == '2019-04-11']
sinasc1104.groupby(['ESCMAE', 'SEXO'])['PESO'].mean().reset_index()

Unnamed: 0,ESCMAE,SEXO,PESO
0,1 a 3 anos,Masculino,1070.0
1,12 anos ou mais,Feminino,3097.222222
2,12 anos ou mais,Masculino,3196.875
3,4 a 7 anos,Feminino,3326.666667
4,4 a 7 anos,Masculino,3040.0
5,8 a 11 anos,Feminino,3267.545455
6,8 a 11 anos,Masculino,3267.666667


A análise dos dados revela uma ausência de observações para ambos os sexos em certas faixas de escolaridade da mãe. Especificamente, não há registros de bebês do sexo feminino nascidos de mães com escolaridade entre 1 e 3 anos. Observa-se também que, para os bebês nascidos em 11 de abril de 2019, a tendência geralmente observada de bebês do sexo masculino apresentarem maior peso ao nascer não se mantém em duas faixas de escolaridade da mãe. Essas anomalias podem indicar padrões específicos no conjunto de dados ou refletir características particulares da população estudada.

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [173]:
sinasc3 = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]

In [193]:
#sinasc_2.groupby('ESCMAE').aggregate(['min', np.median, max])
sinasc3ag = sinasc3.groupby('munResNome').agg(
    qtd=('munResNome', 'count'),
    IDADEMAE_min=('IDADEMAE', 'min'),
    IDADEMAE_median=('IDADEMAE', 'median'),
    IDADEMAE_max=('IDADEMAE', 'max'),
    IDADEPAI_min=('IDADEPAI', 'min'),
    IDADEPAI_median=('IDADEPAI', 'median'),
    IDADEPAI_max=('IDADEPAI', 'max'))

sinasc3f = sinasc3ag.sort_values(by='qtd').reset_index()

In [195]:
sinasc3f.head()

Unnamed: 0,munResNome,qtd,IDADEMAE_min,IDADEMAE_median,IDADEMAE_max,IDADEPAI_min,IDADEPAI_median,IDADEPAI_max
0,Município ignorado - RO,1,24,24.0,24,22.0,22.0,22.0
1,Castanheiras,32,17,27.0,39,17.0,31.5,43.0
2,Pimenteiras do Oeste,40,14,25.0,40,25.0,36.0,45.0
3,Primavera de Rondônia,43,16,26.0,39,21.0,33.0,44.0
4,Parecis,44,16,26.0,41,18.0,32.0,61.0


In [197]:
sinasc3f = sinasc3f.drop(sinasc3f.index[0], axis=0)

In [211]:
mun3 = sinasc3f.iloc[0, 0]

mmin = sinasc3f.iloc[0, 2]
mmax = sinasc3f.iloc[0, 4]
mmedia = sinasc3f.iloc[0, 3]

pmin = sinasc3f.iloc[0, 5]
pmax = sinasc3f.iloc[0, 7]
pmedia = sinasc3f.iloc[0, 6]

print(f'O municipio que onde nasceram menos bebes no ano de 2019 foi {mun3}.')
print(f'As mães que deram a luz neste municipio no ano de 2019 apresentavam idades entre {mmin} e {mmax}, sendo a idade média entre elas {mmedia}.')
print(f'Os pais dos bebes nascidos neste municipio no ano de 2019 apresentavam idades entre {pmin} e {pmax}, sendo a idade média entre eles {pmedia}.')

O municipio que onde nasceram menos bebes no ano de 2019 foi Castanheiras.
As mães que deram a luz neste municipio no ano de 2019 apresentaram idades entre 17 e 39, sendo a idade média entre elas 27.0.
Os pais dos bebes nascidos neste municipio no ano de 2019 apresentaram idades entre 17.0 e 43.0, sendo a idade média entre eles 31.5.


Com as idades médias situando-se em 27 anos para as mães e 31,5 anos para os pais, podemos inferir que essas famílias são, em grande parte, financeiramente estáveis. Essa possível estabilidade econômica contrasta com a realidade de um estado que, em 2023, apresentou uma taxa de pobreza superior à média nacional, o que pode indicar uma tendência inversa à alta taxa de gravidez juvenil comumente observada em comunidades mais vulneráveis. Esses insights podem direcionar estratégias de mercado mais precisas, focadas em consumidores com maior capacidade de investimento em produtos e serviços.

### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [297]:
sinasc4 = sinasc_raw[['DTNASC',
                      'munResNome',
                      'QTDFILVIVO', 
                      'IDADEMAE',
                      'IDADEPAI']].copy()

In [337]:
sinasc4['DTNASC'] = pd.to_datetime(sinasc4['DTNASC'])
sinasc4marco = sinasc4[sinasc4['DTNASC'].dt.month == 3].copy()
sinasc4f = sinasc4marco.groupby('munResNome').agg({'munResNome':[('qtd','count')],
                                        'QTDFILVIVO':['min', 'median', 'max'],
                                        'IDADEPAI':['min', 'median', 'max']}).reset_index()

Unnamed: 0_level_0,munResNome,munResNome,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,Unnamed: 1_level_1,qtd,min,median,max,min,median,max
0,Alta Floresta D'Oeste,31,0.0,1.0,4.0,20.0,29.5,45.0
1,Alto Alegre dos Parecis,10,0.0,1.0,2.0,21.0,29.0,38.0
2,Alto Paraíso,22,0.0,1.0,3.0,23.0,26.0,29.0
3,Alvorada D'Oeste,22,0.0,1.0,3.0,26.0,33.0,42.0
4,Ariquemes,141,0.0,1.0,4.0,28.0,29.0,29.0
5,Buritis,59,0.0,1.0,4.0,18.0,30.0,48.0
6,Cabixi,6,0.0,0.5,3.0,,,
7,Cacaulândia,10,0.0,1.0,4.0,,,
8,Cacoal,133,0.0,1.0,7.0,17.0,30.0,47.0
9,Campo Novo de Rondônia,13,0.0,1.0,2.0,21.0,27.0,40.0


In [351]:
sinasc4f = sinasc4f.sort_values(by=sinasc4f.columns[1], ascending=False)
sinasc4f.head(1)

Unnamed: 0_level_0,munResNome,munResNome,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,Unnamed: 1_level_1,qtd,min,median,max,min,median,max
36,Porto Velho,744,0.0,1.0,9.0,19.0,34.0,62.0


In [355]:
mun4 = sinasc4f.iloc[0,0]

fvmin = sinasc4f.iloc[0,2]
fvmax = sinasc4f.iloc[0,4]
fvmedia = sinasc4f.iloc[0,3]

pmin4 = sinasc4f.iloc[0,5]
pmax4 = sinasc4f.iloc[0,7]
pmedia4 = sinasc4f.iloc[0,6]

print(f'O municipio onde nasceram mais bebes no mês de março de 2019 foi {mun4}.')
print(f'As mães que deram luz neste periodo tinham entre {fvmin} e {fvmax} filhos.')
print(f'A média de filhos entre elas era {fvmedia}.')
print(f'Os pais dos bebes nascidos neste periodo apresentavam idades entre {pmin4} e {pmax4}, sendo a idade média entre eles {pmedia4}.')

O municipio onde nasceram mais bebes no mês de março de 2019 foi Porto Velho.
As mães que deram luz neste periodo tinham entre 0.0 e 9.0 filhos.
A média de filhos entre elas era 1.0.
Os pais dos bebes nascidos neste periodo apresentavam idades entre 19.0 e 62.0, sendo a idade média entre eles 34.0.


A análise dos dados revela uma ampla variação no número de filhos por família, variando de 0 a 9, no entanto, a média aponta uma tendência centralizada em apenas 1 filho por família. Essa informação é particularmente relevante para setores como o imobiliário, de serviços e financeiro, que podem desenvolver produtos e serviços mais alinhados a este perfil demográfico. A prevalência de famílias com um único filho sugere uma demanda mais segmentada e de menor volume no consumo de bens, com a possibilidade de um gasto mais elevado por criança. Além disso, empresas de diversos setores podem adaptar suas ofertas, estratégias de atendimento e comunicação para melhor refletir essa realidade demográfica, otimizando a segmentação de mercado e a personalização de suas abordagens.

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')