# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [35]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [36]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [37]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [38]:
df1 = sinasc_raw[['munResNome','IDADEPAI','IDADEMAE']]

df1 = df1.groupby('munResNome').mean()

print(df1)

                            IDADEPAI   IDADEMAE
munResNome                                     
Alta Floresta D'Oeste      29.548701  25.991826
Alto Alegre dos Parecis    29.179104  24.844156
Alto Paraíso               28.833333  24.960177
Alvorada D'Oeste           30.757282  25.770732
Ariquemes                  32.466667  25.607866
Buritis                    30.812500  25.559177
Cabixi                     34.333333  26.037500
Cacaulândia                36.333333  25.546667
Cacoal                     30.931854  26.890102
Campo Novo de Rondônia     30.500000  24.825301
Candeias do Jamari         29.894737  25.243323
Castanheiras               30.392857  27.281250
Cerejeiras                 31.652778  27.240506
Chupinguaia                29.629630  25.333333
Colorado do Oeste          34.354839  27.602804
Corumbiara                 32.470588  24.716535
Costa Marques              30.613636  24.412017
Cujubim                    31.400000  24.482927
Espigão D'Oeste            31.198113  26

### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [39]:
# Convertendo para data e separando os componentes para ficar mais fácil o filtro de dia e mês
sinasc_raw['DTCADASTRO'] = pd.to_datetime(sinasc_raw['DTCADASTRO'])
sinasc_raw['ano'] = sinasc_raw['DTCADASTRO'].dt.year
sinasc_raw['mes'] = sinasc_raw['DTCADASTRO'].dt.month
sinasc_raw['dia'] = sinasc_raw['DTCADASTRO'].dt.day

# Filtrando de acordo com o meu aniversário 23/10 
df_aniversario = sinasc_raw[(sinasc_raw['mes'] == 10) & (sinasc_raw['dia'] == 23)]

print(df_aniversario)

       ORIGEM   CODESTAB  CODMUNNASC  LOCNASC  IDADEMAE  ESTCIVMAE  \
15500       1  2496046.0      110004        1        29        2.0   
15501       1  2496046.0      110004        1        28        5.0   
15502       1  2496046.0      110004        1        15        1.0   
15503       1  2496046.0      110004        1        38        2.0   
15504       1  2496046.0      110004        1        39        5.0   
...       ...        ...         ...      ...       ...        ...   
25383       1  2798484.0      110030        1        20        1.0   
25384       1  2798484.0      110030        1        16        1.0   
25385       1  2798484.0      110030        1        21        1.0   
26905       1  2000733.0      120040        1        14        5.0   
26979       1  2017016.0      130170        1        26        1.0   

                ESCMAE  CODOCUPMAE  QTDFILVIVO  QTDFILMORT  ...  munResTipo  \
15500      8 a 11 anos    999992.0         2.0         0.0  ...       MUNIC   
1

In [40]:
df2 = df_aniversario[['ESCMAE','PESO','SEXO']]

df2 = df2.groupby(['ESCMAE','SEXO'])['PESO'].mean()

print(df2)


ESCMAE           SEXO     
1 a 3 anos       Feminino     2260.000000
                 Masculino    3478.333333
12 anos ou mais  Feminino     2843.333333
                 Masculino    3442.500000
4 a 7 anos       Feminino     2909.727273
                 Masculino    3520.714286
8 a 11 anos      Feminino     3302.375000
                 Masculino    3394.166667
Nenhuma          Feminino     2875.000000
Name: PESO, dtype: float64


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [41]:
# Filtrando apenas os nascimentos ocorridos em 2019
sinasc_2019 = sinasc_raw[sinasc_raw['ano'] == 2019]

# Retirando o 'Municipio Ignorado' que consta na base 
sinasc_raw = sinasc_raw[sinasc_raw['munResNome'] != 'Município ignorado - RO']

# Identificando o município com o menor número de nascimentos em 2019
nascimentos_por_municipio = sinasc_2019['munResNome'].value_counts()
municipio_menor_nascimentos = nascimentos_por_municipio.idxmin()

# Filtrando somente os nascimentos no município identificado
sinasc_municipio_menor_nascimentos = sinasc_2019[sinasc_2019['munResNome'] == municipio_menor_nascimentos]

# Calculando as estatísticas para as mães
idade_mae_media = sinasc_municipio_menor_nascimentos['IDADEMAE'].mean()
idade_mae_maxima = sinasc_municipio_menor_nascimentos['IDADEMAE'].max()
idade_mae_minima = sinasc_municipio_menor_nascimentos['IDADEMAE'].min()

# Calculando as estatísticas para os pais
idade_pai_media = sinasc_municipio_menor_nascimentos['IDADEPAI'].mean()
idade_pai_maxima = sinasc_municipio_menor_nascimentos['IDADEPAI'].max()
idade_pai_minima = sinasc_municipio_menor_nascimentos['IDADEPAI'].min()

# Resultados
print(f"Município com o menor número de nascimentos em 2019: {municipio_menor_nascimentos}")
print(f"Idade média das mães: {idade_mae_media:.2f}")
print(f"Idade máxima das mães: {idade_mae_maxima}")
print(f"Idade mínima das mães: {idade_mae_minima}")
print(f"Idade média dos pais: {idade_pai_media:.2f}")
print(f"Idade máxima dos pais: {idade_pai_maxima}")
print(f"Idade mínima dos pais: {idade_pai_minima}")

Município com o menor número de nascimentos em 2019: Município ignorado - RO
Idade média das mães: 24.00
Idade máxima das mães: 24
Idade mínima das mães: 24
Idade média dos pais: 22.00
Idade máxima dos pais: 22.0
Idade mínima dos pais: 22.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [42]:
# Filtrando apenas os nascimentos ocorridos em março
sinasc_marco = sinasc_raw[sinasc_raw['mes'] == 3]

# Identificando o município com o maior número de nascimentos em Março
nascimentos_por_municipio = sinasc_marco['munResNome'].value_counts()
municipio_maior_nascimentos = nascimentos_por_municipio.idxmax()

# Filtrando somente os nascimentos no município identificado
sinasc_municipio_maior_nascimentos = sinasc_marco[sinasc_marco['munResNome'] == municipio_maior_nascimentos]

# Calculando as estatísticas para os filhos
qtd_filvivo_media = sinasc_municipio_maior_nascimentos['QTDFILVIVO'].mean()
qtd_filvivo_maxima = sinasc_municipio_maior_nascimentos['QTDFILVIVO'].max()
qtd_filvivo_minima = sinasc_municipio_maior_nascimentos['QTDFILVIVO'].min()

# Calculando as estatísticas para os pais
idade_pai_media = sinasc_municipio_maior_nascimentos['IDADEPAI'].mean()
idade_pai_maxima = sinasc_municipio_maior_nascimentos['IDADEPAI'].max()
idade_pai_minima = sinasc_municipio_maior_nascimentos['IDADEPAI'].min()

# Resultados
print(f"Município com o maior número de nascimentos no mês de março: {municipio_maior_nascimentos}")
print(f"Quantidade média de filhos vivos: {qtd_filvivo_media:.2f}")
print(f"Quantidade máxima de filhos vivos: {qtd_filvivo_maxima}")
print(f"Quantidade mínima de filhos vivos: {qtd_filvivo_minima}")
print(f"Idade média dos pais: {idade_pai_media:.2f}")
print(f"Idade máxima dos pais: {idade_pai_maxima}")
print(f"Idade mínima dos pais: {idade_pai_minima}")

Município com o maior número de nascimentos no mês de março: Porto Velho
Quantidade média de filhos vivos: 1.46
Quantidade máxima de filhos vivos: 12.0
Quantidade mínima de filhos vivos: 0.0
Idade média dos pais: 33.25
Idade máxima dos pais: 57.0
Idade mínima dos pais: 17.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [43]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResAlt     float64
munResArea    float64
ano             int64
mes             int64
dia             int64
Length: 72, dtype: object

In [44]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [45]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea', 'ano',
       'mes', 'd

In [46]:
agrupamento_parto = sinasc_raw.groupby('PARTO').size().reset_index(name='Contagem')
agrupamento_parto['percentual'] = (agrupamento_parto['Contagem'] / agrupamento_parto['Contagem'].sum()) * 100
print(agrupamento_parto)

agrupamento_parto_escolaridade = sinasc_raw.groupby(['ESCMAE', 'PARTO']).size().reset_index(name='Contagem')
print(agrupamento_parto_escolaridade)

agrupamento_idade_media = sinasc_raw.groupby('PARTO')['IDADEMAE'].mean().reset_index(name='idade_media')
print(agrupamento_idade_media)

# De maneira geral, o parto cesáreo é o mais comum, representando quase 67% dos partos realizados na base de dados.
# Quando abrimos por grau de escolaridade da mãe, vimos que mulheres com mais escolaridade tendem a seguir pelo parto cesáreo ao invés do vaginal natural.
# É uma relação bem equilibrada nas faixas de 'nenhuma', '1 a 3' e '4 a 7 anos', enquanto nos graus maiores o parto cesáreo já possui uma quantidade consideravelmente maior.
# Isso também é refletido na idade média dessas mulheres, onde as mais velhas costumam seguir o parto cesáreo.

     PARTO  Contagem  percentual
0  Cesáreo     18036   66.854474
1  Vaginal      8942   33.145526
            ESCMAE    PARTO  Contagem
0       1 a 3 anos  Cesáreo       273
1       1 a 3 anos  Vaginal       242
2  12 anos ou mais  Cesáreo      4698
3  12 anos ou mais  Vaginal      1051
4       4 a 7 anos  Cesáreo      2606
5       4 a 7 anos  Vaginal      2150
6      8 a 11 anos  Cesáreo     10208
7      8 a 11 anos  Vaginal      5398
8          Nenhuma  Cesáreo        19
9          Nenhuma  Vaginal        21
     PARTO  idade_media
0  Cesáreo    26.929752
1  Vaginal    24.399911


In [47]:
# Calculando as top 5 cidades com mais nascimentos registrados

nascimentos_por_cidade = sinasc_raw.groupby('munResNome').size().reset_index(name='contagem')
nascimentos_por_cidade = nascimentos_por_cidade.sort_values(by='contagem', ascending=False)
top_5_cidades = nascimentos_por_cidade.head(5)

print(top_5_cidades)

     munResNome  contagem
36  Porto Velho      8437
23    Ji-Paraná      2182
4     Ariquemes      1729
51      Vilhena      1590
8        Cacoal      1374
