# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [14]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [17]:
dt_nasc = sinasc_raw['DTNASC']
print(dt_nasc)


0        2019-02-19
1        2019-02-21
2        2019-02-25
3        2019-03-20
4        2019-03-23
            ...    
27023    2019-12-13
27024    2019-10-04
27025    2019-08-02
27026    2019-12-23
27027    2019-12-27
Name: DTNASC, Length: 27028, dtype: object


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [23]:
#Verificando a quantidade de missings em IDADEPAI
sinasc_raw.IDADEPAI.isna().sum()

19421

In [28]:
#Verificando a quantidade missings em IDADEMAE
sinasc_raw.IDADEMAE.isna().sum()

0

In [29]:
sinasc_2 = sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI' ]]

In [27]:
media_idade = sinasc_2.dropna().groupby('munResNome')[['IDADEMAE', 'IDADEPAI']].mean()
print(media_idade)


                            IDADEMAE   IDADEPAI
munResNome                                     
Alta Floresta D'Oeste      25.892857  29.548701
Alto Alegre dos Parecis    24.679104  29.179104
Alto Paraíso               22.833333  28.833333
Alvorada D'Oeste           26.825243  30.757282
Ariquemes                  28.133333  32.466667
Buritis                    24.750000  30.812500
Cabixi                     32.166667  34.333333
Cacaulândia                31.000000  36.333333
Cacoal                     26.978605  30.931854
Campo Novo de Rondônia     24.900000  30.500000
Candeias do Jamari         23.684211  29.894737
Castanheiras               28.071429  30.392857
Cerejeiras                 28.361111  31.652778
Chupinguaia                26.888889  29.629630
Colorado do Oeste          31.161290  34.354839
Corumbiara                 29.000000  32.470588
Costa Marques              25.250000  30.613636
Cujubim                    27.400000  31.400000
Espigão D'Oeste            26.808176  31

2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [19]:

#Para o exercício em questão a coluna DTNASC está no formato YYYY-MM-DD
# Filtrar os dados para o dia 04/10 

data_filtrada = sinasc_raw[sinasc_raw['DTNASC'] == '2019-10-04']

# Agrupar por faixas de escolaridade da mãe e sexo, calcular o peso médio
peso_medio = data_filtrada.groupby(['ESCMAE', 'SEXO'])['PESO'].mean()

print(peso_medio)


ESCMAE           SEXO     
1 a 3 anos       Masculino    2635.000000
12 anos ou mais  Feminino     3235.000000
                 Masculino    3080.625000
4 a 7 anos       Feminino     3156.500000
                 Masculino    3235.000000
8 a 11 anos      Feminino     3032.285714
                 Masculino    3456.714286
Nenhuma          Feminino     2905.000000
Name: PESO, dtype: float64


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [40]:
#O Municipicio com menos bebês nascidos foi Castanheiras
sinasc_2.groupby('munResNome')['IDADEMAE'].count().sort_values(ascending=True)

munResNome
Município ignorado - RO         1
Castanheiras                   32
Pimenteiras do Oeste           40
Primavera de Rondônia          43
Parecis                        44
Rio Crespo                     50
São Felipe D'Oeste             54
Teixeirópolis                  64
Cacaulândia                    75
Cabixi                         80
Vale do Paraíso                81
Ministro Andreazza             84
Vale do Anari                  93
Theobroma                      97
Novo Horizonte do Oeste        98
Santa Luzia D'Oeste            99
Nova União                    104
Itapuã do Oeste               109
Governador Jorge Teixeira     112
Corumbiara                    127
Alto Alegre dos Parecis       154
Chupinguaia                   162
Mirante da Serra              164
Campo Novo de Rondônia        166
Seringueiras                  168
Urupá                         170
Monte Negro                   199
Cujubim                       205
Alvorada D'Oeste              205
Col

In [50]:
# qual a idade media, maxima, minima das maes nesse municipio?

dados_municipio = sinasc_2[sinasc_2['munResNome'] == "Castanheiras"]

estatisticas = {
    'idade_media': 'mean',
    'idade_maxima': 'max',
    'idade_minima': 'min'
}

# Utilizando o método aggregate
resultados = dados_municipio['IDADEMAE'].aggregate(estatisticas)


print("Estatísticas das mães em Castanheiras:")
print(resultados)



Estatísticas das mães em Castanheiras:
idade_media     27.28125
idade_maxima    39.00000
idade_minima    17.00000
Name: IDADEMAE, dtype: float64


In [54]:

dados_municipio = sinasc_2[sinasc_2['munResNome'] == "Castanheiras"]

estatisticas = {
    'idade_media': 'mean',
    'idade_maxima': 'max',
    'idade_minima': 'min'
}

# Utilizando o método aggregate
resultados = dados_municipio['IDADEPAI'].aggregate(estatisticas)


print("Estaísticas dos pais em Castanheiras:")
print(resultados)


Estaísticas dos pais em Castanheiras:
idade_media     30.392857
idade_maxima    43.000000
idade_minima    17.000000
Name: IDADEPAI, dtype: float64


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [62]:
#Utilizando o método datetime
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])

#Selecionando os dados que equivalem a 3
dados_marco = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]

#Agrupando os dados por município e contar o número de registros
nascimentos_por_municipio = dados_marco.groupby('munResNome').size()

# Encontrando o índice do município com o maior número de nascimentos
indice_max_nascimentos = nascimentos_por_municipio.idxmax()

## Obtendo o nome do município correspondente ao índice
municipio_mais_bebes = indice_max_nascimentos

print("Município com o maior número de nascimentos em março:", municipio_mais_bebes)


Município com o maior número de nascimentos em março: Porto Velho


In [75]:
#qual a quantidade de filhos vivos media, maxima, minima nesse municipio?

dados_municipio = sinasc_raw[sinasc_raw['munResNome'] == "Porto Velho"]


agregacao = {
    'QTDFILVIVO': ['mean', 'max', 'min']
}

estatisticas_filhos = dados_municipio.agg(agregacao)

print("Estatísticas de filhos vivos em Porto Velho:")
print("Quantidade média:", estatisticas_filhos['QTDFILVIVO']['mean'])
print("Quantidade máxima:", estatisticas_filhos['QTDFILVIVO']['max'])
print("Quantidade mínima:", estatisticas_filhos['QTDFILVIVO']['min'])


Estatísticas de filhos vivos em Porto Velho:
Quantidade média: 1.1672359611968848
Quantidade máxima: 12.0
Quantidade mínima: 0.0


In [74]:
#qual a idade media, maxima, minima dos pais nesse municipio?
dados_municipio = sinasc_2[sinasc_raw['munResNome'] == "Porto Velho"]

#Utilizando o método aggregate
agregacao = {
    'IDADEPAI': ['mean', 'max', 'min']
}


estatisticas_pais = dados_municipio.agg(agregacao)


print("Estatísticas de idade dos pais em Porto Velho:")
print("Idade média dos pais:", estatisticas_pais['IDADEPAI']['mean'])
print("Idade máxima dos pais:", estatisticas_pais['IDADEPAI']['max'])
print("Idade mínima dos pais:", estatisticas_pais['IDADEPAI']['min'])


Estatísticas de idade dos pais em Porto Velho:
Idade média dos pais: 32.35267857142857
Idade máxima dos pais: 65.0
Idade mínima dos pais: 16.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')