# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [54]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [55]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [56]:
# Exibindo os nomes de todas as colunas
print(sinasc_raw.columns)

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [57]:
# Calculando a idade média das mães e dos pais por município
idade_media_por_municipio = sinasc_raw.groupby('munResNome').agg({'IDADEMAE': 'mean', 'IDADEPAI': 'mean'}).reset_index()

In [13]:
# Exibindo o resultado
print(idade_media_por_municipio)

                   munResNome   IDADEMAE   IDADEPAI
0       Alta Floresta D'Oeste  25.991826  29.548701
1     Alto Alegre dos Parecis  24.844156  29.179104
2                Alto Paraíso  24.960177  28.833333
3            Alvorada D'Oeste  25.770732  30.757282
4                   Ariquemes  25.607866  32.466667
5                     Buritis  25.559177  30.812500
6                      Cabixi  26.037500  34.333333
7                 Cacaulândia  25.546667  36.333333
8                      Cacoal  26.890102  30.931854
9      Campo Novo de Rondônia  24.825301  30.500000
10         Candeias do Jamari  25.243323  29.894737
11               Castanheiras  27.281250  30.392857
12                 Cerejeiras  27.240506  31.652778
13                Chupinguaia  25.333333  29.629630
14          Colorado do Oeste  27.602804  34.354839
15                 Corumbiara  24.716535  32.470588
16              Costa Marques  24.412017  30.613636
17                    Cujubim  24.482927  31.400000
18          

### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [58]:
# Convertendo a coluna 'DTNASC' para o formato datetime
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'], errors='coerce')

In [59]:
# Filtrando apenas os bebês que nasceram no dia 20/03
sinasc_raw_20_03 = sinasc_raw[sinasc_raw['DTNASC'].dt.day == 20]
sinasc_raw_20_03 = sinasc_raw_20_03[sinasc_raw_20_03['DTNASC'].dt.month == 3]

In [60]:
# Criando faixas de escolaridade
faixas_escolaridade = ['Sem instrução e menos de 1 ano', '1 e 3 anos', '4 e 7 anos', '8 e 11 anos', '12 e 14 anos', '15 anos ou mais']

In [61]:
# Criando uma nova coluna para as faixas de escolaridade
sinasc_raw_20_03['FaixaEscolaridade'] = pd.cut(sinasc_raw_20_03['ESCMAE2010'], bins=[0, 1, 3, 7, 11, 14, 99], labels=faixas_escolaridade)

In [62]:
# Calculando o peso médio dos bebês por sexo e faixa de escolaridade
peso_medio_por_sexo_escolaridade =sinasc_raw_20_03.groupby(['SEXO', 'FaixaEscolaridade'])['PESO'].mean().reset_index()

In [63]:
# Exibindo o resultado 
print(peso_medio_por_sexo_escolaridade)


         SEXO               FaixaEscolaridade         PESO
0    Feminino  Sem instrução e menos de 1 ano  3445.000000
1    Feminino                      1 e 3 anos  3186.571429
2    Feminino                      4 e 7 anos  3242.846154
3    Feminino                     8 e 11 anos          NaN
4    Feminino                    12 e 14 anos          NaN
5    Feminino                 15 anos ou mais          NaN
6   Masculino  Sem instrução e menos de 1 ano  3900.000000
7   Masculino                      1 e 3 anos  3477.857143
8   Masculino                      4 e 7 anos  3461.230769
9   Masculino                     8 e 11 anos          NaN
10  Masculino                    12 e 14 anos          NaN
11  Masculino                 15 anos ou mais          NaN


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [64]:
# Somando as ocorrências de QTDFILVIVO e QTDFILMORT para cada município
sinasc_raw['TotalNascimentos'] = sinasc_raw['QTDFILVIVO'] + sinasc_raw['QTDFILMORT']
nascimentos_por_municipio = sinasc_raw.groupby('munResNome')['TotalNascimentos'].sum().reset_index()
nascimentos_por_municipio.columns = ['Municipio', 'TotalNascimentos']

In [65]:
# Encontrando o município com o menor número total de nascimentos
menor_numero_nascimentos = nascimentos_por_municipio.loc[nascimentos_por_municipio['TotalNascimentos'].idxmin()]

In [66]:
# Exibindo o resultado
print("Município com Menor Número Total de Nascimentos em 2019:")
print(menor_numero_nascimentos)

Município com Menor Número Total de Nascimentos em 2019:
Municipio           Município ignorado - RO
TotalNascimentos                        2.0
Name: 28, dtype: object


In [67]:
# Filtrando o DataFrame para incluir apenas o município com o menor número total de nascimentos
sinasc_municipio = sinasc_raw[sinasc_raw['munResNome'] == menor_numero_nascimentos['Municipio']]

# Calculando as estatísticas de idade das mães no município selecionado
estatisticas_idade_maes = sinasc_municipio['IDADEMAE'].agg(['mean', 'min', 'max']).reset_index()
estatisticas_idade_maes.columns = ['Estatistica', 'Idade']

# Exibindo o resultado
print(f"Estatísticas de Idade das Mães no Município {menor_numero_nascimentos['Municipio']}:")
print(estatisticas_idade_maes)

Estatísticas de Idade das Mães no Município Município ignorado - RO:
  Estatistica  Idade
0        mean   24.0
1         min   24.0
2         max   24.0


In [68]:
# Calculando as estatísticas de idade dos pais no município selecionado
estatisticas_idade_pais = sinasc_municipio['IDADEPAI'].agg(['mean', 'min', 'max']).reset_index()
estatisticas_idade_pais.columns = ['Estatistica', 'Idade']

# Exibindo o resultado
print(f"Estatísticas de Idade dos Pais no Município {menor_numero_nascimentos['Municipio']}:")
print(estatisticas_idade_pais)

Estatísticas de Idade dos Pais no Município Município ignorado - RO:
  Estatistica  Idade
0        mean   22.0
1         min   22.0
2         max   22.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [69]:
# Filtrando o DataFrame para incluir apenas os registros de março
sinasc_marco = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]

In [70]:
# Contando o número de nascimentos por município em março
nascimentos_marco_por_municipio = sinasc_marco['munResNome'].value_counts().reset_index()
nascimentos_marco_por_municipio.columns = ['Municipio', 'NumeroNascimentosMarco']

# Encontrando o município com o maior número de nascimentos em março
maior_numero_nascimentos_marco = nascimentos_marco_por_municipio.loc[nascimentos_marco_por_municipio['NumeroNascimentosMarco'].idxmax()]

In [71]:
# Exibindo o resultado
print("Município com Maior Número de Nascimentos em Março:")
print(maior_numero_nascimentos_marco)

Município com Maior Número de Nascimentos em Março:
Municipio                 Porto Velho
NumeroNascimentosMarco            744
Name: 0, dtype: object


In [76]:
# Filtrando o DataFrame para incluir apenas os registros do município com mais nascimentos em março
sinasc_municipio_maior_nascimentos_marco = sinasc_raw[sinasc_raw['munResNome'] == maior_numero_nascimentos_marco['Municipio']]

# Verificando se a coluna 'IDADEPAI' está presente no DataFrame
if 'IDADEPAI' in sinasc_municipio_maior_nascimentos_marco.columns:
    # Filtrando os registros com valores não nulos na coluna 'IDADEPAI'
    sinasc_municipio_maior_nascimentos_marco = sinasc_municipio_maior_nascimentos_marco.dropna(subset=['IDADEPAI'])

    # Calculando as estatísticas de idade dos pais no município selecionado
    estatisticas_idade_pais = sinasc_municipio_maior_nascimentos_marco['IDADEPAI'].agg(['mean', 'min', 'max']).reset_index()
    estatisticas_idade_pais.columns = ['Estatistica', 'IDADEPAI']

    # Exibindo o resultado
    print(f"Estatísticas de Idade dos Pais no Município {maior_numero_nascimentos_marco['Municipio']} em Março:")
    print(estatisticas_idade_pais)
else:
    print("A coluna 'IDADEPAI' não está presente no DataFrame do município.")

Estatísticas de Idade dos Pais no Município Porto Velho em Março:
  Estatistica   IDADEPAI
0        mean  32.352679
1         min  16.000000
2         max  65.000000


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Com base nas idades das mães e dos pais por município no ano de 2019, algumas observações e insights que podem ser extraídos:

Idade Mediana das Mulheres que Deram à Luz no Ano de 2019 por Município:

A idade mediana das mulheres que deram à luz varia entre os municípios, com valores que vão de 23.0 a 28.0.
Municípios como Costa Marques, Cujubim e Porto Velho apresentam idades medianas mais baixas, enquanto Cabixi, Pimenteiras do Oeste e Espigão D'Oeste têm idades medianas mais altas. Em alguns municípios, a idade mediana das mulheres que deram à luz é mais homogênea, enquanto em outros há uma variação mais significativa.

Idade Mediana dos Pais no Ano de 2019 por Município:

A idade mediana dos pais também varia consideravelmente entre os municípios, com valores que vão de 22.0 a 40.0.
Municípios como Município ignorado - RO, Cacoal e São Francisco do Guaporé apresentam idades medianas mais baixas, enquanto Itapuã do Oeste, Pimenteiras do Oeste e Guajará-Mirim têm idades medianas mais altas. Em alguns municípios, a idade mediana dos pais é bastante homogênea, enquanto em outros há uma variação mais significativa.

Observações Gerais:

Em alguns casos, a idade mediana das mães e dos pais é semelhante, enquanto em outros casos há uma diferença significativa entre as idades medianas das duas populações. Municípios menores podem apresentar maior variabilidade nas idades medianas devido a amostras de tamanho reduzido. 

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')