# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [4]:
#Lendo o DF
sinasc_raw = pd.read_csv('sinasc_RO_2019.csv')
sinasc_raw.head() 

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [17]:
#Calculando a idade media do pai e da mae usando o argumento do munResNome(Municipio residente nome)
idade_media = sinasc_raw.groupby('munResNome').agg({'IDADEMAE': 'mean', 'IDADEPAI': 'mean'}).reset_index()

idade_media

Unnamed: 0,munResNome,IDADEMAE,IDADEPAI
0,Alta Floresta D'Oeste,25.991826,29.548701
1,Alto Alegre dos Parecis,24.844156,29.179104
2,Alto Paraíso,24.960177,28.833333
3,Alvorada D'Oeste,25.770732,30.757282
4,Ariquemes,25.607866,32.466667
5,Buritis,25.559177,30.8125
6,Cabixi,26.0375,34.333333
7,Cacaulândia,25.546667,36.333333
8,Cacoal,26.890102,30.931854
9,Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [18]:
#Filtrando o DF com a data do meu nascimento 
sinasc_filtrado = sinasc_raw[sinasc_raw['DTNASC'] == '2019-11-06']

resultado = sinasc_filtrado.groupby(['SEXO', 'ESCMAE'])['PESO'].mean().reset_index()

resultado

Unnamed: 0,SEXO,ESCMAE,PESO
0,Feminino,1 a 3 anos,2925.0
1,Feminino,12 anos ou mais,2981.375
2,Feminino,4 a 7 anos,3046.0
3,Feminino,8 a 11 anos,3318.433333
4,Masculino,1 a 3 anos,3458.0
5,Masculino,12 anos ou mais,3472.5
6,Masculino,4 a 7 anos,3377.5
7,Masculino,8 a 11 anos,3470.72


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [51]:
#3
#Usando count e sort values para deixa-lo em ordem crescente.
sinasc_raw = sinasc_raw[sinasc_raw['munResNome'] != 'Município ignorado - RO']
resultado = sinasc_raw.groupby('munResNome')['DTNASC'].count().sort_values(ascending=True)
resultado.head()

munResNome
Castanheiras             32
Pimenteiras do Oeste     40
Primavera de Rondônia    43
Parecis                  44
Rio Crespo               50
Name: DTNASC, dtype: int64

In [59]:
#3.1
castanheiras_data = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras']

# Calcular a idade média, máxima e mínima das mães em Castanheiras
idade_media = castanheiras_data['IDADEMAE'].mean()
idade_maxima = castanheiras_data['IDADEMAE'].max()
idade_minima = castanheiras_data['IDADEMAE'].min()

# Imprimir os resultados
print(f"Idade média das mães em Castanheiras: {idade_media:.2f} anos")
print(f"Idade máxima das mães em Castanheiras: {idade_maxima} anos")
print(f"Idade mínima das mães em Castanheiras: {idade_minima} anos")

Idade média das mães em Castanheiras: 27.28 anos
Idade máxima das mães em Castanheiras: 39 anos
Idade mínima das mães em Castanheiras: 17 anos


In [64]:
#3.2

castanheiras_data = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras']
#usando o dropna para retirar os valores em branco 
castanheiras_data = castanheiras_data.dropna(subset=['IDADEPAI'])

# Calcular a idade média, máxima e mínima dos pais em Castanheiras
idade_media = castanheiras_data['IDADEPAI'].mean()
idade_maxima = castanheiras_data['IDADEPAI'].max()
idade_minima = castanheiras_data['IDADEPAI'].min()

# Imprimir os resultados
print(f"Idade média dos pais em Castanheiras: {idade_media:.2f} anos")
print(f"Idade máxima dos pais em Castanheiras: {idade_maxima} anos")
print(f"Idade mínima dos pais em Castanheiras: {idade_minima} anos") 

Idade média dos pais em Castanheiras: 30.39 anos
Idade máxima dos pais em Castanheiras: 43.0 anos
Idade mínima dos pais em Castanheiras: 17.0 anos


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [63]:
#4
nascimentos_marco = sinasc_raw[sinasc_raw['DTNASC'].str.startswith('2019-03')]

municipio_mais_nascimentos = nascimentos_marco['munResNome'].value_counts().idxmax()

municipio_mais_nascimentos

'Porto Velho'

In [71]:
#4.1
PortoV_data = sinasc_raw[sinasc_raw['QTDFILVIVO'] == 'Porto Velho']
PortoV_data = PortoV_data.loc[sinasc_raw['QTDFILVIVO'] != 0]

Quantidade_media = castanheiras_data['QTDFILVIVO'].mean()
Quantidade_maxima = castanheiras_data['QTDFILVIVO'].max()
Quantidade_minima = castanheiras_data['QTDFILVIVO'].min()

print(f"Quantidade media e de: {Quantidade_media:.2f} filhos")
print(f"Quantidade maxima e de: {Quantidade_maxima} filhos")
print(f"Quantidade minima e de: {Quantidade_minima} filhos") 

Quantidade media e de: 1.18 filhos
Quantidade maxima e de: 6.0 filhos
Quantidade minima e de: 0.0 filhos


In [None]:
#4.2
Porto_data = sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho']
#usando o dropna para retirar os valores em branco 
Porto_data = Porto_data.dropna(subset=['IDADEPAI'])

# Calcular a idade média, máxima e mínima dos pais em Porto Velho
idade_media = Porto_data['IDADEPAI'].mean()
idade_maxima = Porto_data['IDADEPAI'].max()
idade_minima = Porto_data['IDADEPAI'].min()

# Imprimir os resultados
print(f"Idade média dos pais em Porto Velho: {idade_media:.2f} anos")
print(f"Idade máxima dos pais em Porto Velho: {idade_maxima} anos")
print(f"Idade mínima dos pais em Porto Velho: {idade_minima} anos") 

**INSIGHTS**

1. No Ex. Numero um, podemos perceber que geralmente a mãe do bebê é a mais nova.

2. No Ex. Numero dois, e notorio que os bebes do sexo masculino nascem com um peso maior comparados ao do sexo feminino.

3. No Ex. Numero três, a idade média de mães é menor que a idade média dos pais, chegando a três anos de diferença.

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')