# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [3]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [4]:
sinasc1 = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]
sinasc1.head()

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome
0,19,26.0,Alta Floresta D'Oeste
1,29,24.0,Alta Floresta D'Oeste
2,37,32.0,Alta Floresta D'Oeste
3,30,24.0,Alto Alegre dos Parecis
4,30,27.0,Alta Floresta D'Oeste


In [5]:
# média das idades das mães e dos pais por munícipio
t1 = sinasc1.groupby('munResNome').mean()
t1

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [6]:
sinasc2 = sinasc_raw[['PESO', 'SEXO', 'DTNASC', 'ESCMAE', 'ESCMAEAGR1']]
sinasc2.head()

Unnamed: 0,PESO,SEXO,DTNASC,ESCMAE,ESCMAEAGR1
0,3685,Masculino,2019-02-19,8 a 11 anos,12.0
1,3055,Feminino,2019-02-21,8 a 11 anos,12.0
2,3460,Feminino,2019-02-25,8 a 11 anos,12.0
3,2982,Feminino,2019-03-20,12 anos ou mais,8.0
4,3310,Feminino,2019-03-23,8 a 11 anos,12.0


In [7]:
sinasc2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   PESO        27028 non-null  int64  
 1   SEXO        27024 non-null  object 
 2   DTNASC      27028 non-null  object 
 3   ESCMAE      26716 non-null  object 
 4   ESCMAEAGR1  26779 non-null  float64
dtypes: float64(1), int64(1), object(3)
memory usage: 1.0+ MB


In [8]:
# convertendo a coluna DTNASC para o tipo datetime

# sinasc2.loc[:, 'DTNASC'] = pd.to_datetime(sinasc2.loc[:,'DTNASC'])
sinasc2['DTNASC'] = pd.to_datetime(sinasc2['DTNASC'])
sinasc2.dtypes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sinasc2['DTNASC'] = pd.to_datetime(sinasc2['DTNASC'])


PESO                   int64
SEXO                  object
DTNASC        datetime64[ns]
ESCMAE                object
ESCMAEAGR1           float64
dtype: object

In [18]:
data_10_01 = sinasc2[sinasc2['DTNASC'] == '2019-10-01']
data_10_01.groupby(['ESCMAE', 'SEXO'])['PESO'].mean()

ESCMAE           SEXO     
12 anos ou mais  Feminino     3103.500000
                 Masculino    3161.307692
4 a 7 anos       Feminino     3280.833333
                 Masculino    3675.833333
8 a 11 anos      Feminino     3137.666667
                 Masculino    3378.888889
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebes em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [10]:
# Qual o municipio que nasceu menos bebe em 2019?

sinasc1.groupby('munResNome').size().reset_index(name='qtd').sort_values('qtd', ascending=True).head()
# Castanheiras

Unnamed: 0,munResNome,qtd
28,Município ignorado - RO,1
11,Castanheiras,32
36,Pimenteiras do Oeste,40
39,Primavera de Rondônia,43
34,Parecis,44


In [11]:
# qual a idade media, maxima, minima das maes nesse municipio

mae_media = sinasc1[sinasc1['munResNome'] == 'Castanheiras']['IDADEMAE'].mean()
mae_max = sinasc1[sinasc1['munResNome'] == 'Castanheiras']['IDADEMAE'].max()
mae_min = sinasc1[sinasc1['munResNome'] == 'Castanheiras']['IDADEMAE'].min()
print(f"A Média de idade das mães é {round(mae_media,2)} \nIdade máxima da mãe é {mae_max} \nIdade mínima da mãe é {mae_min}")

A Média de idade das mães é 27.28 
Idade máxima da mãe é 39 
Idade mínima da mãe é 17


In [12]:
# qual a idade media, maxima, minima dos pais nesse municipio?

pai_media = sinasc1[sinasc1['munResNome'] == 'Castanheiras']['IDADEPAI'].mean()
pai_max = sinasc1[sinasc1['munResNome'] == 'Castanheiras']['IDADEPAI'].max()
pai_min = sinasc1[sinasc1['munResNome'] == 'Castanheiras']['IDADEPAI'].min()
print(f"A Média de idade dos pais é {round(pai_media,2)} \nIdade máxima do pai é {pai_max} \nIdade mínima do pai é {pai_min}")

A Média de idade dos pais é 30.39 
Idade máxima do pai é 43.0 
Idade mínima do pai é 17.0


### 4. Qual o municipio que nasceu mais bebes no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [13]:
sinasc3 = sinasc_raw[['munResNome', 'QTDFILVIVO', 'IDADEPAI', 'DTNASC']]
sinasc3.head()

Unnamed: 0,munResNome,QTDFILVIVO,IDADEPAI,DTNASC
0,Alta Floresta D'Oeste,0.0,26.0,2019-02-19
1,Alta Floresta D'Oeste,1.0,24.0,2019-02-21
2,Alta Floresta D'Oeste,2.0,32.0,2019-02-25
3,Alto Alegre dos Parecis,0.0,24.0,2019-03-20
4,Alta Floresta D'Oeste,1.0,27.0,2019-03-23


In [14]:
sinasc3['DTNASC'] = pd.to_datetime(sinasc3['DTNASC'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sinasc3['DTNASC'] = pd.to_datetime(sinasc3['DTNASC'])


In [19]:
# Qual o municipio que nasceu mais bebes no mês de março?
sinasc3[sinasc3['DTNASC'].dt.month == 3].groupby('munResNome').size().reset_index(name='qtd').sort_values('qtd', ascending=False).head()

Unnamed: 0,munResNome,qtd
36,Porto Velho,744
23,Ji-Paraná,188
51,Vilhena,148
4,Ariquemes,141
8,Cacoal,133


In [16]:
# qual a quantidade de filhos vivos média, máxima, mínima nesse municipio?

filhos_vivos_media = sinasc3[(sinasc3['DTNASC'].dt.month == 3) & (sinasc3['munResNome'] == 'Porto Velho')].groupby('munResNome')['QTDFILVIVO'].mean()
filhos_vivos_max = sinasc3[(sinasc3['DTNASC'].dt.month == 3) & (sinasc3['munResNome'] == 'Porto Velho')].groupby('munResNome')['QTDFILVIVO'].max()
filhos_vivos_min = sinasc3[(sinasc3['DTNASC'].dt.month == 3) & (sinasc3['munResNome'] == 'Porto Velho')].groupby('munResNome')['QTDFILVIVO'].min()

print(f"A média de filhos vivos é de: {filhos_vivos_media['Porto Velho']} \nA máximo de filho vivos é {filhos_vivos_max['Porto Velho']} \nO mínimo de filhos vivos é {filhos_vivos_min['Porto Velho']}")

A média de filhos vivos é de: 1.2950558213716108 
A máximo de filho vivos é 9.0 
O mínimo de filhos vivos é 0.0


In [24]:
sinasc3['QTDFILVIVO'].max()

30.0

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

- O pesos médios dos bêbes de sexo masculino e feminino é maior entre as mães que tiveram de 4 a 7 anos de estudo.
- A idade dos pais tende a ser maior que a idade das mães
- A quantidade geral máxima de filhos vivos é de 30. Indicando que este valor seja um provável erro de digitação.