# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [None]:
# 1) Plotando
sinasc_raw.groupby('munResNome').agg({'IDADEMAE': 'mean', 'IDADEPAI': 'mean'})

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [None]:
# 2.2) Transformando em datas
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])
print(sinasc_raw['DTNASC'])

0       2019-02-19
1       2019-02-21
2       2019-02-25
3       2019-03-20
4       2019-03-23
           ...    
27023   2019-12-13
27024   2019-10-04
27025   2019-08-02
27026   2019-12-23
27027   2019-12-27
Name: DTNASC, Length: 27028, dtype: datetime64[ns]


In [None]:
# 2.2) Plotando
sinasc_filtrado = sinasc_raw[sinasc_raw['DTNASC'] == '2019-04-17']
sinasc_filtrado.groupby(['SEXO', 'ESCMAE']).agg({'PESO': 'mean'})

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
SEXO,ESCMAE,Unnamed: 2_level_1
Feminino,1 a 3 anos,3630.0
Feminino,12 anos ou mais,3116.909091
Feminino,4 a 7 anos,3290.0
Feminino,8 a 11 anos,3144.964286
Masculino,1 a 3 anos,3150.0
Masculino,12 anos ou mais,3248.428571
Masculino,4 a 7 anos,3121.818182
Masculino,8 a 11 anos,3349.185185


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [None]:
# 3.1.0) Filtrando o municipio com menor número de nascimentos em 2019 no Dataframe

mun_menos_nasc = sinasc_raw['munResNome'].value_counts().nsmallest(5)
print(mun_menos_nasc,'\n')

# 3.1.1) Foi visto que existe um "Município ignorado - RO" com apenas 1 caso, vamos pular esse.
# Filtrando apenas o município com nome, no caso, castanheiras

mun_menos_nasc = mun_menos_nasc.index[1]
print(mun_menos_nasc,'\n')

# 3.1.2) Conferindo

sinasc_filtrado = sinasc_raw[sinasc_raw['munResNome'] == mun_menos_nasc]
print(sinasc_filtrado['munResNome'])

munResNome
Município ignorado - RO     1
Castanheiras               32
Pimenteiras do Oeste       40
Primavera de Rondônia      43
Parecis                    44
Name: count, dtype: int64 

Castanheiras 

2067     Castanheiras
2300     Castanheiras
4512     Castanheiras
5881     Castanheiras
5952     Castanheiras
10762    Castanheiras
10768    Castanheiras
10882    Castanheiras
10962    Castanheiras
10988    Castanheiras
10997    Castanheiras
11017    Castanheiras
11175    Castanheiras
11196    Castanheiras
11293    Castanheiras
11354    Castanheiras
11371    Castanheiras
17441    Castanheiras
24282    Castanheiras
24288    Castanheiras
24299    Castanheiras
24316    Castanheiras
24486    Castanheiras
24507    Castanheiras
24517    Castanheiras
24528    Castanheiras
24605    Castanheiras
24639    Castanheiras
24674    Castanheiras
24715    Castanheiras
24781    Castanheiras
24863    Castanheiras
Name: munResNome, dtype: object


In [None]:
# 3.2 )Plotando
sinasc_filtrado.groupby(['munResNome']).agg({'IDADEMAE': ['mean', 'max', 'min'],
                                             'IDADEPAI': ['mean', 'max','min']})

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mean,max,min,mean,max,min
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,27.28125,39,17,30.392857,43.0,17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [None]:
# 4.1.1) Filtrando mês de março

sinasc_marco = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]
print(sinasc_marco['DTNASC'],'\n')

# 4.1.2) Filtrando municipio com maior numero de nascimentos no mês

mun_max_nasc = sinasc_marco['munResNome'].value_counts().idxmax()
print(mun_max_nasc,'\n')

# 4.1.3) Conferindo

sinasc_marco = sinasc_raw[sinasc_raw['munResNome'] == mun_max_nasc]
print(sinasc_marco['munResNome'])

3       2019-03-20
4       2019-03-23
5       2019-03-27
9       2019-03-11
10      2019-03-11
           ...    
13670   2019-03-21
13671   2019-03-22
13736   2019-03-07
13748   2019-03-30
13750   2019-03-09
Name: DTNASC, Length: 2456, dtype: datetime64[ns] 

Porto Velho 

123      Porto Velho
201      Porto Velho
246      Porto Velho
272      Porto Velho
355      Porto Velho
            ...     
26986    Porto Velho
26991    Porto Velho
26995    Porto Velho
26999    Porto Velho
27000    Porto Velho
Name: munResNome, Length: 8437, dtype: object


In [None]:
# 4.2) Plotando
sinasc_marco.groupby(['munResNome']).agg({'QTDFILVIVO': ['mean', 'max', 'min']})

sinasc_marco.groupby(['munResNome']).agg({'QTDFILVIVO': ['mean', 'max', 'min'],
                                          'IDADEMAE': ['mean', 'max', 'min'],
                                          'IDADEPAI': ['mean', 'max','min']})

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mean,max,min,mean,max,min,mean,max,min
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Porto Velho,1.167236,12.0,0.0,26.31267,47,12,32.352679,65.0,16.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [None]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [None]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [None]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [None]:
# Testes
sinasc_raw.groupby(['ESCMAE']).agg({'QTDFILVIVO': ['mean'],'APGAR5': ['mean'], 'IDADEPAI':['mean'],'IDADEMAE':['mean']})

Unnamed: 0_level_0,QTDFILVIVO,APGAR5,IDADEPAI,IDADEMAE
Unnamed: 0_level_1,mean,mean,mean,mean
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1 a 3 anos,2.39798,8.982353,33.805556,28.430233
12 anos ou mais,0.723574,9.261421,32.956214,29.548119
4 a 7 anos,1.554003,9.124815,31.142111,24.604412
8 a 11 anos,0.964274,9.17271,30.02802,25.150387
Nenhuma,3.675,8.975,38.5,31.575


In [None]:
# Testes.
sinasc_raw.groupby('IDADEMAE').agg({'IDADEPAI':['mean']})

Unnamed: 0_level_0,IDADEPAI
Unnamed: 0_level_1,mean
IDADEMAE,Unnamed: 1_level_2
11,
12,18.0
13,28.0
14,21.772727
15,22.577465
16,22.736
17,22.73913
18,23.615385
19,24.651163
20,25.35905


**Insights**




*   Conforme visto, quanto menos a escolaridade maior a quantidade de filhos, isso se deve por diferentes fatores:
1.  Pessoas com menos acesso a informação tendem a estudar por menos tempo e se cuidarem menos, resultando em mais filhos.
2.  Pessoas que tem filho cedo são mais propensas a estudarem menos por diversos motivos, como pressão e necessidade de trabalhar mais cedo.
3.  Pessoas que deixam para ter filho mais tarde por conta do estudo ja estão mais próximas da gravidez de risco, tendo assim menos filhos.

* Apgar 5
1. o APGAR5 se mantém estavel.
2. o APGAR5 não parece ter correlação com a quantidade de filhos desde que nenhum venha a nascer prematuro.

* Idades
1. Em todas as idades, o pai é em média mais velho que a mãe da bebê.




