# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [45]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [46]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [47]:
idade_mae_municipio = sinasc_raw[['IDADEMAE', 'munResNome']]
idade_mae_municipio.head()

Unnamed: 0,IDADEMAE,munResNome
0,19,Alta Floresta D'Oeste
1,29,Alta Floresta D'Oeste
2,37,Alta Floresta D'Oeste
3,30,Alto Alegre dos Parecis
4,30,Alta Floresta D'Oeste


In [48]:
#idade_mae_municipio.groupby('munResNome').mean()

### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [49]:
tarefa_2_df = sinasc_raw[['DTNASC', 'PESO', 'SEXO', 'ESCMAE']]
tarefa_2_df = tarefa_2_df[tarefa_2_df['DTNASC'] == '2019-06-23']
tarefa_2_df.head()

Unnamed: 0,DTNASC,PESO,SEXO,ESCMAE
1337,2019-06-23,3525,Feminino,8 a 11 anos
1338,2019-06-23,3325,Masculino,8 a 11 anos
1339,2019-06-23,2815,Masculino,4 a 7 anos
1340,2019-06-23,2975,Feminino,4 a 7 anos
1356,2019-06-23,2620,Masculino,12 anos ou mais


In [50]:
tarefa_2_df = tarefa_2_df.drop('DTNASC', axis=1)
tarefa_2_df.head()

Unnamed: 0,PESO,SEXO,ESCMAE
1337,3525,Feminino,8 a 11 anos
1338,3325,Masculino,8 a 11 anos
1339,2815,Masculino,4 a 7 anos
1340,2975,Feminino,4 a 7 anos
1356,2620,Masculino,12 anos ou mais


In [51]:
tarefa_2_df.groupby(['ESCMAE', 'SEXO']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
12 anos ou mais,Feminino,3172.5
12 anos ou mais,Masculino,3218.818182
4 a 7 anos,Feminino,2763.333333
4 a 7 anos,Masculino,3295.0
8 a 11 anos,Feminino,2949.454545
8 a 11 anos,Masculino,3371.818182


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [52]:
tarefa_3_df = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]
tarefa_3_df.head(2)

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome
0,19,26.0,Alta Floresta D'Oeste
1,29,24.0,Alta Floresta D'Oeste


In [53]:
tarefa_3_df['munResNome'].value_counts().sort_values(ascending=True).head(5)

munResNome
Município ignorado - RO     1
Castanheiras               32
Pimenteiras do Oeste       40
Primavera de Rondônia      43
Parecis                    44
Name: count, dtype: int64

In [54]:
tarefa_3_df = tarefa_3_df[tarefa_3_df['munResNome'] == 'Município ignorado - RO']

In [55]:
tarefa_3_df.agg({'IDADEMAE':['mean', 'min','max'], 'IDADEPAI':['mean', 'min','max']}).transpose()

Unnamed: 0,mean,min,max
IDADEMAE,24.0,24.0,24.0
IDADEPAI,22.0,22.0,22.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [56]:
tarefa_4_df = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome', 'DTNASC', 'QTDFILVIVO']]
tarefa_4_df.head(5)

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome,DTNASC,QTDFILVIVO
0,19,26.0,Alta Floresta D'Oeste,2019-02-19,0.0
1,29,24.0,Alta Floresta D'Oeste,2019-02-21,1.0
2,37,32.0,Alta Floresta D'Oeste,2019-02-25,2.0
3,30,24.0,Alto Alegre dos Parecis,2019-03-20,0.0
4,30,27.0,Alta Floresta D'Oeste,2019-03-23,1.0


In [57]:
def marco(valor):
    mes = list(valor)
    valor = mes[5] + mes[6]
    valor = str(valor)

    if valor == '03':
        mes = 'Março'
        return mes
    else:
        return ''

marco('2019-03-19')

'Março'

In [58]:
tarefa_4_df['Março'] = tarefa_4_df['DTNASC'].apply(marco)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tarefa_4_df['Março'] = tarefa_4_df['DTNASC'].apply(marco)


In [59]:
tarefa_4_df = tarefa_4_df[tarefa_4_df['Março'] == 'Março']

In [60]:
tarefa_4_df['munResNome'].value_counts().head(1)

munResNome
Porto Velho    744
Name: count, dtype: int64

In [61]:
tarefa_4_df = tarefa_4_df[tarefa_4_df['munResNome'] == 'Porto Velho']
tarefa_4_df.head()

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome,DTNASC,QTDFILVIVO,Março
612,19,,Porto Velho,2019-03-09,0.0,Março
700,19,,Porto Velho,2019-03-28,1.0,Março
3232,34,,Porto Velho,2019-03-11,0.0,Março
3238,24,,Porto Velho,2019-03-13,1.0,Março
6818,38,41.0,Porto Velho,2019-03-01,2.0,Março


In [62]:
tarefa_4_df.agg({'QTDFILVIVO':['mean', 'min','max']})

Unnamed: 0,QTDFILVIVO
mean,1.295056
min,0.0
max,9.0


In [63]:
tarefa_4_df.agg({'IDADEMAE':['mean', 'min','max'], 'IDADEPAI':['mean', 'min','max']}).transpose()

Unnamed: 0,mean,min,max
IDADEMAE,26.596774,14.0,44.0
IDADEPAI,34.629032,19.0,62.0


---

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

#  Meus Insights.......
Na minha opinião, a análise exploratória é uma das fases mais importantes de qualquer projeto que lide com dados. Aqui o objetivo é entender o contexto em que trabalharemos e como são os dados que temos que explorar, para termos toda uma documentação que precisaremos para criar os próximos algoritmos, mesmo os de Machine Learning. Acredito que mesmo nesta fase já podemos encontrar alguns Insights.

<img src="./Data/Image/Capa.png" alt="capa">

---

# **SINASC** • Gravidez na adolescencia
**Enzo Schitini** Projeto
#### [Enzo Schitini](https://www.linkedin.com/in/enzoschitini/)

---

In [87]:
Sinasc = pd.read_csv('Sinasc.csv')
Sinasc = Sinasc.drop('Unnamed: 0', axis=1)

# Mulheres que tiveram filhos antes dos dezoito anos

In [90]:
Sinasc.head(5)

Unnamed: 0,IDADEMAE,ESCMAE,QTDFILVIVO,QTDFILMORT,GESTACAO,GRAVIDEZ,PARTO,CONSULTAS,DTNASC,HORANASC,...,RACACORMAE,IDADEPAI,QTDGESTANT,QTDPARTNOR,QTDPARTCES,munResStatus,munResTipo,munResNome,munResUf,Status
0,18,1 a 3 anos,0.0,0.0,37 a 41 semanas,Única,Vaginal,3,2019-03-28,1515.0,...,4.0,20.0,0.0,0.0,0.0,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,De 17 à 18
1,18,4 a 7 anos,0.0,2.0,37 a 41 semanas,Única,Vaginal,4,2019-04-10,1100.0,...,1.0,22.0,2.0,0.0,0.0,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,De 17 à 18
2,18,4 a 7 anos,1.0,0.0,37 a 41 semanas,Única,Cesáreo,2,2019-04-23,1512.0,...,,23.0,1.0,0.0,1.0,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,De 17 à 18
3,18,8 a 11 anos,0.0,0.0,37 a 41 semanas,Única,Vaginal,4,2019-04-24,2010.0,...,5.0,20.0,0.0,0.0,0.0,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,De 17 à 18
4,14,4 a 7 anos,0.0,0.0,37 a 41 semanas,Única,Cesáreo,4,2019-05-28,1545.0,...,4.0,35.0,0.0,0.0,0.0,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,De 13 à 14


In [89]:
total2, _ = Sinasc.shape
Sinasc.shape 

(3206, 27)

In [91]:
Sinasc.Status.value_counts(normalize=True)

Status
De 17 à 18    0.632564
De 15 à 16    0.308172
De 13 à 14    0.059264
Name: proportion, dtype: float64

# Diferença de idade entre mãe e pai