# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [75]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [81]:
sinasc_raw = pd.read_csv('../resources/SINASC_RO_2019.csv')
sinasc_raw

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,1,2604388.0,510340,1,32,2.0,12 anos ou mais,333115.0,1.0,0.0,...,5,2767632,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27024,1,2752654.0,510675,1,19,1.0,8 a 11 anos,999992.0,0.0,0.0,...,5,2772678,ATIVO,MUNIC,Chupinguaia,Rondônia,-12.55684,-60.90185,340.0,5126.723
27025,1,9659366.0,510787,1,24,2.0,8 a 11 anos,421125.0,0.0,1.0,...,5,2776905,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915
27026,1,9659366.0,510787,1,21,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2777105,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [71]:
sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI']].groupby('munResNome').mean().head()


Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667


In [82]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [83]:
#'DTNASC' no df está no formato errado, necessário converter primeiro.
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])

In [30]:
#minha data de nascimento :)
dia = 23
mes = 9
ano = 1996

#filtrando
sinasc_2 = sinasc_raw[(sinasc_raw['DTNASC'].dt.day == dia) & (sinasc_raw['DTNASC'].dt.month == mes)]

# grouping
grouped_data = sinasc_raw[['ESCMAE', 'SEXO', 'PESO']].groupby(['ESCMAE', 'SEXO']).mean()
grouped_data


Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Feminino,3126.363636
1 a 3 anos,Masculino,3191.354386
12 anos ou mais,Feminino,3182.427912
12 anos ou mais,Masculino,3309.658421
4 a 7 anos,Feminino,3158.036123
4 a 7 anos,Masculino,3288.963439
8 a 11 anos,Feminino,3193.250588
8 a 11 anos,Masculino,3305.89832
Nenhuma,Feminino,2972.333333
Nenhuma,Masculino,3178.181818


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [93]:
#Que trolagem! Agora que vi que todos os dados são do mesmo ano. Deveria ter checado o nome do arquivo...
#sinasc_3 = sinasc_3[(sinasc_3['DTNASC'].dt.year == 2019)]

#agrupando por município e sua quantia
grouped_count = sinasc_raw.groupby(['munResNome']).size()

#definindo o mínimo
min_count = grouped_count.min()
min_city = grouped_count.idxmin()

print(f"Cidade com menos bebês nascidos: {min_city}, com {min_count} nascimento(s).")

Cidade com menos bebês nascidos: Município ignorado - RO, com 1 nascimento(s).


In [142]:
idade_media = (sinasc_raw[['IDADEMAE', 'munResNome']].groupby('munResNome').mean()).mean().astype(int)
idade_maxima = (sinasc_raw[['IDADEMAE', 'munResNome']].groupby('munResNome').max()).max()
idade_minima = (sinasc_raw[['IDADEMAE', 'munResNome']].groupby('munResNome').min()).min()


print(f"Média: {idade_media}")
print(f"Máxima: {idade_maxima}")
print(f"Mínima: {idade_minima}")

Média: IDADEMAE    25
dtype: int32
Máxima: IDADEMAE    53
dtype: int64
Mínima: IDADEMAE    11
dtype: int64


In [143]:
idade_media = (sinasc_raw[['IDADEPAI', 'munResNome']].groupby('munResNome').mean()).mean().astype(int)
idade_maxima = (sinasc_raw[['IDADEPAI', 'munResNome']].groupby('munResNome').max()).max()
idade_minima = (sinasc_raw[['IDADEPAI', 'munResNome']].groupby('munResNome').min()).min()


print(f"Média: {idade_media}")
print(f"Máxima: {idade_maxima}")
print(f"Mínima: {idade_minima}")

Média: IDADEPAI    31
dtype: int32
Máxima: IDADEPAI    86.0
dtype: float64
Mínima: IDADEPAI    15.0
dtype: float64


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [144]:
#4
#agrupando por município e sua quantia
sinasc_filter = sinasc_raw[(sinasc_raw['DTNASC'].dt.month == 3)]
grouped_count = sinasc_filter.groupby(['munResNome']).size()

#definindo o mínimo
min_count = grouped_count.min()
min_city = grouped_count.idxmin()

print(f"Cidade com menos bebês nascidos em março: {min_city}, com {min_count} nascimento(s).")

Cidade com menos bebês nascidos em março: Teixeirópolis, com 3 nascimento(s).


In [148]:
fvivos_media = (sinasc_filter[['QTDFILVIVO', 'munResNome']].groupby('munResNome').mean()).mean().astype(int)
fvivos_maxima = (sinasc_filter[['QTDFILVIVO', 'munResNome']].groupby('munResNome').max()).max()
fvivos_minima = (sinasc_filter[['QTDFILVIVO', 'munResNome']].groupby('munResNome').min()).min()


print(f"Média: {fvivos_media}")
print(f"Máxima: {fvivos_maxima}")
print(f"Mínima: {fvivos_minima}")

Média: QTDFILVIVO    1
dtype: int32
Máxima: QTDFILVIVO    9.0
dtype: float64
Mínima: QTDFILVIVO    0.0
dtype: float64


In [150]:
idade_media = (sinasc_filter[['IDADEPAI', 'munResNome']].groupby('munResNome').mean()).mean().astype(int)
idade_maxima = (sinasc_filter[['IDADEPAI', 'munResNome']].groupby('munResNome').max()).max()
idade_minima = (sinasc_filter[['IDADEPAI', 'munResNome']].groupby('munResNome').min()).min()


print(f"Média: {idade_media}")
print(f"Máxima: {idade_maxima}")
print(f"Mínima: {idade_minima}")

Média: IDADEPAI    31
dtype: int32
Máxima: IDADEPAI    62.0
dtype: float64
Mínima: IDADEPAI    16.0
dtype: float64


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [220]:
#Estudando a relação de mães menores de idade.
##1ª: Relação de mães menores de idade, com null e sem null
sinasc_pedo = sinasc_raw[(sinasc_raw['IDADEMAE'] < 18)]
sinasc_pedo_nonull = sinasc_raw[(sinasc_raw['IDADEMAE'] < 18) & (sinasc_raw['IDADEPAI'].notnull())]

###1.1ª: ... com pais MENORES de idade.
sinasc_pedo_leve = sinasc_raw[(sinasc_raw['IDADEMAE'] < 18) & (sinasc_raw['IDADEPAI'] < 18)]

###1.2º ... com pais MAIORES de idade.
sinasc_pedo_grave = sinasc_raw[(sinasc_raw['IDADEMAE'] < 18) & (sinasc_raw['IDADEPAI'] >= 18)]


In [221]:
#Existe uma proporção alarmante de mães menores de idade. No entanto, existe uma grande quantidade de linhas onde não há
#informações sobre o pai, dificultando a análise.

sinasc_pedo_proportion = sinasc_pedo.shape[0]/27028 *100
sinasc_pedo_proportion_null = sinasc_pedo_nonull.shape[0]/27028 *100

print(f"Porcentagem de mães menores de idade: {sinasc_pedo_proportion:.02f}%.")
print(f"Porcentagem de mães menores de idade (s/ pai=null): {sinasc_pedo_proportion_null:.02f}%.")

Porcentagem de mães menores de idade: 7.76%.
Porcentagem de mães menores de idade (s/ pai=null): 1.59%.


In [240]:
#relação entre casos "leves" e "graves"
pedo_leve = sinasc_pedo_leve.shape[0]
pedo_grave =sinasc_pedo_grave.shape[0]

sinasc_pedo_proportion_grave = 1 - pedo_leve/pedo_grave 

print(f"Leve: {pedo_leve}")
print(f"Grave: {pedo_grave}")
print(f"Proporção de pedofilia: {sinasc_pedo_proportion_grave*100:.02f}%")

Leve: 42
Grave: 387
Proporção de pedofilia: 89.15%


In [262]:
#Se a taxa de pais ausentes seguir a proporção acima, isso significa que o número de linhas com pais maiores de 18 
#e mães menores pode ser estimado em:
pedo_est = sinasc_pedo_nonull.shape[0] * sinasc_pedo_proportion_grave + sinasc_pedo.shape[0]

print(f"Numero de pais ausentes pedófilos estimado: {pedo_est:.00f}")

Numero de pais ausentes pedófilos estimado: 2479


In [225]:
##2º: Relação de pais menores de idade e mães maiores de idade
sinasc_pedo_male = sinasc_raw[(sinasc_raw['IDADEMAE'] >= 18) & (sinasc_raw['IDADEPAI'] < 18)]
sinasc_pedo_male.shape[0]

15

In [263]:
#Conclusão: os dados acima levantam uma realidade alarmante. Esse tipo de análise pode ser importante para identificar
#casos de abuso e pedofilia, que é muito prevalente sobre os casos onde ambos os pais são menores de idade, 
#o que, acredito eu, possa ser um indicador de falta de educação, condições básicas, e etc.