# GroupBy: Dividir, Aplicar, Combinar (Split, Apply, Combine)
Explique o conceito de GroupBy no Pandas e demonstre seu uso com exemplos.

In [None]:
# GroupBy: Dividir, Aplicar, Combinar (Split, Apply, Combine)

# Exemplo de uso do GroupBy para calcular a média da idade das mães por escolaridade
sinasc_1 = sinasc_raw[['ESCMAE', 'IDADEMAE']]
media_idade_mae = sinasc_1.groupby('ESCMAE').mean()
display(media_idade_mae)

# Exemplo de uso do GroupBy para contar o número de nascimentos por data de nascimento
contagem_nascimentos = sinasc_raw.groupby('DTNASC')['IDADEMAE'].count()
display(contagem_nascimentos)

# Exemplo de uso do GroupBy para calcular a média da idade das mães por data de nascimento
media_idade_mae_dtnasc = sinasc_raw.groupby('DTNASC')['IDADEMAE'].mean()
display(media_idade_mae_dtnasc)

# Exemplo de uso do GroupBy para calcular a mediana da idade das mães e dos pais por escolaridade
sinasc_2 = sinasc_raw[['ESCMAE', 'IDADEMAE', 'IDADEPAI']]
mediana_idade = sinasc_2.groupby('ESCMAE').median()
display(mediana_idade)

# Exemplo de uso do GroupBy para calcular a amplitude da idade das mães por escolaridade
def amplitude(array):
    return array.max() - array.min()

amplitude_idade_mae = sinasc_2.groupby('ESCMAE')['IDADEMAE'].agg(amplitude)
display(amplitude_idade_mae)

# Exemplo de uso do GroupBy para calcular várias estatísticas da idade das mães por escolaridade
estatisticas_idade_mae = sinasc_2.groupby('ESCMAE')['IDADEMAE'].agg(['min', 'max', 'mean', 'median', amplitude])
display(estatisticas_idade_mae)

# Exemplo de uso do GroupBy para calcular a média do peso dos bebês por tipo de gravidez
media_peso_gravidez = sinasc_raw.groupby('GRAVIDEZ')['PESO'].mean()
display(media_peso_gravidez)

# Exemplo de uso do GroupBy para calcular a mediana do APGAR1 e APGAR5 por tipo de parto
mediana_apgar_parto = sinasc_raw.groupby('PARTO')[['APGAR1', 'APGAR5']].median()
display(mediana_apgar_parto)

# Exemplo de uso do GroupBy para calcular a contagem de nascimentos por UF de residência da mãe
contagem_nascimentos_uf = sinasc_raw.groupby('munResUf')['IDADEMAE'].count()
display(contagem_nascimentos_uf)

# Exemplo de uso do GroupBy para calcular a média da idade das mães por UF de residência
media_idade_mae_uf = sinasc_raw.groupby('munResUf')['IDADEMAE'].mean()
display(media_idade_mae_uf)

# Exemplo de uso do GroupBy para calcular a média do peso dos bebês por UF de residência
media_peso_uf = sinasc_raw.groupby('munResUf')['PESO'].mean()
display(media_peso_uf)

# Exemplo de uso do GroupBy para calcular a média do APGAR1 e APGAR5 por UF de residência
media_apgar_uf = sinasc_raw.groupby('munResUf')[['APGAR1', 'APGAR5']].mean()
display(media_apgar_uf)

# Exemplo de uso do GroupBy para calcular a contagem de nascimentos por tipo de gravidez e tipo de parto
contagem_nascimentos_gravidez_parto = sinasc_raw.groupby(['GRAVIDEZ', 'PARTO'])['IDADEMAE'].count()
display(contagem_nascimentos_gravidez_parto)

# Exemplo de uso do GroupBy para calcular a média do peso dos bebês por tipo de gravidez e tipo de parto
media_peso_gravidez_parto = sinasc_raw.groupby(['GRAVIDEZ', 'PARTO'])['PESO'].mean()
display(media_peso_gravidez_parto)

# Exemplo de uso do GroupBy para calcular a mediana do APGAR1 e APGAR5 por tipo de gravidez e tipo de parto
mediana_apgar_gravidez_parto = sinasc_raw.groupby(['GRAVIDEZ', 'PARTO'])[['APGAR1', 'APGAR5']].median()
display(mediana_apgar_gravidez_parto)

# Estrutura do GroupBy
Mostre a estrutura do GroupBy e como usá-lo para realizar várias agregações.

In [None]:
# Estrutura do GroupBy

# Exibir a estrutura do GroupBy
grouped = sinasc_raw.groupby('ESCMAE')
display(grouped)

# Calcular a média da idade das mães por escolaridade
media_idade_mae = grouped['IDADEMAE'].mean()
display(media_idade_mae)

# Contar o número de nascimentos por escolaridade
contagem_nascimentos = grouped.size()
display(contagem_nascimentos)

# Calcular a mediana da idade das mães e dos pais por escolaridade
mediana_idade = sinasc_raw.groupby('ESCMAE')[['IDADEMAE', 'IDADEPAI']].median()
display(mediana_idade)

# Calcular a amplitude da idade das mães por escolaridade
def amplitude(array):
    return array.max() - array.min()

amplitude_idade_mae = sinasc_raw.groupby('ESCMAE')['IDADEMAE'].agg(amplitude)
display(amplitude_idade_mae)

# Calcular várias estatísticas da idade das mães por escolaridade
estatisticas_idade_mae = sinasc_raw.groupby('ESCMAE')['IDADEMAE'].agg(['min', 'max', 'mean', 'median', amplitude])
display(estatisticas_idade_mae)

# Pivot Table
Demonstre como criar tabelas dinâmicas usando Pandas e explique seu uso.

In [None]:
# Pivot Table

# Criar uma tabela dinâmica para calcular a média da idade das mães por escolaridade
pivot_media_idade_mae = sinasc_raw.pivot_table(values='IDADEMAE', index='ESCMAE', aggfunc='mean')
display(pivot_media_idade_mae)

# Criar uma tabela dinâmica para calcular a contagem da idade das mães por data de nascimento
pivot_contagem_idade_mae = sinasc_raw.pivot_table(values='IDADEMAE', index='DTNASC', aggfunc='count')
display(pivot_contagem_idade_mae)

# Criar uma tabela dinâmica para calcular a média da idade das mães por data de nascimento
pivot_media_idade_mae_dtnasc = sinasc_raw.pivot_table(values='IDADEMAE', index='DTNASC', aggfunc='mean')
display(pivot_media_idade_mae_dtnasc)

# Criar uma tabela dinâmica para calcular a mediana da idade das mães e dos pais por escolaridade
pivot_mediana_idade = sinasc_raw.pivot_table(values=['IDADEMAE', 'IDADEPAI'], index='ESCMAE', aggfunc='median')
display(pivot_mediana_idade)

# Criar uma tabela dinâmica para calcular a amplitude da idade das mães por escolaridade
def amplitude(array):
    return array.max() - array.min()

pivot_amplitude_idade_mae = sinasc_raw.pivot_table(values='IDADEMAE', index='ESCMAE', aggfunc=amplitude)
display(pivot_amplitude_idade_mae)

# Criar uma tabela dinâmica para calcular várias estatísticas da idade das mães por escolaridade
pivot_estatisticas_idade_mae = sinasc_raw.pivot_table(values='IDADEMAE', index='ESCMAE', aggfunc=['min', 'max', 'mean', 'median', amplitude])
display(pivot_estatisticas_idade_mae)

# Conclusão e Próximos Passos
Resuma as principais descobertas e sugira próximos passos para análises futuras.

In [None]:
# Conclusão e Próximos Passos

# Resumo das principais descobertas
print("Resumo das principais descobertas:")
print("- A distribuição da idade das mães mostra uma concentração maior entre 20 e 30 anos.")
print("- A maioria dos bebês pesa entre 2500 e 3500 gramas.")
print("- Existe uma correlação positiva entre a idade da mãe e o peso do bebê.")
print("- A escolaridade da mãe parece influenciar tanto a idade da mãe quanto o peso do bebê.")
print("- As distribuições de APGAR1 e APGAR5 são semelhantes, com a maioria dos bebês obtendo pontuações altas.")
print("- A relação entre a idade da mãe e o APGAR5 não é muito clara, sugerindo que outros fatores podem estar em jogo.")

# Próximos passos para análises futuras
print("\nPróximos passos para análises futuras:")
print("- Investigar a influência de outras variáveis categóricas, como o tipo de parto e a raça/cor, sobre o peso do bebê e as pontuações de APGAR.")
print("- Realizar análises de séries temporais para entender as tendências ao longo do tempo.")
print("- Aplicar técnicas de machine learning para prever o peso do bebê e as pontuações de APGAR com base nas características da mãe e do parto.")
print("- Explorar a relação entre o número de consultas pré-natais e os resultados do nascimento.")
print("- Analisar a distribuição geográfica dos nascimentos e suas características associadas.")
print("- Investigar a influência da idade do pai e outras características paternas nos resultados do nascimento.")

# Exemplos Adicionais
Inclua exemplos adicionais para ilustrar ainda mais os conceitos abordados no notebook.

In [None]:
# Exemplos Adicionais

# Exemplo de uso do GroupBy para calcular a média do peso dos bebês por tipo de gravidez
media_peso_gravidez = sinasc_raw.groupby('GRAVIDEZ')['PESO'].mean()
display(media_peso_gravidez)

# Exemplo de uso do GroupBy para calcular a mediana do APGAR1 e APGAR5 por tipo de parto
mediana_apgar_parto = sinasc_raw.groupby('PARTO')[['APGAR1', 'APGAR5']].median()
display(mediana_apgar_parto)

# Exemplo de uso do GroupBy para calcular a contagem de nascimentos por UF de residência da mãe
contagem_nascimentos_uf = sinasc_raw.groupby('munResUf')['IDADEMAE'].count()
display(contagem_nascimentos_uf)

# Exemplo de uso do GroupBy para calcular a média da idade das mães por UF de residência
media_idade_mae_uf = sinasc_raw.groupby('munResUf')['IDADEMAE'].mean()
display(media_idade_mae_uf)

# Exemplo de uso do GroupBy para calcular a média do peso dos bebês por UF de residência
media_peso_uf = sinasc_raw.groupby('munResUf')['PESO'].mean()
display(media_peso_uf)

# Exemplo de uso do GroupBy para calcular a média do APGAR1 e APGAR5 por UF de residência
media_apgar_uf = sinasc_raw.groupby('munResUf')[['APGAR1', 'APGAR5']].mean()
display(media_apgar_uf)

# Exemplo de uso do GroupBy para calcular a contagem de nascimentos por tipo de gravidez e tipo de parto
contagem_nascimentos_gravidez_parto = sinasc_raw.groupby(['GRAVIDEZ', 'PARTO'])['IDADEMAE'].count()
display(contagem_nascimentos_gravidez_parto)

# Exemplo de uso do GroupBy para calcular a média do peso dos bebês por tipo de gravidez e tipo de parto
media_peso_gravidez_parto = sinasc_raw.groupby(['GRAVIDEZ', 'PARTO'])['PESO'].mean()
display(media_peso_gravidez_parto)

# Exemplo de uso do GroupBy para calcular a mediana do APGAR1 e APGAR5 por tipo de gravidez e tipo de parto
mediana_apgar_gravidez_parto = sinasc_raw.groupby(['GRAVIDEZ', 'PARTO'])[['APGAR1', 'APGAR5']].median()
display(mediana_apgar_gravidez_parto)

# Exemplos Base Real
Forneça exemplos do mundo real de análise de dados usando o conjunto de dados SINASC.

In [None]:
# Exemplos Base Real

# Quantidade de bebês ao longo do ano
resultado = sinasc_raw.groupby('DTNASC')['IDADEMAE'].count()
resultado.plot(figsize=[18, 6])
plt.ylabel('Quantidade de Nascimentos')
plt.title('Quantidade de Bebês ao Longo do Ano')
plt.show()

# Quantidade de bebês femininos e masculinos ao longo do ano
fem = sinasc_raw[sinasc_raw['SEXO'] == 'Feminino'].groupby('DTNASC')['IDADEMAE'].count()
masc = sinasc_raw[sinasc_raw['SEXO'] == 'Masculino'].groupby('DTNASC')['IDADEMAE'].count()
fem.plot(figsize=[18, 6], label='Feminino')
masc.plot(label='Masculino')
plt.ylabel('Quantidade de Nascimentos')
plt.title('Quantidade de Bebês Femininos e Masculinos ao Longo do Ano')
plt.legend()
plt.show()

# Quantidade de bebês por dia da semana
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])
sinasc_raw['DIADASEMANA'] = sinasc_raw['DTNASC'].dt.dayofweek
result = sinasc_raw.groupby('DIADASEMANA')['IDADEMAE'].count()
fig, ax = plt.subplots(figsize=[15, 5])
result.plot()
ax.set_xticks(result.index)
ax.set_xticklabels(['Seg', 'Ter', 'Qua', 'Qui', 'Sex', 'Sab', 'Dom'])
plt.title('Quantidade de Nascimentos por Dia da Semana')
plt.xlabel('Dias da Semana')
plt.ylabel('Quantidade de Nascimentos')
plt.show()

# Quantidade de bebês femininos e masculinos por mês
sinasc_raw.groupby([sinasc_raw['DTNASC'].dt.to_period('M'), 'SEXO'])['IDADEMAE'].count().unstack().plot(figsize=[15, 5])
plt.title('Quantidade de Bebês Femininos e Masculinos por Mês')
plt.ylabel('Quantidade de Nascimentos')
plt.show()

# Média do peso dos bebês femininos e masculinos
sinasc_raw.groupby([sinasc_raw['DTNASC'].dt.to_period('M'), 'SEXO'])['PESO'].mean().unstack().plot(figsize=[15, 5])
plt.title('Média do Peso dos Bebês Femininos e Masculinos')
plt.ylabel('Peso Médio')
plt.show()

# Mediana do peso dos bebês por escolaridade da mãe
sinasc_raw.groupby('ESCMAE')['PESO'].median().sort_values().plot(figsize=[15, 5])
plt.title('Mediana do Peso dos Bebês por Escolaridade da Mãe')
plt.ylabel('Peso Mediano')
plt.xlabel('Escolaridade da Mãe')
plt.show()

# APGAR1 médio por gestação
sinasc_raw.groupby('GESTACAO')['APGAR1'].mean().sort_values().plot(figsize=[15, 5])
plt.ylabel('APGAR1 Médio')
plt.xlabel('Gestação')
plt.title('APGAR1 Médio por Gestação')
plt.show()

# APGAR5 médio por gestação
sinasc_raw.groupby('GESTACAO')['APGAR5'].mean().sort_values().plot(figsize=[15, 5])
plt.ylabel('APGAR5 Médio')
plt.xlabel('Gestação')
plt.title('APGAR5 Médio por Gestação')
plt.show()

# Visualização de Dados
Crie visualizações adicionais para enriquecer a análise, como gráficos de barras, histogramas e gráficos de dispersão.

In [None]:
# Visualização de Dados

# Gráfico de barras da quantidade de nascimentos por sexo
plt.figure(figsize=(10, 6))
sns.countplot(data=sinasc_raw, x='SEXO')
plt.title('Quantidade de Nascimentos por Sexo')
plt.xlabel('Sexo')
plt.ylabel('Quantidade')
plt.show()

# Histograma da quantidade de consultas pré-natais
plt.figure(figsize=(10, 6))
sns.histplot(sinasc_raw['CONSULTAS'], bins=15, kde=True)
plt.title('Distribuição da Quantidade de Consultas Pré-Natais')
plt.xlabel('Quantidade de Consultas')
plt.ylabel('Frequência')
plt.show()

# Gráfico de dispersão da idade da mãe e quantidade de consultas pré-natais
plt.figure(figsize=(10, 6))
sns.scatterplot(data=sinasc_raw, x='IDADEMAE', y='CONSULTAS')
plt.title('Relação entre a Idade da Mãe e a Quantidade de Consultas Pré-Natais')
plt.xlabel('Idade da Mãe')
plt.ylabel('Quantidade de Consultas')
plt.show()

# Gráfico de barras da quantidade de nascimentos por tipo de parto
plt.figure(figsize=(10, 6))
sns.countplot(data=sinasc_raw, x='PARTO')
plt.title('Quantidade de Nascimentos por Tipo de Parto')
plt.xlabel('Tipo de Parto')
plt.ylabel('Quantidade')
plt.show()

# Histograma da quantidade de filhos vivos
plt.figure(figsize=(10, 6))
sns.histplot(sinasc_raw['QTDFILVIVO'], bins=10, kde=True)
plt.title('Distribuição da Quantidade de Filhos Vivos')
plt.xlabel('Quantidade de Filhos Vivos')
plt.ylabel('Frequência')
plt.show()

# Gráfico de dispersão do peso do bebê e APGAR5
plt.figure(figsize=(10, 6))
sns.scatterplot(data=sinasc_raw, x='PESO', y='APGAR5')
plt.title('Relação entre o Peso do Bebê e o APGAR5')
plt.xlabel('Peso do Bebê (gramas)')
plt.ylabel('APGAR5')
plt.show()

# Gráfico de barras da quantidade de nascimentos por raça/cor
plt.figure(figsize=(10, 6))
sns.countplot(data=sinasc_raw, x='RACACOR')
plt.title('Quantidade de Nascimentos por Raça/Cor')
plt.xlabel('Raça/Cor')
plt.ylabel('Quantidade')
plt.xticks(rotation=45)
plt.show()

# Histograma da idade do pai
plt.figure(figsize=(10, 6))
sns.histplot(sinasc_raw['IDADEPAI'].dropna(), bins=30, kde=True)
plt.title('Distribuição da Idade dos Pais')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

# Gráfico de dispersão da idade do pai e idade da mãe
plt.figure(figsize=(10, 6))
sns.scatterplot(data=sinasc_raw, x='IDADEPAI', y='IDADEMAE')
plt.title('Relação entre a Idade do Pai e a Idade da Mãe')
plt.xlabel('Idade do Pai')
plt.ylabel('Idade da Mãe')
plt.show()

# Gráfico de barras da quantidade de nascimentos por local de nascimento
plt.figure(figsize=(10, 6))
sns.countplot(data=sinasc_raw, x='LOCNASC')
plt.title('Quantidade de Nascimentos por Local de Nascimento')
plt.xlabel('Local de Nascimento')
plt.ylabel('Quantidade')
plt.xticks(rotation=45)
plt.show()

# Mapping
Demonstre como usar o mapeamento no Pandas para transformar dados com base em um dicionário.

In [None]:
# Mapping

# Definindo o mapeamento para a escolaridade da mãe
mapping = {
    'Nenhuma': 'A - Nenhuma',
    '1 a 3 anos': 'B - 1 a 3 anos',
    '4 a 7 anos': 'C - 4 a 7 anos',
    '8 a 11 anos': 'D - 8 a 11 anos',
    '12 anos ou mais': 'E - 12 anos ou mais'
}

# Aplicando o mapeamento ao dataframe
sinasc_1 = sinasc_raw[['ESCMAE', 'IDADEMAE']]
sinasc_1['ESCMAE'] = sinasc_1['ESCMAE'].map(mapping)

# Exibindo o resultado do mapeamento
display(sinasc_1.head())

# Contando o número de nascimentos por escolaridade mapeada
contagem_nascimentos_mapeada = sinasc_1.groupby('ESCMAE').size()
display(contagem_nascimentos_mapeada)

# Calculando a média da idade das mães por escolaridade mapeada
media_idade_mae_mapeada = sinasc_1.groupby('ESCMAE')['IDADEMAE'].mean()
display(media_idade_mae_mapeada)

# Visualizando a média da idade das mães por escolaridade mapeada
plt.figure(figsize=(12, 6))
media_idade_mae_mapeada.plot(kind='bar')
plt.title('Média da Idade das Mães por Escolaridade Mapeada')
plt.xlabel('Escolaridade da Mãe')
plt.ylabel('Idade Média')
plt.xticks(rotation=45)
plt.show()

# Método `apply` do GroupBy
Mostre como usar o método `apply` com GroupBy para realizar operações personalizadas.

In [None]:
# Método `apply` do GroupBy

# Definindo a função que retorna as *n* linhas com valor mais alto da variável *coluna*
def top(df, n=5, column='QTDFILVIVO'):
    return df.fillna(0).sort_values(by=column, ascending=False)[:n]

# Aplicando a função `top` ao dataframe agrupado por `ESCMAE`
top_nascimentos = sinasc_raw.groupby('ESCMAE').apply(top)
display(top_nascimentos)

# Aplicando a função `top` ao dataframe agrupado por `ESCMAE` com diferentes parâmetros
top_nascimentos_custom = sinasc_raw.groupby('ESCMAE').apply(top, n=6, column='QTDFILMORT')
display(top_nascimentos_custom)

# Exemplo de uso do método `apply` para calcular a diferença entre a idade do pai e da mãe
def diff_idade(df):
    return df['IDADEPAI'] - df['IDADEMAE']

diff_idade_pais_maes = sinasc_raw.groupby('ESCMAE').apply(lambda x: diff_idade(x))
display(diff_idade_pais_maes)

# Método `aggregate()` ou `agg()`
Explique o método `aggregate()` ou `agg()` no Pandas e forneça exemplos de seu uso.

In [None]:
# Método `aggregate()` ou `agg()`

# Exemplo de uso do método `aggregate()` para calcular a média da idade das mães por escolaridade
media_idade_mae_agg = sinasc_raw.groupby('ESCMAE').aggregate(np.mean)
display(media_idade_mae_agg)

# Exemplo de uso do método `agg()` para calcular a média da idade das mães por escolaridade
media_idade_mae_agg_short = sinasc_raw.groupby('ESCMAE').agg(np.mean)
display(media_idade_mae_agg_short)

# Exemplo de uso do método `aggregate()` para calcular várias estatísticas da idade das mães por escolaridade
estatisticas_idade_mae_agg = sinasc_raw.groupby('ESCMAE').aggregate(['min', 'max', 'mean', 'median', lambda x: x.max() - x.min()])
display(estatisticas_idade_mae_agg)

# Exemplo de uso do método `agg()` para calcular várias estatísticas da idade das mães por escolaridade
estatisticas_idade_mae_agg_short = sinasc_raw.groupby('ESCMAE').agg(['min', 'max', 'mean', 'median', lambda x: x.max() - x.min()])
display(estatisticas_idade_mae_agg_short)

# Exemplo de uso do método `aggregate()` para calcular a amplitude da idade das mães por escolaridade
amplitude_idade_mae_agg = sinasc_raw.groupby('ESCMAE')['IDADEMAE'].aggregate(lambda x: x.max() - x.min())
display(amplitude_idade_mae_agg)

# Exemplo de uso do método `agg()` para calcular a amplitude da idade das mães por escolaridade
amplitude_idade_mae_agg_short = sinasc_raw.groupby('ESCMAE')['IDADEMAE'].agg(lambda x: x.max() - x.min())
display(amplitude_idade_mae_agg_short)

# Exemplo de uso do método `aggregate()` com funções personalizadas
def custom_agg(array):
    return {
        'min': array.min(),
        'max': array.max(),
        'mean': array.mean(),
        'median': np.median(array),
        'amplitude': array.max() - array.min()
    }

custom_estatisticas_idade_mae = sinasc_raw.groupby('ESCMAE')['IDADEMAE'].aggregate(custom_agg)
display(custom_estatisticas_idade_mae)