In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px



# Visualização inicial dos dados
print(df.head())
print(df.info())
print(df.describe(include='all'))

# Análise de valores faltantes
missing_values = df.isnull().sum()
missing_values_percentage = (df.isnull().sum() / len(df)) * 100
missing_data = pd.DataFrame({'Valores Faltantes': missing_values, '% Faltante': missing_values_percentage})
print(missing_data)

# Distribuição dos targets
print("Distribuição de ano_evento:")
print(df['ano_evento'].value_counts(normalize=True) * 100)
plt.figure(figsize=(10, 4))
sns.countplot(data=df, x='ano_evento', order=df['ano_evento'].value_counts().index)
plt.title('Distribuição de ano_evento')
plt.xticks(rotation=45)
plt.show()

print("Distribuição de FLAG_BASE:")
print(df['FLAG_BASE'].value_counts(normalize=True) * 100)
plt.figure(figsize=(10, 4))
sns.countplot(data=df, x='FLAG_BASE', order=df['FLAG_BASE'].value_counts().index)
plt.title('Distribuição de FLAG_BASE')
plt.xticks(rotation=45)
plt.show()

# Análise temporal por ano_evento
if 'data_evento' in df.columns:
    df['data_evento'] = pd.to_datetime(df['data_evento'])
    df.set_index('data_evento', inplace=True)
    df.resample('Y').size().plot(figsize=(12, 6))
    plt.title('Número de Eventos por Ano')
    plt.xlabel('Ano')
    plt.ylabel('Número de Eventos')
    plt.show()

# Análise de variáveis categóricas em relação aos targets
categorical_columns = df.select_dtypes(include=['object']).columns
for col in categorical_columns:
    if col not in ['FLAG_BASE', 'data_evento']:  # Excluir targets e datas
        plt.figure(figsize=(12, 6))
        sns.countplot(data=df, x=col, hue='FLAG_BASE', order=df[col].value_counts().index)
        plt.title(f'Distribuição de {col} por FLAG_BASE')
        plt.xticks(rotation=45)
        plt.show()

        plt.figure(figsize=(12, 6))
        sns.countplot(data=df, x=col, hue='ano_evento', order=df[col].value_counts().index)
        plt.title(f'Distribuição de {col} por ano_evento')
        plt.xticks(rotation=45)
        plt.show()

# Análise de variáveis numéricas em relação aos targets
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns
for col in numeric_columns:
    if col not in ['ano_evento']:  # Excluir targets
        plt.figure(figsize=(12, 6))
        sns.boxplot(data=df, x='FLAG_BASE', y=col)
        plt.title(f'Distribuição de {col} por FLAG_BASE')
        plt.show()

        plt.figure(figsize=(12, 6))
        sns.boxplot(data=df, x='ano_evento', y=col)
        plt.title(f'Distribuição de {col} por ano_evento')
        plt.show()

# Análise de correlação entre variáveis numéricas e targets
corr_matrix = df[numeric_columns].corr()
plt.figure(figsize=(12, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de Correlação')
plt.show()

# Análise de idade da mãe em relação aos targets
if 'IDADEMAE' in df.columns:
    plt.figure(figsize=(12, 6))
    sns.boxplot(data=df, x='FLAG_BASE', y='IDADEMAE')
    plt.title('Distribuição da Idade da Mãe por FLAG_BASE')
    plt.show()

    plt.figure(figsize=(12, 6))
    sns.boxplot(data=df, x='ano_evento', y='IDADEMAE')
    plt.title('Distribuição da Idade da Mãe por ano_evento')
    plt.show()

# Análise de escolaridade da mãe em relação aos targets
if 'escolaridade_mae' in df.columns:
    plt.figure(figsize=(12, 6))
    sns.countplot(data=df, x='escolaridade_mae', hue='FLAG_BASE', order=df['escolaridade_mae'].value_counts().index)
    plt.title('Distribuição da Escolaridade da Mãe por FLAG_BASE')
    plt.xticks(rotation=45)
    plt.show()

    plt.figure(figsize=(12, 6))
    sns.countplot(data=df, x='escolaridade_mae', hue='ano_evento', order=df['escolaridade_mae'].value_counts().index)
    plt.title('Distribuição da Escolaridade da Mãe por ano_evento')
    plt.xticks(rotation=45)
    plt.show()

# Análise de tipo de gravidez em relação aos targets
if 'tipo_gravidez' in df.columns:
    plt.figure(figsize=(12, 6))
    sns.countplot(data=df, x='tipo_gravidez', hue='FLAG_BASE', order=df['tipo_gravidez'].value_counts().index)
    plt.title('Distribuição do Tipo de Gravidez por FLAG_BASE')
    plt.xticks(rotation=45)
    plt.show()

    plt.figure(figsize=(12, 6))
    sns.countplot(data=df, x='tipo_gravidez', hue='ano_evento', order=df['tipo_gravidez'].value_counts().index)
    plt.title('Distribuição do Tipo de Gravidez por ano_evento')
    plt.xticks(rotation=45)
    plt.show()

# Análise de semanas de gestação em relação aos targets
if 'SEMAGESTAC' in df.columns:
    plt.figure(figsize=(12, 6))
    sns.boxplot(data=df, x='FLAG_BASE', y='SEMAGESTAC')
    plt.title('Distribuição das Semanas de Gestação por FLAG_BASE')
    plt.show()

    plt.figure(figsize=(12, 6))
    sns.boxplot(data=df, x='ano_evento', y='SEMAGESTAC')
    plt.title('Distribuição das Semanas de Gestação por ano_evento')
    plt.show()

# Análise de peso ao nascer em relação aos targets
if 'PESO' in df.columns:
    plt.figure(figsize=(12, 6))
    sns.boxplot(data=df, x='FLAG_BASE', y='PESO')
    plt.title('Distribuição do Peso ao Nascer por FLAG_BASE')
    plt.show()

    plt.figure(figsize=(12, 6))
    sns.boxplot(data=df, x='ano_evento', y='PESO')
    plt.title('Distribuição do Peso ao Nascer por ano_evento')
    plt.show()

# Análise de categorização do peso em relação aos targets
if 'cat_peso_calc' in df.columns:
    plt.figure(figsize=(12, 6))
    sns.countplot(data=df, x='cat_peso_calc', hue='FLAG_BASE', order=df['cat_peso_calc'].value_counts().index)
    plt.title('Distribuição da Categorização do Peso por FLAG_BASE')
    plt.xticks(rotation=45)
    plt.show()

    plt.figure(figsize=(12, 6))
    sns.countplot(data=df, x='cat_peso_calc', hue='ano_evento', order=df['cat_peso_calc'].value_counts().index)
    plt.title('Distribuição da Categorização do Peso por ano_evento')
    plt.xticks(rotation=45)
    plt.show()

In [7]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from Funcoes_auxiliares.func_aux import *

In [15]:
# Carregar os dados
df = pd.read_csv('base_limpa/base_unificada_limpa_remocao.csv')

  df = pd.read_csv('base_limpa/base_unificada_limpa_remocao.csv')


In [16]:
# Peso calculado pela adequação
df['cat_peso_calc'] = [
    func_peso_calculado(sexo, peso, int(round(semana_gest, 0))) for sexo, peso, semana_gest in
    zip(df['SEXO'], df['PESO'], df['SEMAGESTAC'])
]

In [17]:
lista_var = [
    'ano_evento'
    , 'FLAG_BASE'
    , 'evento_MUNNOMEX'
    , 'evento_REGIAO'
    , 'evento_SIGLA_UF'
    , 'idademae_faixa'
    , 'escolaridade_mae'
    , 'tipo_gravidez'
    , 'idade_gestacao_faixa'
    , 'def_sexo'
    , 'cat_peso_calc'
]
df = df[lista_var]

In [27]:
def func_periodo(ano):
    if ano in [2018, 2019]:
        return 'pre_pandemia'
    elif ano in [2020, 2021]:
        return 'pico_pandemia'
    else:
        return 'recuperacao_gradual'

df['target_periodo'] = [func_periodo(ano) for ano in df['ano_evento']]

In [29]:
df['target_periodo']

0                  pre_pandemia
1                  pre_pandemia
2                  pre_pandemia
3                  pre_pandemia
4                  pre_pandemia
                   ...         
13337278    recuperacao_gradual
13337279    recuperacao_gradual
13337280    recuperacao_gradual
13337281    recuperacao_gradual
13337282    recuperacao_gradual
Name: target_periodo, Length: 13337283, dtype: object