#### MVP Machine Learning & Analytics

**Nome:** Fabiano da Mata Almeida<br>
**Matrícula:** 4052025000952<br>
**Dataset:** Pressão de Vapor da nafta

**Nota sobre confidencialidade e descaracterização dos dados:**  
> Para garantir a confidencialidade e o respeito à privacidade, todos os dados utilizados neste estudo foram devidamente descaracterizados, não permitindo a identificação na sua unidade de medida original ou informações sensíveis.<br>
O uso desse dataset segue as boas práticas de ética em ciência de dados, assegurando que nenhuma informação pessoal ou confidencial seja exposta durante as análises.

# Descrição do problema

Este conjunto de dados, **Pressão de Vapor da nafta**, contém informações detalhadas sobre 950 observações dessa corrente derivada do processo de fracionamento de petróleo, incluindo variáveis físico-químicas de processo e da propriedade da corrente.<br>

A variável alvo, **Pressão de Vapor da nafta**, é uma propriedade fundamental que representa a pressão exercida pelo vapor quando em equilíbrio com sua fase líquida a uma determinada temperatura. Esta propriedade é crítica para caracterizar a volatilidade da corrente, impactando diretamente nos requisitos de armazenamento, segurança, transporte e adequação às especificações regulatórias do produto produzido.<br>

O dataset fornece uma base de dados para uma análise exploratória mais simplificada, dado que a grande parte dessa etapa já fora realizada na SPRINT anterior de Análise Exploratório e Boas Práticas, e na sequência o estudo para identificação o melhor modelo de Aprendizado de Máquina para representar o fenômeno e a previsibilidade.



## Hipóteses do problema

A **Pressão de Vapor da nafta** é uma propriedade crítica influenciada por múltiplos fatores ao longo da cadeia de processamento de petróleo. Este estudo parte da premissa que essa propriedade é determinada por condições operacionais diretas da fracionadora de nafta.

O processo de fracionamento de derivados de petróleo opera sob princípios termodinâmicos de equilíbrio líquido-vapor, onde a distribuição dos componentes depende fundamentalmente das condições de pressão e temperatura, que alteram a volatilidade relativa dos hidrocarbonetos presentes. 

#### Hipóteses sobre variáveis da fracionadora de nafta
**H1**: Existe correlação entre a temperatura de topo da fracionadora de nafta (***t_topo_nafta*** e ***t_lhtp_nafta***) e a pressão de vapor do produto (***pv_nafta***)?<br>
&emsp;- Temperaturas mais elevadas promovem maior remoção de componentes leves.

**H2**: A pressão de topo da fracionadora de nafta (***p_topo_nafta***) apresenta correlação com a pressão de vapor do produto final  (***pv_nafta***)?<br>
&emsp;- Pressões mais baixas favorecem a remoção dos componentes mais leves.

**H3**: A vazão de refluxo (***f_refl_nafta***) e/ou a vazão de carga (***f_carg_nafta***) da fracionadora de nafta impactam a pressão de vapor (***pv_nafta***)?<br>
&emsp;- Maiores taxas de refluxo ou fluxo ascentes de vapores promovem melhor separação dos componentes.

**H4**: Existe alguma temperatura relacionada com a fracionadora de nafta (***t_carg_nafta***, ***t_fund_nafta***, ***t_aque_nafta***, ***t_esup_nafta***, ***t_eint_nafta*** e ***t_einf_nafta***) que mostre maior correlação com a pressão de vapor (***pv_nafta***)?<br>
&emsp;- É possível que haja alguma temperatura que seja mais significantemente influenciadora na pressão de vapor.

## Tipo de problema

Este é um problema típico de **regressão supervisionada** (modelagem preditiva) em ambiente industrial/processo químico, onde as variáveis de processo podem ter relações complexas com a propriedade que se deseja prever.

## Seleção de dados

O dataset **Pressão de Vapor da nafta** é um conjunto de dados previamente tratado na SPRINT de Análise de Dados e Boas Práticas. Será necessária uma breve análise exploratória dos dados de forma a torná-lo uma fonte de dados ainda mais curada para o uso.

## Atributos do dataset

O dataset Pressão de Vapor de nafta contém 950 amostras com dezoito (18) atributos:

***pv_nafta***: pressão de vapor da nafta (unidade de pressão)<br>
***t_carg_nafta***: temperatura da carga da fracionadora de nafta (unidade de temperatura)<br>
***t_fund_nafta***: temperatura do fundo da fracionadora de nafta (unidade de temperatura)<br>
***t_aque_nafta***: temperatura do aquecedor de fundo da fracionadora de nafta (unidade de temperatura)<br>
***t_esup_nafta***: temperatura estágio superior interno da fracionadora de nafta (unidade de temperatura)<br>
***t_eint_nafta***: temperatura estágio intermediário interno da fracionadora de nafta (unidade de temperatura)<br>
***t_einf_nafta***: temperatura estágio inferior interno da fracionadora de nafta (unidade de temperatura)<br>
***t_topo_nafta***: temperatura de topo da fracionadora de nafta (unidade de temperatura)<br>
***t_lhtp_nafta***: temperatura da linha de topo da fracionadora de nafta (unidade de temperatura)<br>
***p_topo_nafta***: pressão de topo da fracionadora de nafta (unidade de pressão)<br>
***f_carg_nafta***: vazão de carga da fracionadora de nafta (volume por unidade de tempo)<br>
***f_refl_nafta***: vazão de refluxo de topo da fracionadora de nafta (volume por unidade de tempo)<br>

Temperaturas em unidade genérica<sup>(1)</sup>

<div style="margin-left: 30px">
<sup>(1)</sup>
Formulação generalizada para conversão entre quaisquer duas escalas de temperatura, desde que se conheça/estabeleça os pontos de congelamento e ebulição da água em ambas as escalas.<br>
Para possibilitar a anonimização da temperatura, guardando as mesmas relações termodinâmicas, utilizou-se dessa abordagem para tal.

Definição das Variáveis:<br><br>
$T_{R_C}$ = Temperatura de Congelamento na escala de Referência<br>
$T_{R_E}$ = Temperatura de Ebulição na escala de Referência<br>
$T_{G_C}$ = Temperatura de Congelamento na escala Genérica<br>
$T_{G_E}$ = Temperatura de Ebulição na escala Genérica<br>

Onde:<br><br>
$T_G$ é a temperatura na escala Genérica<br>
$T_R$ é a temperatura na escala de Referência</div>

$$\frac{(T_G - T_{G_C})}{(T_{G_E} - T_{G_C})} =  \frac{(T_R - T_{R_C})}{(T_{R_E} - T_{R_C})}$$
<br>
<p align="center">
    <img src="https://raw.githubusercontent.com/fdamata/pucrj-analisededados-mvp-eda/refs/heads/main/images/conv_temp2.png" alt="Diagrama mostrando a relação de conversão entre escalas de temperatura, com setas conectando pontos de congelamento e ebulição nas escalas genérica e de referência, ilustrando a proporcionalidade entre as diferenças de temperatura. O ambiente é neutro e acadêmico, sem elementos emocionais ou texto adicional." width="400"/>
</p>
<!-- $$T_G = T_{CG} + \frac{(T_{EG} - T_{CG})(T_R - T_{CR})}{(T_{ER} - T_{CR})}$$ -->

# Importação de bibliotecas, definição de funções e carga de dados

Esta seção consolida todas as importações de bibliotecas necessárias, definições das funções utilizadas e algumas configurações iniciais globais, além da carga do dataset para a análise, visualização e pré-processamento dos dados.

In [None]:
import pandas as pd
import numpy as np
import math
import matplotlib.pyplot as plt
from matplotlib.colors import Normalize
from matplotlib.cm import viridis
import seaborn as sns
from scipy.stats import norm, kstest, skew
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, PowerTransformer

# Configuração para não exibir os warnings
import warnings
warnings.filterwarnings("ignore")

# Configurações de exibição
pd.options.display.float_format = '{:.2f}'.format  # Define o formato de exibição dos números float no pandas para duas casas decimais
pd.set_option('display.expand_frame_repr', False)  # Não quebra a representação do dataframe
np.set_printoptions(precision=8, suppress=True, floatmode='maxprec') # Define o formato de exibição dos números float no numpy para oito casas decimais e sem notação científica

Definição das função que serão utilizadas ao longo do trabalho.

In [None]:
# Declaração de funções

def histo(df, column_name, bins=None):
    """
    Plota o histograma de uma coluna numérica de um DataFrame e sobrepõe uma curva normal teórica para comparação visual.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados.
    column_name : str
        Nome da coluna a ser analisada.
    bins : int, str ou None, opcional
        Número de bins do histograma. Se None ou vazio, utiliza 20 como padrão.

    Descrição:
    ----------
    - Verifica se a coluna existe no DataFrame.
    - Plota o histograma dos valores da coluna, normalizado (density=True).
    - Sobrepõe a curva normal teórica baseada na média e desvio padrão da coluna.
    - Adiciona rótulos, título e legenda ao gráfico.
    - Exibe o gráfico resultante.

    Exemplo de uso:
    --------------
    histo(df, 'pv_nafta', bins=30)
    """
    # Verifique se a coluna existe no DataFrame
    if column_name not in df.columns:
        print(f"A coluna '{column_name}' não existe no DataFrame.")
        return

    # Verifica se bins é None ou vazio
    if bins is None or bins == '':
        bins = 20  # Valor padrão

    # Crie um histograma dos valores
    plt.hist(df[column_name], bins=bins, density=True, color='grey', alpha=0.6, edgecolor='black')

    # Adicione a curva normal teórica
    x_vals = np.linspace(df[column_name].min(), df[column_name].max(), 100)
    y_vals = norm.pdf(x_vals, loc=np.mean(df[column_name]), scale=np.std(df[column_name]))
    plt.plot(x_vals, y_vals, color='red', label='Curva Normal Teórica')

    plt.xlabel(column_name)
    plt.ylabel('Frequência')
    plt.title(f'Histograma com Curva Normal Teórica de "{column_name}"')
    plt.legend()

    # Exiba o gráfico
    plt.show()

def serie_hist(df, column_names):
    """
    Plota a(s) série(s) temporal(is) de uma ou mais colunas de um DataFrame, com linhas de referência estatísticas.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados.
    column_names : str ou list
        Nome da coluna (ou lista de colunas) a ser(em) analisada(s).

    Descrição:
    ----------
    - Plota a série temporal da(s) coluna(s) especificada(s) usando Plotly.
    - Se apenas uma coluna for fornecida, adiciona linhas de referência para o valor mínimo, máximo, limites do IQR (whiskers).
    - As linhas de referência ajudam a identificar outliers e o comportamento estatístico da série ao longo do tempo.
    - Exibe o gráfico interativo.

    Exemplo de uso:
    --------------
    serie_hist(df, 't_forn_atm')
    serie_hist(df, ['pv_nafta', 'f_carg_nafta'])
    """
    if isinstance(column_names, list):
        title = ', '.join(column_names)
    else:
        title = column_names

    fig = px.line(
        data_frame = df[column_names].dropna(),
        title = title
    )

    if not isinstance(column_names, list):

        min_value = df[column_names].min()
        max_value = df[column_names].max()
        q1 = df[column_names].quantile(0.25)
        q3 = df[column_names].quantile(0.75)
        iqr = q3-q1
        loval = q1 - (1.5 * iqr)
        hival = q3 + (1.5 * iqr)

        fig.add_shape(
            type = 'line',
            x0 = df.index.min(),
            y0 = min_value,
            x1 = df.index.max(),
            y1 = min_value,
            line = dict(
                color = 'gray',
                width = 1,
                dash = 'dash'
            )
        )

        fig.add_shape(
            type = 'line',
            x0 = df.index.min(),
            y0 = max_value,
            x1 = df.index.max(),
            y1 = max_value,
            line = dict(
                color = 'gray',
                width = 1,
                dash = 'dash'
            )
        )

        fig.add_shape(
            type = 'line',
            x0 = df.index.min(),
            y0 = loval,
            x1 = df.index.max(),
            y1 = loval,
            line = dict(
                color = 'orange',
                width = 1,
                dash = 'dash'
            )
        )

        fig.add_shape(
            type = 'line',
            x0 = df.index.min(),
            y0 = hival,
            x1 = df.index.max(),
            y1 = hival,
            line = dict(
                color = 'orange',
                width = 1,
                dash = 'dash'
            )
        )

    fig.show()

def box_p(df, column_name, lower_lim=None, upper_lim=None):
    """
    Plota um boxplot horizontal para a coluna especificada de um DataFrame.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados.
    column_name : str
        Nome da coluna a ser visualizada no boxplot.
    lower_lim : float, str ou None, opcional
        Limite inferior do eixo x. Se None ou 'auto', usa o mínimo dos dados.
    upper_lim : float, str ou None, opcional
        Limite superior do eixo x. Se None ou 'auto', usa o máximo dos dados.

    Descrição:
    ----------
    - Cria um boxplot horizontal usando a biblioteca Plotly Express.
    - Remove automaticamente valores NaN da coluna antes de plotar.
    - Adiciona um título igual ao nome da coluna.
    - Utiliza a opção 'notched' para exibir o intervalo de confiança da mediana.
    - Permite ajustar os limites do eixo x manualmente ou automaticamente.
    - Exibe o gráfico interativo.

    Exemplo de uso:
    --------------
    box_p(df, 'pv_nafta')
    box_p(df, 'pv_nafta', lower_lim=50, upper_lim=150)
    """
    # Criar o boxplot
    fig = px.box(
        data_frame=df[column_name].dropna(),
        orientation='h',
        title=column_name,
        notched=True,
    )

    # Processar os limites do eixo x
    if upper_lim is not None and upper_lim != 'auto':
        try:
            x_upper = float(upper_lim)
            fig.update_xaxes(range=[None, x_upper])
        except (ValueError, TypeError):
            pass  # Se não for possível converter para float, mantém o limite automático

    if lower_lim is not None and lower_lim != 'auto':
        try:
            x_lower = float(lower_lim)
            current_range = fig.layout.xaxis.range
            fig.update_xaxes(range=[x_lower, current_range[1] if current_range else None])
        except (ValueError, TypeError):
            pass  # Se não for possível converter para float, mantém o limite automático

    fig.show()

def plot_boxplot_pdf(df, lower_lim=None, upper_lim=None, n_cols=4):
    """
    Plota boxplot horizontal e PDF (histograma + curva normal) para todas as colunas numéricas do DataFrame.
    O layout é de múltiplas linhas e n_cols colunas de subplots: para cada coluna, boxplot em cima, PDF embaixo.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados.
    lower_lim : float, str ou None, opcional
        Limite inferior do eixo x. Se None ou 'auto', usa o mínimo dos dados.
    upper_lim : float, str ou None, opcional
        Limite superior do eixo x. Se None ou 'auto', usa o máximo dos dados.
    n_cols : int, opcional
        Número de colunas no layout dos subplots. O padrão é 4.

    Descrição:
    ----------
    - Para cada variável numérica, cria dois gráficos alinhados verticalmente:
      - Um boxplot horizontal no topo para visualizar a distribuição e outliers
      - Um histograma com curva normal teórica abaixo para visualizar a distribuição de frequência
    - Adiciona linhas de referência nos gráficos (média, mediana, ±3σ)
    - Permite ajustar os limites dos eixos manualmente ou automaticamente
    - Remove automaticamente valores NaN antes de plotar

    Exemplo de uso:
    --------------
    plot_boxplot_pdf(df)
    plot_boxplot_pdf(df, upper_lim=100, lower_lim=0)  # Define limites fixos para todas as variáveis
    plot_boxplot_pdf(df, n_cols=3)  # Altera o número de colunas no layout
    """

    numeric_cols = df.select_dtypes(include=[np.number]).columns
    n_vars = len(numeric_cols)
    n_rows = int(np.ceil(n_vars / n_cols))

    # Dobrar a altura dos plots da PDF (segunda linha de cada variável)
    height_ratios = []
    for _ in range(n_rows):
        height_ratios.extend([1, 4])  # boxplot:1, pdf:4

    fig, axes = plt.subplots(
        n_rows * 2,
        n_cols,
        figsize=(6 * n_cols, 5 * n_rows),
        gridspec_kw={'height_ratios': height_ratios}
    )

    axes = np.array(axes).reshape(n_rows * 2, n_cols)

    for idx, column in enumerate(numeric_cols):
        row = (idx // n_cols) * 2
        col = idx % n_cols
        data = df[column].dropna()

        # Use os valores reais dos dados para garantir que todos os outliers estejam visíveis
        data_min = data.min()
        data_max = data.max()

        # Se upper_lim/lower_lim forem fornecidos, use-os, senão use os valores reais dos dados
        if upper_lim is None or (isinstance(upper_lim, str) and upper_lim.lower() == 'auto'):
            x_upper = data_max
        else:
            try:
                x_upper = float(upper_lim)
            except (ValueError, TypeError):
                x_upper = data_max

        if lower_lim is None or (isinstance(lower_lim, str) and lower_lim.lower() == 'auto'):
            x_lower = data_min
        else:
            try:
                x_lower = float(lower_lim)
            except (ValueError, TypeError):
                x_lower = data_min

        # Para garantir que todos os pontos (inclusive outliers) sejam mostrados, defina os limites do eixo x
        # um pouco além dos valores mínimos e máximos reais dos dados
        margin = 0.02 * (data_max - data_min) if data_max > data_min else 1
        xlim_lower = data_min - margin
        xlim_upper = data_max + margin

        # Boxplot
        ax_box = axes[row, col]
        ax_box.boxplot(data, vert=False, patch_artist=True, widths=0.5, showfliers=True)
        ax_box.set_xlim(xlim_lower, xlim_upper)
        ax_box.set_yticks([])
        ax_box.set_xticklabels([])
        ax_box.set_title(f'Boxplot de {column}')

        # PDF (histograma + curva normal)
        ax_pdf = axes[row + 1, col]
        ax_pdf.hist(data, bins=30, color='lightblue', edgecolor='black', alpha=0.7, density=True, range=(xlim_lower, xlim_upper))

        if len(data) > 1:
            media = data.mean()
            std = data.std()
            x_grid = np.linspace(xlim_lower, xlim_upper, 200)
            y_norm = norm.pdf(x_grid, media, std)
            ax_pdf.plot(x_grid, y_norm, color='darkblue', lw=2, label='Normal')

            mediana = data.median()
            # Linhas estatísticas
            ax_box.axvline(media, color='blue', linestyle='-', label=f'Média: {media:.1f}')
            ax_box.axvline(mediana, color='green', linestyle='--', label=f'Mediana: {mediana:.1f}')
            ax_box.axvline(media + 3*std, color='orange', linestyle=':', label=f'+3σ: {(media + 3*std):.1f}')
            ax_box.axvline(media - 3*std, color='orange', linestyle=':', label=f'-3σ: {(media - 3*std):.1f}')

            ax_pdf.axvline(media, color='blue', linestyle='-', label=f'Média: {media:.1f}')
            ax_pdf.axvline(mediana, color='green', linestyle='--', label=f'Mediana: {mediana:.1f}')
            ax_pdf.axvline(media + 3*std, color='orange', linestyle=':', label=f'+3σ: {(media + 3*std):.1f}')
            ax_pdf.axvline(media - 3*std, color='orange', linestyle=':', label=f'-3σ: {(media - 3*std):.1f}')

        ax_pdf.set_xlim(xlim_lower, xlim_upper)
        ax_pdf.set_xlabel(column)
        ax_pdf.set_ylabel('Densidade')
        ax_pdf.set_title(f'PDF de {column}')
        ax_pdf.legend(fontsize=8, loc='upper left')

    # Remove subplots vazios
    total_plots = n_rows * n_cols
    for idx in range(n_vars, total_plots):
        for r in [0, 1]:
            fig.delaxes(axes[(idx // n_cols) * 2 + r, idx % n_cols])

    plt.tight_layout(h_pad=2.5)
    plt.show()

def plot_boxplot_pdf_indiv(df, column, lower_lim=None, upper_lim=None):
    """
    Plota boxplot horizontal e PDF (histograma + curva normal) para uma coluna numérica do DataFrame.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados.
    column : str
        Nome da coluna a ser plotada.
    lower_lim : float, str ou None, opcional
        Limite inferior do eixo x. Se None ou 'auto', usa o mínimo dos dados.
    upper_lim : float, str ou None, opcional
        Limite superior do eixo x. Se None ou 'auto', usa o máximo dos dados.
    """

    data = df[column].dropna()
    data_min = data.min()
    data_max = data.max()

    # Processamento dos limites
    if upper_lim is None or (isinstance(upper_lim, str) and upper_lim.lower() == 'auto'):
        x_upper = data_max
    else:
        try:
            x_upper = float(upper_lim)
        except (ValueError, TypeError):
            x_upper = data_max

    if lower_lim is None or (isinstance(lower_lim, str) and lower_lim.lower() == 'auto'):
        x_lower = data_min
    else:
        try:
            x_lower = float(lower_lim)
        except (ValueError, TypeError):
            x_lower = data_min

    # Margem para visualização
    margin = 0.02 * (data_max - data_min) if data_max > data_min else 1

    # Usar os limites definidos pelo usuário quando fornecidos
    xlim_lower = x_lower if lower_lim is not None and lower_lim != 'auto' else data_min - margin
    xlim_upper = x_upper if upper_lim is not None and upper_lim != 'auto' else data_max + margin

    fig, axes = plt.subplots(2, 1, figsize=(8, 6), gridspec_kw={'height_ratios': [1, 4]})

    # Boxplot
    ax_box = axes[0]
    ax_box.boxplot(data, vert=False, patch_artist=True, widths=0.5, showfliers=True)
    ax_box.set_xlim(xlim_lower, xlim_upper)
    ax_box.set_yticks([])
    ax_box.set_xticklabels([])
    ax_box.set_title(f'Boxplot de {column}')

    # PDF (histograma + curva normal)
    ax_pdf = axes[1]

    # Ajustar o range do histograma para os limites definidos
    hist_range = (xlim_lower, xlim_upper)
    ax_pdf.hist(data, bins=30, color='lightblue', edgecolor='black', alpha=0.7, density=True, range=hist_range)

    if len(data) > 1:
        media = data.mean()
        std = data.std()
        mediana = data.median()

        # Usar os limites definidos para o grid da curva normal
        x_grid = np.linspace(xlim_lower, xlim_upper, 200)
        y_norm = norm.pdf(x_grid, media, std)
        ax_pdf.plot(x_grid, y_norm, color='darkblue', lw=2, label='Normal')

        # Linhas estatísticas
        ax_box.axvline(media, color='blue', linestyle='-', label=f'Média: {media:.1f}')
        ax_box.axvline(mediana, color='green', linestyle='--', label=f'Mediana: {mediana:.1f}')
        ax_box.axvline(media + 3*std, color='orange', linestyle=':', label=f'+3σ: {(media + 3*std):.1f}')
        ax_box.axvline(media - 3*std, color='orange', linestyle=':', label=f'-3σ: {(media - 3*std):.1f}')

        ax_pdf.axvline(media, color='blue', linestyle='-', label=f'Média: {media:.1f}')
        ax_pdf.axvline(mediana, color='green', linestyle='--', label=f'Mediana: {mediana:.1f}')
        ax_pdf.axvline(media + 3*std, color='orange', linestyle=':', label=f'+3σ: {(media + 3*std):.1f}')
        ax_pdf.axvline(media - 3*std, color='orange', linestyle=':', label=f'-3σ: {(media - 3*std):.1f}')

    ax_pdf.set_xlim(xlim_lower, xlim_upper)
    ax_pdf.set_xlabel(column)
    ax_pdf.set_ylabel('Densidade')
    ax_pdf.set_title(f'PDF de {column}')
    ax_pdf.legend(fontsize=8, loc='upper left')

    plt.tight_layout(h_pad=2.5)
    plt.show()

def teste_n(df, column_name, alpha=0.05):
    """
    Executa o teste de Kolmogorov-Smirnov para verificar se uma coluna do DataFrame segue uma distribuição normal.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados.
    column_name : str
        Nome da coluna a ser testada quanto à normalidade.
    alpha : float, opcional
        Nível de significância para o teste. O padrão é 0.05 (5%).

    Descrição:
    ----------
    - Normaliza os dados da coluna (subtrai a média e divide pelo desvio padrão).
    - Aplica o teste de Kolmogorov-Smirnov comparando com uma distribuição normal padrão.
    - Interpreta os resultados com base no p-valor e o nível de significância especificado.
    - Exibe uma mensagem informando se a distribuição pode ser considerada normal ou não.

    Retorno:
    --------
    tuple
        Uma tupla contendo (estatística do teste, p-valor).

    Exemplo de uso:
    --------------
    stat, p_valor = teste_n(df, 'pv_nafta')
    stat, p_valor = teste_n(df, 'pv_nafta', alpha=0.01)  # Usando significância de 1%
    """
    # Executar o teste de Kolmogorov-Smirnov - nesse caso em relação a uma distribuição normal
    stat, p_valor = kstest((df[column_name] - np.mean(df[column_name])) / np.std(df[column_name], ddof=1), 'norm')

    # Interpretar os resultados
    if p_valor > alpha:
        print("A amostra parece vir de uma distribuição normal (não podemos rejeitar a hipótese nula) p-valor:", f"{p_valor:.5f}")
    else:
        print("A amostra não parece vir de uma distribuição normal (rejeitamos a hipótese nula) p-valor:", f"{p_valor:.5f}")
    return float(stat), float(p_valor)

def calcula_vif(df,target):
    """
    Calcula o Fator de Inflação da Variância (VIF) para identificar multicolinearidade em variáveis.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo apenas as variáveis independentes para as quais se deseja calcular o VIF.

    Descrição:
    ----------
    - Adiciona uma constante ao DataFrame para o cálculo correto do VIF.
    - Calcula o VIF para cada variável usando a função variance_inflation_factor.
    - Ordena os resultados em ordem decrescente para identificar as variáveis mais problemáticas.
    - Exibe os resultados das 15 variáveis com maior VIF.

    # Retorno:
    # --------
    # pandas.DataFrame
    #     DataFrame contendo as variáveis e seus respectivos valores VIF.

    Interpretação:
    --------------
    - VIF = 1: Ausência de multicolinearidade
    - 1 < VIF < 5: Multicolinearidade moderada
    - 5 < VIF < 10: Multicolinearidade alta
    - VIF > 10: Multicolinearidade muito alta (problemática)

    Exemplo de uso:
    --------------
    vif_df = calcula_vif(df,target)  
    """
    # Remove a coluna da variável target, se existir
    X = df.drop(columns=[target]) if target in df.columns else df.copy()
    X_with_const = sm.add_constant(X)  # Adicionando uma constante
    vif = pd.DataFrame()
    vif["Variable"] = X_with_const.columns
    vif["VIF"] = [variance_inflation_factor(X_with_const.values, i) for i in range(X_with_const.shape[1])]

    vif.set_index('Variable', inplace=True)
    # Imprimir VIF em ordem decrescente
    print("\nVIF das variáveis (ordem decrescente):\n")
    print(vif.query("Variable != 'const'").sort_values(by='VIF', ascending=False).head(15).T)

    # return vif

def remove_whisker(df, column_name):
    """
    Remove outliers de uma coluna de um DataFrame usando o método IQR (Intervalo Interquartil).

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados.
    column_name : str
        Nome da coluna de onde os outliers serão removidos.

    Descrição:
    ----------
    - Calcula o primeiro quartil (Q1), terceiro quartil (Q3) e IQR da coluna.
    - Define os limites inferior e superior como Q1-1.5*IQR e Q3+1.5*IQR.
    - Substitui os valores fora desses limites por NaN.
    - Remove as linhas com valores NaN na coluna especificada.
    - Exibe a quantidade de valores removidos.

    Retorno:
    --------
    tuple
        Uma tupla contendo (DataFrame sem outliers, número de valores removidos).

    Exemplo de uso:
    --------------
    df_clean, n_removed = remove_whisker(df, 'pv_nafta')
    """
    # calculando o whisker e removendo os Ys além da fronteira
    df_aux = df.copy()
    q1 = df_aux[column_name].quantile(.25)
    q3 = df_aux[column_name].quantile(.75)
    iqr = q3-q1
    loval = q1 - (1.5 * iqr)
    hival = q3 + (1.5 * iqr)
    loW = df_aux[df_aux[column_name] >= loval][column_name].min()
    hiW = df_aux[df_aux[column_name] <= hival][column_name].max()
    # retirando os outliers
    df_aux[column_name] = df_aux[column_name].mask((df_aux[column_name] < loW) | (df_aux[column_name] > hiW))
    print('Valores removidos por wishers:', df_aux[column_name].isna().sum())
    n_removed = df_aux[column_name].isna().sum()
    df_aux.dropna(inplace=True)

    return df_aux, n_removed

def calcula_corr(df):
    """
    Calcula e visualiza a matriz de correlação absoluta entre as variáveis de um DataFrame.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados para cálculo da correlação.

    Descrição:
    ----------
    - Remove valores NaN do DataFrame antes de calcular as correlações.
    - Calcula a matriz de correlação absoluta entre todas as variáveis.
    - Cria uma visualização interativa usando Plotly Express.
    - Aplica uma escala de cores Viridis para representar a intensidade das correlações.
    - Mostra os valores numéricos das correlações com duas casas decimais.

    Exemplo de uso:
    --------------
    calcula_corr(df)
    calcula_corr(df[selected_columns])  # Para um subconjunto de colunas
    """
    df_corr = df.dropna().corr().abs()

    fig = px.imshow(
        img    = df_corr,
        color_continuous_scale='Viridis',
        width  = 900, # caso não esteja visualizando todas as variáveis, altere esse valor
        height = 900, # caso não esteja visualizando todas as variáveis, altere esse valor
        text_auto = ".2f"  # Mostra os valores com 2 casas decimais
    )

    fig.update_traces(textfont_size=12)  # Altere o valor conforme desejado
    fig.show()

def subplot_serie_hist(df, n_cols=3):
    """
    Plota múltiplas séries temporais em subplots com linhas de referência estatísticas.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados das séries temporais.
    n_cols : int, opcional
        Número de colunas no layout dos subplots. O padrão é 3.

    Descrição:
    ----------
    - Cria uma grade de subplots para visualizar múltiplas séries temporais simultaneamente.
    - Para cada variável, adiciona linhas de referência estatísticas (mínimo, máximo, limites do IQR).
    - Organiza os gráficos em uma grade de n_cols colunas, calculando automaticamente o número de linhas necessárias.
    - Adiciona títulos correspondentes aos nomes das colunas do DataFrame.

    Exemplo de uso:
    --------------
    subplot_serie_hist(df)  # Plota todas as colunas do DataFrame
    subplot_serie_hist(df[['pv_nafta', 'f_carg_nafta']], n_cols=2)  # Plota apenas as colunas selecionadas
    """

    n_vars = len(df.columns)
    n_rows = math.ceil(n_vars / n_cols)

    fig = make_subplots(rows=n_rows, cols=n_cols, subplot_titles=df.columns)

    for idx, col in enumerate(df.columns):
        row = idx // n_cols + 1
        col_idx = idx % n_cols + 1

        # Usa a lógica do serie_hist: plota a linha e adiciona linhas de referência (opcional)
        trace = px.line(df, y=col).data[0]
        fig.add_trace(trace, row=row, col=col_idx)

        # Adiciona linhas de referência (mínimo, máximo, IQR) igual ao serie_hist
        min_value = df[col].min()
        max_value = df[col].max()
        q1 = df[col].quantile(0.25)
        q3 = df[col].quantile(0.75)
        iqr = q3 - q1
        loval = q1 - (1.5 * iqr)
        hival = q3 + (1.5 * iqr)

        fig.add_shape(type='line', x0=df.index.min(), y0=min_value, x1=df.index.max(), y1=min_value,
                    line=dict(color='gray', width=1, dash='dash'), row=row, col=col_idx)
        fig.add_shape(type='line', x0=df.index.min(), y0=max_value, x1=df.index.max(), y1=max_value,
                    line=dict(color='gray', width=1, dash='dash'), row=row, col=col_idx)
        fig.add_shape(type='line', x0=df.index.min(), y0=loval, x1=df.index.max(), y1=loval,
                    line=dict(color='orange', width=1, dash='dash'), row=row, col=col_idx)
        fig.add_shape(type='line', x0=df.index.min(), y0=hival, x1=df.index.max(), y1=hival,
                    line=dict(color='orange', width=1, dash='dash'), row=row, col=col_idx)

    # Adicionar uma legenda única para todas as linhas de referência
    fig.add_trace(
        go.Scatter(x=[None], y=[None], mode='lines', line=dict(color='gray', width=1, dash='dash'),
                  name='Min/Max', showlegend=True),
        row=1, col=1
    )
    fig.add_trace(
        go.Scatter(x=[None], y=[None], mode='lines', line=dict(color='orange', width=1, dash='dash'),
                  name='IQR Limits (±1.5*IQR)', showlegend=True),
        row=1, col=1
    )

    fig.update_layout(
        height=250*n_rows,
        width=450*n_cols,
        showlegend=True,
        title_text="Séries Temporais das Variáveis",
        legend=dict(
            orientation="h",
            yanchor="bottom",
            y=1.02,
            xanchor="right",
            x=1
        )
    )
    fig.show()

def pairplot_corr_hm(df, figsize=(12, 12), hist_bins=30, s=10, alpha=0.6):
    """
    Cria um pairplot onde a cor dos pontos é baseada na correlação absoluta entre variáveis
    usando uma paleta de cores Viridis.

    Parâmetros:
    -----------
    df : pandas DataFrame
        O DataFrame contendo os dados a serem plotados
    figsize : tuple, opcional
        Tamanho da figura (largura, altura) em polegadas
    hist_bins : int, opcional
        Número de bins para os histogramas na diagonal
    s : int, opcional
        Tamanho dos pontos nos gráficos de dispersão
    alpha : float, opcional
        Nível de transparência dos pontos (0-1)
    """

    # Obter a matriz de correlação absoluta
    corr_matrix = df.corr().abs()

    # Configurar a normalização de cores para a escala viridis
    norm = Normalize(vmin=0, vmax=1)

    # Obter as variáveis e o número de variáveis
    variables = df.columns
    n_vars = len(variables)

    # Criar a figura e os subplots
    fig, axes = plt.subplots(n_vars, n_vars, figsize=figsize)

    # Ajustar o espaçamento entre os subplots
    plt.subplots_adjust(wspace=0.2, hspace=0.2)

    # Criar os gráficos para cada par de variáveis
    for i, var1 in enumerate(variables):
        for j, var2 in enumerate(variables):
            ax = axes[i, j]

            # Remover os ticks dos eixos internos
            if i < n_vars - 1:
                ax.set_xticks([])
            if j > 0:
                ax.set_yticks([])

            # Se estamos na diagonal, plotar histograma
            if i == j:
                ax.hist(df[var1], bins=hist_bins, alpha=0.7, color='darkblue')
                ax.set_title(var1, fontsize=10)
            else:
                # Obter a correlação absoluta entre as variáveis
                corr_val = corr_matrix.loc[var1, var2]

                # Determinar a cor com base na correlação
                color = viridis(norm(corr_val))

                # Criar o gráfico de dispersão
                ax.scatter(df[var2], df[var1], s=s, alpha=alpha, color=color)

                # Adicionar a correlação como texto no gráfico
                ax.text(0.05, 0.95, f'|ρ|: {corr_val:.2f}',
                        transform=ax.transAxes, fontsize=8,
                        verticalalignment='top', bbox=dict(boxstyle='round', facecolor='white', alpha=0.7))

    # Adicionar os nomes das variáveis apenas nos eixos externos
    for i, var in enumerate(variables):
        axes[n_vars-1, i].set_xlabel(var, fontsize=10)
        axes[i, 0].set_ylabel(var, fontsize=10)

    # Adicionar uma barra de cores para referência
    cbar_ax = fig.add_axes([0.92, 0.3, 0.02, 0.4])  # [left, bottom, width, height]
    cb = plt.colorbar(plt.cm.ScalarMappable(norm=norm, cmap="viridis"), cax=cbar_ax)
    cb.set_label('Correlação Absoluta |ρ|')

    plt.suptitle('Pairplot com Cores Baseadas na Correlação Absoluta', fontsize=16)
    plt.subplots_adjust(left=0.05, right=0.9, top=0.95, bottom=0.05, wspace=0.2, hspace=0.2)

def scatter_plot_corr(df, x_col, y_col, figsize=(10, 6), color='blue', add_regression=False):
    """
    Cria um scatter plot entre duas variáveis do DataFrame e exibe o coeficiente de correlação no gráfico.

    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados.
    x_col : str
        Nome da coluna para o eixo x.
    y_col : str
        Nome da coluna para o eixo y.
    figsize : tuple, opcional
        Tamanho da figura (largura, altura). O padrão é (10, 6).
    color : str, opcional
        Cor dos pontos do scatter plot. O padrão é 'blue'.
    add_regression : bool, opcional
        Se True, adiciona uma linha de regressão ao gráfico. O padrão é False.

    Descrição:
    ----------
    - Cria um scatter plot para visualizar a relação entre duas variáveis.
    - Calcula e exibe o coeficiente de correlação de Pearson no canto superior esquerdo.
    - Opcionalmente, adiciona uma linha de regressão linear para mostrar a tendência.
    - Utiliza grade para facilitar a visualização dos dados.

    Exemplo de uso:
    --------------
    scatter_plot_corr(df, 'pv_nafta', 'h_rsup_atm')
    scatter_plot_corr(df, 'pv_nafta', 'h_rsup_atm', add_regression=True, color='darkblue')
    """
    plt.figure(figsize=figsize)
    plt.scatter(df[x_col], df[y_col], alpha=0.6, color=color)
    plt.xlabel(x_col)
    plt.ylabel(y_col)
    plt.title(f'Relação entre {x_col} e {y_col}')
    plt.grid(True, alpha=0.3)

    # Adicionar texto com coeficiente de correlação
    corr = df[x_col].corr(df[y_col])
    plt.annotate(f'Correlação: {corr:.2f}', xy=(0.05, 0.95), xycoords='axes fraction',
                 bbox=dict(boxstyle="round,pad=0.3", fc="white", ec="gray", alpha=0.8))

    # Opcional: adicionar linha de regressão
    if add_regression and len(df) > 1:
        z = np.polyfit(df[x_col], df[y_col], 1)
        p = np.poly1d(z)
        plt.plot(df[x_col], p(df[x_col]), "r--", alpha=0.7)
        plt.annotate(f'y = {z[0]:.2f}x + {z[1]:.2f}', xy=(0.05, 0.85), xycoords='axes fraction',
                    bbox=dict(boxstyle="round,pad=0.3", fc="white", ec="gray", alpha=0.8))

    plt.tight_layout()
    plt.show()


Carregamento do dataset

In [None]:
url = "https://github.com/fdamata_petro/pucrj-analisededados-mvp-ml/raw/refs/heads/main/dataset_pv_nafta_ml.xlsx"
url = 'dataset_pv_nafta_ml.xlsx'


df = pd.read_excel(url) # Carregamento do dataset
df.head() # Imprime as primeiras linhas do dataset

# Análise de dados

Nesta etapa buscamos entender a distribuição, as relações e as características das variáveis, o que é crucial para as etapas subsequentes.

## Total e tipo dos atributos

In [None]:
print(f"Total de instâncias: {len(df)}")

tags = df.columns.to_list()

# Definição de que a variável dependente está na primeira coluna
target = tags[0]
inputs = [tag for tag in tags if tag != target]

print(f'Num. de atributos: {len(tags)}')
# Separação entre variável dependente (target) e independentes (inputs)
print(f'target = {target}')
print(f'inputs = {inputs}')
# print(f'Num. inputs = {len(inputs)}')

print("\nTipos de dados por coluna:\n")

print(df.info())

O dataset possui 950 observações. Os dezoito (12) atributos são de tipo numérico (float).

## Análise de comportamento temporal

O objetivo é observar o comportamento das variáveis ao longo do tempo.

In [None]:
subplot_serie_hist(df, n_cols=3)

É possível observar que em **'t_forn_atm'** e em **'f_refl_nafta'** tiveram períodos em que o comportamento da variável difere do padrão e podem ser úteis para trazer mais variância aos dados, o que pode ser útil lá na porte de modelgaem.

## Estatísticas Descritivas

Estatísticas descritivas fornecem um resumo das características numéricas, incluindo média, desvio padrão, mínimo, máximo e quartis.

In [None]:
# estasticas descritivas básicas do dataset
df_descr = df.describe()
print('Estatísticas descritivas:\n')
print(df_descr.T)

### Média, Mediana, Desvio padrão, MAD e Coef. de Variação Robusto

A média e mediana são medidas de tendência central dos dados. A média representa o valor do ponto de equilíbrio dos dados. Já a mediana representa o valor central de um conjunto de dados ordenados.<br>

Diferente da média, a mediana não é influenciada por valores extremos (outliers), sendo especialmente útil também para descrever distribuições assimétricas ou com presença de valores atípicos.

O desvio padrão e MAD (Median Absolute Deviation ou Desvio Absoluto da Mediana) são medidas de dispersão de um conjunto de valores. <br>
Por ser baseado na mediana, o MAD é menos sensível a outliers do que o desvio padrão, fornecendo uma visão mais fiel da variabilidade dos dados em distribuições não normais ou contaminadas por valores extremos.

O Coeficiente de Variação Robusto é uma métrica relativa de dispersão que utiliza o MAD em vez do desvio padrão e a mediana no lugar da média. Ele é calculado como:

$$ CV_{robusto} = \frac{MAD}{|mediana|} \times 100 $$

Esse coeficiente permite comparar a variabilidade relativa entre diferentes variáveis, mesmo quando apresentam escalas ou unidades distintas, sendo mais adequado para dados com outliers e até mesmo para distribuições assimétricas. Valores mais altos indicam maior dispersão relativa em relação à mediana.

In [None]:
# média dos atributos numéricos do dataset
df_descr = df.describe()
df_descr = df_descr.T
df_descr.rename(columns={'50%': 'median'}, inplace=True)

# Calculate Mean Absolute Deviation (MAD)
mad = df.apply(lambda x: np.mean(np.abs(x - x.mean())))
df_descr['mad'] = mad

df_descr['cv_robust'] = (df_descr['mad'] / df_descr['median'].abs()) *100

print(df_descr[['mean', 'median', 'std', 'mad', 'cv_robust']])


No gráfico a seguir é possível observar os valores relativos do CV Robusto.

In [None]:
# Configurar estilo
sns.set(style="whitegrid")

# Criar dataframe ordenado para melhor visualização
df_descr.sort_values('cv_robust', ascending=False, inplace=True)

# Criar gráfico de barras para o CV Robusto
plt.figure(figsize=(12, 7))
ax = sns.barplot(x=df_descr.index, y='cv_robust', data=df_descr, hue=df_descr.index, legend=False)

# Adicionar rótulos e título
plt.title('Coeficiente de Variação Robusto por Variável', fontsize=14)
plt.xlabel('Variáveis', fontsize=12)
plt.ylabel('CV Robusto (%)', fontsize=12)

# Adicionar os valores nas barras
for i, v in enumerate(df_descr['cv_robust']):
    if not pd.isna(v):
        ax.text(i, v + 0.5, f'{v:.1f}%', ha='center', fontsize=9)

# Adicionar linhas de referência para as classificações
plt.axhline(y=40, color='red', linestyle='--', alpha=0.7, label='Alta dispersão > 40%')
plt.axhline(y=30, color='orange', linestyle='--', alpha=0.7, label='Média dispersão > 30%')
plt.axhline(y=20, color='blue', linestyle='--', alpha=0.7, label='Baixa dispersão > 20%')
plt.axhline(y=10, color='green', linestyle='--', alpha=0.7, label='Muito baixa dispersão < 10%')

# Rotacionar os rótulos do eixo x para melhor visualização
plt.xticks(rotation=45, ha='right')

# Adicionar legenda
plt.legend(loc='upper right')

# Ajustar layout
plt.tight_layout()
plt.show()


Todas as variáveis, com exceção da **'f_refl_nafta'**, tem baixa ou muito baixa dispersão segundo o critério de Coeficiente de Variação Robusto.

## Histograma

O Histrograma permite-nos visualizar a dispersão e a frequência dos dados. <br>
Com isso podemos descobrir padrões, tendências centrais, dispersão e a presença de valores atípicos (outliers). <br>
No histograma ainda pode-se ter a identificação de simetria ou assimetria, se são unimodais ou multimodais.

*pv_nafta*

In [None]:
histo(df, 'f_refl_nafta')

Ao observarmos a primeira distribuição, relacionada à **'f_refl_nafta'** percebemos se tratar de uma distribuição assimétrica à direita (ou positivamente assimétrica), com uma cauda da distribuição se estendendo mais para a direita, indicando a presença de valores mais altos menos frequentes. Em relação ao modo, podemos classificar como unimodal, pois possui apenas um pico principal.


## Boxplot

Outra forma de entender distribuiçãp dos dados é através do boxplot.<br>
Nele é possível comparar a mediana, quartis, wiskers e outliers.


In [None]:
teste_n(df, target)
box_p(df, target)
histo(df, target)

No boxplot da pressão de vapor da nafta **'pv_nafta'** é possível ver a simetria da sua distribuição, que também é comprovada pelo histrograma. E no teste de normalidade é possível afirmar que a distribuição parece de fato vir de uma distribuição normal ao nível de significância de 0,05.

Consolidado essas ferramentas, conseguimos visualmente observar as variáveis envolvidas no dataset.

In [None]:
plot_boxplot_pdf(df, n_cols=4)

É possível observar que nas unidades de engenharia utilizadas não há um único padrão para todas as distribuições.<br>
Há algumas distribuições que aparentam a normalidade, mas que requerem avaliação específica para avaliação das hipóteses.

In [None]:
# Loop para aplicar a função teste_n em todas as colunas do DataFrame
print("Teste de normalidade para todas as variáveis:")
print("=" * 60)

normality_results = {}
for col in df.columns:
    print(f"Variável: '{col}'")
    _, p_valor = teste_n(df, col)
    normality_results[col] = "Normal" if p_valor > 0.05 else "Não normal"
    print("-" * 60)

# Criar um DataFrame com os resultados para melhor visualização
normality_df = pd.DataFrame.from_dict(normality_results, orient='index', columns=['Distribuição'])
print("\nResumo dos testes de normalidade:")
print(normality_df)

# Calcular a proporção de variáveis com distribuição normal
normal_count = sum(1 for status in normality_results.values() if status == "Normal")
print(f"\nProporção de variáveis com distribuição normal: {normal_count}/{len(df.columns)} ({normal_count/len(df.columns)*100:.1f}%)")

Nesse dataset 50% dos atributos apresentam distribuição normal.

## Matriz de Correlação

A matriz de correlação mede a força e a direção de uma relação linear entre os atributos do dataset.<br>
Valores próximos a 1 indicam uma forte correlação positiva, -1 uma forte correlação negativa, e 0 ausência de correlação linear.

### Classificação da relevância de coeficientes de correlação

Uma referência para os valores do coeficiente de correlação facilita a sua interpretação.<br>
Embora não exista um consenso absoluto, existem algumas classificações que podem ser adaptadas ao contexto de análise de dados de processo.<br>
No nosso caso vamos adotar a classificação de Cohen
> (Cohen, J. (1988). *Statistical Power Analysis for the Behavioral Sciences* (2nd ed.). Lawrence Erlbaum Associates.)

**Classificação de Cohen**

- **\|r\| < 0.10**: Correlação negligenciável
- **0.10 ≤ \|r\| < 0.30**: Correlação fraca
- **0.30 ≤ \|r\| < 0.50**: Correlação moderada
- **0.50 ≤ \|r\| < 0.70**: Correlação forte
- **\|r\| ≥ 0.70**: Correlação muito forte

In [None]:
# Matriz de correlação
print("\nMatriz de Correlação:\n")
print(df.corr())

Para simplificar a visualização de correlação linear, o mapa de calor será realizado com o valor absoluto da correlação [0,1] ao invés de [-1, 1]

In [None]:
calcula_corr(df)

No mapa de calor da matriz de correlação temos a representação visual para as correlação dos atributos. É possível observar que entre as variáveis independentes há variáveis com correlação muito forte, indicando possível redundância de informação, como por exemplo as temperaturas de Topo **'t_topo_nafta'**, do Estágio Superior **'t_esup_nafta'**, do Estágio Intermediario **'t_esup_nafta'** e da Linha de topo **'t_lhtp_nafta'** da fracionadora de nafta com correlações maiores que 0,85.

Para permitir uma avaliação visual mais intuitiva, vamos construir um pairplot conjugado com uma mapa de calor.

In [None]:
pairplot_corr_hm(df, figsize=(24, 24), hist_bins=30, s=10, alpha=0.5)

Uma visualização diferente, mas que trás as mesma informações do heatmap da matriz de correlação.

## Análise de VIF

Análise de VIF (Variance Inflation Factor ou Fator de Inflação da Variância) é uma medida para quantificar o grau de multicolinearidade entre as variáveis independentes do dataset. A multicolinearidade ocorre quando duas ou mais variáveis independentes estão altamente correlacionadas, o que pode dificultar a estimativa dos coeficientes da regressão e afetar a interpretação dos resultados, principalmente para modelos lineares.

O VIF é calculado para cada variável independente e é definido como:
> Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). *Introduction to Linear Regression Analysis* (5th ed.). Wiley.

$$VIF_i = \frac{1}{1 - R^2_i}$$

onde $R^2_i$ é o coeficiente de determinação da regressão da variável $i$ em relação a todas as outras variáveis independentes.

Interpretação do VIF:
- VIF = 1: não há correlação entre a variável $i$ e as outras variáveis. A variância não está inflacionada.
- 1 < VIF < 5: a correlação é moderada, mas geralmente não é uma preocupação.
- VIF ≥ 5: indica uma alta correlação e pode ser motivo de preocupação; a variável pode estar contribuindo para a multicolinearidade.
- VIF ≥ 10: geralmente considerado um sinal forte de multicolinearidade, e pode ser necessário considerar a remoção da variável ou a aplicação de técnicas de regularização.

In [None]:
calcula_vif(df,target)

Processo iterativo de remoção de variáveis independentes até a obtenção de maior VIF entre 5 e 10.<br>
Nesse momento é importante analisar o VIF com o conhecimento de domínio e não apenas exclusivamente pelo valor numérico da estatística.<br>

Pelo conhecimento de domínio as variáveis independentes **'t_topo_nafta'**, **'t_esup_nafta'**, **'t_eint_nafta'** e **'t_lhtp_nafta'** apresentam interdependência e carregam a mesma informação, podendo haver a redução de dimensionalidade do dataset pela supressão de alguma delas.

In [None]:
# Veja o comportamento da série histórico como isso se dá.

serie_hist(df, ['t_lhtp_nafta','t_topo_nafta','t_eint_nafta','t_esup_nafta'])

In [None]:
# Comportamento das distribuições.

box_p(df, 't_lhtp_nafta')
box_p(df, 't_topo_nafta')
box_p(df, 't_eint_nafta')
box_p(df, 't_esup_nafta')
print("\nDesvio Padrão das distribuições:")
print(df[['t_lhtp_nafta','t_topo_nafta', 't_eint_nafta', 't_esup_nafta']].describe().loc['std'])

# Teste de normalidade para colunas específicas
specific_columns = ['t_lhtp_nafta', 't_topo_nafta', 't_eint_nafta', 't_esup_nafta']
print("\nTeste de normalidade para colunas específicas:")
print(normality_df.loc[specific_columns])

In [None]:
# Correla~ções com a variável independente

scatter_plot_corr(df, 't_lhtp_nafta', 'pv_nafta', add_regression=True)
scatter_plot_corr(df, 't_topo_nafta', 'pv_nafta', add_regression=True)
scatter_plot_corr(df, 't_eint_nafta', 'pv_nafta', add_regression=True)
scatter_plot_corr(df, 't_esup_nafta', 'pv_nafta', add_regression=True)

Visualmente não é possível identificar um padrão que favorecesse uma ou outra variável independente, até porque os coeficientes de correlação linear com a variável dependente são muito baixos.<br>
É possível observar que dentre as 4 variáveis a **'t_lhtp_nafta'** é a variável independente que menos apresenta valores extremos e ainda parece ter uma distribuição normal segundo o teste estatístico ao nível de significância de 0,05.<br>
Logo vamos preservá-la e eliminar as outras três (**'t_topo_nafta'**, **'t_eint_nafta'** e **'t_esup_nafta'**).<br>
Notar ainda que o desvio padrão entre elas é semelhante, ou seja, contribuiriam com variância semelhante para um futuro modelo de predição e com a vantagem de não eliminar uma grande massa de dados pelos pontos extremos.

In [None]:
df1 = df.drop(columns=['t_topo_nafta', 't_eint_nafta', 't_esup_nafta'])
calcula_vif(df1,target)
calcula_corr(df1)
pairplot_corr_hm(df1, figsize=(24, 24), hist_bins=30, s=10, alpha=0.5)

Seguindo com a avaliação de VIF e de correlação, foi possível observar que essa significativa correlação entre **'t_fund_nafta'**, **'t_aque_nafta'**, **'t_carga_nafta'** e **'t_einf_nafta'** também estão carregando a inflação de variância e podemos eliminar variáveis sem prejuízo às informações necessárias, também com base no conhecimento de domínio, já que tem correlação dentro do processo de fracionamento da nafta.

In [None]:
serie_hist(df1, ['t_fund_nafta','t_aque_nafta','t_carg_nafta','t_einf_nafta'])

In [None]:
# Comportamento das distribuições.

box_p(df1, 't_fund_nafta')
box_p(df1, 't_aque_nafta')
box_p(df1, 't_carg_nafta')
box_p(df1, 't_einf_nafta')
print("\nDesvio Padrão das distribuições:")
print(df1[['t_fund_nafta','t_aque_nafta','t_carg_nafta','t_einf_nafta']].describe().loc['std'])

# Teste de normalidade para colunas específicas
specific_columns = ['t_fund_nafta','t_aque_nafta','t_carg_nafta','t_einf_nafta']
print("\nTeste de normalidade para colunas específicas:")
print(normality_df.loc[specific_columns])

In [None]:
# Correla~ções com a variável independente

scatter_plot_corr(df1, 't_fund_nafta', 'pv_nafta', add_regression=True)
scatter_plot_corr(df1, 't_aque_nafta', 'pv_nafta', add_regression=True)
scatter_plot_corr(df1, 't_carg_nafta', 'pv_nafta', add_regression=True)
scatter_plot_corr(df1, 't_einf_nafta', 'pv_nafta', add_regression=True)

Vamos preservar a **'t_einf_nafta'**, mesmo não apresentando uma distribuição que pudesse ser considerada normal ao nível de significância de 0,05. Ainda apresenta a maior correlação com a variável dependente e numa avaliação visual do padrão de comportamento de correlação também trás esse insight. Dentre as candidatas, também apresenta menor número de valores extremos. Logo vamos eliminar **'t_aque_carga'**, **'t_carg_nafta'** e **'t_fund_nafta'** de forma a tratar a redução da VIF, levando em consideração o conhecimento do processo e ainda reduzir a dimensionalidade das variáveis independentes.

In [None]:
df2 = df1.drop(columns=['t_aque_nafta','t_carg_nafta','t_fund_nafta'])
calcula_vif(df2,target)
calcula_corr(df2)
pairplot_corr_hm(df2, figsize=(24, 24), hist_bins=30, s=10, alpha=0.5)

Como a maior VIF está abaixo de 5, optou-se por não remover mais variáveis independentes.

In [None]:
# Resumo das distribuições dos atributos remanescentes

plot_boxplot_pdf(df2)

## Tratamento de pontos extremos (outliers)

Os outliers são observações que desviam significativamente do padrão geral dos dados.<br>
Em processos industriais, como o fracionamento de nafta, eles não são necessariamente "dados ruins".<br>
Podem ser sinais que revelam informações valiosas sobre o comportamento do sistema ou indicar problemas nos dados.

## Classificação de Outliers por Natureza

1. Erros genuínos: são outliers que não representam o fenômeno real e distorcem a análise:

<div style="margin-left: 30px">
Exemplos:<br>

- Erros de instrumentação: falha em sensores que possam gerar leituras anormais.
- Erros de registro: falha em sistema de aquisição/armazenamento de dados.
- Erros de transcrição: falha em entrada manual de dados ou ajustes de parâmetros.
- Erros de unidade: inconsistência nas unidades de medida (por exemplo, leitura em psi quando deveria ser em kPa).
</div>

2. Eventos raros legítimos: representam fenômenos reais do processo, embora incomuns:

<div style="margin-left: 30px">
Exemplos:<br>

- Eventos transitórios: períodos de partida ou parada da unidade, mudanças de carga ou condições operacionais (transientes).
- Perturbações externas: impactos por variações na qualidade do petróleo (características diferentes).
- Eventos operacionais planejados: testes de desempenho, mecessidade de manutenção ou otimização do processo.
- Eventos operacionais não-planejados: distúrbios no processo, intervenções emergenciais ou falhas em equipamentos.
</div>

3. Outliers dependentes de contexto: valores que são outliers apenas em contextos específicos:

<div style="margin-left: 30px">
Exemplos:<br>

- Outliers sazonais: mudanças climáticas (temperatura ambiente afetando sistemas de troca térmica).
- Outliers condicionais: valores que são normais sob certas condições operacionais, mas anormais sob outras.
- Outliers relacionais: violações conhecidas entre variáveis de processo (como balanços materiais ou energéticos).
</div>

In [None]:
subplot_serie_hist(df2, n_cols=3)

In [None]:
print("Variáveis no dataset: ",len(df2.columns))

# Teste de normalidade para colunas específicas
specific_columns = df2.columns.tolist()
print("\nTeste de normalidade para colunas específicas:")
print(normality_df.loc[specific_columns])

Vamos avaliar os possíveis outliers individualmente por variável baseado no conhecimento de domínio. O método utilizado é do IQR.

**'pv_nafta'**: Normal:
- outliers no limite superior, apesar de raros podem ocorrer novamente. A sua supressão poderia restringir capacidade de predição futura. No entanto, o outlier no limite inferior, abaixo inclusive dos 3 sigmas, parece indicar uma falha na amostragem do produto, pois ela é realizada em gelo para preservação das espécies mais voláteis e esse valor tão baixo é um forte indício na falha da amostragem, logo, por ser apenas um ponto, vamos suprimir valores abaixo de 50 unidades de medida da variável.

**'t_lhtp_nafta'**: Normal:
- das variações observadas, os pontos superiores são de baixa representatividade do processo indicando uma falha pontual no sistema de resfriamento de topo. Logo vamos suprimir valores superiores a 205 unidades.

**'p_topo_nafta'**: Não normal:
- a variável apresenta uma distribuição unimodal relativamente simétrica (média e mediana bem coincidente). Ao observar a série temporal observa-se que tende a representação de operação sazonal. Vamos preservar os dados e eventualmente tratar com uma transformação mais adiante.

**'t_einf_nafta'**: Não normal:
- das variações observadas, há um ponto na região inferior bem desgarrado da distribuição indicando uma falha de medição. Diferentemente dos valores no limite superior, que são prováveis de ocorrer novamente. Logo vamos suprimir valores inferiores a 220 unidades.

**'f_carg_nafta'**: Normal:
- a variável apresenta uma distribuição normal, com um ponto caracterizado com outlier pelo critério IQR, mas vamos preservá-lo em função de estar dentro de um contexto de reprodução provável.

**'f_refl_nafta'**: Não normal:
- a variável apresenta uma distribuição assimétrica unimodal, muito em função de um comportamento sazonal, quando em um período específico teve um operação com valores acima do padrão, mas dentro de condições de processo que podem se repetir. Mais adiante avaliaremos eventual transformação dos dados.

In [None]:
# Aplicar filtro para remover valores da variável pv_nafta inferiores a 50
df3 = df2[df2['pv_nafta'] >= 50]
print(f'Valores removidos: {len(df2) - len(df3)}')

box_p(df2, 'pv_nafta', lower_lim=40, upper_lim=160)
box_p(df3, 'pv_nafta', lower_lim=40, upper_lim=160)
plot_boxplot_pdf_indiv(df3, 'pv_nafta', lower_lim=40, upper_lim=160)
serie_hist(df3, 'pv_nafta')

A distribuição permanece aparentemente normal.

In [None]:
# Aplicar filtro para remover valores da variável t_lhtp_nafta superiores a 205
df4 = df3[df3['t_lhtp_nafta'] <= 205]
print(f'Valores removidos: {len(df3) - len(df4)}')

box_p(df3, 't_lhtp_nafta', lower_lim=160, upper_lim=210)
box_p(df4, 't_lhtp_nafta', lower_lim=160, upper_lim=210)
plot_boxplot_pdf_indiv(df4, 't_lhtp_nafta', lower_lim=160, upper_lim=210)
serie_hist(df4, 't_lhtp_nafta')

É possível observar que a distribuição tente a uma distribuição normal. A mediana está bem próxima da média.

In [None]:
# Aplicar filtro para remover valores da variável t_einf_nafta inferiores a 110
df5 = df4[df4['t_einf_nafta'] >= 220]
print(f'Valores removidos: {len(df4) - len(df5)}')

box_p(df4, 't_einf_nafta', lower_lim=210, upper_lim=270)
box_p(df5, 't_einf_nafta', lower_lim=210, upper_lim=270)
plot_boxplot_pdf_indiv(df5, 't_einf_nafta', lower_lim=210, upper_lim=270)
serie_hist(df5, 't_einf_nafta')

A distribuição que era considerada não normal e parece apresentar o mesmo comportamento em função de uma assimetria em relação à distribuição normal.

Era esperada a remoção de dois pontos, mas note que em remoções de outliers anteriores esses pontos foram excluidos.

In [None]:
plot_boxplot_pdf(df5)

In [None]:
subplot_serie_hist(df5, n_cols=3)

In [None]:
print(f'Foram removidos {df.shape[0]-df5.shape[0]} pontos extremos.')
print(f'Após o processamento inicial dos dados, o dataset está com {df5.shape[1]} atributos e {df5.shape[0]} observações')

Após o tratamento de dados iniciais, chegamos à etapa de pré-processamento

# Pré-Processamento de Dados

O pré-processamento de dados é uma etapa crucial para preparar os dados para modelagem, garantindo que estejam no formato correto e otimizados para o desempenho do algoritmo.

## Transformações

### Criação de novas características



Razão de refluxo: uma variável derivada, definida como a relação entre a vazão de refluxo de topo **'f_refl_nafta'** e a vazão de carga da fracionadora **'fcarg_nafta'** (**'f_refl_nafta'**/**'f_carg_nafta'**). Esta variável representa um parâmetros operacionais que pode ser críticos em fracionadoras, pois determina a eficiência da separação dos componentes.

Eficiência da separação: valores mais altos de razão de refluxo proporcionam maior contato entre as fases líquida e vapor em cada estágio do fracionamento, resultando em melhor separação dos componentes com diferentes volatilidades.

Controle da composição do produto: ao aumentar a razão de refluxo, mais componentes leves são retidos e retornam à fracionadora em vez de saírem no produto de topo, esperando-se uma elevação da pressão de vapor da nafta que sai pelo fundo da fracionadora.

Estabilidade operacional: uma razão de refluxo adequada ajuda a manter condições operacionais estáveis, reduzindo flutuações na qualidade do produto.

Perfil térmico da coluna: influencia diretamente o gradiente de temperatura ao longo da fracionadora, afetando a distribuição dos componentes em cada estágio.

Implicações: na prática, existe um trade-off importante no ajuste da razão de refluxo:

- Razão de refluxo baixa: menor consumo energético e maior capacidade de processamento, porém com qualidade de separação potencialmente comprometida.

- Razão de refluxo alta: melhor separação e controle mais preciso da pressão de vapor do produto, porém com maior consumo energético e menor capacidade de processamento.

Para a predição da pressão de vapor da nafta, a razão de refluxo representa uma variável derivada de alto valor preditivo, pois sintetiza em um único parâmetro a interação entre duas variáveis operacionais críticas que afetam diretamente o equilíbrio termodinâmico e a composição do produto final.

A inclusão desta variável no modelo preditivo provavelmente aumentará seu poder explicativo, capturando um mecanismo de controle operacional que impacta a propriedade alvo que estamos tentando prever.

In [None]:
df5['r_refl_nafta'] = df5['f_refl_nafta'] / df5['f_carg_nafta']
plot_boxplot_pdf_indiv(df5, 'f_refl_nafta')

O novo atributo criado apresenta distribuição assimétrica à direita, com uma cauda da distribuição se estendendo nesse sentido, indicando a presença de valores mais altos menos frequentes. Esse comportamento é derivado da variável **'f_refl_nafta'** que deu origem a essa nova criação, conforme já apresentado anteriormente.

Vamos avaliar como ficaram as correlações e a VIF após essa nova vaiável.

In [None]:
calcula_vif(df5,target)
calcula_corr(df5)
pairplot_corr_hm(df5, figsize=(24, 24), hist_bins=30, s=10, alpha=0.5)

É possível observar uma elevada correlação, conforme esperado, entre **'f_refl_nafta'** e a nova **'r_refl_nafta'**. Em função da relevância dessa nova variável, conforme explicado anteriormente e até mesmo da discreta maior correlação com a variável alvo, vamos suprimir a **'f_refl_nafta'** para reduzir a VIF (reduzir a mulcolinearidade).

In [None]:
df6 = df5.drop(columns=['f_refl_nafta'])
calcula_vif(df6,target)

Como a VIF ficou novamente abaixo de 5 vamos parar a remoção de variáveis nessa etapa.

Novamente a VIF se estabelece próximo de 5 e manteremos assim o dataset.

## Separação e divisão do dataset entre features (X) e target (y)

Importante etapa, principalmente pensando em etapas futuras de modelagem.

In [None]:
# Separar features (X) e target (y)
X = df6.drop(target, axis=1)
y = df6[target]

In [None]:
# Dividir os dados em conjuntos de treino e teste (sem stratify, pois é regressão)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
print(f'Resumo: teremos {X.shape[1]} regressores (features) e {X.shape[0]} observações')

print(f"\nDimensões de X_train: {X_train.shape[0]} observações e {X_train.shape[1]} regressores (features)")
print(f"Dimensões de X_test: {X_test.shape[0]} observações e {X_test.shape[1]} regressores (features)")
print(f"Dimensões de y_train: {y_train.shape[0]} observações")
print(f"Dimensões de y_test: {y_test.shape[0]} observações")

Desta forma teremos 661 observações para treinamento e 284 para teste.

## Normalização

A normalização de dados redimensiona os valores para um intervalo comum, tipicamente entre 0 e 1, preservando a distribuição original e todas as relações entre os valores originais.

Nesse estudo temos temperaturas com centenas de unidades, pressão com dezenas de unidades, vazões milhares de unidades e razão de refluxo entre 0 e poucas dezenas.

Sem normalização, algoritmos baseados em distância ou gradiente dariam peso excessivo às variáveis com valores numericamente maiores, mesmo que não sejam mais importantes para prever a pressão de vapor.

In [None]:
# Inicializar o MinMaxScaler
scaler_norm = MinMaxScaler()

In [None]:
# Aprende min e max APENAS de X_train
scaler_norm.fit(X_train)
X_train_normalized = scaler_norm.transform(X_train)
# Usa a média e o desvio padrão aprendidos de X_train
X_test_normalized = scaler_norm.transform(X_test)

In [None]:
# Exibir as primeiras linhas dos dados normalizados (como DataFrame para melhor visualização)
df_normalized = pd.DataFrame(X_train_normalized, columns=X_train.columns)
df_normalized.head()
plot_boxplot_pdf(df_normalized)

O histograma das variáveis independentes após a normalização mostra que os valores foram escalados para o intervalo de 0 a 1, mantendo a forma da distribuição original.

## Padronização

A padronização (ou Z-score scaling) transforma os dados para ter média 0 e desvio padrão 1. É útil para algoritmos que são sensíveis à escala das características, como SVMs ou redes neurais.

In [None]:
# Inicializar o StandardScaler
scaler_std = StandardScaler()

In [None]:
# Aprende média e desvio padrão APENAS de X_train
scaler_std.fit(X_train)
X_train_standardized = scaler_std.transform(X_train)
# Usa a média e o desvio padrão aprendidos de X_train
X_test_standardized = scaler_std.transform(X_test)

In [None]:
# Exibir as primeiras linhas dos dados padronizados (como DataFrame para melhor visualização)
df_standardized = pd.DataFrame(X_train_standardized, columns=X_train.columns)

In [None]:
print("\nPrimeiras 5 linhas dos dados padronizados (treino):")
df_standardized.head()

In [None]:
plot_boxplot_pdf(df_standardized)

O histograma das variáveis independentes após a padronização mostra que os valores foram transformados para ter uma média próxima de zero e um desvio padrão de um, centralizando a distribuição.

# Conclusão

O presente estudo demonstrou a importância de um processo rigoroso de análise exploratória, tratamento e pré-processamento dos dados para problemas de regressão em ambientes industriais. A partir do dataset de Pressão de Vapor da Nafta, foi possível identificar, tratar e justificar a remoção de outliers, realizar imputação de valores faltantes, criar variáveis derivadas relevantes (como a razão de refluxo), além de aplicar técnicas de transformação para redução de assimetrias e multicolinearidade.

A análise estatística e visual das variáveis, aliada ao conhecimento de domínio, permitiu selecionar os atributos mais representativos para a modelagem preditiva, reduzindo redundâncias e otimizando o conjunto de dados para futuros algoritmos de machine learning. As etapas de normalização e padronização garantiram que as diferentes escalas das variáveis não influenciassem indevidamente o desempenho dos modelos.

## Discussão das hipóteses

As hipóteses levantadas ao longo do trabalho foram cuidadosamente avaliadas:

- **H1:** Não podemos afirma que a temperatura no topo da fracionadora de nafta apresente significante correlação linear com a pressão de vapor. No entanto, não podemos descartar que haja algum tipo de relação não linear, a ser confirmada na próxima etapa de modelagem, quando novas relações podem ser descobertas e indicar esse atributo como um regressor iteressante para a pressão de vapor da nafta.
- **H2:** A pressão de topo da fracionadora mostrou-se moderado pelo critério de Cohen, apesar de estar bem no limite inferior da faixa, alinhando-se com o conhecimento de processo.
- **H3:** A razão de refluxo, criada a partir das vazões de carga e refluxo, demonstrou ser uma variável derivada de forte poder explicativo, sintetizando o efeito operacional sobre a pressão de vapor.
- **H4:** A temperatura interna da fracionadora de nafta também apresentou forte correlação com a pressão de vapor. A seleção criteriosa das variáveis mais representativas foi fundamental para evitar redundância (multicolinearidade).
- **H5 e H6:** As variáveis relacionadas ao forno de aquecimento (temperatura e energia térmica) apresentaram fraca correlação linear com a variável dependente, sugerindo que haja pouco ou nenhum efeito de craqueamento térmico dentro da linearidade, o que não exclui uma possível relação mais complexa.
- **H7:** As temperaturas do topo e do condensador da fracionadora de petróleo também mostraram fraca correlação com a pressão de vapor da nafta, novamente sugerindo que haja pouco ou nenhum efeito na qualidade da carga da fracionadora de nafta dentro da linearidade, o que não exclui uma possível relação mais complexa.
- **H8:** Vazão de petróleo apresentou uma correlação que pode ser considerada forte com a pressão de vapor, um pouco diferente do calor no refluxo superior que apresentou fraca correlação. De qualquer forma, importante notar a importância do balanço energético e material no processo.

De modo geral, as hipóteses foram validadas ou parcialmente confirmadas, evidenciando que a pressão de vapor da nafta é resultado de uma complexa interação entre variáveis operacionais e condições a montante do processo. O estudo reforça a necessidade de uma abordagem multidisciplinar, combinando análise estatística, conhecimento de processo e boas práticas de ciência de dados para obtenção de insights robustos e aplicáveis à realidade industrial.

# Apêndice

## Regressão linear dos dados pre-processador

Vamos realizar um exercício de regração linear com regularização Lasso (Least Absolute Shrinkage and Selection Operator). Esta é uma técnica de regularização L1 que possui a propriedade específica de forçar alguns coeficientes a serem exatamente zero, funcionando efetivamente como um método de seleção automática de variáveis.

A regressão Lasso minimiza a seguinte função de custo:

$$\text{Minimizar: } \sum_{i=1}^{n} (y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij})^2 + \alpha \sum_{j=1}^{p} |\beta_j|$$

onde:

O primeiro termo é a soma dos erros quadráticos (como na regressão linear normal)<br>
O segundo termo é a penalidade L1, com $\alpha$ controlando a força da regularização<br>
$|\beta_j|$ representa o valor absoluto dos coeficientes

> Obs.: *imports* e declaração da função a seguir não foram realizados no início do código (conforme boas práticas da PEP 8) por fazer parte de uma avaliação extra, além dos requisitos do MVP. Se estivesse de fato no framework seriam deslocados o início, para ter apenas uma sessão de importação e declaração de funções.

In [None]:
# imports adicionais

from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

In [None]:
# Função para gerar e avaliar um modelo linear c/ regularização LASSO

def avalia_Lasso(y_train, y_test, X_train, X_train_mod, X_test_mod, alpha=0.1):
    """
    Realiza regressão linear com regularização LASSO e avalia seu desempenho.

    Parâmetros:
    -----------
    y_train : pandas.Series
        Series contendo os dados da variável dependente no conjunto de treino.
    y_test : pandas.Series
        Series contendo os dados da variável dependente no conjunto de teste.
    X_train : pandas.DatraFrame
        Dataframe contendo as variáveis regressoras no conjunto de treino.
    X_train_mod : numpy.ndarray
        Array contendo as variáveis regressoras no conjunto de treino.
    X_test_mod : numpy.ndarray
        Array contendo as variáveis regressoras no conjunto de teste.
    alpha : float ou None, opcional
        Número que representa a força de regularização do Lasso.

    Descrição:
    ----------
    - Realiza a regressão.
    - Gera a os valores de predição do conjunto de treino e teste.
    - Calcula as métricas da regressão (MSE, R2 e MAE).
    - Apresenta os coeficientes linear obtidos no modelo.
    - Plota scatter plot dos valores reais e preditos para os dados de treino e teste.
    - Plota a série temporal valores reais e preditos para os dados de treino e teste.
    - Plota gráfico dos resíduos da regressão para os dados de treino e teste.

    Exemplo de uso:
    --------------
    avalia_Lasso(y_train, y_test, X_train, X_train_normalized, X_test_normalized)
    avalia_Lasso(y_train, y_test, X_train, X_train_normalized, X_test_normalized, alpha=0.15)
    """

    # Inicializa e treina um modelo de regressão Lasso para prever a pressão de vapor (pv_nafta) com os dados.
    funcao = Lasso(alpha=alpha)
    funcao.fit(X_train_mod, y_train)

    # Realiza previsões nos conjuntos de treinamento e teste
    y_train_pred = funcao.predict(X_train_mod)
    y_test_pred = funcao.predict(X_test_mod)

    # Calcula o desempenho do modelo usando métricas como RMSE, R² e MAE
    train_mse = mean_squared_error(y_train, y_train_pred)
    test_mse = mean_squared_error(y_test, y_test_pred)
    train_rmse = np.sqrt(train_mse)
    test_rmse = np.sqrt(test_mse)
    train_r2 = r2_score(y_train, y_train_pred)
    test_r2 = r2_score(y_test, y_test_pred)
    train_mae = mean_absolute_error(y_train, y_train_pred)
    test_mae = mean_absolute_error(y_test, y_test_pred)

    # Impressão do desempenho do modelo
    print(f"Desempenho da regressão LASSO (alpha={alpha}):")
    print(f"Treino RMSE: {train_rmse:.2f}")
    print(f"Teste RMSE: {test_rmse:.2f}")
    print(f"Treino R²: {train_r2:.3f}")
    print(f"Teste R²: {test_r2:.3f}")
    print(f"Treino MAE: {train_mae:.2f}")
    print(f"Teste MAE: {test_mae:.2f}")

    # Imprime a importância dos regressores (coeficientes)
    feature_importance = pd.DataFrame({
    'Regressor': X_train.columns,
    'Coeficiente': funcao.coef_
    })
    print("\nCoef. dos Regressoes:")
    print(feature_importance.sort_values(by='Coeficiente', key=abs, ascending=False))

    # Gráfico 1: Valores preditos vs reais
    plt.figure(figsize=(14, 6))

    # Dados de treinamento
    plt.subplot(1, 2, 1)
    plt.scatter(y_train, y_train_pred, alpha=0.5)
    plt.plot([y_train.min(), y_train.max()], [y_train.min(), y_train.max()], 'r--')
    plt.xlabel('Valores Reais')
    plt.ylabel('Valores Preditos')
    plt.title('Dados de treinamento: Real vs Predito')
    plt.text(y_train.min() + 5, y_train.max() - 5, f'R² = {train_r2:.4f}\nRMSE = {train_rmse:.2f}')

    # Dados de teste
    plt.subplot(1, 2, 2)
    plt.scatter(y_test, y_test_pred, alpha=0.5)
    plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
    plt.xlabel('Valores Reais')
    plt.ylabel('Valores Preditos')
    plt.title('Dados de teste: Real vs Predito')
    plt.text(y_test.min() + 5, y_test.max() - 5, f'R² = {test_r2:.4f}\nRMSE = {test_rmse:.2f}')

    plt.tight_layout()
    plt.show()

    # Gráfico 2: Série temporal das previsões
    plt.figure(figsize=(14, 8))

    # Combinalção dos índices de treino e teste para plotagem
    train_indices = np.arange(len(y_train))
    test_indices = np.arange(len(y_train), len(y_train) + len(y_test))

    # Gráfico dos dados de treino
    plt.subplot(2, 1, 1)
    plt.plot(train_indices, y_train.values, 'b-', label='Real')
    plt.plot(train_indices, y_train_pred, 'r-', label='Predito')
    plt.title('Dados de treino: Série Temporal dos valores Reais vs Preditos')
    plt.ylabel('Pressão de vapor (pv_nafta)')
    plt.legend()
    plt.grid(True, alpha=0.3)

    # Gráfico dos dados de teste
    plt.subplot(2, 1, 2)
    plt.plot(test_indices, y_test.values, 'b-', label='Real')
    plt.plot(test_indices, y_test_pred, 'r-', label='Predito')
    plt.title('Dados de teste: Série Temporal dos valores Reais vs Preditos')
    plt.xlabel('Índice da amostra')
    plt.ylabel('Pressão de vapor (pv_nafta)')
    plt.legend()
    plt.grid(True, alpha=0.3)

    plt.tight_layout()
    plt.show()

    # Gráfico 3: Análise de resíduos
    residuals_train = y_train - y_train_pred
    residuals_test = y_test - y_test_pred

    plt.figure(figsize=(14, 6))

    # Resíduos do conjunto de treinamento
    plt.subplot(1, 2, 1)
    plt.scatter(y_train_pred, residuals_train, alpha=0.5)
    plt.axhline(y=0, color='r', linestyle='--')
    plt.xlabel('Valores Preditos')
    plt.ylabel('Resíduos')
    plt.title('Dados de treino: Valores Residuais vs Preditos')

    # Resíduos do conjunto de teste
    plt.subplot(1, 2, 2)
    plt.scatter(y_test_pred, residuals_test, alpha=0.5)
    plt.axhline(y=0, color='r', linestyle='--')
    plt.xlabel('Valores Preditos')
    plt.ylabel('Resíduos')
    plt.title('Dados de teste: Valores Residuais vs Preditos')

    plt.tight_layout()
    plt.show()


In [None]:
avalia_Lasso(y_train, y_test, X_train, X_train_normalized, X_test_normalized)

Apenas com uma regressão linear multivariável com os dados normalizados já foi possível obter um modelo capaz de explicar quase 70% da variância do processo, o que podemos considerar um bom ponto de partida considerando as perspectivas futuras com machine learning..

In [None]:
avalia_Lasso(y_train, y_test, X_train, X_train_standardized, X_test_standardized)

Da mesma fora que com os dados normalizado, com os dados padronizados obtivemos um modelo linear multivariável com capacidade de explicar aproximadamente 70% da variância do processo. É importante notar que apesar de marginal, os resultados dos dados padronizados foram ainda melhores que com os dados normalizados (maior $R^2$ / menores erros), o que abre uma perspectiva de exploração dos diversos métodos de escalonamento como um possível hiperparâmetro de ajuste dos modelos futuros.

### Conclusão

No contexto industrial, para dados de processo de refino de petróleo, que naturalmente apresentam ruído, variabilidade operacional e complexas interações físico-químicas, explicar aproximadamente 70% da variância é considerado um bom resultado. O modelo captura as principais relações entre as variáveis de processo e a pressão de vapor, permitindo predições com precisão razoável para aplicações como monitoramento de qualidade e suporte à decisão operacional. Já a variabilidade não explicada (~30%) pode incluir fatores como dinâmica não capturada do processo, limitações de instrumentação, e flutuações nas propriedades da matéria-prima

Este modelo linear LASSO representa um ponto de partida para a próxima *SPRINT*, mas já poderia ser suficiente para muitas aplicações práticas, especialmente considerando seu equilíbrio favorável entre precisão, interpretabilidade e facilidade de implementação.

## Equacionamento da transformação Yeo-Johnson

Apesar de usarmos importação de pacotes que já disponibilizam essa transformação em poucos passos, é importante ter em mente a formulação dessas transformações, pois em caso de deploy do modelo, faz-se necessária a tranformação dos dados antes do consumo dos modelos gerados.

### Fórmula geral da transformação Yeo-Johnson

Transformação Direta: 

$$x_t = f(x, \lambda)$$

Transformação Inversa: 

$$x = f^{-1}(x_t, \lambda)$$

Onde:

$x_t$ é o valor transformado<br>
$x$ é o valor original<br>
$\lambda$ é o parâmetro da transformação Yeo-Johnson<br>
$f^{-1}$ denota a função inversa de $f$

Fórmulas Específicas

Transformação Direta: $x_t = f(x, \lambda)$

Para $x \geq 0$:
$$f(x, \lambda) =
\begin{cases}
\frac{(x+1)^{\lambda} - 1}{\lambda}, & \text{se } \lambda \neq 0 \\
\log(x+1), & \text{se } \lambda = 0
\end{cases}$$

Para $x < 0$:
$$f(x, \lambda) =
\begin{cases}
-\frac{(-x+1)^{2-\lambda} - 1}{2-\lambda}, & \text{se } \lambda \neq 2 \\
-\log(-x+1), & \text{se } \lambda = 2
\end{cases}$$

Transformação Inversa: $x = f^{-1}(x_t, \lambda)$

Para valores originalmente não-negativos (valores $x_t$ resultantes da transformação de $x \geq 0$):
$$f^{-1}(x_t, \lambda) =
\begin{cases}
(1 + \lambda x_t)^{1/\lambda} - 1, & \text{se } \lambda \neq 0 \\
e^{x_t} - 1, & \text{se } \lambda = 0
\end{cases}$$

Para valores originalmente negativos (valores $x_t$ resultantes da transformação de $x < 0$):
$$f^{-1}(x_t, \lambda) =
\begin{cases}
-[(1 - (2-\lambda)x_t)^{1/(2-\lambda)} - 1], & \text{se } \lambda \neq 2 \\
-(e^{-x_t} - 1), & \text{se } \lambda = 2
\end{cases}$$