In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

### Métodos dos Mínimos Quadrados (MMQ)

Supondo a matriz de dados $\mathbf{G}$:

$$
\mathbf{G} = \mathbf{X} =
\begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1D} \\
x_{21} & x_{22} & \cdots & x_{2D} \\
\vdots & \vdots & \ddots & \vdots \\
x_{N1} & x_{N2} & \cdots & x_{ND}
\end{bmatrix}
$$

em que $N$ é o número de medidas e $D$ é o número de variáveis (atributos).

Supomos que é possível obter uma aproximação dos dados observados ($\mathbf{d}=\mathbf{Gm}$).

Conforme visto em aula, utilizaremos a seguir a solução inversa generalizada para obter os parâmetros do modelo $\mathbf{m}$, dada por:

$$\mathbf{w=(X^TX)^{-1}X^Ty},$$

para solucionar os problemas a seguir.



-----------------

#### Questão 01

Considere a base de dados *sandstone.xlsx*. Considere que a densidade pode ser expressa como uma solução linear, ou seja:

$$\rho(GR)= w_0 + w_1 GR.$$

a) Obtenha os parâmetros [$w_0$,$w_1$] utilizando a solução inversa generalizada.

b) Cria uma função para realizar a predição de $d_{calc}$

c) Calcule o erro médio quadrático

$$
\text{MSE} = \frac{1}{N} \sum_{i=1}^{N} \left( d_{\text{obs},i} - d_{\text{calc},i} \right)^2
$$

d) Faça um gráfico de espalhamento entre a densidade e a porosidade neutrônica e plote a aproximação obtida

In [2]:
df = pd.read_excel('Dados\Schon\sandstone.xlsx')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'Dados\\Schon\\sandstone.xlsx'

In [3]:
# Criando a matriz de dados G
G = np.array([np.ones(len(df)),df['GR']]).T
G

NameError: name 'df' is not defined

In [4]:
# Criando o vetor de dados d
d = np.array(df['RHOB'])
d

NameError: name 'df' is not defined

In [5]:
# Crie uma função para calcular a solução inversa generalizada
def inversa_generalizada(G,d):
    """
    Função para calcular a solução inversa generalizada.

    d = Gw

    Parâmetros:
    G : Matriz de design (dados).
    d : Vetor de dados observados.

    Retorna:
    w : Parâmetros do modelo estimados.
    """
    # Calculando a solução inversa generalizada
    w = np.linalg.inv(G.T @ G) @ G.T @ d
    return w

In [6]:
w = inversa_generalizada(G, d)
print(f"w0={w[0]}, w1={w[1]}")

NameError: name 'G' is not defined

In [7]:
#Crie uma função para realizar a predição dos dados com base em uma matriz de dados G e parâmetros w
def preditor(G, w):
    """
    Função para estimar a aproximação de do vetor de dados d

    Parâmetros:
    G : Matriz de design (dados).
    w : Parâmetros do modelo.

    Retorna:
    d_calc : Dado calculado.
    """
    d_calc = np.matmul(G,w)
    return d_calc

In [8]:
d_calc = preditor(G, w)
d_calc

NameError: name 'G' is not defined

In [9]:
# Faça uma função para calcular o erro quadrático médio (EQM) entre o dado observado e o dado calculado
def erro_quadratico_medio(d, d_calc):
    """
    Função para calcular o erro quadrático médio (EQM) entre o dado observado e o dado calculado.

    Parâmetros:
    d : Vetor de dados observados.
    d_calc : Vetor de dados previstos.

    Retorna:
    erro : float
       eqm : erro quadrático médio.
    """

    return np.sum((d - d_calc)**2) / len(d)

In [10]:
print(f"EQM = {erro_quadratico_medio(d, d_calc)} g/cm^3")

NameError: name 'd' is not defined

In [11]:
# Faça o scatter plot dos dados observados e dos dados calculados e plote a reta de regressão linear.

plt.figure(figsize=(8,6))
plt.scatter(G[:,1], d,edgecolors='black',label=r'$d_{obs}$')

plt.xlabel('GR uAPI')
plt.ylabel('RHOB (g/cm³)')

X_cresc = np.array([np.ones(len(G)),np.sort(G[:,1])]).T

plt.plot(np.sort(G[:,1]), preditor(X_cresc, w), color='black',label=r'$d_{calc}$')

plt.legend()

NameError: name 'G' is not defined

<Figure size 800x600 with 0 Axes>

-------------

### Questão 2

Considere o modelo de Gardner para estimar a densidade (\(\rho\)) a partir da velocidade sônica (\(v_p\)):

$$
\rho = \alpha v_p^{\beta}.
$$

a) Utilize os dados da perfilagem geofísica do poço *1-MU-0003-BA.LAS* para ajustar uma relação de Gardner por meio do **método dos mínimos quadrados (MMQ)**.

**Dica:** aplique a transformação logarítmica para linearizar a equação antes do ajuste.

b) Proponha um novo modelo a partir dos logs disponíveis.

In [12]:
df = pd.read_csv(r'Dados\Poços\1_MU_0003_BA.csv',delim_whitespace=True)
df.head()

  df = pd.read_csv(r'Dados\Poços\1_MU_0003_BA.csv',delim_whitespace=True)


FileNotFoundError: [Errno 2] No such file or directory: 'Dados\\Poços\\1_MU_0003_BA.csv'

In [13]:
df = df[df.DT<150]
df = df[df>0].dropna()
df.reset_index(inplace=True,drop=True)
df.tail()

NameError: name 'df' is not defined

In [14]:
df.head()

NameError: name 'df' is not defined

In [15]:
# Convertendo DT de microsegundos/pé para velocidade em m/s
v = np.asarray((0.3048 * (10**6))/df['DT'])
v

NameError: name 'df' is not defined

In [16]:
# Criando a matriz de dados G
G = np.array([np.ones(len(df)),np.log10(v)]).T
G

NameError: name 'df' is not defined

In [17]:
# Criando o vetor de dados d
d = np.log10(np.array(df['RHOB']))
d

NameError: name 'df' is not defined

In [18]:
w = inversa_generalizada(G, d)
print(f"w0={w[0]}, w1={w[1]}")

print(f"alpha={np.log10(w[0])}, beta={w[1]}")

NameError: name 'G' is not defined

In [19]:
# Crie uma função para fazer a predição por Gardner
def preditor_gardner(v, w):
    """
    Função para estimar a densidade (RHOB) a partir da velocidade (v) usando a relação de Gardner.

    Parâmetros:
    v : Vetor de velocidades (m/s).
    w : Parâmetros do modelo (w0 e w1).

    Retorna:
    rhob_calc : numpy.ndarray
        Densidade prevista (g/cm³).
    """
    rhob_calc = 10**w[0] * (v ** w[1])
    return rhob_calc

In [20]:
# Faça a predição de RHOB
rhob_calc = preditor_gardner(v, w)
rhob_calc

NameError: name 'v' is not defined

In [21]:
# Estimando o erro quadrático médio (EQM) entre o dado observado e o dado calculado
print(f"EQM = {erro_quadratico_medio(10**d, rhob_calc)} g/cm^3")

NameError: name 'd' is not defined

In [22]:
# Faça o scatter plot dos dados observados e dos dados calculados e plote a reta de regressão linear.

plt.figure(figsize=(8,6))

plt.scatter(v, 10**d,edgecolors='black',label=r'$d_{obs}$')

plt.xlabel(r'$v_p$ (m/s)')
plt.ylabel('RHOB (g/cm³)')

vp_cresc = np.sort(v)

plt.plot(np.sort(v), preditor_gardner(np.sort(v), w), color='black',label=r'$d_{calc}$')

plt.legend()



NameError: name 'v' is not defined

<Figure size 800x600 with 0 Axes>

#### Questão

O modelo se ajusta bem? Caso negativo, qual motivo você atribui ao ajuste inadequado?

#### Proponha o seu modelo

#### Bônus

Considere que a solução regularizada utilizando a ivnersa generalizada é dada por:

$$\mathbf{m=(G^TG + \lambda^2 I)^{-1}G^T d}$$

em que lambda é um termo de regularização.

Implemente a solução inversa generalizar utilizando o termo de regularização e refaça o modelo sugerido.

In [23]:
def inversa_generalizada_reg(G, d, lambda_reg=0.1):
    """
    Função para calcular a solução inversa generalizada com regularização.

    Parâmetros:
    G : Matriz de dados.
    d : Vetor de dados observados.
    lambda_reg : Termo de regularização.

    Retorna:
    w : Parâmetros do modelo estimados.
    """
    # Calculando a solução inversa generalizada com regularização
    w = np.matmul(np.matmul(np.linalg.inv(np.matmul(G.T,G) + lambda_reg**2 * np.eye(G.shape[1])),G.T),d)
    return w

In [24]:
w = inversa_generalizada(G, d)
print(f"w0={w[0]}, w1={w[1]}")

print(f"alpha={10**(w[0])}, beta={w[1]}")

NameError: name 'G' is not defined

In [25]:
w_reg = inversa_generalizada_reg(G, d,lambda_reg=0.1)
print(f"w0={w_reg[0]}, w1={w_reg[1]}")

print(f"alpha={10**(w_reg[0])}, beta={w_reg[1]}")

NameError: name 'G' is not defined

In [26]:
# Faça a predição de RHOB
rhob_calc_reg = preditor_gardner(v, w_reg)

NameError: name 'v' is not defined

In [27]:
# Estimando o erro quadrático médio (EQM) entre o dado observado e o dado calculado
print(f"EQM = {erro_quadratico_medio(10**d, rhob_calc)} g/cm^3")
print(f"EQM_reg = {erro_quadratico_medio(10**d, rhob_calc_reg)} g/cm^3")

NameError: name 'd' is not defined

In [28]:
# Faça o scatter plot dos dados observados e dos dados calculados e plote a reta de regressão linear.

plt.figure(figsize=(8,6))

plt.scatter(v, 10**d,edgecolors='black',label=r'$d_{obs}$')

plt.xlabel(r'$v_p$ (m/s)')
plt.ylabel('RHOB (g/cm³)')

vp_cresc = np.sort(v)

plt.plot(np.sort(v), preditor_gardner(np.sort(v), w), color='black',label=r'$d_{calc}$')

plt.plot(np.sort(v), preditor_gardner(np.sort(v), w_reg), color='red',label=r'$d_{calc_{reg}}$')

plt.legend()



NameError: name 'v' is not defined

<Figure size 800x600 with 0 Axes>