In [1]:
import numpy as np
import pandas as pd

# Descobrindo as fórmulas da física

Um estagiário alienígena de outro universo recebeu uma bolsa de iniciação científica para descobrir algumas leis da física de nosso universo.

Ele possui apenas uma hora em nosso universo devido a contingência de gastos de seu planeta de origem, e decide então apenas coletar dados de sensores.

## Tarefa 1

Voltando para sua casa, nosso amigo 👽 deseja descobrir a lei que descreve a força resultante de objetos no espaço.

Para este experimento, ele usará os seguintes dados de seus sensores:

- $f$ : Força resultante (em Newton)
- $m$ : Massa de um objeto observado (em $kg$)
- $a$: Aceleração do objeto (em $m$/$s^2$)

In [2]:
a = np.array([1000, 45, 350, 4, 0.1, 58.6, 0.12])
m = np.array([3, 38, 0.1, 500, 4777, 3.56, 0.25])
f = np.array([3000.440045, 1710.059296, 34.67584531, 1999.505549, 477.948657, 208.3847164, -0.02876546])

### Modelo linear

👽 primeiro supõe um modelo linear para descrever o problema

Para o ajudar, implemente uma função que retorna a pseudo-inversa de uma matriz:
$$(A^T A)^{-1} A^T$$

In [3]:
# Pseudo-inversa de A
def pinv(A):
    linhas, colunas = A.shape
    AT = np.zeros((colunas,linhas))
    for i in range(linhas):
        for j in range(colunas):
            AT[j,i] = A[i,j]
            
    try:
        AT_A_inv = np.linalg.inv(AT @ A)
    except Exception as e:
        print("Erro: ",e)
    
    pseudo_A = AT_A_inv @ AT
    
    return pseudo_A

Agora o ajude a resolver o modelo linear

In [4]:
A = np.column_stack((np.ones_like(f), a, m))

# modelo f = A * x
x = pinv(A) @ f

print(x)

[ 6.79074930e+02  1.87938961e+00 -1.17158937e-02]


In [5]:
# Erro relativo das primeiras 5 observações
res = pd.DataFrame({
    'f': f,
    'f_est': A @ x,
    'erro': f - A @ x,
    'erro_relativo': (f - A @ x) / (A @ x)})
res

Unnamed: 0,f,f_est,erro,erro_relativo
0,3000.440045,2558.429394,442.010651,0.172766
1,1710.059296,763.202259,946.857037,1.240637
2,34.675845,1336.860123,-1302.184277,-0.974062
3,1999.505549,680.734542,1318.771007,1.937276
4,477.948657,623.296045,-145.347388,-0.233192
5,208.384716,789.165453,-580.780737,-0.735943
6,-0.028765,679.297528,-679.326294,-1.000042


Note que o valor estimado é muito diferente do real

In [6]:
# Erro RMSE
(res.erro**2).mean()**0.5   # np.mean((f - A @ x)**2)**0.5

873.9621490734941

Observe que, como um típico aluno de iniciação científica, ele não testou nenhuma das suposições para modelos lineares e nem verificou a significância estatística das variáveis.

### Modelo quadrático

Não gostando do resultado, ele tenta um modelo não linear:

$f(m, a) = c_0 + c_1 a + c_2 m + c_3 a^2 + c_4 m^2 + c_5 m a$

In [7]:
A = pd.DataFrame({
    'c': np.ones_like(f),
    'a': a,
    'm': m,
    'a2': a*a,
    'm2': m*m,
    'ma': m*a})
A

Unnamed: 0,c,a,m,a2,m2,ma
0,1.0,1000.0,3.0,1000000.0,9.0,3000.0
1,1.0,45.0,38.0,2025.0,1444.0,1710.0
2,1.0,350.0,0.1,122500.0,0.01,35.0
3,1.0,4.0,500.0,16.0,250000.0,2000.0
4,1.0,0.1,4777.0,0.01,22819730.0,477.7
5,1.0,58.6,3.56,3433.96,12.6736,208.616
6,1.0,0.12,0.25,0.0144,0.0625,0.03


In [10]:
A = np.column_stack((np.ones_like(f), a, m,a*a,m*m,m*a))

# modelo f = A * x

x = pinv(A) @ f

# Erro relativo das primeiras 5 observações
res = pd.DataFrame({
    'f': f,
    'f_est': A @ x,
    'erro': f - A @ x,
    'erro_relativo': (f - A @ x) / (A @ x)})
res

Unnamed: 0,f,f_est,erro,erro_relativo
0,3000.440045,3000.441979,-0.001934,-6.444443e-07
1,1710.059296,1710.045294,0.014002,8.188101e-06
2,34.675845,34.657911,0.017935,0.0005174754
3,1999.505549,1999.506075,-0.000526,-2.631029e-07
4,477.948657,477.948652,5e-06,1.030469e-08
5,208.384716,208.469668,-0.084951,-0.0004074992
6,-0.028765,-0.084235,0.055469,-0.6585086


Perceba agora os erros muito pequenos. Vamos ver os coeficientes

In [11]:
x.round(2)

array([-0.11, -0.  , -0.  ,  0.  ,  0.  ,  1.  ])

Ou seja, resulta na fórmula: $f = -0.11 + m * a$

Muito próximo da fórmula real $f = m * a$

A diferença é devido aos sensores de baixa qualidade do Alien e poucas medições.

In [12]:
# Erro RMSE
(res.erro**2).mean()**0.5   # np.mean((f - A @ x)**2)**0.5

0.039306996941771144

## Tarefa 2

Depois ele tenta descobrir a energia potencial gravitacional $e$ em Joules, através dos sensores

- $m$ : Massa de um objeto observado (em $kg$)
- $h$: Altura (em $m$)

Desta, vez, ela já tenta direto um modelo quadrático

In [13]:
m = np.array([3, 38, 0.1, 500, 4777, 3.56, 0.25])
h = np.array([345, 1, 56789, 5561, 67, 0.5, 920])
e = np.array([10142.49025, 372.3987424, 55653.20951, 27248900.1, 3136578.45, 17.16789564, 2253.931423])

In [14]:
# complete abaixo
A = pd.DataFrame({
    'c': np.ones_like(e),
    'm': m,
    'h': h,
    'm2': m*m,
    'h2': h*h,
    'mh': m*h,})
A

Unnamed: 0,c,m,h,m2,h2,mh
0,1.0,3.0,345.0,9.0,119025.0,1035.0
1,1.0,38.0,1.0,1444.0,1.0,38.0
2,1.0,0.1,56789.0,0.01,3224991000.0,5678.9
3,1.0,500.0,5561.0,250000.0,30924720.0,2780500.0
4,1.0,4777.0,67.0,22819730.0,4489.0,320059.0
5,1.0,3.56,0.5,12.6736,0.25,1.78
6,1.0,0.25,920.0,0.0625,846400.0,230.0


In [16]:
A = np.column_stack((np.ones_like(e), m, h,m*m,h*h,m*h))

# modelo f = A * x
x = pinv(A) @ e

# Erro relativo das primeiras 5 observações
res = pd.DataFrame({
    'e': e,
    'f_est': A @ x,
    'erro': e - A @ x,
    'erro_relativo': (e - A @ x) / (A @ x)})
res

Unnamed: 0,e,f_est,erro,erro_relativo
0,10142.49,10142.7,-0.209261,-2.063172e-05
1,372.3987,372.3955,0.00328,8.80884e-06
2,55653.21,55653.21,-1e-05,-1.847906e-10
3,27248900.0,27248900.0,7.5e-05,2.759971e-12
4,3136578.0,3136578.0,4.1e-05,1.29362e-11
5,17.1679,17.04077,0.127122,0.007459847
6,2253.931,2253.853,0.078816,3.496926e-05


Resultados muito próximos, estimado e reais. Vamos ver os coeficientes

In [17]:
x.round(2)

array([-0.44,  0.01,  0.  , -0.  , -0.  ,  9.8 ])

Resulta em $e = -0.44 + 9.8 m h$

Na verdade o aluno encontrou $e = -0.44 + 0.01 m+ 9.8 m h$   Que ainda é muito parecido

Muito próximo da lei: $e = g m h$, com aceleração da gravidade $g$ = 9.8 $m/s^2$.

Observando a tabela da aceleração da gravidade em vários planetas em https://pt.wikipedia.org/wiki/Gravidade, tente descobrir de tal planeta ele capturou os dados.

In [18]:
# Erro RMSE
(res.erro**2).mean()**0.5   # np.mean((f - A @ x)**2)**0.5

0.09722790430986539