## 09 - *Forward Problem*
Con los datos estimados de las anomalías de temperatura en el aire, se estimarán utilizando la siguiente ecuación, $\Theta_j = T_k \thinspace A_{jk}$,  las anomalías en diferentes profundidades. Comparamos esta última estimación mediante una regresión lineal, OLS(*Ordinary Least Squares*),y determinamos el R<sup>2</sup> de la regresión.

In [5]:
# Librerías para tratar los datos
import math
import pandas as pd
import numpy as np

# Librerías para visulizar los datos
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="whitegrid")

# Librería para calcular la OLS
import statsmodels.api as sm

# Otras librerías interesantes
import warnings
warnings.filterwarnings("ignore")

plt.ioff()

<matplotlib.pyplot._IoffContext at 0x11eee9ed4f0>

In [6]:
# Obtener información necesario
df = pd.read_csv("..\\boreholes\\dataframe.csv",index_col="Unnamed: 0")
datos_menor40=np.genfromtxt("..\\resultados\\datos\\menor_40m.csv",delimiter=",",dtype="int")
names = df.index

df_mest = pd.read_csv("..\\resultados\\mest\\mest.csv").to_numpy()
df_mest=df_mest.transpose()

In [7]:
def ols(Ail:np.array,mest:np.array,Tt:np.array,nombre:str,i:int)->float:

    # Calculamos el problema directo
    theta_j = (Ail@mest)
    theta_j_real = Tt

    y = sm.add_constant(theta_j_real)
    x = theta_j

    # OLS
    model = sm.OLS(x,y)
    results = model.fit()

    pred_ols = results.get_prediction()
    iv_l = pred_ols.summary_frame()["obs_ci_lower"]
    iv_u = pred_ols.summary_frame()["obs_ci_upper"]

    # Plot OLS
    fig = plt.figure(i)
    plt.plot(theta_j,theta_j_real,label = "Data",c=sns.color_palette('Set2')[0])
    plt.plot(results.fittedvalues, theta_j_real, "r--.", label="OLS",color=sns.color_palette('Set2')[1])
    plt.plot(iv_u, theta_j_real, "--",color=sns.color_palette('Set2')[1])
    plt.plot(iv_l, theta_j_real, "--",color=sns.color_palette('Set2')[1])
    plt.legend(loc="best")

    plt.title(f"Anomalias Estimadas vs. Anomalias Reales en {nombre}.\n \n r2: {round(results.rsquared,2)}")
    plt.xlabel("Anomalias Reales")
    plt.ylabel("Anomalias Estimadas")
    plt.savefig(f"..\\resultados\\r_2\\plot_r_2_{nombre}.png")
    plt.close(fig)
    return results.rsquared

In [8]:
r2=[]
for i in range(len(names)):
    df=pd.read_csv(f"..\\resultados\\matriz\\matriz_{names[i]}.csv")
    Ail = df.to_numpy()

    Tt = np.genfromtxt(f"..\\resultados\\anomalias\\csv\\anomalias_{names[i]}.csv",delimiter=",")
    Tt = Tt[datos_menor40[i]:]

    em = ols(Ail,df_mest[i],Tt,names[i],i)
    r2.append(round(em,2))


# Los gráficos de las regresiones se guardan en la ruta: australia\resultados\r_2\

### Intervalo de confianza del  95%

$intervalo = z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$, donde $\sigma$ es el error estándar, $z_{\alpha/2}=1.96$ y n es la longitud del vector analizado (len(r2)).


In [9]:
# Cálculo de la media y del error estándat
mean=np.mean(r2)
std=np.std(r2)

# Cáculo del intervalo de confianza del 95%
intervalo=1.96*std/(math.sqrt(len(r2)))
print('Intervalo de confianza: ',intervalo)

Intervalo de confianza:  0.05707517763729624
