##### **Ejercicio de Regresión Lineal Múltiple** (4 variables independientes)  
Dados 11 registros de propiedades (Tabla 1), con las características de ***Valor de la propiedad***, ***antigüedad***, ***accesos***, ***oficinas*** y ***superficie***.  
Determine a partir de una regresión lineal múltiple en que medida estas características pueden predecir el ***valor de la propiedad***.   
  
**Obtenga:**  
1) Los Coeficientes de regresion para cada variable y su desviación estandar.  
2) Error esperado en la prediccion del valor de la propiedad o intervalo de confianza.

**Ecuaciones:**  
  
$$ \begin{pmatrix}
y_1 \\
y_2 \\
\vdots \\
y_{n}\end{pmatrix}=
\begin{pmatrix}
1 & x_{1,1} & x_{1,2} & \cdots & x_{1,k} \\
1 & x_{2,1} & x_{2,2} & \cdots & x_{2,k} \\
\vdots  & \vdots  & \ddots & \vdots  \\
1 & x_{n,1} & x_{n,2} & \cdots & x_{n,k} 
\end{pmatrix}
\begin{pmatrix}
b_0 \\
b_1 \\
\vdots \\
b_k\end{pmatrix} +
\begin{pmatrix}
u_1 \\
u_2 \\
\vdots \\
u_n\end{pmatrix} \quad \text{en adelante} \quad y=Xb+u$$  
en donde   
$n=$ *número de registros de la muestra* (en este caso $n=11$)   
$k=$ *número de variables* independientes (en este caso $k=4$)  
$b=$ vector de coeficientes de la regresión  
$X=$ matriz de variables donde se agrega una columna de unos, ***"matriz de diseño"***.  
$u = $ vector de perturbaciones aleatorias  
**Una estimación para $y$ será entonces:**
$$\hat{y}=X\hat{b}$$
y para obtener esos $\hat{b}$ en regresión lineal múltiple se minimizan los cuadrados de los residuos, es decir la función:
$$(e^Te)=(y-Xb)^T(y-Xb)$$  
$$e=y-y(b)$$
para cierto $\hat{b}$ la función $(e^Te)=(y-Xb)^T(y-Xb)$ tendrá un mínimo.  
Entonces:  
$$\frac{\partial{e^Te}}{\partial{b}}=\frac{\partial}{\partial{b}}{(y-Xb)^T(y-Xb)}=\frac{\partial}{\partial{b}}\big({y^Ty-(Xb)^Ty-y^TXb+(Xb)^TXb}\big)$$  
$$\frac{\partial}{\partial{b}}\big({(Xb)^TXb-2y^TXb}\big)=2X^TXb-2y^TX$$  
$$X^TX\hat{b}-y^TX=0 \quad \implies \quad X^TX\hat{b}=y^TX \quad \implies \quad \hat{b}=(X^TX)^{-1}y^TX= (X^TX)^{-1}X^Ty$$  
$$\hat{b}={(X^TX)}^{-1}X^Ty \quad\text {son los coeficientes estimados de la regresión}$$  
**Ahora se puede calcular la varianza para los coeficientes estimados $\hat{b}$:**  
$$\hat{b}-b={(X^TX)}^{-1}X^Ty-b={(X^TX)}^{-1}X^T(Xb+u)-b=b+(X^TX)^{-1}X^Tu-b$$
$$(\hat{b}-b)=(X^TX)^{-1}X^Tu$$
$$(\hat{b}-b)^T=u^TX(X^TX)^{-1}$$
$$V_{\hat{b}}=E\big[(\hat{b}-b)^T(\hat{b}-b)\big]=E\big[(X^TX)^{-1}X^Tuu^TX(X^TX)^{-1}\big]=(X^TX)^{-1}X^TE\big[uu^T\big]X(X^TX)^{-1}$$  
$$E\big[uu^T\big]\quad\text{puede estimarse por}\quad v_{\hat{y}}=\frac{\hat{e}^T\hat{e}}{n-(k+1)}\quad\text{de modo que:}$$
$$V_{\hat{b}}=v_{\hat{y}}X(X^TX)^{-1}=\frac{\hat{e}^T\hat{e}}{n-(k+1)}X(X^TX)^{-1}$$
$V_{\hat{b}} \quad \text {es la matriz de varianzas covarianzas de los coeficientes de la regresión}$  
$E[\quad]\text{\quad es el valor esperado}$  
$\hat{e}=y-\hat{y}$  

**Resumen de Fórmulas básicas de la regresión lineal múltiple:**  
$$\hat{b}={(X^TX)}^{-1}X^Ty$$
$$\hat{e}=y-\hat{y}\quad\text{en donde}\quad \hat{y}=X\hat{b} \quad\text{son los valores ajustados}$$
$$ v_{\hat{y}} = \frac{\hat{e}^T\hat{e}}{n - (k+1)} \quad \sigma_{\hat{y}} = \sqrt{v_{\hat{y}}} \quad \text{es la desviación de los residuos.}$$
$$V_{\hat{b}} = v_{\hat{y}}(X^TX)^{-1}=v_{ij}$$ 
$$\sigma_D=\begin{pmatrix}\sqrt{v_{00}},&\sqrt{v_{11}},&\dots,\sqrt{v_{kk}}\end{pmatrix}\quad\text{son las desviaciones estandar de los coeficientes de la regresión.}$$

#### Presentación de los datos en el dataframe.

In [1]:
import numpy as np
import pandas as pd

data = pd.read_csv("ValorInmueble.csv")
df = pd.DataFrame(data)
df

Unnamed: 0,Valor,Antigüedad,Accesos,Oficinas,Superficie
0,142.0,20,2.0,2,2310
1,144.0,12,2.0,2,2333
2,151.0,33,1.5,3,2356
3,360.0,40,2.0,3,2273
4,139.0,53,3.0,2,2402
5,169.0,23,2.0,4,2425
6,126.0,99,1.5,2,2448
7,142.9,34,2.0,2,2471
8,163.0,23,3.0,3,2494
9,189.0,55,4.0,4,2517


#### Ejemplo de Regresión Lineal Múltiple

##### Datos

| Valor $y$ | Antigüedad $x_1$| Accesos $x_2$ | Oficinas $x_3$| Superficie $x_4$ |
|-------|------------|---------|----------|------------|
| 142.0 | 20         | 2.0     | 2        | 2310       |
| 144.0 | 12         | 2.0     | 2        | 2333       |
| 151.0 | 33         | 1.5     | 3        | 2356       |
| 360.0 | 40         | 2.0     | 3        | 2273       |
| 139.0 | 53         | 3.0     | 2        | 2402       |
| 169.0 | 23         | 2.0     | 4        | 2425       |
| 126.0 | 99         | 1.5     | 2        | 2448       |
| 142.9 | 34         | 2.0     | 2        | 2471       |
| 163.0 | 23         | 3.0     | 3        | 2494       |
| 189.0 | 55         | 4.0     | 4        | 2517       |
| 149.0 | 22         | 3.0     | 2        | 2540       |


##### Matrices y Vectores

Se construye la matriz **X** agregando una columna de "unos" (1) al principio:

$$
\begin{bmatrix}
1 & 20 & 2.0 & 2 & 2310 \\
1 & 12 & 2.0 & 2 & 2333 \\
1 & 33 & 1.5 & 3 & 2356 \\
1 & 40 & 2.0 & 3 & 2273 \\
1 & 53 & 3.0 & 2 & 2402 \\
1 & 23 & 2.0 & 4 & 2425 \\
1 & 99 & 1.5 & 2 & 2448 \\
1 & 34 & 2.0 & 2 & 2471 \\
1 & 23 & 3.0 & 3 & 2494 \\
1 & 55 & 4.0 & 4 & 2517 \\
1 & 22 & 3.0 & 2 & 2540 \\
\end{bmatrix}
$$

El vector de la variable dependiente **y** es:

$$ y =
\begin{bmatrix}
142.0 \\
144.0 \\
151.0 \\
360.0 \\
139.0 \\
169.0 \\
126.0 \\
142.9 \\
163.0 \\
189.0 \\
149.0 \\
\end{bmatrix}
$$

In [3]:
import numpy as np

x = np.array(
    [
        [1, 20, 2.0, 2, 2310],
        [1, 12, 2.0, 2, 2333],
        [1, 33, 1.5, 3, 2356],
        [1, 40, 2.0, 3, 2273],
        [1, 53, 3.0, 2, 2402],
        [1, 23, 2.0, 4, 2425],
        [1, 99, 1.5, 2, 2448],
        [1, 34, 2.0, 2, 2471],
        [1, 23, 3.0, 3, 2494],
        [1, 55, 4.0, 4, 2517],
        [1, 22, 3.0, 2, 2540],
    ]
)
k = len(x[0]) - 1

##### Ecuación Matricial

La ecuación matricial es:

$$ \begin{bmatrix}
142.0 \\
144.0 \\
151.0 \\
360.0 \\
139.0 \\
169.0 \\
126.0 \\
142.9 \\
163.0 \\
189.0 \\
149.0 \\
\end{bmatrix} = 
\begin{bmatrix}
1 & 20 & 2.0 & 2 & 2310 \\
1 & 12 & 2.0 & 2 & 2333 \\
1 & 33 & 1.5 & 3 & 2356 \\
1 & 40 & 2.0 & 3 & 2273 \\
1 & 53 & 3.0 & 2 & 2402 \\
1 & 23 & 2.0 & 4 & 2425 \\
1 & 99 & 1.5 & 2 & 2448 \\
1 & 34 & 2.0 & 2 & 2471 \\
1 & 23 & 3.0 & 3 & 2494 \\
1 & 55 & 4.0 & 4 & 2517 \\
1 & 22 & 3.0 & 2 & 2540 \\
\end{bmatrix}
·
\begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\b_4 \end{bmatrix}
$$

##### Solución

La solución para el vector de coeficientes **b** se obtiene utilizando la fórmula:

$$ \hat{b} = (X^T X)^{-1} X^T y $$

Calcular $X^T X$:

$$
\begin{bmatrix}
11 & 414 & 26 & 29 & 26569 \\
414 & 21566 & 970 & 1080 & 1003988 \\
26 & 970 & 67.5 & 70.5 & 63206 \\
29 & 1080 & 70.5 & 83 & 70145 \\
26569 & 1003988 & 63206 & 70145 & 64251953 \\
\end{bmatrix}
$$

In [4]:
import numpy as np

xt = x.T  # Se calcula la traspuesta de X con el método .T
xtx = np.dot(
    xt, x
)  # Se calcula el producto entre XT y X es un producto matricial (producto punto).
xtx

array([[1.1000000e+01, 4.1400000e+02, 2.6000000e+01, 2.9000000e+01,
        2.6569000e+04],
       [4.1400000e+02, 2.1566000e+04, 9.7000000e+02, 1.0800000e+03,
        1.0039880e+06],
       [2.6000000e+01, 9.7000000e+02, 6.7500000e+01, 7.0500000e+01,
        6.3206000e+04],
       [2.9000000e+01, 1.0800000e+03, 7.0500000e+01, 8.3000000e+01,
        7.0145000e+04],
       [2.6569000e+04, 1.0039880e+06, 6.3206000e+04, 7.0145000e+04,
        6.4251953e+07]])

Calcular $(X^T X)^{-1}$:

$$
(\mathbf{X}^T \mathbf{X})^{-1} = 
\begin{bmatrix}
1.07665224 \times 10^2 & 2.88525398 \times 10^{-2} & 3.00540699  & -5.30286799 \times 10^{-1} & -4.73493426 \times 10^{-2} \\
2.88525398 \times 10^{-2} & 1.80180546 \times 10^{-4} & 1.28723649 \times 10^{-3} & 1.77174972 \times 10^{-4} & -1.62060637 \times 10^{-5} \\
3.00540699 & 1.28723649 \times 10^{-3} & 2.86286108 \times 10^{-1} & -6.07756694 \times 10^{-2} & -1.47816392 \times 10^{-3} \\
-5.30286799 \times 10^{-1} & 1.77174972 \times 10^{-4} & -6.07756694 \times 10^{-2} & 1.69855498 \times 10^{-1} & 9.08638756 \times 10^{-5} \\
-4.73493426 \times 10^{-2} & -1.62060637 \times 10^{-5} & -1.47816392 \times 10^{-3} & 9.08638756 \times 10^{-5} & 2.12032553 \times 10^{-5} \\
\end{bmatrix}
$$

In [5]:
xtx_1 = np.linalg.inv(
    xtx
)  # Se calcula la inversa del resultado anterior con el metodo .linalg.inv()


xtx_1

array([[ 1.07665224e+02,  2.88525398e-02,  3.00540699e+00,
        -5.30286799e-01, -4.73493426e-02],
       [ 2.88525398e-02,  1.80180546e-04,  1.28723649e-03,
         1.77174972e-04, -1.62060637e-05],
       [ 3.00540699e+00,  1.28723649e-03,  2.86286108e-01,
        -6.07756694e-02, -1.47816392e-03],
       [-5.30286799e-01,  1.77174972e-04, -6.07756694e-02,
         1.69855498e-01,  9.08638756e-05],
       [-4.73493426e-02, -1.62060637e-05, -1.47816392e-03,
         9.08638756e-05,  2.12032553e-05]])

Calcular $X^T y$:

$$ X^T y = 
\begin{bmatrix}
1874.9 \\
69959.6 \\
4440.3 \\
5139.8 \\
4503959.9 \\
\end{bmatrix}
$$

In [7]:
y = df["Valor"]  # Se establece "y" con los valores medidos.
n = len(y)
xty = np.dot(
    xt, y
)  # Se obtiene el producto de la traspuesta de X por "y" con el método .dot() (producto punto)
xty

array([1.8749000e+03, 6.9959600e+04, 4.4403000e+03, 5.1398000e+03,
       4.5039599e+06])

Multiplicar $(X^T X)^{-1}$ por $X^T y$ para obtener **b**:

$$ (X^T X)^{-1}·X^Ty = \hat{b} = 
\begin{bmatrix}
1239.8414 \\
0.3359 \\
26.1225 \\
30.5687 \\
-0.5069 \\
\end{bmatrix}
$$

In [8]:
# b = np.dot(xtx_1, xty)
b = xtx_1@xty # Otra notación de multiplicar mas compacta
b

array([ 1.23984142e+03,  3.35884808e-01,  2.61225137e+01,  3.05687069e+01,
       -5.06909926e-01])

Se calcula ahora $\hat{e}=y-\hat{y}=y-X\hat{b}$:

In [9]:
# ys = np.dot(x, b)
ys = x@b
e = y - ys
e

0     -46.979632
1     -30.633625
2     -36.535728
3     114.978298
4     -40.550631
5     -23.830058
6      -6.499705
7      30.830479
8       9.592920
9     -20.187687
10     49.815368
Name: Valor, dtype: float64

Se calcula la varianza $v_{\hat{y}} = \frac{1}{n - (k+1)}\hat{e}^T\hat{e}=3981.08$:

In [10]:
et = e.T
vy = (1 / (n - k - 1)) * et@e
vy

3981.083467464503

Se calcula la desviación en y $\sigma_{\hat{y}}=\sqrt{v_{\hat{y}}}=63$:

In [11]:
sy = np.sqrt(vy)
sy

63.095827654960694

Ahora se calcula la matriz de varianza-covarianza de la regresión:
$$V_{\hat{b}} = v_{\hat{y}}(X^TX)^{-1}=v_{ij}$$ 

$$
\begin{bmatrix}
428624.245 & 114.864369 & 11964.7761 & -2111.11601 & -188.501685 \\
114.864369 & 0.717313791 & 5.12459589 & 0.705348352 & -0.0645176923 \\
11964.7761 & 5.12459589 & 1139.72889 & -241.953012 & -5.88469395 \\
-2111.11601 & 0.705348352 & -241.953012 & 676.208915 & 0.361736673 \\
-188.501685 & -0.0645176923 & -5.88469395 & 0.361736673 & 0.084411929
\end{bmatrix}
$$

In [12]:
vb = vy * xtx_1
vb

array([[ 4.28624245e+05,  1.14864369e+02,  1.19647761e+04,
        -2.11111601e+03, -1.88501685e+02],
       [ 1.14864369e+02,  7.17313791e-01,  5.12459589e+00,
         7.05348352e-01, -6.45176923e-02],
       [ 1.19647761e+04,  5.12459589e+00,  1.13972889e+03,
        -2.41953012e+02, -5.88469395e+00],
       [-2.11111601e+03,  7.05348352e-01, -2.41953012e+02,
         6.76208915e+02,  3.61736673e-01],
       [-1.88501685e+02, -6.45176923e-02, -5.88469395e+00,
         3.61736673e-01,  8.44119290e-02]])

Ahora se extrae la diagonal y se realiza la raiz cuadrada para obtener las desviaciones de los coeficientes de la regresión:
$$\sigma_D=\begin{pmatrix}\sqrt{v_{00}},&\sqrt{v_{11}},&\dots,\sqrt{v_{kk}}\end{pmatrix}$$
$$\sigma_D=
\begin{pmatrix}
654.6940, & 0.8469, & 33.7599, & 26.0040, & 0.2905 \\
\end{pmatrix}
$$

In [13]:
vd = np.diagonal(vb)
sd = np.sqrt(vd)
sd

array([6.54694009e+02, 8.46943794e-01, 3.37598710e+01, 2.60040173e+01,
       2.90537311e-01])

Se puede calcular también el coeficiente de determinación $R^2$:
$$R^2=1-\frac{(y-\hat y)^T(y-\hat y)}{(y-\bar y)^T(y-\bar y)}=1-\frac{\hat{e}^T\hat{e}}{\bar{e}^T\bar{e}}=0.4367$$
y el coeficiente de correlación múltiple, $\sqrt{R^2}=R$:  
$$R=0.6608$$

In [14]:
ym = df["Valor"].mean()
ym = np.full(11, ym)
em = y - ym
r2 = 1 - et@e /(em.T@em)
r2

0.43666872376417354

El coeficiente de determinación ajustado $R^2_{\text{ajustado}}$ se calcula utilizando la siguiente fórmula:

$$
R^2_{\text{ajustado}} = 1 - \frac{  (n - 1)}{(n - 1) - k}\cdot(1 - R^2)=0.0611
$$

Donde:
- $R^2$ es el coeficiente de determinación.
- $n$ es el número de observaciones.
- $k$ es el número de predictores (variables independientes).

Esta fórmula ajusta el $R^2$ para tener en cuenta el número de predictores en el modelo y el número total de observaciones. Cuanto mayor sea el $R^2_{\text{ajustado}}$, mejor se ajusta el modelo a los datos, considerando el número de predictores.


In [15]:
ra2 = 1 - (1 - r2) * (n - 1) / (n - k - 1)
ra2

0.0611145396069559

El estadístico F puede expresarse de la siguiente manera:

$$ F =\frac{MSR}{MSE}= \frac{(\bar Y-\hat Y)^T(\bar Y-\hat Y)/k}{(Y-\hat Y)^T(Y-\hat Y)/(n-k-1)} = 1.1627$$


Donde:
- MSR (Mean Square Regression) es la media de los cuadrados de la regresión.
- MSE (Mean Square Error) es la media de los cuadrados del error.
- $ Y $ es el vector de observaciones de la variable dependiente.
- $ \hat{Y} $ es el vector de valores predichos por el modelo de regresión.
- $ \bar{Y}$ es el vector cuyas componentes es la media de los $Y$.
- $ k $ es el número de parámetros en el modelo.
- $ n $ es el número de observaciones.

El estadístico F evalúa la significancia global del modelo de regresión. El numerador mide la reducción de la variabilidad explicada por el modelo, y el denominador mide la variabilidad no explicada por el modelo. La comparación entre estas dos cantidades proporciona información sobre si el modelo en su conjunto es estadísticamente significativo.

In [16]:
ysym = ys - ym
yys = y - ys
ve = ysym.T@ysym / 4
vne = yys.T@yys / (11 - 4 - 1)
F = ve / vne
F

1.1627316168615074

#### Coeficiente de Durbin-Watson:
$$dw=\frac{\displaystyle\sum_{i=2}^{n} (\hat{e}_i-\hat{e}_{i-1})^2}{\displaystyle\sum_{i=1}^{n} \hat{e}_i^2}$$  
En forma matricial:
$$dw=\frac{\hat{e}_r^T\hat{e}_r}{\hat{e}^T\hat{e}}$$  
$$dw=2.330$$
En donde:  
  
$\hat{e}_r=\hat{e}[1:]-\hat{e}[:-1]$  
$\hat{e}=y-\hat{y}$

In [17]:
er = e[1:].reset_index(drop=True) - e[:-1]
dw = er.T@er / (e.T@e)
dw

2.33016892195727

##### Kurtosis de los residuos  
$$K=\frac{\mu_4}{V^2}=\frac{\frac{1}{n}\displaystyle\sum_{i=1}^{n}(\hat{e}_i-\bar{\hat{e}})^4}{\Big(\frac{1}{n}\displaystyle\sum_{i=1}^{n}(\hat{e}_i-\bar{\hat{e}})^2\Big)^2}=\frac{\frac{1}{n}\displaystyle\sum_{i=1}^{n}E_i^4}{\Big(\frac{1}{n}\displaystyle\sum_{i=1}^{n}E_i^2\Big)^2}$$
$$K=n\frac{E^TE_DE_DE}{(E^TE)^2}=n\frac{E_2^TE_2}{(E^TE)^2}=3.7125$$

In [18]:
emn = e.mean()
E = e - emn
E2 = E**2
K = n * (E2.T@E2) / (E.T@E) ** 2
K

3.7125209308622495

##### Asimetría de la muestra (skew):
$$S=\frac{\frac{1}{n}\displaystyle\sum_{i=1}^{n}(\hat{e}_i-\bar{\hat{e}})^3}{\Big(\frac{1}{n}\displaystyle\sum_{i=1}^{n}(\hat{e}_i-\bar{\hat{e}})^2\Big)^{\frac{3}{2}}}=\frac{\frac{1}{n}\displaystyle\sum_{i=1}^{n}E_i^3}{\Big(\frac{1}{n}\displaystyle\sum_{i=1}^{n}E_i^2\Big)^{\frac{3}{2}}}$$
$$S=\sqrt{n}\frac{E^TE_DE}{(E^TE)^{\frac{3}{2}}}=\sqrt{n}\frac{E_2^TE}{(E^TE)^{\frac{3}{2}}}=1.2613$$

In [19]:
S = np.sqrt(n) * (E2.T@E) / (E.T@E) ** (3 / 2)
S

1.2612600491455257

##### Jarque-Bera
$$JB=\frac{n}{6}\Big(S^2+\frac{1}{4}(K-3)^2\Big)=3.1591$$

In [20]:
JB = (n / 6) * (S**2 + (1 / 4) * (K - 3) ** 2)
JB

3.1491137897995882

##### Omnibus
$$OM=\frac{\frac{1}{4}(S^2+K^2)}{\frac{1}{6}S^2\frac{1}{24}K^2}=36\Bigg(\frac{S^2+K^2}{S^2K^2}\Bigg)$$

In [21]:
OM = 36 * ((S**2 + K**2) / (S**2 * K**2))
OM
S**2 / 6 + K**2 / 24

0.839413304515525

##### Distribución de Fisher-Snedecor
$$f(x,df1,df2)=\frac{\sqrt{\frac{(df1x)^{df1}df2^{df2}}{(df1x+df2)^{df1+df2}}}}{xBeta(\frac{df1}{2},\frac{df2}{2})}
=\frac{1}{Beta(\frac{df1}{2},\frac{df2}{2})}\Big(\frac{df1}{df2}\Big)^\frac{df1}{2}x^{(\frac{df1}{2}-1)}(1+\frac{df1}{df2}x)^{-(\frac{df1+df2}{2})}$$

$$P(F\leq x)=\frac{Beta(\frac{d_1x}{d_1x+d_2},\frac{d_1}{2},\frac{d_2}{2})}{Beta(1,\frac{d_1}{2},\frac{d_2}{2})}=I\Bigg(\frac{d_1x}{d_1x+d_2},\frac{d_1}{2},\frac{d_2}{2}\Bigg)$$
$$P(F\geq x)=1-P(F\leq x)$$
$Beta(z,a,b)=\int_0^z t^{a-1}(1-t)^{b-1} \mathrm{d}t$
$$P(F\leq x)=\frac{Beta(\frac{4 \cdot 1.163}{4 \cdot 1.163+6},\frac{4}{2},\frac{6}{2})}{Beta(1,\frac{4}{2},\frac{6}{2})}=0.587$$
$$P(F\geq x)=1-0.587=0.413$$

##### Función beta incompleta inferior regularizada:
$$I(x,a,b)=\frac{Beta(x,a,b)}{Beta(a,b)}$$
para el caso de Fisher-Snedecor:
$$P(F\geq x)=1-I\Bigg(\frac{d_1x}{d_1x+d_2},\frac{d_1}{2},\frac{d_2}{2}\Bigg)$$
para el caso de la t-Student:
$$P(t\geq x)=\frac{1}{2}I\Bigg(\frac{v}{v+t^2},\frac{v}{2},\frac{1}{2}\Bigg)$$
$$P(|t|\geq x)=I\Bigg(\frac{v}{v+t^2},\frac{v}{2},\frac{1}{2}\Bigg)$$


In [22]:
from scipy import integrate



def betaF(a, b, x=1):
    i, e = integrate.quad(lambda t: t ** (a - 1) * (1 - t) ** (b - 1), 0, x)
    return i



def FisherP(d1, d2, p):

    x = d1 * p / (d1 * p + d2)

    a, b = d1 / 2, d2 / 2

    fm = betaF(a, b, x) / betaF(a, b)

    return 1 - fm



FisherP(4, 6, 1.1627316168615074)

0.4129569048435814

In [23]:
def PStudent(dr, t):
    x = dr / (dr + t**2)
    a = dr / 2
    ps = betaF(a, 0.5, x) / betaF(a, 0.5)
    return ps


PStudent(6, 1.894)

0.10705673423352648

##### Inversa de la función de distribución acumulada de Student e inversa de la beta incompleta inferior:


##### Resumen:
El valor de una propiedad se puede estimar con la siguiente expresión lineal:
###### $$ \textbf{valor prop}(\pm63)=(1239\pm655)+(0.33\pm0.85)·\textbf{Antigüedad}+(26\pm34)·\textbf{Accesos}+(30\pm26)·\textbf{Oficinas}-(0.51\pm0.29)·\textbf{Superficie}$$

##### Biblioteca Statsmodels



In [24]:
import numpy as np
import statsmodels.api as sm

# Datos de entrada
x = np.array(
    [
        [1, 20, 2.0, 2, 2310],
        [1, 12, 2.0, 2, 2333],
        [1, 33, 1.5, 3, 2356],
        [1, 40, 2.0, 3, 2273],
        [1, 53, 3.0, 2, 2402],
        [1, 23, 2.0, 4, 2425],
        [1, 99, 1.5, 2, 2448],
        [1, 34, 2.0, 2, 2471],
        [1, 23, 3.0, 3, 2494],
        [1, 55, 4.0, 4, 2517],
        [1, 22, 3.0, 2, 2540],
    ]
)

y = np.array(
    [142.0, 144.0, 151.0, 360.0, 139.0, 169.0, 126.0, 142.9, 163.0, 189.0, 149.0]
)

# Ajuste de la regresión lineal múltiple
model = sm.OLS(y, x).fit()

# Imprimir los resultados
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.437
Model:                            OLS   Adj. R-squared:                  0.061
Method:                 Least Squares   F-statistic:                     1.163
Date:                Wed, 20 Mar 2024   Prob (F-statistic):              0.413
Time:                        15:33:44   Log-Likelihood:                -57.866
No. Observations:                  11   AIC:                             125.7
Df Residuals:                       6   BIC:                             127.7
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1239.8414    654.694      1.894      0.1



In [25]:
import numpy as np
from scipy.special import betainc, betaincinv


def inverse_beta_inc_interpolation(a, b, p, tol=1e-9, max_iter=100):
    # Establecer límites para la búsqueda
    lower_limit = 0.0
    upper_limit = 1.0

    # Realizar búsqueda binaria para encontrar un punto cercano a la solución
    for _ in range(max_iter):
        midpoint = (lower_limit + upper_limit) / 2.0
        cdf_midpoint = betainc(a, b, midpoint)

        if np.abs(cdf_midpoint - p) < tol:
            return midpoint

        if cdf_midpoint < p:
            lower_limit = midpoint
        else:
            upper_limit = midpoint

    # Si la búsqueda binaria no converge, usar el método de interpolación
    x = np.linspace(lower_limit, upper_limit, 1000)
    cdf_values = betainc(a, b, x)
    inverse_interp = np.interp(p, cdf_values, x)

    return inverse_interp


# Ejemplo de uso
a = 3.0
b = 0.5
p = 0.05

result = inverse_beta_inc_interpolation(a, b, p)
print("Inverse of Beta Incomplete Function:", result)

Inverse of Beta Incomplete Function: 0.500526487827301


In [26]:
pp = 0.500526487827301
np.sqrt((6 - 6 * pp) / pp)

2.446911846234417