# Calculo Manual de Betas

Para el calculo manual de los estimadores Betas se busca satisfacer la siguiente operación:

$(X^{T}X)^{-1}X^{T}Y$

Donde:
- X: Es la matriz compuesta por las columnas de las variables independientes.
- Y: Una matriz compuesta por una columna con la variable dependiente.

En este caso, se buscará explicar el salario de los trabajadores en base a la eduación, experiencia y su permanencia.

## Librerias

In [1]:
##### Tratamiento de Datos ####
# ==============================================================================

import pandas as pd
import numpy as np


## Carga de datos

In [2]:
#### Carga de datos en un DataFrame ###
df= pd.read_csv("datasets/Regresion.csv")
df

Unnamed: 0,Salario,Educacion,Experiencia,Permanencia
0,3.10,11,2,0
1,3.24,12,22,2
2,3.00,11,2,0
3,6.00,8,44,28
4,5.30,12,7,2
...,...,...,...,...
242,3.06,12,14,10
243,3.20,12,15,5
244,4.75,12,19,0
245,3.00,14,17,0


In [3]:
# Se pasará el dataframe a una lista, a fin de evitar problemas de tipeo al llamar a las variables.
list(df)

['Salario', 'Educacion', 'Experiencia', 'Permanencia']

### Se separará el DataFrame como se  mencionó al inicio.

In [4]:
Y=df["Salario"]

In [5]:
print(Y)

0      3.10
1      3.24
2      3.00
3      6.00
4      5.30
       ... 
242    3.06
243    3.20
244    4.75
245    3.00
246    4.00
Name: Salario, Length: 247, dtype: float64


In [6]:
X=df[['Educacion', 'Experiencia', 'Permanencia']]

In [7]:
print(X)

     Educacion  Experiencia  Permanencia
0           11            2            0
1           12           22            2
2           11            2            0
3            8           44           28
4           12            7            2
..         ...          ...          ...
242         12           14           10
243         12           15            5
244         12           19            0
245         14           17            0
246         12           72           12

[247 rows x 3 columns]


In [8]:
#Crear la columna intercepto con un valor 1.

X['Intercepto']=1

In [9]:
list(X)

['Educacion', 'Experiencia', 'Permanencia', 'Intercepto']

In [10]:
# Se colocará primero la columna de Intercepto por formalidad.
X=X[['Intercepto','Educacion', 'Experiencia', 'Permanencia',]]

### Pasar a matriz
Se pasará los dataframe al formato de matriz para poder realizar las operaciones correspondientes.

In [11]:
# Matriz para la columna de la variable dependiente.
Y=np.asarray(Y)

In [12]:
# Matriz para el dataframe compuesto por las variables independientes.
X=np.asarray(X)

In [13]:
print(X)

[[ 1 11  2  0]
 [ 1 12 22  2]
 [ 1 11  2  0]
 [ 1  8 44 28]
 [ 1 12  7  2]
 [ 1 16  9  8]
 [ 1 18 15  7]
 [ 1 12  5  3]
 [ 1 12 26  4]
 [ 1 17 22 21]
 [ 1 16  8  2]
 [ 1 13  3  0]
 [ 1 12 15  0]
 [ 1 12 18  3]
 [ 1 80 20 14]
 [ 1 12 31 15]
 [ 1 16 14  0]
 [ 1 12 10  0]
 [ 1 13 16 10]
 [ 1 12 13  0]
 [ 1 12 36  6]
 [ 1 12 11  4]
 [ 1 12 29 13]
 [ 1 16  9  9]
 [ 1 12  3  1]
 [ 1 11 37  8]
 [ 1 16  3  3]
 [ 1 16 11 10]
 [ 1 16 31  0]
 [ 1 15 30  0]
 [ 1  8  9  1]
 [ 1 14 23  5]
 [ 1 14  2  5]
 [ 1 13 16 16]
 [ 1 12  7  3]
 [ 1 12  3  0]
 [ 1 16 22  4]
 [ 1 12 15  6]
 [ 1  4 39 15]
 [ 1 14  3  3]
 [ 1 12 11  0]
 [ 1 12  3  0]
 [ 1 12 20  5]
 [ 1 14 16  0]
 [ 1 11 45 12]
 [ 1 13 11  4]
 [ 1 15 20 13]
 [ 1 10  1  0]
 [ 1 12 36  2]
 [ 1 12 11 20]
 [ 1 14  9  2]
 [ 1 12 15  1]
 [ 1 12 18  0]
 [ 1 16  3  2]
 [ 1 12 15  5]
 [ 1 12  7  7]
 [ 1 12  2  0]
 [ 1 15  3  0]
 [ 1 16  1  1]
 [ 1  8 13  0]
 [ 1 18  8  8]
 [ 1 16  7  0]
 [ 1 13 40 20]
 [ 1 18 30 40]
 [ 1 14 42  5]
 [ 1 10 36  8]
 [ 1 10 13

$ X^{T}$

In [14]:
# Se calculará la matriz transpuesta.
XT=np.transpose(X)

In [15]:
print(XT)

[[ 1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
   1  1  1  1  1  1  1]
 [11 12 11  8 12 16 18 12 12 17 16 13 12 12 80 12 16 12 13 12 12 12 12 16
  12 11 16 16 16 15  8 14 14 13 12 12 16 12  4 14 12 12 12 14 11 13 15 10
  12 12 14 12 12 16 12 12 12 15 16  8 18 16 13 18 14 10 10 14 14 16 12 16
  12 16 17 12 

$ (X^{T}X)$

In [16]:
# Se realizará el producto entre las matrices.
P=np.dot(XT,X)

In [17]:
print(P)

[[   247   3238   3985   1294]
 [  3238  48480  50451  17401]
 [  3985  50451 107483  32585]
 [  1294  17401  32585  19640]]


$(X^{T}X)^{-1}$

In [18]:
# Se calculará la matriz inversa de este producto.
I=np.linalg.inv(P)

In [19]:
print(I)

[[ 4.21053449e-02 -2.33311005e-03 -5.06241782e-04  1.32893081e-04]
 [-2.33311005e-03  1.70357392e-04  1.14574013e-05 -1.62262725e-05]
 [-5.06241782e-04  1.14574013e-05  3.15095968e-05 -2.90750299e-05]
 [ 1.32893081e-04 -1.62262725e-05 -2.90750299e-05  1.04775946e-04]]


$(X^{T}X)^{-1}X^{T}$

In [20]:
# Se multiplicará la matriz transpuesta por su inversa.
PT=np.dot(I,XT)

$(X^{T}X)^{-1}X^{T}Y$

In [21]:
# Finalmente para el calculo de los estimadores betas, será necesario multiplicar por la columna de las variables
# independientes.
B=np.dot(PT,Y)

# Obtencion de los Betas

In [22]:
# La variable donde almacenaos estos estimadores fue denominada como "B".
print(B)

[ 4.33014434e+00  7.57577042e-02 -4.16277174e-03  2.21452512e-01]


In [23]:
# Se le dará un formato más amigable visualmente.
list(map('{:.3f}'.format,B) )

['4.330', '0.076', '-0.004', '0.221']

In [24]:
list(df)

['Salario', 'Educacion', 'Experiencia', 'Permanencia']

In [25]:
# Por otra parte, este calculo se puede realizar de una manera más simple, apoyandonos de la librería 
# statsmodels de la siguiente manera:

import statsmodels.formula.api as smf
reg = smf.ols('Salario ~ Educacion + Experiencia + Permanencia', data=df) 
res = reg.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                Salario   R-squared:                       0.145
Model:                            OLS   Adj. R-squared:                  0.134
Method:                 Least Squares   F-statistic:                     13.68
Date:                Thu, 11 Aug 2022   Prob (F-statistic):           2.82e-08
Time:                        20:06:11   Log-Likelihood:                -691.53
No. Observations:                 247   AIC:                             1391.
Df Residuals:                     243   BIC:                             1405.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept       4.3301      0.823      5.262      