# Analisis de Datos en Administracion
### Facultad de Ciencias Economicas y Administracion - Universidad de la Republica

# Regresion Lineal
## Ejercicio 2

En el archivo ”data-eq-salarios.gdt” se cuenta con una submuestra de 1898 observaciones extraidas al azar de la Encuesta Continua de Hogares realizada por el INE en el 2005. La submuestra esta compuesta por individuos entre 18 y 65 anos de los departamentos de Montevideo, Colonia y Rivera. Las variables que estan presentes en la base de datos son las siguientes:
- edad: en anos.
- hombre: 1 si es hombre y 0 si es mujer.
- educ: anos educacion alcanzado.
- salario: ingreso por hora en la ocupacion principal, en pesos corrientes.
- mvdeo: 1 si vive en el departamento de Montevideo, 0 en otro lado.
- colonia: 1 si vive en el departamento de Colonia, 0 en otro lado.
- rivera: 1 si vive en el departamento de Rivera, 0 en otro lado.

### Se pide:

1. Estime por MCO un modelo lineal del salario en funcion de la educacion, la edad, las variables binarias hombre, colonia y rivera. Interprete los coeficientes (sin hacer inferencia).
2. Estime por MCO un modelo del logaritmo del salario en funcion de la educacion, la edad y su cuadrado, las variables binarias hombre, colonia y rivera. Interprete los coeficientes (sin hacer inferencia).
3. Evalue la presencia de heterocedasticidad general mediante el test de White. Tome alguna decision en funcion de los resultados obtenidos y justifiquela.
4. Una vez que tenga definida las estimaciones a utilizar, interprete economicamente los efectos parciales de:
    a. Las variables continuas (en el caso de la variable edad considere tres casos con personas de 25, 35 y 45 anos).
    b. Las variables discretas, prestando atencion a la categoria omitida.
5. Evalue las siguientes hipotesis:
    a. Ninguna variable del modelo es relevante.
    b. Los salarios tienen una relacion lineal con la edad.
    c. La edad no es relevante.
    d. No hay brechas regionales de salarios.

In [3]:
# Tratamiento de datos
# ==============================================================================
import pandas as pd

# Preprocesado y modelado
# ==============================================================================
import statsmodels.api as sm
import statsmodels.formula.api as smf
import numpy as np
from statsmodels.stats.diagnostic import het_white

In [4]:
# Datos
# ==============================================================================

df = pd.read_csv('data-eq-salarios.csv')
print(df.head())

      salario  educ  edad  hombre  mujer  mvdeo  colonia  rivera
0  299.123871    15    54       1      0      1        1       0
1   72.501915    15    48       0      1      1        1       0
2  332.518158    17    54       0      1      1        1       0
3    3.068561     2    53       1      0      1        1       0
4   90.436699    16    59       0      1      1        1       0


In [5]:
# División de los datos para estimar por minimos cuadrados el modelo lineal del salario en 
# funcion de la educación, la edad y las variables hombre, colonia y rivera
# ==============================================================================

X = df[['educ', 'edad', 'hombre', 'colonia', 'rivera']]
y = df['salario']

# Creación del modelo utilizando matrices como en scikitlearn
# ==============================================================================
# A la matriz de predictores se le tiene que añadir una columna de 1s para el intercept del modelo

X = sm.add_constant(X)
modelo = sm.OLS(y, X)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                salario   R-squared:                       0.193
Model:                            OLS   Adj. R-squared:                  0.191
Method:                 Least Squares   F-statistic:                     90.77
Date:                Mon, 26 Sep 2022   Prob (F-statistic):           8.73e-86
Time:                        18:20:13   Log-Likelihood:                -10718.
No. Observations:                1898   AIC:                         2.145e+04
Df Residuals:                    1892   BIC:                         2.148e+04
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        -99.0143     11.497     -8.612      0.0

1. Interpretacion de los coeficientes: 
- Sobre la educacion podemos decir que por cada año mas de educacion que se tenga, el salario aumenta en promedio 7.65 pesos por hora, ceteris paribus.
- Sobre la edad, podemos decir que por cada año mas que se tenga, el salario aumenta en promedio 1.4 pesos por hora, ceteris paribus.
- Sobre la variable hombre, podemos decir que si es hombre, el salario por hora es en promedio 20.7 pesos mayor, ceteris paribus.
- Sobre la variable colonia, podemos decir que si vive en Colonia, el salario por hora es en promedio 4.13 pesos mayor, ceteris paribus.
- Sobre la variable rivera, podemos decir que si vive en Rivera, el salario por hora es en promedio 6.6 pesos menor, ceteris paribus.

In [6]:
# División de los datos para estimar por minimos cuadrados el moodelo del logaritmo del salario
# en funcion de la educación, la edad y su cuadrado y las variables hombre, colonia y rivera
# ==============================================================================

df['log_salario'] = np.log(df['salario'])
df['sq_edad'] = np.square(df['edad'])

X = df[['educ', 'edad', 'sq_edad', 'hombre', 'colonia', 'rivera']]
y = df['log_salario']

# Creación del modelo utilizando matrices como en scikitlearn
# ==============================================================================
# A la matriz de predictores se le tiene que añadir una columna de 1s para el intercept del modelo

X = sm.add_constant(X)
modelo = sm.OLS(y, X)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:            log_salario   R-squared:                       0.329
Model:                            OLS   Adj. R-squared:                  0.327
Method:                 Least Squares   F-statistic:                     154.5
Date:                Mon, 26 Sep 2022   Prob (F-statistic):          7.02e-160
Time:                        18:20:16   Log-Likelihood:                -1985.3
No. Observations:                1898   AIC:                             3985.
Df Residuals:                    1891   BIC:                             4023.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.5774      0.267      2.159      0.0

2. Interpretacion de los coeficientes:

- Sobre la educacion podemos decir que por cada año mas de educacion que se tenga, el salario por hora aumenta en promedio 11.02%, ceteris paribus.
- Sobre la edad, podemos decir que por cada año mas que se tenga, el salario por hora aumenta en promedio 6.6%, ceteris paribus. // VERIFICAR ESTO //
- Sobre la variable hombre, podemos decir que si es hombre, el salario por hora es en promedio 25.07% mayor, ceteris paribus.
- Sobre la variable colonia, podemos decir que si vive en Colonia, el salario por hora es en promedio 8.85% mayor, ceteris paribus.
- Sobre la variable rivera, podemos decir que si vive en Rivera, el salario por hora es en promedio 13.5% menor, ceteris paribus.

In [10]:
# Realizamos el test de White para chequear la heterocedasticidad
# ==============================================================================
# El test de White es un test de hipótesis que se utiliza para comprobar si los residuos de un modelo de regresión lineal son homocedásticos o heterocedásticos.

white_test = het_white(modelo.resid,  modelo.model.exog)

# Definimos las etiquetas para los resultados del test de White

labels = ['Test Statistic', 'Test Statistic p-value', 'F-Statistic', 'F-Test p-value']

#Imprimimos los resultados del test de White

print(dict(zip(labels, white_test)))

{'Test Statistic': 48.2566407445742, 'Test Statistic p-value': 0.0010034522402431274, 'F-Statistic': 2.2234337866715546, 'F-Test p-value': 0.0009188270152978766}


3. Heterocedasticidad y Test de White

- El estadistico de prueba es X<sup>2</sup> = 48.25 y el p-valor es 0.001, por lo que rechazamos la hipotesis nula de que no hay heterocedasticidad general.
- El test de White nos muestra que hay heterocedasticidad general, por lo que debemos utilizar el modelo de regresion lineal con errores heterocedasticos.

- El test de White usa las siguientes hipotesis:

    - Nula (H<sub>0</sub>): Hay homocedasticidad (los errores son homocedasticos, se dispersan de igual manera).
    - Alternativa (H<sub>A</sub>): Hay heterocedasticidad (los errores son heterocedasticos, se dispersan de manera no homogenea).

- Como el p-valor es menor a 0.05, rechazamos la hipotesis nula y aceptamos la alternativa, por lo que hay heterocedasticidad general en el modelo.

In [15]:
# Modelo OLS con covarianza robusta, variante HC3, para el caso de heterocedasticidad 

print(modelo._results.get_robustcov_results(cov_type='HC3').summary())

                            OLS Regression Results                            
Dep. Variable:            log_salario   R-squared:                       0.329
Model:                            OLS   Adj. R-squared:                  0.327
Method:                 Least Squares   F-statistic:                     144.4
Date:                Mon, 26 Sep 2022   Prob (F-statistic):          6.39e-151
Time:                        18:25:29   Log-Likelihood:                -1985.3
No. Observations:                1898   AIC:                             3985.
Df Residuals:                    1891   BIC:                             4023.
Df Model:                           6                                         
Covariance Type:                  HC3                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.5774      0.280      2.063      0.0

In [16]:
# Probamos utilizando minimos cuadrados ponderados
# ==============================================================================

mod_wls = sm.WLS(y, X, weights=1/modelo.resid**2)
res_wls = mod_wls.fit()
print(res_wls.summary())

                            WLS Regression Results                            
Dep. Variable:            log_salario   R-squared:                       0.999
Model:                            WLS   Adj. R-squared:                  0.999
Method:                 Least Squares   F-statistic:                 3.135e+05
Date:                Mon, 26 Sep 2022   Prob (F-statistic):               0.00
Time:                        18:32:12   Log-Likelihood:                -659.46
No. Observations:                1898   AIC:                             1333.
Df Residuals:                    1891   BIC:                             1372.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.5936      0.013     46.608      0.0