# Trabajo final Econometría
## Estimador de salarios en puestos Tech de EEUU
### Hecho por: Matthew Samuel Horne Negro, Francisco Javier Checa Casas y Pedro Castaño


# Primeros modelos econométricos

### 1

In [None]:
import pandas as pd
import statsmodels.api as sm
import matplotlib.pylab as plt
import numpy as np
import statsmodels.stats.outliers_influence as oi
import statsmodels.graphics.api as smg
import statsmodels.stats.api as sms
import statsmodels.stats.diagnostic as diagn #Para el test de Harvey-Collier


Me gusta tener todos los imports juntos por comodidad y no tener que estar repitiéndolos o ejecutando celdas específicas

In [None]:
data = pd.read_csv('Salary_Data.csv')

X = data.values[:, [0, 4]].astype(int)  # Age, Years of Experience
Y = data.values[:, 5].astype(int)  # Salary

results = sm.OLS(Y, sm.add_constant(X)).fit()

print(results.summary())

**R-squared (R-cuadrado):**

R-squared es una medida de la bondad de ajuste del modelo de regresión. En este caso, el valor es 0.665, lo que significa que aproximadamente el 66.5% de la variabilidad en la variable dependiente (y) puede ser explicada por las variables independientes (x1 y x2) incluidas en el modelo. Un R-cuadrado más alto indica un mejor ajuste del modelo a los datos. Este se alcanzará conforme vayamos haciendo más complejo el modelo e introduzcamos más variables clave como Job Title o Education.

**Adj. R-squared (R-cuadrado ajustado):**

El R-cuadrado ajustado es similar al R-cuadrado, pero tiene en cuenta el número de variables independientes en el modelo. En este caso, el valor es también 0.665, lo que sugiere que el ajuste del modelo es consistente con el número de variables independientes incluidas.

**F-statistic (Estadístico F):**

El estadístico F se utiliza para evaluar la significación conjunta de todas las variables independientes en el modelo. Un valor grande del estadístico F (en este caso, 6539) con un p-valor pequeño (0.00) sugiere que al menos una de las variables independientes es significativa en la explicación de la variabilidad en la variable dependiente.

**Coeficientes:**

Bajo la sección "coef", se observan los coeficientes estimados para las variables en el modelo. En este caso, hay tres coeficientes: uno para la constante (intercepto), otro para x1 y otro para x2. Estos coeficientes indican cuánto cambia la variable dependiente (y) por unidad de cambio en las variables independientes (x1 y x2).
Por ejemplo, el coeficiente para x2 es 9044.7257, lo que significa que, manteniendo todas las demás variables constantes, ceteris paribus, un aumento de una unidad en x2 se asocia con un aumento de aproximadamente 9044.7257 unidades en la variable dependiente (y), es decir, que en este caso por cada 1 año de experiencia más (Years of experience = x2) aumenta 9044.7257$ el salario (Salary = y)

**Estadísticas adicionales:**

Se proporcionan varias estadísticas adicionales, como el estadístico Omnibus, Durbin-Watson, Jarque-Bera, Skew, Kurtosis, entre otros. Estas estadísticas pueden ayudar a evaluar suposiciones sobre el modelo y la normalidad de los errores residuales.

<div class="alert alert-info">
    <strong>Nota:</strong> Al usar una base de datos con variables que son de tipo string para este primer modelo solo usaremos
    variables numéricas y que han tenido que ser forzosamente convertidas a int porque si no, genera un error de tipos.
    <br><br>
    Más adelante habrá que convertir las variables categóricas en dummies para el correcto funcionamiento

</div>

### 2

In [None]:
n = 100

X = np.random.normal(0, 10, n)
Y = X + np.random.normal(0, 1, n)

In [None]:
plt.scatter(X, Y, s=1)

plt.show()

In [None]:
results = sm.OLS(Y, sm.add_constant(X)).fit()

print(results.summary())

In [None]:
cte = results.params[0]
beta1 = results.params[1]

plt.plot([-20, 20], [cte + beta1 * (-20), cte + beta1 * 20], color='r')
plt.scatter(X, Y, s=1)

plt.show()

El código de los bloques realiza una simulación de datos y ajusta un modelo de regresión lineal a dichos datos.

1. **Generación de Datos:** Se crean dos conjuntos de datos, X e Y, donde X son valores tomados de una distribución normal con una media de 0 y desviación estándar de 10, e Y es una función lineal de X más un término de error aleatorio normalmente distribuido. Esto simula una relación lineal entre X e Y con algo de ruido.

2. **Visualización de Datos:** Se genera un gráfico de dispersión utilizando matplotlib para visualizar la relación entre X e Y. Cada punto representa una observación del conjunto de datos simulado.

3. **Ajuste de Modelo de Regresión:** Se ajusta un modelo de regresión lineal ordinaria de mínimos cuadrados utilizando statsmodels con Y como variable dependiente y X como independiente. Se añade una constante al modelo para incluir un término de intercepto. Se imprime un resumen del modelo que proporciona detalles estadísticos del ajuste.

4. **Visualización del Modelo de Regresión:** Se extraen el intercepto y la pendiente (coeficientes) del modelo ajustado y se utiliza para dibujar la línea de regresión sobre el gráfico de dispersión existente. La línea roja representa la relación estimada entre X e Y según el modelo de regresión.

---

# Estimación e Inferencia en Modelos de Regresión Lineales

## Modelo 1

In [None]:
# Reemplaza 'tu_archivo.csv' con el nombre de tu archivo CSV
df = pd.read_csv('Salary_Data.csv')

# Muestra información general sobre el DataFrame, como el tipo de datos y los valores no nulos
#print(df.info())

# Muestra estadísticas descriptivas de las variables numéricas
print(df.describe())

1. **Count (Conteo):** Muestra el número total de entradas (no nulas) para cada variable.
    - En este caso, hay 6582 entradas para cada una de las variables: Age (Edad), Years of Experience (Años de Experiencia) y Salary (Salario).

2. **Mean (Media):** Es el promedio de los valores para cada variable.
    - La edad promedio es aproximadamente 33.57 años.
    - Los años de experiencia promedio son aproximadamente 8.07 años.
    - El salario promedio es de aproximadamente 115,768.67 unidades monetarias ($).

3. **Std (Desviación Estándar):** Mide la cantidad de variación o dispersión de un conjunto de valores.
    - La desviación estándar de la edad es aproximadamente 7.6 años, lo que indica la variabilidad de la edad en el conjunto de datos.
    - La desviación estándar de los años de experiencia es de aproximadamente 6.04 años.
    - La desviación estándar del salario es de aproximadamente 52,677.91, indicando la variabilidad en los salarios.

4. **Min (Mínimo):** Es el valor más bajo en cada columna.
    - La edad mínima es de 21 años.
    - El mínimo de años de experiencia es 0 (personas sin experiencia previa).
    - El salario mínimo es de 25,000.

5. **25% (Percentil 25):** Este es el valor por debajo del cual se encuentra el 25% de los datos.
    - 25% de los empleados tienen 28 años o menos.
    - 25% tienen 3 años o menos de experiencia.
    - 25% ganan 70,000 o menos.

6. **50% (Mediana o Percentil 50):** Es el valor medio, donde la mitad de los datos está por debajo de este valor y la otra mitad por encima.
    - La mediana de la edad es de 32 años.
    - La mediana de los años de experiencia es de 7 años.
    - La mediana del salario es de 115,000.

7. **75% (Percentil 75):** El valor por debajo del cual se encuentra el 75% de los datos.
    - 75% de los empleados tienen 38 años o menos.
    - 75% tienen 12 años o menos de experiencia.
    - 75% ganan 160,000 o menos.

8. **Max (Máximo):** Es el valor más alto en cada columna.
    - La edad máxima es de 62 años.
    - El máximo de años de experiencia es de 34 años.
    - El salario máximo es de 250,000.

In [None]:
datos = pd.read_csv('Salary_Data.csv')
datos = pd.get_dummies(datos, columns=['Education Level', 'Job Title', 'Gender'], dtype=int)

display(datos)

<div class="alert alert-info">
    <strong>Nota:</strong> He estado horas atascado creando las dummies, al crear los dummies por defecto los tipos se establecen a TRUE o FALSE, sin embargo nosotros solo trabajamos con números así que, después de horas averigué que solo había que castearlo a tipo int (dtype=int).

</div>

In [None]:
y = datos['Salary']

# Definir 'X' incluyendo todas las columnas de 'Education Level_*' y 'Years of Experience'
# Filtrar las columnas que comienzan con 'Education Level_'
education_columns = [col for col in datos if col.startswith('Education Level_')]
job_columns = [col for col in datos if col.startswith('Job Title_')]
gender_columns = [col for col in datos if col.startswith('Gender_')]

X = sm.add_constant(datos[education_columns + ['Years of Experience'] + job_columns + ['Age'] + gender_columns])

## Estadísticos Descriptivos:

In [None]:
media = np.mean(y)
Q1 = np.quantile(y, 0.25)
Q3 = np.quantile(y, 0.75)
DesviacionTipica = np.std(y)
Mediana = np.median(y)
histograma = plt.hist(y, bins='auto', rwidth=0.85, density=True)
plt.xlabel('y')
plt.ylabel('Frecuencia')
plt.title("Histograma de y (salary) ($)")
plt.show()
print("Q1: ", Q1, "($) Mediana:", Mediana, "($) Q3: ", Q3, "($) DT: ", DesviacionTipica, "($) Media:", np.mean(y),
      "($)")

1. Media: 115,768.67
2. Primer Cuartil (Q1): 70,000.00
3. Tercer Cuartil (Q3): 160,000.00
4. Desviación Estándar: 52,673.91
5. Mediana: 115,000.00

In [None]:
#np.asarray(education_columns)
mco1 = sm.OLS(y, X).fit()
print(mco1.summary())

<div class="alert alert-info">
    <strong>Nota:</strong> Como vemos ya se nos está avisando de que puede haber problemas con la multicolinealidad, intentaremos solucionarlo más adelante cuando llegue el momento quizás con una depuración manual de los datos o utilizar técnicas como el factor de inflación de la varianza (VIF) para identificar y posiblemente eliminar variables independientes que estén altamente correlacionadas.

</div>

## Interpretación de los resultados

#### Medidas de Bondad de Ajuste:

- **R-squared (R-cuadrado):**
    El valor es 0.839, lo que indica que aproximadamente el 83.9% de la variabilidad en el salario se puede explicar con el modelo. Es una medida bastante alta de bondad de ajuste considerando que estamos tratando de estimar salarios.

- **Adjusted R-squared (R-cuadrado ajustado):**
    Con un valor de 0.837, después de ajustar por el número de predictores, sigue siendo muy alto, lo que indica que el modelo se ajusta bien a los datos.

- **F-statistic (Estadístico F):**
    Con un valor de 328.4 y un Prob (F-statistic) cercano a 0, sugiere que el modelo es estadísticamente significativo en su conjunto, es decir, hay evidencia de que al menos una de las variables independientes está relacionada con el salario.

#### Diagnóstico de Residuos:
- **Omnibus:**
    El valor del test estadístico es 97.368, que es bastante alto. Este resultado sugiere que hay una fuerte evidencia estadística de que los residuos no se distribuyen normalmente.

- **Prob(Omnibus):**
    El valor p asociado con el estadístico Omnibus es 0.000. Un valor p tan bajo (generalmente se considera significativo si es menor que 0.05) indica que podemos rechazar la hipótesis nula de que los residuos tienen una distribución normal. Esto significa que hay una alta probabilidad de que los residuos no sigan una distribución normal.

- **Durbin-Watson:**
    El valor es 0.216, que está muy por debajo de 2, sugiriendo la presencia de autocorrelación positiva entre los residuos, lo que podría ser un problema, ya que los residuos de un modelo bien ajustado deben ser independientes entre sí.

- **Jarque-Bera (JB) y Prob(JB):**
    -El valor del estadístico JB es 178.435 y el valor p es extremadamente pequeño, indicando que los residuos no siguen una distribución normal, lo cual es una violación de uno de los supuestos de la regresión OLS.

- **Skew (Asimetría):**
    El valor de -0.062 indica que la distribución de los residuos es ligeramente asimétrica, pero no es una preocupación mayor dado que está cerca de cero.

- **Kurtosis:**
    Un valor de 3.797 sugiere que la distribución de los residuos tiene colas más pesadas que una distribución normal, lo cual podría ser una señal de outliers o de un pico más pronunciado.

- **Cond. No. (Número de Condición):**
    El valor es extremadamente alto (4.75e+16), lo que indica la presencia de multicolinealidad entre las variables predictoras. Esto significa que algunas de las variables independientes están altamente correlacionadas entre sí, lo que puede inflar los errores estándar de los coeficientes y hacer que las estimaciones sean inestables.interpret


In [None]:
beta2 = mco1.params
plt.plot(datos['Years of Experience'], y, 'o', color='r')
xmin = np.min(datos['Years of Experience'])
xmax = np.max(datos['Years of Experience'])
# Use iloc to access positions in the beta2 series
plt.plot([xmin, xmax], [beta2.iloc[0] + beta2.iloc[1] * xmin, beta2.iloc[0] + beta2.iloc[1] * xmax])
plt.show()


In [None]:
print(sm.graphics.plot_regress_exog(mco1, 'Years of Experience'))

In [None]:
e=mco1.resid
print(e)
print(np.mean(e))

El valor obtenido sugiere que, en promedio, el modelo subestima ligeramente el valor real. Sin embargo, en el contexto de los modelos de regresión, un promedio de residuos de aproximadamente -5.7624e-10 podría considerarse insignificante, especialmente si la escala de la variable de respuesta (salario en este caso) es grande, como en decenas o cientos de miles. Este resultado es una señal de que el modelo está bien calibrado en términos de no tener un sesgo sistemático hacia sobreestimaciones o subestimaciones en las predicciones.

- Suma de Cuadrados Totales (SCT)

In [None]:
print(mco1.centered_tss)

Representa la variabilidad total en la variable dependiente. Es igual a la suma de las diferencias al cuadrado entre cada valor observado y la media de todos los valores observados. Un valor de 18262027724544.66 indica el total de variabilidad en tu variable dependiente que el modelo busca explicar.

- Suma de Cuadrados Explicada (SCE)

In [None]:
print(mco1.ess)

Representa la variabilidad en la variable dependiente que es explicada por el modelo. Es igual a la suma de las diferencias al cuadrado entre los valores predichos por el modelo y la media de la variable dependiente. Un valor de 15326748750986.516 sugiere que esta es la cantidad de variabilidad que el modelo ha logrado explicar.

- Suma de Cuadrados de los residuos (SCR)

In [None]:
print(mco1.ssr)

Representa la variabilidad en la variable dependiente que no es explicada por el modelo. Es igual a la suma de los cuadrados de los residuos (errores) del modelo. Un valor de 2935278973558.1436 indica la cantidad de variabilidad que el modelo no ha podido explicar.

- $R^2$ y $R^2$ ajustado

In [None]:
print("R2: ", mco1.rsquared)
print("R2 Ajustado: ", mco1.rsquared_adj)

R-cuadrado ($R^2$): Es una medida de la bondad de ajuste del modelo. Un valor de 0.8392687264616815(o aproximadamente 83.93%) significa que aproximadamente el 83.93% de la variabilidad en la variable dependiente es explicada por las variables independientes en el modelo.

R-cuadrado ajustado: Es una versión ajustada del R-cuadrado que tiene en cuenta el número de predictores en el modelo. Un valor de 0.8367131041747956 es bastante similar al R-cuadrado, lo que indica que el modelo es robusto incluso después de ajustar por el número de variables.

- Valor ( F<sub>exp</sub> ): Valor F experimental
- Valor ( F<sub>teo</sub> ): Valor F teórico


In [None]:
Fexp=mco1.fvalue
print(Fexp)
from scipy import stats
alpha=0.025
Fteo= stats.f.ppf(1-alpha, mco1.df_model, mco1.df_resid)
print(Fteo)

Valor F experimental (Fexp): Es el valor calculado de la estadística F para el modelo. Un valor de 328.40092636864495 es bastante alto, lo que sugiere que el modelo es estadísticamente significativo.

Valor F teórico (Fteo): Es el valor crítico de la distribución F para un cierto nivel de significancia y grados de libertad. Un valor de 1.2941958816630579 es el umbral sobre el cual se consideraría que el modelo tiene una contribución significativa.

- Valor ( t<sub>exp</sub> ): Valor t experimental
- Valor ( t<sub>teo</sub> ): Valor t teórico

In [None]:
texp=mco1.tvalues
print(texp)
alpha=0.098
tteo= stats.t.ppf(1-(alpha/2),mco1.df_resid)
print(tteo)


Valor t Experimental (Valor t de la Prueba): Este valor es el resultado de una prueba t aplicada a un estimador, como un coeficiente en un modelo de regresión. Se calcula como el coeficiente estimado dividido por el error estándar de ese coeficiente. En el contexto de la regresión, indica cuántas desviaciones estándar el estimador está lejos de 0. Un valor t alto (en valor absoluto) sugiere que es menos probable que el verdadero valor del parámetro sea 0, lo que implica que la variable correspondiente es significativa en el modelo.

Valor t Teórico (Valor t Crítico): Se utiliza como umbral para decidir si rechazar la hipótesis nula. Si el valor t experimental es mayor en valor absoluto que el valor t teórico, se rechaza la hipótesis nula (por ejemplo, que un coeficiente es igual a cero en la regresión).

- Intervalos de confianza de Estimadores

In [None]:
print(mco1.conf_int(0.075))

Un intervalo de confianza ofrece un rango de valores dentro del cual se espera que se encuentre el verdadero valor del parámetro, con un cierto nivel de confianza.
En la regresión, cada coeficiente tiene un intervalo de confianza asociado. Si un intervalo de confianza para un coeficiente no incluye el 0, esto sugiere que la variable correspondiente es significativamente diferente de 0, lo que implica que tiene un efecto significativo en la variable dependiente.

- Estimación de la varianza de la pertrubación:

In [None]:
beta3=np.array(mco1.params)
e =mco1.resid
sum(e**2)/(mco1.nobs-1)
sigmagorro=(np.dot(y.values, y.values)-np.dot(beta3.T, np.dot(X.values.T,y.values)))/(mco1.nobs-1)

print(sigmagorro)

Un valor bajo indica que el modelo explica una gran parte de la variabilidad, mientras que un valor alto sugiere que hay más factores no capturados que influyen en los salarios.
En nuestro caso vemos que el valor es alto y que los residuos no se distribuyen normalmente, puede ser necesario transformar las variables, agregar términos al modelo o utilizar otro tipo de modelo de regresión que no requiera la normalidad de los residuos.

---

# Multicolinealidad

Como hemos visto anteriormente nuestro modelo actual tiene un problema de multicolinealidad que trataremos de solucionar ahora. Refresquemos la memoria:

In [None]:
print(mco1.summary())

Y como hemos mencionado nos advierte de posible multicolinealidad

In [None]:
print(mco1.condition_number) #Número de Condición

Un número de condición alto sugiere una posible multicolinealidad en los datos, lo que significa que al menos una de las variables predictoras es casi una combinación lineal de las otras. Esto puede llevar a problemas en la estimación de los coeficientes del modelo, ya que pequeños cambios en los datos o en el modelo pueden resultar en grandes cambios en los coeficientes estimados. En términos prácticos, un número de condición alto puede hacer que los resultados de la regresión sean poco fiables.

En términos generales:

Un número de condición cercano a 1 indica un problema bien condicionado (bajo riesgo de multicolinealidad).
Un número de condición moderadamente alto (valores de miles o decenas de miles) puede ser motivo de cierta preocupación y merece una investigación más detallada.
Un número de condición muy alto (valores en los cientos de miles o más) sugiere un alto grado de multicolinealidad y un problema potencialmente mal condicionado.

En nuestro caso vemos como este es un número enorme, posiblemente debido a los dummies que al crear 200 variables distintas produzcan este error.
Por ello vamos a emplear técnicas como el factor de inflación de la varianza (VIF) para identificar y posiblemente eliminar variables independientes que estén altamente correlacionadas.

In [None]:
datos = pd.read_csv('Salary_Data.csv')
datos = pd.get_dummies(datos, columns=['Education Level', 'Job Title', 'Gender'], dtype=int)

display(datos)

In [None]:
y = datos['Salary']

# Definir 'X' incluyendo todas las columnas de 'Education Level_*' y 'Years of Experience'
# Filtrar las columnas que comienzan con 'Education Level_'
education_columns = [col for col in datos if col.startswith('Education Level_')]
job_columns = [col for col in datos if col.startswith('Job Title_')]
gender_columns = [col for col in datos if col.startswith('Gender_')]

X = sm.add_constant(datos[education_columns + ['Years of Experience'] + job_columns + ['Age'] + gender_columns])

In [None]:
vifs=[oi.variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print(vifs)

Observamos el warning "RuntimeWarning: divide by zero encountered in scalar divide" sugiere que en el cálculo de algún VIF, se está intentando dividir por cero. Esto suele suceder cuando una de las variables independientes en el modelo de regresión es una combinación lineal perfecta de otras variables independientes, o tiene una varianza extremadamente baja que está causando problemas numéricos.

Los valores de VIF se muestran en la salida, y muchos de ellos son inf, que significa infinito. Un valor de VIF infinito indica una multicolinealidad perfecta, lo que significa que algunas variables predictoras pueden ser exactamente predichas a partir de otras variables predictoras en el modelo sin error.

In [None]:
corr_matrix=np.corrcoef(X.T)
print(corr_matrix)

In [None]:
smg.plot_corr(corr_matrix, X)
plt.show()

Es bastante evidente cuál podría ser el primer remedio para este problema... Reducir el número de variables, esto se conseguirá estudiando que variables no tienen relevancia para eliminarlas y agrupando las que sí sean positivas para el modelo.

Hagamos una primera prueba muy sencilla solo añadiendo drop_first=True a la hora de crear los dummies para eliminar la primera columna

In [None]:
datos = pd.read_csv('Salary_Data.csv')
datos = pd.get_dummies(datos, columns=['Education Level', 'Job Title', 'Gender'], drop_first=True, dtype=int)
y = datos['Salary']
# Definir 'X' incluyendo todas las columnas de 'Education Level_*' y 'Years of Experience'
# Filtrar las columnas que comienzan con 'Education Level_'
education_columns = [col for col in datos if col.startswith('Education Level_')]
job_columns = [col for col in datos if col.startswith('Job Title_')]
gender_columns = [col for col in datos if col.startswith('Gender_')]

X = sm.add_constant(datos[education_columns + ['Years of Experience'] + job_columns + ['Age'] + gender_columns])

mco1 = sm.OLS(y, X).fit()
print(mco1.summary())

In [None]:
print(mco1.condition_number) #Número de Condición

Simplemente con ese paso previo hemos pasado de un Número de Condición = (4.75e+16) que tenía nuestro modelo original a un Número de Condición = (2.94e+03)

Y volvemos a ejecutar la técnica VIFs

In [None]:
vifs=[oi.variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print(vifs)

Como podemos ver ya prácticamente todas las variables están cerca del valor 1 que como hemos visto indica un problema bien condicionado (bajo riesgo de multicolinealidad).

Pero podemos seguir depurándolo. Si nos fijamos hay 2 variables en concreto que resaltan más que las demás, la primera con valor aproximado de 148.191 y la antepenúltima con valor aproximado de 11.852499

Viendo esto y además con un poco de sentido común podemos razonar que a la hora de estimar salarios tanto la edad como el género de la persona no debería de ser un factor influyente en el resultado así que eliminemos esas 2 variables y veamos que pasa.

In [None]:
X = sm.add_constant(datos[education_columns + ['Years of Experience'] + job_columns])

mco1 = sm.OLS(y, X).fit()
print(mco1.summary())

In [None]:
print(mco1.condition_number) #Número de Condición

Efectivamente, al eliminar variables que no tienen relación con el salario el Número de Condición = (2.94e+03) que tenía nuestro modelo con Edad y Género se ha reducidoa tan solo un Número de Condición = 834 sin sacrificar la medida de bondad R^2^

Ya no nos advierte de que pueda haber problemas de multicolinealidad, pero probemos a reducir el número de variables agrupando elementos de la variable Job Title por sectores, esto puede llevar a estimaciones más imprecisas al tener datos más generales de cada ámbito pero probemos a ver que Número de Condición resultaría.

In [None]:
datos = pd.read_csv('Salary_Data - Copy.csv')
datos = pd.get_dummies(datos, columns=['Education Level', 'Job Title', 'Gender'], drop_first=True, dtype=int)
y = datos['Salary']
# Definir 'X' incluyendo todas las columnas de 'Education Level_*' y 'Years of Experience'
# Filtrar las columnas que comienzan con 'Education Level_'
education_columns = [col for col in datos if col.startswith('Education Level_')]
job_columns = [col for col in datos if col.startswith('Job Title_')]
gender_columns = [col for col in datos if col.startswith('Gender_')]

X = sm.add_constant(datos[education_columns + ['Years of Experience'] + job_columns])

mco2 = sm.OLS(y, X).fit()
print(mco2.summary())

In [None]:
vifs=[oi.variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print(vifs)

In [None]:
corr_matrix=np.corrcoef(X.T)
print(corr_matrix)

In [None]:
smg.plot_corr(corr_matrix, X)
plt.show()

Como vemos la única ventaja relevante es la reducción a la mitad del factor Omnibus lo cual nos indica que nos estamos acercando más a una distribución normal de los residuos, pero esto no compensa la perdida dl índice de bondad $R^2$ tan elevado así que trataremos el problema de la heteroscedasticidad presente en el siguiente apartado.

# Heteroscedatiscidad

Anteriormente hemos solucionado el problema de la multicolinealidad, sin embargo al ejecutar nuestro modelo se nos seguía advirtiendo y se deduce el alto valor de la variable Omnibus que la distribución de los residuos no es normal, esto es un problema de heteroscedasticidad que trataremos ahora.

In [564]:
print(mco1.summary())

                            OLS Regression Results                            
Dep. Variable:                 Salary   R-squared:                       0.838
Model:                            OLS   Adj. R-squared:                  0.836
Method:                 Least Squares   F-statistic:                     336.1
Date:                Mon, 11 Dec 2023   Prob (F-statistic):               0.00
Time:                        22:35:43   Log-Likelihood:                -74901.
No. Observations:                6582   AIC:                         1.500e+05
Df Residuals:                    6481   BIC:                         1.507e+05
Df Model:                         100                                         
Covariance Type:            nonrobust                                         
                                                      coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------------