# Trabajo final Econometría
## Estimador de salarios en puestos Tech de EEUU
### Hecho por: Matthew Samuel Horne Negro


# Primeros modelos econométricos

### 1

In [None]:
import pandas as pd
import statsmodels.api as sm
import matplotlib.pylab as plt
import numpy as np

Me gusta tener todos los imports juntos por comodidad y no tener que estar repitiendolos o ejeuctando secuencias innecesarias

In [None]:
data = pd.read_csv('Salary_Data.csv')

# Modelo Regresión:  modeldata=stock.values
X = data.values[:, [0, 4]].astype(int)  # Age, Years of Experience
Y = data.values[:, 5].astype(int)  # Salary

results = sm.OLS(Y, sm.add_constant(X)).fit()

print(results.summary())

**R-squared (R-cuadrado):**

R-squared es una medida de la bondad de ajuste del modelo de regresión. En este caso, el valor es 0.662, lo que significa que aproximadamente el 66.2% de la variabilidad en la variable dependiente (y) puede ser explicada por las variables independientes (x1 y x2) incluidas en el modelo. Un R-cuadrado más alto indica un mejor ajuste del modelo a los datos. Este se alcanzará conforme vayamos haciendo más complejo el modelo e introduzcamos más variables clave como Job Title o Education.

**Adj. R-squared (R-cuadrado ajustado):**

El R-cuadrado ajustado es similar al R-cuadrado, pero tiene en cuenta el número de variables independientes en el modelo. En este caso, el valor es también 0.662, lo que sugiere que el ajuste del modelo es consistente con el número de variables independientes incluidas.

**F-statistic (Estadístico F):**

El estadístico F se utiliza para evaluar la significación conjunta de todas las variables independientes en el modelo. Un valor grande del estadístico F (en este caso, 6556) con un p-valor pequeño (0.00) sugiere que al menos una de las variables independientes es significativa en la explicación de la variabilidad en la variable dependiente.

**Coeficientes:**

Bajo la sección "coef", se observan los coeficientes estimados para las variables en el modelo. En este caso, hay tres coeficientes: uno para la constante (intercepto), otro para x1 y otro para x2. Estos coeficientes indican cuánto cambia la variable dependiente (y) por unidad de cambio en las variables independientes (x1 y x2).
Por ejemplo, el coeficiente para x2 es 9096.3430, lo que significa que, manteniendo todas las demás variables constantes, ceteris paribus, un aumento de una unidad en x2 se asocia con un aumento de aproximadamente 9096.3430 unidades en la variable dependiente (y), es decir, que en este caso por cada 1 año de experiencia más (Years of experience = x2) aumenta 9096.3430$ el salario (Salary = y)

**Estadísticas adicionales:**

Se proporcionan varias estadísticas adicionales, como el estadístico Omnibus, Durbin-Watson, Jarque-Bera, Skew, Kurtosis, entre otros. Estas estadísticas pueden ayudar a evaluar suposiciones sobre el modelo y la normalidad de los errores residuales.

<div class="alert alert-info">
    <strong>Nota:</strong> Al usar una base de datos con variables que son de tipo string para este primer modelo solo usaremos
    variables numéricas y que han tenido que ser forzosamente convertidas a int porque si no, genera un error de tipos.
    <br><br>
    Más adelante habrá que convertir las variables categóricas en dummies para el correcto funcionamiento

</div>

### 2

In [None]:
n = 100

X = np.random.normal(0, 10, n)
Y = X + np.random.normal(0, 1, n)

In [None]:
plt.scatter(X, Y, s=1)

plt.show()

In [None]:
results = sm.OLS(Y, sm.add_constant(X)).fit()

print(results.summary())

In [None]:
cte = results.params[0]
beta = results.params[1]

plt.plot([-20, 20], [cte + beta * (-20), cte + beta * 20], color='r')
plt.scatter(X, Y, s=1)

plt.show()

El código de los bloques realiza una simulación de datos y ajusta un modelo de regresión lineal a dichos datos.

1. **Generación de Datos:** Se crean dos conjuntos de datos, X e Y, donde X son valores tomados de una distribución normal con una media de 0 y desviación estándar de 10, e Y es una función lineal de X más un término de error aleatorio normalmente distribuido. Esto simula una relación lineal entre X e Y con algo de ruido.

2. **Visualización de Datos:** Se genera un gráfico de dispersión utilizando matplotlib para visualizar la relación entre X e Y. Cada punto representa una observación del conjunto de datos simulado.

3. **Ajuste de Modelo de Regresión:** Se ajusta un modelo de regresión lineal ordinaria de mínimos cuadrados utilizando statsmodels con Y como variable dependiente y X como independiente. Se añade una constante al modelo para incluir un término de intercepto. Se imprime un resumen del modelo que proporciona detalles estadísticos del ajuste.

4. **Visualización del Modelo de Regresión:** Se extraen el intercepto y la pendiente (coeficientes) del modelo ajustado y se utiliza para dibujar la línea de regresión sobre el gráfico de dispersión existente. La línea roja representa la relación estimada entre X e Y según el modelo de regresión.

---

# Estimación e Inferencia en Modelos de Regresión Lineales

## Modelo 1

In [None]:
# Reemplaza 'tu_archivo.csv' con el nombre de tu archivo CSV
df = pd.read_csv('Salary_Data.csv')

# Muestra información general sobre el DataFrame, como el tipo de datos y los valores no nulos
#print(df.info())

# Muestra estadísticas descriptivas de las variables numéricas
print(df.describe())

1. **Count (Conteo):** Muestra el número total de entradas (no nulas) para cada variable.
    - En este caso, hay 6695 entradas para cada una de las variables: Age (Edad), Years of Experience (Años de Experiencia) y Salary (Salario).

2. **Mean (Media):** Es el promedio de los valores para cada variable.
    - La edad promedio es aproximadamente 33.63 años.
    - Los años de experiencia promedio son aproximadamente 8.10 años.
    - El salario promedio es de aproximadamente 115,395.57 unidades monetarias ($).

3. **Std (Desviación Estándar):** Mide la cantidad de variación o dispersión de un conjunto de valores.
    - La desviación estándar de la edad es aproximadamente 7.62 años, lo que indica la variabilidad de la edad en el conjunto de datos.
    - La desviación estándar de los años de experiencia es de aproximadamente 6.06 años.
    - La desviación estándar del salario es de aproximadamente 52,727.24, indicando la variabilidad en los salarios.

4. **Min (Mínimo):** Es el valor más bajo en cada columna.
    - La edad mínima es de 21 años.
    - El mínimo de años de experiencia es 0 (personas sin experiencia previa).
    - El salario mínimo es de 25,000.

5. **25% (Percentil 25):** Este es el valor por debajo del cual se encuentra el 25% de los datos.
    - 25% de los empleados tienen 28 años o menos.
    - 25% tienen 3 años o menos de experiencia.
    - 25% ganan 70,000 o menos.

6. **50% (Mediana o Percentil 50):** Es el valor medio, donde la mitad de los datos está por debajo de este valor y la otra mitad por encima.
    - La mediana de la edad es de 32 años.
    - La mediana de los años de experiencia es de 7 años.
    - La mediana del salario es de 115,000.

7. **75% (Percentil 75):** El valor por debajo del cual se encuentra el 75% de los datos.
    - 75% de los empleados tienen 38 años o menos.
    - 75% tienen 12 años o menos de experiencia.
    - 75% ganan 160,000 o menos.

8. **Max (Máximo):** Es el valor más alto en cada columna.
    - La edad máxima es de 62 años.
    - El máximo de años de experiencia es de 34 años.
    - El salario máximo es de 250,000.

In [None]:
datos = pd.read_csv('Salary_Data.csv')
datos = pd.get_dummies(datos, columns=['Education Level', 'Job Title', 'Gender'], dtype=int)

display(datos)

<div class="alert alert-info">
    <strong>Nota:</strong> He estado horas atascado creando las dummies, al crear los dummies por defecto los tipos se establecen a TRUE o FALSE, sin embargo nosotros solo trabajamos con números así que, después de horas averigué que solo había que castearlo a tipo int (dtype=int).

</div>

In [None]:
y = datos['Salary']

# Definir 'X' incluyendo todas las columnas de 'Education Level_*' y 'Years of Experience'
# Filtrar las columnas que comienzan con 'Education Level_'
education_columns = [col for col in datos if col.startswith('Education Level_')]
job_columns = [col for col in datos if col.startswith('Job Title_')]
gender_columns = [col for col in datos if col.startswith('Gender_')]

X = sm.add_constant(datos[education_columns + ['Years of Experience'] + job_columns + ['Age'] + gender_columns])

## Estadísticos Descriptivos:

In [None]:
media = np.mean(y)
Q1 = np.quantile(y, 0.25)
Q3 = np.quantile(y, 0.75)
DesviacionTipica = np.std(y)
Mediana = np.median(y)
histograma = plt.hist(y, bins='auto', rwidth=0.85, density=True)
plt.xlabel('y')
plt.ylabel('Frecuencia')
plt.title("Histograma de y (salary) ($)")
plt.show()
print("Q1: ", Q1, "($) Mediana:", Mediana, "($) Q3: ", Q3, "($) DT: ", DesviacionTipica, "($) Media:", np.mean(y),
      "($)")

1. Media: 115,395.57
2. Primer Cuartil (Q1): 70,000.00
3. Tercer Cuartil (Q3): 160,000.00
4. Desviación Estándar: 52,723.3
5. Mediana: 115,000.00

In [None]:
#np.asarray(education_columns)
mco1 = sm.OLS(y, X).fit()
print(mco1.summary())

Como vemos ya se nos está avisando de que puede haber problemas con la multicolinealidad, intentaremos solucionarlo más adelante cuando llegue el momento quizás con una depuración manual de los datos o utilizar técnicas como el factor de inflación de la varianza (VIF) para identificar y posiblemente eliminar variables independientes que estén altamente correlacionadas.

## Interpretación de los resultados

#### Medidas de Bondad de Ajuste:

- **R-squared (R-cuadrado):**
    El valor es 0.839, lo que indica que aproximadamente el 83.9% de la variabilidad en el salario se puede explicar con el modelo. Es una medida bastante alta de bondad de ajuste considerando que estamos tratando de estimar salarios.

- **Adjusted R-squared (R-cuadrado ajustado):**
    Con un valor de 0.837, después de ajustar por el número de predictores, sigue siendo muy alto, lo que indica que el modelo se ajusta bien a los datos.

- **F-statistic (Estadístico F):**
    Con un valor de 328.4 y un Prob (F-statistic) cercano a 0, sugiere que el modelo es estadísticamente significativo en su conjunto, es decir, hay evidencia de que al menos una de las variables independientes está relacionada con el salario.

#### Diagnóstico de Residuos:
- **Omnibus:**
    El valor del test estadístico es 97.368, que es bastante alto. Este resultado sugiere que hay una fuerte evidencia estadística de que los residuos no se distribuyen normalmente.

- **Prob(Omnibus):**
    El valor p asociado con el estadístico Omnibus es 0.000. Un valor p tan bajo (generalmente se considera significativo si es menor que 0.05) indica que podemos rechazar la hipótesis nula de que los residuos tienen una distribución normal. Esto significa que hay una alta probabilidad de que los residuos no sigan una distribución normal.

- **Durbin-Watson:**
    El valor es 0.216, que está muy por debajo de 2, sugiriendo la presencia de autocorrelación positiva entre los residuos, lo que podría ser un problema, ya que los residuos de un modelo bien ajustado deben ser independientes entre sí.

- **Jarque-Bera (JB) y Prob(JB):**
    -El valor del estadístico JB es 178.435 y el valor p es extremadamente pequeño, indicando que los residuos no siguen una distribución normal, lo cual es una violación de uno de los supuestos de la regresión OLS.

- **Skew (Asimetría):**
    El valor de -0.062 indica que la distribución de los residuos es ligeramente asimétrica, pero no es una preocupación mayor dado que está cerca de cero.

- **Kurtosis:**
    Un valor de 3.797 sugiere que la distribución de los residuos tiene colas más pesadas que una distribución normal, lo cual podría ser una señal de outliers o de un pico más pronunciado.

- **Cond. No. (Número de Condición):**
    El valor es extremadamente alto (4.75e+16), lo que indica la presencia de multicolinealidad entre las variables predictoras. Esto significa que algunas de las variables independientes están altamente correlacionadas entre sí, lo que puede inflar los errores estándar de los coeficientes y hacer que las estimaciones sean inestables.interpret


In [None]:
e=mco1.resid
print(e)
print(np.mean(e))

In [None]:
table = sm.stats.anova_lm(mco1)
print(table)

In [None]:
print(mco1.centered_tss)

In [None]:
print(mco1.ess)

In [None]:
print(mco1.ssr)

In [None]:
print("R2: ", mco1.rsquared)
print("R2 Ajustado: ", mco1.rsquared_adj)

In [None]:
Fexp=mco1.fvalue
Fexp
from scipy import stats
alpha=0.025
Fteo= stats.f.ppf(1-alpha, mco1.df_model, mco1.df_resid)
print(Fteo)

In [None]:
texp=mco1.tvalues
print("texp: ", texp)
alpha=0.098
tteo= stats.t.ppf(1-(alpha/2),mco1.df_resid)
print(tteo)

In [None]:
print(mco1.conf_int(0.075))

In [None]:
beta=np.array(mco1.params)
e =mco1.resid
sum(e**2)/(mco1.nobs-1)
sigmagorro=(np.dot(y.values, y.values)-np.dot(beta.T, np.dot(X.values.T,y.values)))/(mco1.nobs-1)

print(sigmagorro)

In [None]:
histograma=plt.hist(datos["Salary"], bins='auto', rwidth=0.85)