# Trabajo final Econometría
## Estimador de salarios en puestos Tech de EEUU
### Hecho por: Matthew Samuel Horne Negro


# Primeros modelos econométricos

### 1

In [None]:
import pandas as pd  #librería para manejo de datos
import statsmodels.api as sm

data = pd.read_csv('Salary_Data.csv')

# Modelo Regresión:  modeldata=stock.values
X = data.values[:, [0, 4]].astype(int)  # Age, Years of Experience
Y = data.values[:, 5].astype(int)  # Salary

results = sm.OLS(Y, sm.add_constant(X)).fit()

print(results.summary())

**R-squared (R-cuadrado):**

R-squared es una medida de la bondad de ajuste del modelo de regresión. En este caso, el valor es 0.662, lo que significa que aproximadamente el 66.2% de la variabilidad en la variable dependiente (y) puede ser explicada por las variables independientes (x1 y x2) incluidas en el modelo. Un R-cuadrado más alto indica un mejor ajuste del modelo a los datos. Este se alcanzará conforme vayamos haciendo más complejo el modelo e introduzcamos más variables clave como Job Title o Education.

**Adj. R-squared (R-cuadrado ajustado):**

El R-cuadrado ajustado es similar al R-cuadrado, pero tiene en cuenta el número de variables independientes en el modelo. En este caso, el valor es también 0.662, lo que sugiere que el ajuste del modelo es consistente con el número de variables independientes incluidas.

**F-statistic (Estadístico F):**

El estadístico F se utiliza para evaluar la significación conjunta de todas las variables independientes en el modelo. Un valor grande del estadístico F (en este caso, 6556) con un p-valor pequeño (0.00) sugiere que al menos una de las variables independientes es significativa en la explicación de la variabilidad en la variable dependiente.

**Coeficientes:**

Bajo la sección "coef", se observan los coeficientes estimados para las variables en el modelo. En este caso, hay tres coeficientes: uno para la constante (intercepto), otro para x1 y otro para x2. Estos coeficientes indican cuánto cambia la variable dependiente (y) por unidad de cambio en las variables independientes (x1 y x2).
Por ejemplo, el coeficiente para x2 es 9096.3430, lo que significa que, manteniendo todas las demás variables constantes, ceteris paribus, un aumento de una unidad en x2 se asocia con un aumento de aproximadamente 9096.3430 unidades en la variable dependiente (y), es decir, que en este caso por cada 1 año de experiencia más (Years of experience = x2) aumenta 9096.3430$ el salario (Salary = y)

**Estadísticas adicionales:**

Se proporcionan varias estadísticas adicionales, como el estadístico Omnibus, Durbin-Watson, Jarque-Bera, Skew, Kurtosis, entre otros. Estas estadísticas pueden ayudar a evaluar suposiciones sobre el modelo y la normalidad de los errores residuales.

<div class="alert alert-info">
    <strong>Nota:</strong> Al usar una base de datos con variables que son de tipo string para este primer modelo solo usaremos
    variables numéricas y que han tenido que ser forzosamente convertidas a int porque si no, genera un error de tipos.
    <br><br>
    Más adelante habrá que convertir las variables categóricas en dummies para el correcto funcionamiento

</div>

### 2

In [None]:
n=100
import numpy as np
X= np.random.normal(0, 10, n)
Y= X + np.random.normal(0,1,n)

In [None]:
import matplotlib.pylab as plt

plt.scatter(X,Y, s=1)

plt.show()

In [None]:
results = sm.OLS(Y, sm.add_constant(X)).fit()

print(results.summary())

In [None]:
cte=results.params[0]
beta=results.params[1]

plt.plot([-20,20],[cte+beta*(-20), cte+beta*20], color='r')
plt.scatter(X,Y, s=1)

plt.show()

El código proporcionado en los bloques realiza una simulación de datos y ajusta un modelo de regresión lineal a estos datos.

1. Generación de Datos: Se crean dos conjuntos de datos, X e Y, donde X son valores tomados de una distribución normal con una media de 0 y desviación estándar de 10, e Y es una función lineal de X más un término de error aleatorio normalmente distribuido. Esto simula una relación lineal entre X e Y con algo de ruido.

2. Visualización de Datos: Se genera un gráfico de dispersión utilizando matplotlib para visualizar la relación entre X e Y. Cada punto representa una observación del conjunto de datos simulado.

3. Ajuste de Modelo de Regresión: Se ajusta un modelo de regresión lineal ordinaria de mínimos cuadrados utilizando statsmodels con Y como variable dependiente y X como independiente. Se añade una constante al modelo para incluir un término de intercepto. Se imprime un resumen del modelo que proporciona detalles estadísticos del ajuste.

4. Visualización del Modelo de Regresión: Se extraen el intercepto y la pendiente (coeficientes) del modelo ajustado y se utiliza para dibujar la línea de regresión sobre el gráfico de dispersión existente. La línea roja representa la relación estimada entre X e Y según el modelo de regresión.

# Estimación e Inferencia en Modelos de Regresión Lineales

## Modelo 1