# Encuentro sincrónico

# Introducción al análisis de datos con Python



## Regresión lineal 

Para realizar esta actividad deberá utilizar la base de datos `ingresos`


La misma cuenta con las siguientes variables:
- **`lila`:** contiene el logaritmo del ingreso laboral de los individuos.
- **`edad`:** contiene los años cumplidos de cada individuo.
- **`aedu`:** contiene la cantidad de años de educación alcanzada por cada individuo.
- **`hstrab`:** contiene la cantidad de horas trabajadas semanalmente en la ocupación principal.
- **`hombre`:** vale 1 si el individuo es hombre y 0 si es mujer.
- **`informal`:** vale 1 si el individuo tiene un empleo formal y 0 en caso contrario.
- **`casada`:** vale 1 si el individuo está casado y 0 si no lo está.
- **`menores`:** contiene la cantidad de hijos menores de 18 años que viven en el hogar del individuo.
- **`dormitorios`:** contiene la cantidad de dormitorios que tiene el hogar de cada individuo.
- **`ambientes`:** contiene la cantidad de ambientes que tiene el hogar de cada individuo.




In [2]:
#importar librerías
# Tratamiento de datos
import pandas as pd
import numpy as np

# Gráficos
import matplotlib.pyplot as plt
from matplotlib import style
from matplotlib import colors
import seaborn as sns

# Preprocesado y modelado
from scipy.stats import pearsonr
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.anova import anova_lm
from scipy import stats

# Configuración matplotlib
plt.rcParams['image.cmap'] = "bwr"
plt.rcParams['savefig.bbox'] = "tight"
style.use('ggplot') or plt.style.use('ggplot')

# Configuración warnings
import warnings
warnings.filterwarnings('ignore')

In [4]:
#cargar la base de datos
base = pd.read_excel("base_sincronico.xlsx")

#ver las primeras observaciones
base.head(10)

Unnamed: 0,lila,edad,aedu,hstrab,hombre,formal,casada,menores,dormitorios,ambientes
0,11.082143,51,13.0,20,1,1,0,0,2,3
1,11.695247,37,10.0,25,1,1,1,4,1,2
2,11.407565,56,15.0,50,1,1,1,0,3,5
3,11.0021,22,15.0,30,1,0,0,0,3,5
4,12.89922,61,10.0,48,0,1,0,0,2,3
5,11.695247,56,10.0,49,0,1,0,0,2,3
6,11.695247,29,13.0,72,1,1,0,0,2,3
7,10.819778,44,17.0,25,0,1,0,0,2,3
8,11.407565,30,17.0,45,0,1,0,0,2,3
9,10.275051,40,13.0,12,0,0,0,3,1,2


**(1)** Incialmente pueden comenzar mostrando correlaciones entre el ingreso laboral y algunas variables (al menos 3) que les resulten de interés dentro de la base de datos. Comenten qué relaciones encuentran.

In [5]:
#primera variable
#pearsonr
# Correlación entre las dos variables
corr_edad = pearsonr(x = base['lila'], y =  base['edad'])
print("La correlación entre el ingreso laboral y la edad es: ", corr_edad[0])
print("P-value: ", corr_edad[1])

#modelo:
modelo = LinearRegression()

La correlación entre el ingreso laboral y la edad es:  0.16152034502454576
P-value:  5.622678120734858e-82


In [6]:
#segunda variable
#pearsonr
# Correlación entre las dos variables
corr_hstrab = pearsonr(x = base['lila'], y =  base['hstrab'])
print("La correlación entre el ingreso laboral y las horas trabajadas son: ", corr_hstrab[0])
print("P-value: ", corr_hstrab[1])

#modelo:
modelo = LinearRegression()

La correlación entre el ingreso laboral y las horas trabajadas son:  0.3170411295568345
P-value:  1.9e-322


In [7]:
#tercera variable
#pearsonr
#pearsonr
# Correlación entre las dos variables
corr_aedu = pearsonr(x = base['lila'], y =  base['aedu'])
print("La correlación entre el ingreso laboral y los años de educacion: ", corr_aedu[0])
print("P-value: ", corr_aedu[1])

#modelo:
modelo = LinearRegression()

La correlación entre el ingreso laboral y los años de educacion:  0.3096763423253479
P-value:  5.481034311516174e-307


**(2)** 
Luego, elijan el método de los vistos en clase que deseen para estimar la siguiente ecuación:
$$ ingreso laboral =β_0+β_1edad+β_2 años de educación+β_3 horas trabajadas+β_4 hombre+ϵ_i $$

In [11]:
#values.reshape(-1,1)
#train
#test
x = base[['edad', 'aedu', 'hstrab','hombre']]
y = base['lila']
X_train, X_test, y_train, y_test = train_test_split(
                                        x,
                                        y.values.reshape(-1,1),
                                        train_size   = 0.95,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

In [12]:
#add_constant
#OLS
#fit()
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog=y_train, exog=X_train,)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.295
Model:                            OLS   Adj. R-squared:                  0.295
Method:                 Least Squares   F-statistic:                     1385.
Date:                Fri, 03 Nov 2023   Prob (F-statistic):               0.00
Time:                        15:31:55   Log-Likelihood:                -13363.
No. Observations:               13220   AIC:                         2.674e+04
Df Residuals:                   13215   BIC:                         2.677e+04
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.1057      0.033    274.375      0.0

#### Comenten acerca de la significatividad de las variables y de su interpretación.

Recuerden que al ser un modelo del tipo **log-lin**, la interpretación se realiza se la siguiente manera:
- un aumento en 1 de la variable explicativa varía, en promedio, en β*100% a los salarios, ceteris paribus.

Para las variables que toman dos valores (dummies) la interpretación es se la siguiente manera:
- los hombres tienen, en promedio, un ingreso (𝑒^β − 1) ∗ 100% mayor/menor a las mujeres, ceteris paribus.

**(3)** Ahora, agreguen la ecuación antes estimada las siguientes variables una a una (manteniendo la enterior) en este orden:

$$ formal, casada, menores, ambientes $$

Comenten que va sucediendo con el ajuste del modelo ¿Todas son significativas? ¿Todas agregan información?

In [13]:
#edad, aedu, hstrab, hombre y formal

#train
#test
x = base[['edad', 'aedu', 'hstrab','hombre','formal']]
y = base['lila']
X_train, X_test, y_train, y_test = train_test_split(
                                        x,
                                        y.values.reshape(-1,1),
                                        train_size   = 0.95,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

#add_constant
#OLS
#fit()
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog=y_train, exog=X_train,)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.464
Model:                            OLS   Adj. R-squared:                  0.464
Method:                 Least Squares   F-statistic:                     2292.
Date:                Fri, 03 Nov 2023   Prob (F-statistic):               0.00
Time:                        15:38:58   Log-Likelihood:                -11549.
No. Observations:               13220   AIC:                         2.311e+04
Df Residuals:                   13214   BIC:                         2.316e+04
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.5014      0.030    321.272      0.0

In [14]:
#edad, aedu, hstrab, hombre, formal y casada

#train
#test
x = base[['edad', 'aedu', 'hstrab','hombre','formal','casada']]
y = base['lila']
X_train, X_test, y_train, y_test = train_test_split(
                                        x,
                                        y.values.reshape(-1,1),
                                        train_size   = 0.95,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

#add_constant
#OLS
#fit()
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog=y_train, exog=X_train,)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.465
Model:                            OLS   Adj. R-squared:                  0.465
Method:                 Least Squares   F-statistic:                     1915.
Date:                Fri, 03 Nov 2023   Prob (F-statistic):               0.00
Time:                        15:39:59   Log-Likelihood:                -11540.
No. Observations:               13220   AIC:                         2.309e+04
Df Residuals:                   13213   BIC:                         2.315e+04
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.5192      0.030    318.798      0.0

In [15]:
#edad, aedu, hstrab, hombre, formal, casada y menores
#train
#test
x = base[['edad', 'aedu', 'hstrab','hombre','formal','casada','menores']]
y = base['lila']
X_train, X_test, y_train, y_test = train_test_split(
                                        x,
                                        y.values.reshape(-1,1),
                                        train_size   = 0.95,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

#add_constant
#OLS
#fit()
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog=y_train, exog=X_train,)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.465
Model:                            OLS   Adj. R-squared:                  0.465
Method:                 Least Squares   F-statistic:                     1642.
Date:                Fri, 03 Nov 2023   Prob (F-statistic):               0.00
Time:                        15:40:37   Log-Likelihood:                -11540.
No. Observations:               13220   AIC:                         2.310e+04
Df Residuals:                   13212   BIC:                         2.316e+04
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.5081      0.032    296.998      0.0

In [16]:
#edad, aedu, hstrab, hombre, formal, casada, menores y ambientes
#train
#test
x = base[['edad', 'aedu', 'hstrab','hombre','formal','casada','menores','ambientes']]
y = base['lila']
X_train, X_test, y_train, y_test = train_test_split(
                                        x,
                                        y.values.reshape(-1,1),
                                        train_size   = 0.95,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

#add_constant
#OLS
#fit()
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog=y_train, exog=X_train,)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.465
Model:                            OLS   Adj. R-squared:                  0.465
Method:                 Least Squares   F-statistic:                     1437.
Date:                Fri, 03 Nov 2023   Prob (F-statistic):               0.00
Time:                        15:43:51   Log-Likelihood:                -11539.
No. Observations:               13220   AIC:                         2.310e+04
Df Residuals:                   13211   BIC:                         2.316e+04
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.5047      0.032    295.987      0.0

**ANALISIS:**

- En las variables "menores" y "ambientes", no determina "lila", (Ingreso laboral) con lo que no es significativa o pertinente, se puede observar que a diferencia de las demas variables estas no alteran el R cuadrado y el p valor excede el 0.1 .

- Se puede observar que las variables "hombre" y "formal", son aquellas que explican mas el Ingreso laboral de una persona, ya que el coeficiente en ambos 2 son las que mas determinan al Ingreso laboral ("lila")