<a href="https://colab.research.google.com/github/Marcelooyola/Modulo7/blob/main/rg_rls_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/dba.png?raw=true)

![](https://scikit-learn.org/stable/_static/scikit-learn-logo-small.png)

#**Regresión Lineal**

***La regresión lineal es un método estadístico que trata de modelar la relación entre una variable continua y una o más variables independientes mediante el ajuste de una ecuación lineal. Se llama regresión lineal simple cuando solo hay una variable independiente y regresión lineal múltiple cuando hay más de una. Dependiendo del contexto, a la variable modelada se le conoce como variable dependiente o variable respuesta, y a las variables independientes como regresores, predictores o features.***

# **Regresión Lineal Simple**

***Supóngase que un analista de recursos humanos  quiere saber si existe una relación entre el salario de los empleados y la cantidad de años de experiencia que tienen en la empresa. En caso de existir y de establecer un modelo, podría predecir el salario en virtud de los años de experiencia...***

## **Librerías**

### **Análisis de datos**

In [12]:
import pandas as pd
import numpy as np
from scipy.stats import pearsonr

### **Gráficos**

In [13]:
import plotly.express as px #graficos estandarizados
import plotly.graph_objs as go #graficos más personalizados

### **Preprocesado y modelado**

#### **Con Scikit-learn**

In [14]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics

## **Conjunto de Datos**

***Para la creación del DataFrame, se arman listas con datos...***

In [15]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BA/main/Datasets/salary_data.csv"

In [16]:
datos = pd.read_csv(url, index_col=0)
datos.head()

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0
3,2.0,43525.0
4,2.2,39891.0


In [17]:
datos.shape

(30, 2)

## **Representación gráfica**

In [18]:
px.scatter(datos,
           x=datos.YearsExperience,
           y=datos.Salary,
           trendline = 'ols', # te grafica la linea de los minimos cuadrados
           title="Distribución de Salarios y Años de Experiencia",
           template="gridon")

## **Correlación lineal**

In [19]:
corr_test = pearsonr(x = datos['YearsExperience'], y =  datos['Salary'])
print("Coeficiente de correlación de Pearson: ", corr_test[0])
print("P-value: ", corr_test[1])

Coeficiente de correlación de Pearson:  0.9782416184887599
P-value:  1.1430681092271567e-20


***El test de correlación muestran una relación lineal, de intensidad mas que considerable (r = 0.978) y muy significativa (p-value = 1.143068). Tiene mucho sentido intentar generar un modelo de regresión lineal con el objetivo de predecir el salario de la persona en función de sus años de experiencia.***


In [20]:
pearson = round(datos.corr(),4)

In [21]:
px.imshow(pearson,
          title = "Matriz de Correlación",
          text_auto = True,
          template = "gridon",
          labels = {"color":"Coeficiente"})

## ***Ajuste del modelo***

***Se ajusta un modelo empleando como variable respuesta Salario y como predictor Años de Experiencia. Como en todo estudio predictivo, no solo es importante ajustar el modelo, sino también cuantificar su capacidad para predecir nuevas observaciones. Para poder hacer esta evaluación, se dividen los datos en dos grupos, uno de entrenamiento y otro de test.***

### ***Scikit-learn***

#### ***División de los datos en train y test***

In [27]:
X = datos[['YearsExperience']] #se pasa como un dataframe, x eso el doble corchete
y = datos['Salary'] #se pasa como una serie de pandas, x eso tiene simple corchete

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

In [28]:
X.head(10)

Unnamed: 0,YearsExperience
0,1.1
1,1.3
2,1.5
3,2.0
4,2.2
5,2.9
6,3.0
7,3.2
8,3.2
9,3.7


In [29]:
y.head(10)

0    39343.0
1    46205.0
2    37731.0
3    43525.0
4    39891.0
5    56642.0
6    60150.0
7    54445.0
8    64445.0
9    57189.0
Name: Salary, dtype: float64

**En este caso X no es una serie, es un dataframe, de 30 filas por 1 columna, es decir tiene dos dimensiones**

#### ***Creación del modelo***

In [30]:
modelo = LinearRegression()
modelo.fit(X = X_train, y = y_train)

In [33]:
#modelo es un objeto de tipo Linear Regresion

modelo.coef_ #es el valor de Beta

array([9653.98650965])

In [34]:
modelo.intercept_ #es el valor de alfa

24622.99435657626



> $y = 24622,99 + 9653,98X$









#### ***Información del modelo***

In [35]:
print(f"Coeficiente de determinación R^2: {modelo.score(X, y)} para todos los datos")

Coeficiente de determinación R^2: 0.9565006201320019 para todos los datos


***Una vez entrenado el modelo, se evalúa la capacidad predictiva empleando el conjunto de test.***



#### **Predicción**

In [37]:
 #en base a lo que aprendio anteriormente, aca hace el testeo sobre el X_test
 #y me tira el valor que tendra el salario (Y) en funcion de los años de experiencia (X)
predicciones = modelo.predict(X = X_test)
print(predicciones)


[ 55515.75118744 125989.85270786  52619.55523455 116335.86619822
  55515.75118744 117301.26484918  63238.94039516  93166.29857507]


### **Metricas**

In [61]:
df = pd.DataFrame()
df['Experiencia'] = X_test #años de experiencia
df["Real"] = y_test #salario real
df["Prediccion"] = predicciones.round(2) #salario predecido
df["Promedio"] = y_test.mean()  #valor promedio de la columna 'Real' (usado en el caso de R al 2)
df

Unnamed: 0,Experiencia,Real,Prediccion,Promedio
7,3.2,54445.0,55515.75,85279.75
29,10.5,121872.0,125989.85,85279.75
5,2.9,56642.0,52619.56,85279.75
26,9.5,116969.0,116335.87,85279.75
8,3.2,64445.0,55515.75,85279.75
27,9.6,112635.0,117301.26,85279.75
12,4.0,56957.0,63238.94,85279.75
21,7.1,98273.0,93166.3,85279.75


In [43]:
#Gráfico
fig = go.Figure([go.Scatter(x=df.Experiencia,
                                y=df.Real,
                                mode='markers',
                                name='real'),
                go.Scatter(x=df.Experiencia,
                                y=df.Prediccion,
                                name='Predicción (OLS)'),
                ])
fig.update_layout(title='Salario en base a los años de experiencia',
                  yaxis_title='Salario',
                  xaxis_title='Años de experiencia'
                )
fig.show()

####**MAE (Error absoluto medio)**

Diferencia en valores absolutos entre la prediccion y el valor real

In [49]:
#forma manual de calcularlo
(sum(abs(df.Real-df.Prediccion)))/len(df)

4353.540000000001

In [50]:
#calculo con la funcion de sklearn
round(metrics.mean_absolute_error(y_test, predicciones),4)

4353.5422

#### **MSE (Error Cuadratico medio)**

Diferencia entre la prediccion y el valor real al Cuadrado

In [51]:
#forma manual de calcularlo
(sum((df.Real-df.Prediccion)**2))/len(df)

25216339.292400002

In [55]:
#calculo con la funcion de sklearn
metrics.mean_squared_error(df.Real, df.Prediccion)

25216339.292400002

#### **RMSE (Raiz Caudrada del Error Cuadratico medio)**

In [59]:
#forma manual
np.sqrt((sum((df.Real-df.Prediccion)**2))/len(df))

5021.587327967124

In [56]:
#calculo con sklearn
metrics.mean_squared_error(df.Real, df.Prediccion, squared=False).round(4)

5021.5873

EN LOS MODELOS SE BUSCA ENTRE MAE Y MSE SE BUSCA EL QUE TENGA MENOR MSE

#### **$R^2$ (Coeficiente de Determinacion)**
Es el porcentaje de influencia que tiene la variable explicativa sobre la variable objetivo

In [63]:
fig = go.Figure([go.Scatter(x=df.Experiencia,
                                y=df.Real,
                                mode='markers',
                                name='real'),
                go.Scatter(x=df.Experiencia,
                           y=df.Prediccion,
                           name='Predicción (OLS)'),
                 go.Scatter(x=df.Experiencia,
                           y=df.Promedio,
                           name='Promedio')
                ])
fig.update_layout(title='Salario en base a los años de experiencia',
                  yaxis_title='Salario',
                  xaxis_title='Años de experiencia')
fig.show()

$R^2(y, \hat{y}) = 1 - \frac{1/n\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{1/n\sum_{i=1}^{n} (y_i - \bar{y})^2}$


In [70]:
#calculo manual
round(1-(((sum((df.Real-df.Prediccion)**2))/len(df))/((sum((df.Real-df.Promedio)**2))/len(df))),4)

0.9678

In [67]:
#calculo con sklearn
round(metrics.r2_score(df.Real, df.Prediccion),4)

0.9678

## ***Interpretación***

In [None]:
print(f"Coeficiente de determinación R^2: {round(modelo.score(X, y),4)} para los 30 datos")

Coeficiente de determinación R^2: 0.9558 para los 30 datos


In [None]:
print(f"Coeficiente de determinación R^2: {round(modelo.score(X_test, y_test),4)} para el conjunto de testeo")

Coeficiente de determinación R^2: 0.9298 para el conjunto de testeo


In [None]:
X_test

Unnamed: 0,YearsExperience
15,4.9
18,5.9
11,4.0
4,2.2
9,3.7
8,3.2
27,9.6
3,2.0


In [None]:
X_test_df = pd.DataFrame()
X_test_df["Salary"] = y_test
X_test_df["Prediccion"] = predicciones

In [None]:
X_test

Unnamed: 0,YearsExperience
15,4.9
18,5.9
11,4.0
4,2.2
9,3.7
8,3.2
27,9.6
3,2.0


In [None]:
fig = go.Figure([go.Scatter(x = X_test.YearsExperience,
                            y = X_test_df.Salary,
                            mode = "markers",
                            name = "Datos reales"),
                 go.Scatter(x = X_test.YearsExperience,
                            y = X_test_df.Prediccion,
                            mode = "markers",
                            name = "Predicción"),
                 go.Scatter(x = X_test.YearsExperience,
                            y = X_test_df.Prediccion,
                            mode = "lines",
                            name = "Regresión Lineal"),
                 ])

fig.update_layout(template =    "gridon",
                  title =       "Regresion lineal simple",
                  yaxis_title = "Salario",
                  xaxis_title = "Años de experiencia")

fig.show()