<a href="https://colab.research.google.com/github/ctalamilla/regresion-UDA/blob/main/Copia_de_rg_rls_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/dba.png?raw=true)

![](https://scikit-learn.org/stable/_static/scikit-learn-logo-small.png)

#**Regresión Lineal**

***La regresión lineal es un método estadístico que trata de modelar la relación entre una variable continua y una o más variables independientes mediante el ajuste de una ecuación lineal. Se llama regresión lineal simple cuando solo hay una variable independiente y regresión lineal múltiple cuando hay más de una. Dependiendo del contexto, a la variable modelada se le conoce como variable dependiente o variable respuesta, y a las variables independientes como regresores, predictores o features.***

# **Regresión Lineal Simple**

***Supóngase que un analista de recursos humanos  quiere saber si existe una relación entre el salario de los empleados y la cantidad de años de experiencia que tienen en la empresa. En caso de existir y de establecer un modelo, podría predecir el salario en virtud de los años de experiencia...***

## **Librerías**

### **Análisis de datos**

In [None]:
import pandas as pd
import numpy as np
from scipy.stats import pearsonr

### **Gráficos**

In [None]:
import plotly.express as px
import plotly.graph_objs as go

### **Preprocesado y modelado**

#### **Con Scikit-learn**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics

## **Conjunto de Datos**

***Para la creación del DataFrame, se arman listas con datos...***

In [None]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BA/main/Datasets/salary_data.csv"

In [None]:
datos = pd.read_csv(url, index_col=0)
datos.head()

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0
3,2.0,43525.0
4,2.2,39891.0


In [None]:
datos.shape

(30, 2)

## **Representación gráfica**

In [None]:
px.scatter(datos,
           x=datos.YearsExperience,
           y=datos.Salary,
           title="Distribución de Salarios y Años de Experiencia",
           template="gridon")

## **Correlación lineal**

In [None]:
corr_test = pearsonr(x = datos['YearsExperience'], y =  datos['Salary'])
print("Coeficiente de correlación de Pearson: ", corr_test[0])
print("P-value: ", corr_test[1])

Coeficiente de correlación de Pearson:  0.9782416184887599
P-value:  1.1430681092271567e-20


***El test de correlación muestran una relación lineal, de intensidad mas que considerable (r = 0.978) y muy significativa (p-value = 1.143068). Tiene mucho sentido intentar generar un modelo de regresión lineal con el objetivo de predecir el salario de la persona en función de sus años de experiencia.***


In [None]:
pearson = round(datos.corr(),4)

In [None]:
px.imshow(pearson,
          title = "Matriz de Correlación",
          text_auto = True,
          template = "gridon",
          labels = {"color":"Coeficiente"})

## ***Ajuste del modelo***

***Se ajusta un modelo empleando como variable respuesta Salario y como predictor Años de Experiencia. Como en todo estudio predictivo, no solo es importante ajustar el modelo, sino también cuantificar su capacidad para predecir nuevas observaciones. Para poder hacer esta evaluación, se dividen los datos en dos grupos, uno de entrenamiento y otro de test.***

### ***Scikit-learn***

#### ***División de los datos en train y test***

In [None]:
X = datos[['YearsExperience']]
y = datos['Salary']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2021)

In [None]:
X.head(3)

Unnamed: 0,YearsExperience
0,1.1
1,1.3
2,1.5


In [None]:
X.shape

(30, 1)

**En este caso X no es una serie, es un dataframe, de 30 filas por 1 columna, es decir tiene dos dimensiones**

#### ***Creación del modelo***

In [None]:
modelo = LinearRegression()
modelo.fit(X = X_train, y = y_train)

#### ***Información del modelo***

In [None]:
print(f"Coeficiente de determinación R^2: {modelo.score(X, y)} para todos los datos")

Coeficiente de determinación R^2: 0.9558054160915245 para todos los datos


***Una vez entrenado el modelo, se evalúa la capacidad predictiva empleando el conjunto de test.***



#### **Predicción**

In [None]:
predicciones = modelo.predict(X = X_test)
print(predicciones[0:3,])


[73017.95275371 82391.55768653 64581.70831418]


### **Metricas**

In [None]:
df = pd.DataFrame()
df["Salary"] = y_test
df["Prediccion"] = predicciones
df

Unnamed: 0,Salary,Prediccion
15,67938.0,73017.952754
18,81363.0,82391.557687
11,55794.0,64581.708314
4,39891.0,47709.219435
9,57189.0,61769.626834
8,64445.0,57082.824368
27,112635.0,117073.895938
3,43525.0,45834.498449


#### **$R^2$**

In [None]:
round(metrics.r2_score(y_test, predicciones),4)

0.9298

#### **MAE**

In [None]:
round(metrics.mean_absolute_error(y_test, predicciones),4)

5175.7044

#### **MSE**

In [None]:
round(metrics.mean_squared_error(y_test, predicciones, squared=False),4)

5760.1386

## ***Interpretación***

In [None]:
print(f"Coeficiente de determinación R^2: {round(modelo.score(X, y),4)} para los 30 datos")

Coeficiente de determinación R^2: 0.9558 para los 30 datos


In [None]:
print(f"Coeficiente de determinación R^2: {round(modelo.score(X_test, y_test),4)} para el conjunto de testeo")

Coeficiente de determinación R^2: 0.9298 para el conjunto de testeo


In [None]:
X_test

Unnamed: 0,YearsExperience
15,4.9
18,5.9
11,4.0
4,2.2
9,3.7
8,3.2
27,9.6
3,2.0


In [None]:
X_test_df = pd.DataFrame()
X_test_df["Salary"] = y_test
X_test_df["Prediccion"] = predicciones

In [None]:
X_test

Unnamed: 0,YearsExperience
15,4.9
18,5.9
11,4.0
4,2.2
9,3.7
8,3.2
27,9.6
3,2.0


In [None]:
fig = go.Figure([go.Scatter(x = X_test.YearsExperience,
                            y = X_test_df.Salary,
                            mode = "markers",
                            name = "Datos reales"),
                 go.Scatter(x = X_test.YearsExperience,
                            y = X_test_df.Prediccion,
                            mode = "markers",
                            name = "Predicción"),
                 go.Scatter(x = X_test.YearsExperience,
                            y = X_test_df.Prediccion,
                            mode = "lines",
                            name = "Regresión Lineal"),
                 ])

fig.update_layout(template =    "gridon",
                  title =       "Regresion lineal simple",
                  yaxis_title = "Salario",
                  xaxis_title = "Años de experiencia")

fig.show()