<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BA/blob/main/rg_rlm_06.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/dba.png?raw=true)

![](https://scikit-learn.org/stable/_static/scikit-learn-logo-small.png)

# **Regresión**


**La regresión lineal es un método estadístico que trata de modelar la relación entre una variable continua y una o más variables independientes mediante el ajuste de una ecuación lineal. Se llama regresión lineal simple cuando solo hay una variable independiente y regresión lineal múltiple cuando hay más de una. Dependiendo del contexto, a la variable modelada se le conoce como variable dependiente o variable respuesta, y a las variables independientes como regresores, predictores o features.**

# ***Regresión Lineal Multiple***

***Supóngase que el departamento de ventas de una empresa quiere estudiar la influencia que tiene la publicidad a través de distintos canales sobre el número de ventas de un producto. Se dispone de un conjunto de datos que contiene los ingresos (en millones) conseguido por ventas en 200 regiones, así como la cantidad de presupuesto, también en millones, destinado a anuncios por radio, TV y periódicos en cada una de ellas.***


## **Bibliotecas**

### **Instalando bibliotecas**

In [None]:
!pip install plotly --upgrade

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting plotly
  Downloading plotly-5.10.0-py2.py3-none-any.whl (15.2 MB)
[K     |████████████████████████████████| 15.2 MB 4.7 MB/s 
Installing collected packages: plotly
  Attempting uninstall: plotly
    Found existing installation: plotly 5.5.0
    Uninstalling plotly-5.5.0:
      Successfully uninstalled plotly-5.5.0
Successfully installed plotly-5.10.0


### **Análisis de datos**

In [None]:
import numpy as np
import pandas as pd

### **Gráficos**

In [None]:
import plotly.express as px
import plotly.graph_objs as go

### **Preprocesado y modelado**

#### **Con Scikit-learn**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics

## **Conjunto de Datos**

In [None]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BA/main/Datasets/publicidad_multiple.csv"

## ***Dataframe***

In [None]:
datos = pd.read_csv(url, index_col = 0)

In [None]:
datos.head(10)

Unnamed: 0,ventas,radio,tv,periodico
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9
5,8.7,48.9,75.0,7.2
6,57.5,32.8,23.5,11.8
7,120.2,19.6,11.6,13.2
8,8.6,2.1,1.0,4.8
9,199.8,2.6,21.2,10.6


## **Sumando radio y television**

In [None]:
escenario = datos.copy(deep=True)

In [None]:
escenario

Unnamed: 0,ventas,radio,tv,periodico
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9
...,...,...,...,...
195,38.2,3.7,13.8,7.6
196,94.2,4.9,8.1,9.7
197,177.0,9.3,6.4,12.8
198,283.6,42.0,66.2,25.5


In [None]:
escenario["radio_tv"] = escenario.radio + escenario.tv

In [None]:
escenario.drop(columns=["radio","tv"], inplace=True)

In [None]:
escenario

Unnamed: 0,ventas,periodico,radio_tv
0,230.1,22.1,107.0
1,44.5,10.4,84.4
2,17.2,9.3,115.2
3,151.5,18.5,99.8
4,180.8,12.9,69.2
...,...,...,...
195,38.2,7.6,17.5
196,94.2,9.7,13.0
197,177.0,12.8,15.7
198,283.6,25.5,108.2


## **Relación entre variables**

***El primer paso a la hora de establecer un modelo lineal múltiple es estudiar la relación que existe entre variables. Esta información es crítica a la hora de identificar cuáles pueden ser los mejores predictores para el modelo, y para detectar colinealidad entre predictores. A modo complementario, es recomendable representar la distribución de cada variable mediante histogramas.***

In [None]:
corr_matrix = round(escenario.corr(),3)

### **Matriz de correlaciones**

In [None]:
px.imshow(corr_matrix,
          title = "Matriz de correlacion",
          text_auto = True, 
          template = "gridon",
          labels={"color":"Coeficiente"})

### **Gráfico de distribución para cada variable numérica**

In [None]:
escenario.columns

Index(['ventas', 'periodico', 'radio_tv'], dtype='object')

In [None]:
escenario.columns[1:3]

Index(['periodico', 'radio_tv'], dtype='object')

In [None]:
for i in escenario.columns[1:3]:
  fig = px.scatter(escenario, 
             x = i,
             y = escenario.ventas,
             template = "gridon",
             title = i)
  fig.show()

## ***Ajuste del modelo***

**Se ajusta un modelo lineal múltiple con el objetivo de predecir las ventas en función de la inversión en los tres canales de publicidad.**


### **División de los datos en train y test**

In [None]:
X = escenario[["periodico","radio_tv"]] #vector de entrada
y = escenario[["ventas"]] #variable objetivo

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, 
                                                    y,
                                                    train_size = 0.8,
                                                    random_state = 12345)

In [None]:
X_train.shape

(160, 2)

In [None]:
X_test.shape

(40, 2)

In [None]:
y_train.shape

(160, 1)

In [None]:
y_test.shape

(40, 1)

### **Creación del modelo**

In [None]:
modelo = LinearRegression()

In [None]:
modelo.fit(X = X_train, y = y_train)

LinearRegression()

#### ***Información del modelo***

In [None]:
#print("Coeficiente de determinación R^2:", modelo.score(X, y))

### **Predicción**

In [None]:
predicciones = modelo.predict(X = X_test)
print(predicciones[0:3,])

[[250.79516437]
 [111.77565882]
 [105.94316732]]


In [None]:
predicciones.shape

(40, 1)

In [None]:
X_test["Ventas"] = y_test # Datos reales
X_test["Prediccion"] = predicciones # Datos prediccion
X_test.head(9)

Unnamed: 0,periodico,radio_tv,Ventas,Prediccion
52,22.6,81.3,216.4,250.795164
157,10.1,25.6,149.8,111.775659
135,11.6,55.5,48.3,105.943167
140,10.9,29.9,73.4,119.959912
56,5.5,69.5,7.3,-1.836188
95,16.9,84.5,163.3,159.666821
54,20.2,44.7,262.7,249.22662
50,11.4,37.7,199.8,120.116977
17,24.4,95.4,281.4,264.918377


### **Metricas**

#### **$R^2$**

In [None]:
round(metrics.r2_score(y_test, predicciones),4)

0.7254

#### **MAE**

In [None]:
round(metrics.mean_absolute_error(y_test, predicciones),4)

38.7931

#### **MSE**

In [None]:
round(metrics.mean_squared_error(y_test, predicciones, squared = False),4)

49.6317