<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BA/blob/main/rg_rlm_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/dba.png?raw=true)

![](https://scikit-learn.org/stable/_static/scikit-learn-logo-small.png)

# **Regresión**


**La regresión lineal es un método estadístico que trata de modelar la relación entre una variable continua y una o más variables independientes mediante el ajuste de una ecuación lineal. Se llama regresión lineal simple cuando solo hay una variable independiente y regresión lineal múltiple cuando hay más de una. Dependiendo del contexto, a la variable modelada se le conoce como variable dependiente o variable respuesta, y a las variables independientes como regresores, predictores o features.**

# ***Regresión Lineal Multiple***

***Supóngase que el departamento de ventas de una empresa quiere estudiar la influencia que tiene la publicidad a través de distintos canales sobre el número de ventas de un producto. Se dispone de un conjunto de datos que contiene los ingresos (en millones) conseguido por ventas en 200 regiones, así como la cantidad de presupuesto, también en millones, destinado a anuncios por radio, TV y periódicos en cada una de ellas.***


## **Bibliotecas**

### **Instalando bibliotecas**

In [None]:
!pip install plotly --upgrade

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting plotly
  Downloading plotly-5.10.0-py2.py3-none-any.whl (15.2 MB)
[K     |████████████████████████████████| 15.2 MB 5.3 MB/s 
Installing collected packages: plotly
  Attempting uninstall: plotly
    Found existing installation: plotly 5.5.0
    Uninstalling plotly-5.5.0:
      Successfully uninstalled plotly-5.5.0
Successfully installed plotly-5.10.0


### **Análisis de datos**

In [None]:
import numpy as np
import pandas as pd

### **Gráficos**

In [None]:
import plotly.express as px

### **Preprocesado y modelado**

#### **Con Scikit-learn**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

## **Conjunto de Datos**

In [None]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BA/main/Datasets/publicidad_multiple.csv"

## ***Dataframe***

In [None]:
datos = pd.read_csv(url, index_col = 0)

In [None]:
datos.head(10)

Unnamed: 0,ventas,radio,tv,periodico
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9
5,8.7,48.9,75.0,7.2
6,57.5,32.8,23.5,11.8
7,120.2,19.6,11.6,13.2
8,8.6,2.1,1.0,4.8
9,199.8,2.6,21.2,10.6


## **Relación entre variables**

***El primer paso a la hora de establecer un modelo lineal múltiple es estudiar la relación que existe entre variables. Esta información es crítica a la hora de identificar cuáles pueden ser los mejores predictores para el modelo, y para detectar colinealidad entre predictores. A modo complementario, es recomendable representar la distribución de cada variable mediante histogramas.***

In [None]:
corr_matrix = round(datos.corr(),3)

### **Matriz de correlaciones**

In [None]:
px.imshow(corr_matrix,
          title = "Matriz de correlacion",
          text_auto = True, 
          template = "gridon",
          labels={"color":"Coeficiente"})

### **Gráfico de distribución para cada variable numérica**

In [None]:
datos.columns

Index(['ventas', 'radio', 'tv', 'periodico'], dtype='object')

In [None]:
datos.columns[1:4]

Index(['radio', 'tv', 'periodico'], dtype='object')

In [None]:
for i in datos.columns[1:4]:
  fig = px.scatter(datos, 
                   x = i,
                   y = datos.ventas,
                   template = "gridon",
                   title = i)
  
  fig.show()

## ***Ajuste del modelo***

**Se ajusta un modelo lineal múltiple con el objetivo de predecir las ventas en función de la inversión en los tres canales de publicidad.**


### **División de los datos en train y test**

In [None]:
X = datos[["radio","tv","periodico"]]
y = datos[["ventas"]]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, 
                                                    y,
                                                    train_size = 0.8,
                                                    random_state = 12345)

### **Creación del modelo**

In [None]:
modelo = LinearRegression()
modelo.fit(X = X_train, y = y_train)

LinearRegression()

#### ***Información del modelo***

In [None]:
print("Coeficiente de determinación R^2:", modelo.score(X, y))

Coeficiente de determinación R^2: 0.8434303747794226


### **Predicción**

In [None]:
predicciones = modelo.predict(X = X_test)
print(predicciones[0:3,])

[[246.60056106]
 [148.74891943]
 [  8.74145523]]


In [None]:
X_test["Ventas"] = y_test
X_test["Prediccion"] = predicciones
X_test.head(9)

Unnamed: 0,radio,tv,periodico,Ventas,Prediccion
52,41.7,39.6,22.6,216.4,246.600561
157,1.3,24.3,10.1,149.8,148.748919
135,47.0,8.5,11.6,48.3,8.741455
140,17.0,12.9,10.9,73.4,105.306363
56,28.1,41.4,5.5,7.3,-36.03724
95,31.6,52.9,16.9,163.3,174.583561
54,28.8,15.9,20.2,262.7,243.530885
50,3.1,34.6,11.4,199.8,168.977223
17,39.6,55.8,24.4,281.4,291.661167
55,49.4,60.0,23.7,198.9,242.886978
