<a href="https://kaggle.com/kernels/welcome?src=https://github.com/mayait/ClaseAnalisisDatos/blob/main/regresion_lineal/reg_lineal_simple.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" width=120 /></a>

In [None]:
# Si estás corriendo en tu maquina local, posiblemente necesites instalar las librerias que vamos a utilizar, podrias quitar el comentario a la siguiente linea
# ! pip install sklearn statsmodels pandas numpy

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import statsmodels.api as sm

# Regresión Lineal Simple

- El conjunto de datos contiene información sobre el dinero gastado en publicidad y sus ventas generadas en una empresa. 
- El dinero se gastó en anuncios de televisión, radio y periódicos.
- El objetivo es utilizar la regresión lineal para comprender cómo el gasto en publicidad afecta las ventas.

*Fuente de datos: http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv*
*An Introduction to Statistical Learning
by Gareth James, Daniela Witten, Trevor Hastie and Rob Tibshirani*

In [1]:
! wget https://raw.githubusercontent.com/mayait/ClaseAnalisisDatos/main/regresion_lineal/Advertising.csv

--2022-11-01 19:42:19--  https://raw.githubusercontent.com/mayait/ClaseAnalisisDatos/main/regresion_lineal/Advertising.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4558 (4.5K) [text/plain]
Saving to: ‘Advertising.csv’


2022-11-01 19:42:19 (25.8 MB/s) - ‘Advertising.csv’ saved [4558/4558]



In [None]:
# Cargamos con Pandas la tabla de datos Advertising.csv

data = pd.read_csv("Advertising.csv")

In [None]:
data.head()

In [None]:
data.columns

In [None]:
data.shape

In [None]:
# La columna id es redundante pues pandas ya nos crea un indice.
# La funcion drop dde pandas nos permite eliminar una columna completa.

data.drop(['id'], axis=1)

## Regresión lineal simple

¿Puedes ver alguna relación entre el gasto en TV y las ventas?

In [None]:
# Define el tamaño de la figura
plt.figure(figsize=(16, 8))

# Dibujamos un gráfico de dispersión con Matplotlib para dos variables
plt.scatter(
    data['tv'],
    data['ventas'],
)

# Ponemos etiquetas al chart
plt.xlabel("Dinero gastado en anuncios de televisión ($)")
plt.ylabel("Ventas ($)")
plt.show()

**Generamos una aproximación lineal de estos datos**

In [None]:
# Reshape cambia la estructura donde manipulamos los datos desde una lista simple a un arreglo de numpy, siempre debes hacer esta conversión.
# Prueba sin la conversión

X = data['tv'].values.reshape(-1,1)
y = data['ventas'].values.reshape(-1,1)

#Creamos la regresión
reg = LinearRegression()
reg.fit(X, y)

In [None]:
intercepto = reg.intercept_[0]
coeficiente = reg.coef_[0][0]

# La función Round(), redondea la cantidad de decimales
# Es necesario convertir los números a caracteres con str() para imprimirlos
print("El módelo lineal es: Y = " + str(round(intercepto,2)) + " + " + str(round(coeficiente,2)) + "X")

**Podemos predecir el valor de las ventas para cualquier valor de gasto en tv**

In [None]:
gasto_tv = [[4500],[10]]

# Predict recibe un arreglo y regresa un arreglo de valores
print("Gasto en TV:", gasto_tv)
print("Ventas estimadas:", reg.predict( np.array(gasto_tv) ))

In [None]:
# Predecimos los valores de todas las x
predictions = reg.predict(X)

plt.figure(figsize=(16, 8))

# Dibujamos un gráfico de dispersión con Matplotlib para dos variables
plt.scatter(
    data['tv'],
    data['ventas'],
)

# Dibujamos la linea
plt.plot(
    data['tv'],
    predictions,
    c='red',
    linewidth=2
)

# Ponemos etiquetas al chart
plt.xlabel("Dinero gastado en anuncios de televisión ($)")
plt.ylabel("Ventas ($)")
plt.show()



**Para ver si el modelo es bueno, necesitamos mirar el valor R² y el valor p de cada coeficiente.**

In [None]:
X = data['tv']
y = data['ventas']

X2 = sm.add_constant(X)
est = sm.OLS(y, X2)
est2 = est.fit()

print(est2.summary())

In [None]:
r_cuadrado = est2.rsquared
valor_p = est2.pvalues
print(est2.pvalues)

### Análisis 

- Tenemos un valor p que es muy bajo (aunque probablemente no sea exactamente 0)
- Existe una fuerte correlación entre estos coeficientes y el objetivo (Ventas)
- Tenemos un R² de 0.612. Por lo tanto, alrededor del 60% de la variabilidad de las ventas se explica por la cantidad gastada en anuncios de televisión. 
- Esto está bien, pero definitivamente no es lo mejor que podemos para predecir con precisión las ventas. 

# Ejercicio 1:
Realiza el analisis de regresión simple para las variables radio y periodico.
- ¿Hay relación entre las variables y las ventas?