<a href="https://colab.research.google.com/github/SantiRestrepoOlarte/Analitica_Negocios/blob/main/M1_Algoritmos_bases_introductorios_RL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Preparación del notebook

In [None]:
import warnings

warnings.filterwarnings("ignore")

In [None]:
# Importar librerias necesarias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

%matplotlib inline

# Regresión Lineal

**Caso de estudio**

La industria automovilística es extremadamente competitiva. Con el aumento de los precios del combustible y los consumidores exigentes, los fabricantes de automóviles optimizan constantemente sus procesos para aumentar la eficiencia del combustible. Pero, ¿qué pasaría si se pudiera disponer de un estimador fiable de las millas por galón (mpg) de un coche a partir de algunas especificaciones conocidas sobre el automóvil?

Dispone de un conjunto de datos de características de automóviles de diferentes modelos y marcas. A continuación se detallan las variables disponibles:

* mpg: millas por galón. Esta es la cantidad de combustible consumido por el vehículo particular de una instancia.
* cylinders: Este atributo describe el número de cilindros de cada automóvil
* displacement: Describe la cilindrada del motor
* Horsepower: Potencia de un automóvil
* Weight: Peso de cada automóvil
* Acceleration: Aceleración de automóvil
* Model Year: El año en que se lanzó el modelo de automóvil
* Origin: País de fabricación del automóvil
* Car Name: Nombre del automóvil

Documentación del modelo: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html




In [None]:
# Lectura de los datos
#df_auto = pd.read_csv('data/auto-mpg.csv')
df_auto = pd.read_csv("https://raw.githubusercontent.com/mlondono-oc/LEA2/main/Modulo-2/data/auto-mpg.csv", na_values='?')

In [None]:
# 1: USA
# 2: Europe
# 3: Japan

df_auto.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,1,ford torino


In [None]:
df_auto[df_auto['horsepower'] == '?']

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name


## Exploración de los datos

In [None]:
# Tamaño del dataset
df_auto.shape

(398, 9)

In [None]:
# Información general del dataset
df_auto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(4), int64(4), object(1)
memory usage: 28.1+ KB


In [None]:
# Exploración de los datos
df_auto.describe()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005,1.572864
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627,0.802055
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0,1.0
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0,1.0
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0,1.0
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0,2.0
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0,3.0


In [None]:
# Preparación inicial de los datos


In [None]:
df_auto.shape

In [None]:
# Miremos la relación entre la variable objetivo y los caballos de fuerza
fig, ax  = plt.subplots(1, 1)
ax.scatter(df_auto.horsepower, df_auto.target)
ax.set_xlabel('Caballos de Fuerza')
ax.set_ylabel('Millas por galón (MPG)')
plt.show()


## Marco de validación

In [None]:
# Separemos la variable de entrada de la variable objetivo


In [None]:
# Separación de los datos de entrenamiento y validación


## Regresión Lineal Simple

La regresión lineal simple tiene solo 1 variable predictora y 1 variable dependiente. A partir del conjunto de datos anterior, consideremos el efecto de los caballos de fuerza en el 'mpg' del vehículo.

In [None]:
# Se usa la función LinearRegresion() para
# estimar el modelo de regresión lineal.

# Crea el modelo


# Calibra el modelo


# Imprime los coeficientes


# Imprime el intercepto


In [None]:
# Pronostico para los datos de entrenamiento


In [None]:
# Miremos como se ajusta el modelo a los datos


## Evaluación del modelo de regresión lineal

In [None]:
# Predicciones del modelo

In [None]:
# Métricas de evaluación

# MSE
print("Mean squared error: %.2f" % )

# RMSE
print("RMSE %.2f" % )

#MAE
print("Mean absolute error: %.2f" % )

#MAPE
print("mean absolute percentage error: %.2f" % )

# R2
print("Variance score: %.2f" % )

# R2-adjusted

print("R2-adjusted: %.2f" % )

## Regresion Lineal Multiple

**Ejercicio**

Realice nuevamente el entrenamiento del modelo de regresión lineal utilizando las variables: horsepower, displacement, weight como características

In [None]:
# Excluimos los valores nulos de la columna horsepower


In [None]:
# Separemos las variables de entrada de la variable objetivo


In [None]:
# Separación de los datos de entrenamiento y validación


In [None]:
# Se usa la función LinearRegresion() para
# estimar el modelo de regresión lineal.

# Crea el modelo


# Calibra el modelo


# Imprime los coeficientes


# Imprime el intercepto


In [None]:
# Predicciones


In [None]:
# MSE
print("Mean squared error: %.2f" % )

# RMSE
print("RMSE %.2f" % )

#MAE
print("Mean absolute error: %.2f" % )

#MAPE
print("mean absolute percentage error: %.2f" % )

# R2
print("Variance score: %.2f" % )

# R2-adjusted

print("R2-adjusted: %.2f" % )