<img src="images/logo.png" style="float: right; width: 350px;">
<h1><center>Práctica 2: Solución a un problema de regresión </center></h1>

# Regresión lineal múltiple

**Descripción del problema de negocio** Un fondo de capital de riesgo nos contrató como científico de datos para entrenar un modelo de aprendizaje automático y, de hecho, un modelo de regresión lineal múltiple para comprender las correlaciones entre estos features, que son: el gasto en I+D(R&D Spend), administración(Administration) y marketing (Marketing spend), así como el estado(State) y las ganancias(Profit) de 50 startups.

El **Objetivo** del fondo de capital de riesgo es determinar en qué startup invertir sobre esta información.
Y para nosotras como cientificas de datos, entrenar un modelo de ML que pueda comprender bien estas correlaciones, e implementar este modelo. 

### Importando librerias

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from sklearn.metrics import mean_absolute_error,mean_squared_error,r2_score
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

### Importamos el dataset

In [None]:
dataset = pd.read_csv('50_Startups.csv')
# Independientes
X = dataset.iloc[:, :-1].values
# Dependiente
y = dataset.iloc[:, -1].values

In [None]:
print(X)

In [None]:
#Boxplot para entender la distribucion de cada variable
dataset.boxplot()
plt.show()

In [None]:
# correlation de las variables

# Calculando la correlacion
correlacion=dataset.corr()
correlacion
# Graficando la correlación
sns.heatmap(correlacion, annot=True,
xticklabels=correlacion.columns,
yticklabels=correlacion.columns,
cmap='YlGnBu')
plt.show()

### Codificación(Encoding) de datos categóricos

In [None]:
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

Conjunto de datos preprocesado

In [None]:
print(X)

No tenemos que aplicar escalado de funciones(**feature scaling**).Porque en la ecuación de la regresión lineal múltiple, tenemos coeficiente bn que se multiplica a cada variable independiente xn.

<img src="images/MLR.png" style="float: left; width: 350px;">

Conocemos cada feature, y por lo tanto no importa que unas características tengan valores más altos que otras porque los coeficientes compensarán para poner todo en la misma escala.

### Dividir el conjunto de datos en el conjunto de entrenamiento y el conjunto de prueba

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

### Entrenamiento del modelo de regresión lineal múltiple en el conjunto de entrenamiento

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

### Predicción de los resultados del conjunto de pruebas

In [None]:
y_pred = regressor.predict(X_test)
np.set_printoptions(precision=2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

### Obtener la ecuación de regresión lineal final con los valores de los coeficientes

In [None]:
print(regressor.coef_)
print(regressor.intercept_)

Por lo tanto, la ecuación de nuestro modelo de regresión lineal múltiple es:

$$\textrm{Profit} = 86.6 \times \textrm{Dummy State 1} - 873 \times \textrm{Dummy State 2} + 786 \times \textrm{Dummy State 3} + 0.773 \times \textrm{R&D Spend} + 0.0329 \times \textrm{Administration} + 0.0366 \times \textrm{Marketing Spend} + 42467.53$$

**Nota importante:** Para obtener estos coeficientes llamamos a los atributos "coef_" e "intercept_" de nuestro objeto regresor. Los atributos en Python son diferentes a los métodos y generalmente devuelven un valor simple o una matriz de valores.

### Analizando las métricas

Ahora usaremos la función R2 Score para comparar la precisión de nuestro modelo. **R-cuadrado** (R2) es una medida estadística que representa la proporción de la varianza de una variable dependiente que se explica por una variable o variables independientes en un modelo de regresión. También puede ser conocido como el coeficiente de determinación.

In [None]:
score = r2_score(y_test,y_pred)
score

In [None]:
MAE= mean_absolute_error(y_test,y_pred)
MAE

In [None]:
MSE=mean_squared_error(y_test,y_pred)
MSE

Como podemos ver, tenemos el valor de r-cuadrado del 93%, podemos concluir que nuestro modelo de regresión ajustado es bueno para futuras predicciones.