<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.04/bds_algoritmos_002_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>

 # **<font color="DeepPink">Modelos supervisados: Regresión Lineal Multiple con `sklearn`</font>**


## **<font color="DeepPink">Bibliotecas**

In [1]:
# Operaciones matemáticas y estadísticas
import pandas as pd
import numpy as np

In [2]:
# Visualización
import plotly.express as px
import plotly.graph_objs as go

## **<font color="DeepPink">Conjunto de Datos**

In [7]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/Ecommerce_Customers.csv"

In [8]:
datos = pd.read_csv(url)

In [9]:
datos.head()

Unnamed: 0,Email,Address,Avatar,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,mstephenson@fernandez.com,"835 Frank Tunnel\nWrightmouth, MI 82180-9605",Violet,34.497268,12.655651,39.577668,4.082621,587.951054
1,hduke@hotmail.com,"4547 Archer Common\nDiazchester, CA 06566-8576",DarkGreen,31.926272,11.109461,37.268959,2.664034,392.204933
2,pallen@yahoo.com,"24645 Valerie Unions Suite 582\nCobbborough, D...",Bisque,33.000915,11.330278,37.110597,4.104543,487.547505
3,riverarebecca@gmail.com,"1414 David Throughway\nPort Jason, OH 22070-1220",SaddleBrown,34.305557,13.717514,36.721283,3.120179,581.852344
4,mstephens@davidson-herman.com,"14023 Rodriguez Passage\nPort Jacobville, PR 3...",MediumAquaMarine,33.330673,12.795189,37.536653,4.446308,599.406092


<p align="justify">
Es una empresa de comercio electrónico con sede en la ciudad de Nueva York que vende ropa en línea, pero también tienen sesiones de asesoramiento sobre estilo y ropa en la tienda. Los clientes que vienen a la tienda, tienen sesiones/reuniones con un estilista personal, luego pueden ordenar a través de una aplicación móvil o sitio web la ropa que desean.
<br>
<br>
Intentan identificar si debe enfocarse en mejorar su experiencia de aplicación movil o en su página web.
<br>
<br>
Este es un conjunto de datos de los clientes de la empresa. El cual tiene información del cliente, como correo electrónico, dirección postal y su color de avatar. También tiene columnas de valores numéricos:

* **Avg. Session Length**: duración promedio de sesiones de asesoramiento de estilo en la tienda.

* **Time on App**: tiempo promedio de permanencia en la aplicación en minutos.

* **Time on Website**: tiempo promedio de permanencia en el sitio web en minutos.

* **Length of Membership**: cuántos años ha sido miembro el cliente.

* **Yearly Amount Spent**: monto anual gastado en la plataforma.





In [10]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Email                 500 non-null    object 
 1   Address               500 non-null    object 
 2   Avatar                500 non-null    object 
 3   Avg. Session Length   500 non-null    float64
 4   Time on App           500 non-null    float64
 5   Time on Website       500 non-null    float64
 6   Length of Membership  500 non-null    float64
 7   Yearly Amount Spent   500 non-null    float64
dtypes: float64(5), object(3)
memory usage: 31.4+ KB


<p align="justify">
En la biblioteca <code>Pandas</code>, el método <code>unique()</code> se utiliza para obtener los valores únicos presentes en una serie o columna de un DataFrame. El objetivo es revisar que no hayan clientes repetidos.  

In [11]:
len(datos.Email.unique())

500

<p align="justify">
Con el método <code>drop()</code> de <code>Pandas</code> se eliminan las columnas del <code>DataFrame</code> que ya no son útiles. Descartamos <code>Avatar</code>, <code>Email</code> y <code>Address</code>.

In [12]:
datos = datos.drop(["Avatar","Email","Address"], axis=1)

<p align="justify">
Se renombran las columnas para asignarles nombres más descriptivos y significativos. Es posible utilizar el método <code>rename()</code>.

In [13]:
# Renombramos columnas:
datos.rename(columns={"Avg. Session Length": "Tiempo_sesión",
                      "Time on App":"Tiempo_app",
                      "Time on Website":"Tiempo_web",
                      "Length of Membership":"Años_miembro",
                      "Yearly Amount Spent":"Gasto_anual"},inplace=True)

In [14]:
datos.head()

Unnamed: 0,Tiempo_sesión,Tiempo_app,Tiempo_web,Años_miembro,Gasto_anual
0,34.497268,12.655651,39.577668,4.082621,587.951054
1,31.926272,11.109461,37.268959,2.664034,392.204933
2,33.000915,11.330278,37.110597,4.104543,487.547505
3,34.305557,13.717514,36.721283,3.120179,581.852344
4,33.330673,12.795189,37.536653,4.446308,599.406092


## **<font color="DeepPink">Análisis exploratorio de datos (Estadística Descriptiva)**

<p align="justify">
Primero exploremos estos datos, antes de realizar la regresión lineal para tomar una decisión.
<br>
<br>
Solo utilizaremos datos numéricos.

In [17]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Tiempo_sesión  500 non-null    float64
 1   Tiempo_app     500 non-null    float64
 2   Tiempo_web     500 non-null    float64
 3   Años_miembro   500 non-null    float64
 4   Gasto_anual    500 non-null    float64
dtypes: float64(5)
memory usage: 19.7 KB


In [16]:
datos.describe().T.round(3)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Tiempo_sesión,500.0,33.053,0.993,29.532,32.342,33.082,33.712,36.14
Tiempo_app,500.0,12.052,0.994,8.508,11.388,11.983,12.754,15.127
Tiempo_web,500.0,37.06,1.01,33.914,36.349,37.069,37.716,40.005
Años_miembro,500.0,3.533,0.999,0.27,2.93,3.534,4.127,6.923
Gasto_anual,500.0,499.314,79.315,256.671,445.038,498.888,549.314,765.518


### **<font color="DeepPink">Distribución de los datos de la variable respuesta (`Gasto_anual`)**

In [18]:
from scipy.stats import norm

In [19]:
#Distribución teórica
mu, sigma = norm.fit(datos.Gasto_anual)
print(mu)
print(sigma)

499.31403825859053
79.23542707105925


In [20]:
x = np.linspace(datos.Gasto_anual.min(),
                datos.Gasto_anual.max(),
                num = 100)
y = norm.pdf(x, mu, sigma)

In [22]:
fig = go.Figure([go.Scatter(x = x,
                            y = y,
                            line = {"width":3},
                            name = "Función Densidad de Probabilidad Teórica (Normal)"),

                 go.Histogram(x=datos.Gasto_anual,
                              histnorm = "probability density",
                              name = "Distribución Real")])

fig.update_layout(template = "simple_white",
                  title = "Distribución del Gasto Anual",
                  )

fig.show()

Podemos observar que el gasto anual (variable respuesta) está normalmente distribuido.

### **<font color="DeepPink">Matriz de correlación**

In [23]:
from scipy.stats import pearsonr

In [24]:
correlacion = pearsonr(x = datos.Tiempo_app, y =  datos.Gasto_anual)
print("")
print("Coeficiente de correlación de Pearson: {}".format(round(correlacion[0],4)))
print("P-valor: {}".format(correlacion[1]))


Coeficiente de correlación de Pearson: 0.4993
P-valor: 6.905842369973249e-33


<p align="justify">
El test de correlación muestran una <b>relación lineal positiva de intensidad media</b> (r = 0.5) y <b>estadísticamente significativa</b> (p-valor = 6.905842369973249e-33).

<p align="justify">
El método <code>corr()</code> en <code>Pandas</code> se utiliza para calcular la matriz de correlación entre las variables numéricas de un DataFrame. Esta matriz muestra las correlaciones entre pares de variables y es útil para analizar la relación lineal entre diferentes variables en un conjunto de datos.

In [25]:
corr_matrix = round(datos.corr(),3)
corr_matrix

Unnamed: 0,Tiempo_sesión,Tiempo_app,Tiempo_web,Años_miembro,Gasto_anual
Tiempo_sesión,1.0,-0.028,-0.035,0.06,0.355
Tiempo_app,-0.028,1.0,0.082,0.029,0.499
Tiempo_web,-0.035,0.082,1.0,-0.048,-0.003
Años_miembro,0.06,0.029,-0.048,1.0,0.809
Gasto_anual,0.355,0.499,-0.003,0.809,1.0


<p align="justify">
El <b>Mapa de calor</b> o <b>Heatmap</b> es una herramienta gráfica utilizada para visualizar y analizar la relación entre variables en un conjunto de datos.

Tradicionalmente, la biblioteca [Seaborn](https://seaborn.pydata.org/generated/seaborn.heatmap.html) ha sido comúnmente empleada para generar Mapas de calor.

No obstante, en esta ocasión hemos optado por utilizar la biblioteca [Plotly](https://plotly.com/python/imshow/) para llevar a cabo esta representación gráfica.



In [26]:
px.imshow(corr_matrix,
          title = "Matriz de Correlacion",
          text_auto=True,
          color_continuous_scale='fall',
          labels={"color":"Indice"})

<p align="justify">
A primera vista, se evidencia una relación fuerte entre la variable explicativa <code>Años_miembro</code> y la variable <code>Gasto_anual</code>. Asimismo, se puede apreciar una relación moderada entre la variable explicativa <code>Tiempo_app</code> y la variable <code>Gasto_anual</code>. La relación entre <code>Tiempo_web</code> y <code>Gasto_anual</code> es nula.
<br>
<br>
No obstante, no se observa una correlación significativa entre las variables explicativas entre sí. Esto indica que las variables explicativas son <b>independientes</b> entre sí y no hay una relación directa o sistemática entre ellas en el conjunto de datos analizado. Cada una de ellas puede proporcionar información única y no redundante para explicar la variable respuesta (<code>Gasto_anual</code>)

### **<font color="DeepPink">Scatterplot de cada variable explicativa**

In [27]:
X = datos[['Tiempo_sesión', 'Tiempo_app','Tiempo_web','Años_miembro']]
y = datos['Gasto_anual']

In [28]:
X.head()

Unnamed: 0,Tiempo_sesión,Tiempo_app,Tiempo_web,Años_miembro
0,34.497268,12.655651,39.577668,4.082621
1,31.926272,11.109461,37.268959,2.664034
2,33.000915,11.330278,37.110597,4.104543
3,34.305557,13.717514,36.721283,3.120179
4,33.330673,12.795189,37.536653,4.446308


In [29]:
y.head()

0    587.951054
1    392.204933
2    487.547505
3    581.852344
4    599.406092
Name: Gasto_anual, dtype: float64

In [30]:
for i in X.columns:
  fig = px.scatter(datos,
             x = i,
             y = y,
             trendline="ols",
             trendline_color_override="darkorange",
             template = "gridon",
             title = i)
  fig.show()

 ## **<font color="DeepPink">Estandarización de variables numéricas</font>**

<p align="justify">
<code>StandardScaler</code> es una clase de la biblioteca <code>scikit-learn</code> en Python que se utiliza para estandarizar variables numéricas en un conjunto de datos. La estandarización es un paso común en el preprocesamiento de datos antes de aplicar técnicas de aprendizaje automático, ya que ayuda a que las variables tengan una escala común y elimina cualquier sesgo relacionado con la escala de las variables explicativas.


In [31]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

<p align="justify">
La clase <code>StandardScaler</code> implementa el método <code>fit_transform()</code> que se utiliza para ajustar y transformar los datos al mismo tiempo. Este método calcula la media y la desviación estándar de cada variable del conjunto de datos y luego las utiliza para estandarizar cada registro. La estandarización se realiza restando la media a cada registro y dividiendolo por la desviación estándar, lo que resulta en variables con una media de cero y una desviación estándar de uno.

In [32]:
X_scaled = scaler.fit_transform(X)
X_scaled

array([[ 1.45635117,  0.60728003,  2.49358859,  0.55010651],
       [-1.13650215, -0.94946372,  0.20655573, -0.87092735],
       [-0.05272322, -0.72713923,  0.04968115,  0.5720669 ],
       ...,
       [-0.40987204, -0.55685385,  1.26018697,  1.42726105],
       [ 0.27159708,  0.34124841, -0.21829075, -1.19904197],
       [ 0.66842216,  0.36882066, -1.27732288, -0.79967926]])

<p align="justify">
Para transformar los datos estandarizados (<code>numpy array</code>) a un <code>DataFrame</code> es posible utilizar la biblioteca el método <code>DataFrame()</code> de <code>Pandas</code>. En resumen, este método permite crear un <code>DataFrame</code> a partir de la matriz de datos estandarizados.

In [33]:
X_scaled = pd.DataFrame(X_scaled, columns = X.columns)
X_scaled

Unnamed: 0,Tiempo_sesión,Tiempo_app,Tiempo_web,Años_miembro
0,1.456351,0.607280,2.493589,0.550107
1,-1.136502,-0.949464,0.206556,-0.870927
2,-0.052723,-0.727139,0.049681,0.572067
3,1.263010,1.676390,-0.335978,-0.413996
4,0.279838,0.747770,0.471737,0.914422
...,...,...,...,...
495,0.186035,1.524003,-0.636429,0.213479
496,1.663357,-0.359187,0.128603,0.043139
497,-0.409872,-0.556854,1.260187,1.427261
498,0.271597,0.341248,-0.218291,-1.199042


 ## **<font color="DeepPink">División del conjunto de datos</font>**

<p align="justify">
👀 División del conjunto de entrenamiento y prueba.
</p>


In [34]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test  = train_test_split(X_scaled, y, random_state=123)

In [35]:
X_train.shape

(375, 4)

In [36]:
X_test.shape

(125, 4)

In [37]:
y_train.shape

(375,)

In [38]:
y_test.shape

(125,)

 ## **<font color="DeepPink">Ajuste del modelo con sklearn</font>**

<p align="justify">
La clase <code>LinearRegression</code> de <code>scikit-learn</code> proporciona una interfaz sencilla y eficiente para ajustar modelos de regresión lineal y realizar predicciones. Es ampliamente utilizada en problemas de regresión en los que se busca modelar y predecir una variable dependiente a partir de variables independientes mediante una relación lineal.
<br>
<br>
En este caso, se intenta predecir el valor del <code>Gasto_anual</code> en función de las variables explicativas <code>Tiempo_sesión</code>, <code>Tiempo_app</code>,	<code>Tiempo_web</code> y <code>Años_miembro</code>.
<br>
<br>
Problema de regresión lineal múltiple.

In [39]:
from sklearn.linear_model import LinearRegression

In [41]:
model_1 = LinearRegression().fit(X_train, y_train)
print("")
print(f"intercept = {model_1.intercept_}")
print(f"coef = {model_1.coef_}")


intercept = 499.14110628577623
coef = [25.14058939 38.60261634  0.77873252 61.59498109]


### **<font color="DeepPink">Interpretación**

$Gasto \ anual = 499.1+25.1 × Tiempo \ sesión + 38.6 × Tiempo \ app + 0.8 × Tiempo \ web + 61.6 × Años\ miembro$

**Interpretación de los coeficientes:**

Manteniendo las otras características fijas,
+ un incremento de 1 unidad en `Tiempo_sesión` está asociado con un incremento de 25.14 en `Gasto_anual`,
+ un incremento de 1 unidad en `Tiempo_app` está asociado con un incremento de 38.6 en `Gasto_anual`,
+ un incremento de 1 unidad en `Tiempo_web` está asociado con un incremento de 0.77 en `Gasto_anual`y
+ un incremento de 1 unidad en `Años_miembro` está asociado con un incremento de 61.59 en `Gasto_anual`.

### **<font color="DeepPink">Predicción y evaluación del modelo**

Una vez ajustado el modelo, procedemos a realizar predicciones y evaluar su desempeño

In [42]:
prediction = model_1.predict(X_test)
prediction[:5]

array([451.15603635, 449.76991439, 565.6671197 , 506.74017581,
       389.26917501])

In [43]:
tabla = pd.DataFrame({"Prediccion":prediction,
                      "Real":y_test,
                      "Residuos": (y_test-prediction),
                      })
tabla.head()

Unnamed: 0,Prediccion,Real,Residuos
229,451.156036,436.283498,-14.872538
337,449.769914,440.002748,-9.767167
327,565.66712,557.252687,-8.414433
416,506.740176,511.038786,4.29861
306,389.269175,387.534716,-1.734459


In [44]:
model_1.score(X_test, y_test)

0.984962373697158

In [45]:
from sklearn import metrics
SMSE = round(metrics.mean_squared_error(y_test, prediction,squared=False),2) #Error cuadrático medio
MAE = round(metrics.mean_absolute_error(y_test, prediction),2) #Error absoluto medio
R2 = round(metrics.r2_score(y_test, prediction),4)
print("")
print("SMSE: {}".format(SMSE))
print("MAE: {}".format(MAE))
print("R2: {}".format(R2))


SMSE: 10.39
MAE: 8.24
R2: 0.985


## **<font color="DeepPink">Creación del Pipeline**

In [46]:
from sklearn.pipeline import make_pipeline

In [47]:
model = make_pipeline(StandardScaler(), LinearRegression())
model

In [48]:
from sklearn.model_selection import cross_validate

In [49]:
cv_results = cross_validate(model, X, y, cv=5)
cv_results

{'fit_time': array([0.00910997, 0.00449419, 0.00423741, 0.00405645, 0.00402689]),
 'score_time': array([0.00188899, 0.00160813, 0.00156403, 0.00155592, 0.00155044]),
 'test_score': array([0.98274654, 0.9821047 , 0.98717189, 0.9842572 , 0.98219012])}

In [50]:
scores = cv_results["test_score"]
print("")
print("El R2 mediante cross-validation es: "
      f"{scores.mean():.3f} ± {scores.std():.3f}")


El R2 mediante cross-validation es: 0.984 ± 0.002


*El modelo con todas las variables numéricas como predictores tiene un $𝑅^2$  muy alto (0.984), es capaz de explicar el 98.4% de la variabilidad observada en el* `Gasto_anual`.

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:<br><br>
✅ Estudiamos la correlación lineal entre variables.
<br>
✅ Procedimos a estandarizar las variables explicativas numéricas con el fin de homogeneizar su escala.
<br>
✅ Utilizamos la biblioteca <code>scikit-learn</code> para entrenar un modelo de regresión lineal múltiple.
<br>
✅ Realizamos la predicción y evaluación, usando diferentes métricas, con un conjunto de prueba.
<br>
✅ Implementamos un Pipeline y aplicamos la validación cruzada.
<br>


<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
