## Dataset
Una compañía de E-commerce vende ropa online, pero tienen una tienda física donde pueden venir a recibir asesoría, consejos de estilos. Intentan identificar si debe enfocarse en mejorar su experiencia de app movil o en su página web, para ello se detalla las características que son la información de los clientes:

* Avatar: Color de Avatar.
* Avg. Session Length: Average session of in-store style advice sessions.
* Time on App: Tiempo promedio que pasa en la app en minutos.
* Time on Website: Tiempo promedio que pasa en el sitio web en minutos.
* Length of Membership: Cuantos años el cliente ha sido cliente.
* Yearly Amount Spent

# Librerías

Importamos las librerías que usaremos, ***pandas*** para el manejo de la data, ***numpy*** para operaciones aritméticas,
***matplotlib.pyplot*** y ***seaborn*** para los gráficos.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics

**traint_test_split** nos servirá para dividir nuestro dataset

***LinearRegression*** nos servirá para operar con la regresión lineal

***metrics*** nos servirá para obtener las métricas de nuestra predicción

# Manejo de la Data

Cargamos nuestra data en la variable ***df***

In [None]:
df=pd.read_csv('../input/ecommerce-customers/Ecommerce Customers.csv')

Obtenemos una vista previa de nuestra data

In [None]:
df.head()

In [None]:
df.columns

In [None]:
df.info()

In [None]:
df.describe()


# Análisis visual de la data

In [None]:
sns.pairplot(df)

In [None]:
sns.heatmap(df.corr(), annot=True)

Se observa que hay mayor correlación entre *Lenght of Membership* y *Yearly Amount Spent*

Esto quiere decir que mientras más antiguo es un cliente, este tiende a gastar más al año.

In [None]:
sns.lmplot(x='Length of Membership',y='Yearly Amount Spent',data=df)
plt.show()

# Regresión lineal

Para empezar crearemos un dataframe ***X*** que contendrá las columnas *Avg. Session Length*, *Time on App*, *Time on Website* y *Length of Membership*.

Luego crearemos otro dataframe ***y*** que contenga la columna *Yearly Amount Spent*.


In [None]:
X = df[['Avg. Session Length', 'Time on App', 'Time on Website', 'Length of Membership']]
#X

In [None]:
y= df['Yearly Amount Spent']
#y

Ahora dividiremos estos 2 dataframes en sus respectivos train/test con la función **train_test_split()**, la proporción será de 70% / 30% y la semilla que usaremos es 10.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10)

Lo que sigue es crear un objeto de tipo **LinearRegression** para hacer uso de los métodos:

-**fit()** para adecuar nuestra data al modelo de regresión lineal

-**coef_** para ver los coeficientes de nuestro modelo


In [None]:
lm = LinearRegression()

In [None]:
lm.fit(X_train,y_train)

In [None]:
lm.coef_

Una vez hecho esto tenemos listos el 'peso' de cada atributo con relación a lo que gasta un cliente al año.

In [None]:
resultados = pd.DataFrame(lm.coef_,X.columns,columns=['Coeff'])

In [None]:
resultados

¿Qué significan estas métricas?

-Una unidad de *Avg. Session Lenght* se asocia a un aumento de 25.8 en lo que gasta el cliente al año.

-Una unidad de *Time on App* se asocia a un aumento de 38.8 en lo que gasta el cliente al año.

-Una unidad de *Time on Website* se asocia a un aumento de 0.96 en lo que gasta el cliente al año.

-Una unidad de *Lenght of Membership* se asocia a un aumento de 61.8 en lo que gasta el cliente al año.


# Predicción

Lo que sigue es hacer una predicción de nuestra data de prueba para ver si se asemeja al escenario real. 

In [None]:
predic = lm.predict(X_test)

In [None]:
plt.scatter(y_test,predic)
plt.xlabel('Y Test (valores reales)')
plt.ylabel('valores predecidos')

In [None]:
sns.distplot((y_test-predic), bins=30);

El modelo tiene forma de campana, lo que quiere decir que se hicieron buenas predicciones. 

# Métricas

Para finalizar veremos qué tan preciso fue nuestro modelo observando las siguientes métricas:

-MAE: promedio del valor absoluto de los errores.

-MSE: promedio de los errores al cuadrado.

-RMSE: raíz cuadrada del MSE.

In [None]:
print ('MAE:',metrics.mean_absolute_error(y_test,predic))
print ('MSE:', metrics.mean_squared_error(y_test,predic))
print ('RMSE', np.sqrt(metrics.mean_squared_error(y_test,predic)))

# Conclusión

La empresa de E-commerce tiene dos opciones:

-Mejorar la experiencia en la Aplicación para que los clientes estén más tiempo en ella.

-Mejorar la experiencia en el sitio web para que sea tan eficiente como la aplicación.




-Opción adicional: Mejorar la relación con los clientes para que sean miembros por un largo periodo de tiempo.