## **Modelo de Regresión**
El objetivo de este ejercicio es encontrar un modelo que permita predecir la cantidad que se gasta por año un cliente en un sitio de comercio electrónico.
Utilizaremos "Decisión Tree" y "random forest"
https://scikit-learn.org/stable/modules/tree.html
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor



## Lectura de datos y exploración

Leer el fichero de datos "*Ecommerce_Customers*.csv"

In [4]:
file_path = "Ecommerce_Customers.csv" 
data = pd.read_csv(file_path)

Listar las primeras filas del fichero para ver los datos

In [5]:
data.head()

Unnamed: 0,Email,Address,Avatar,Avg Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,mstephenson@fernandez.com,"835 Frank TunnelWrightmouth, MI 82180-9605",Violet,34.497268,12.655651,39.577668,4.082621,587.951054
1,hduke@hotmail.com,"4547 Archer CommonDiazchester, CA 06566-8576",DarkGreen,31.926272,11.109461,37.268959,2.664034,392.204933
2,pallen@yahoo.com,"24645 Valerie Unions Suite 582Cobbborough, DC ...",Bisque,33.000915,11.330278,37.110597,4.104543,487.547505
3,riverarebecca@gmail.com,"1414 David ThroughwayPort Jason, OH 22070-1220",SaddleBrown,34.305557,13.717514,36.721283,3.120179,581.852344
4,mstephens@davidson-herman.com,"14023 Rodriguez PassagePort Jacobville, PR 372...",MediumAquaMarine,33.330673,12.795189,37.536653,4.446308,599.406092


¿cuantas filas y columnas tienen los datos?


In [7]:
data.shape

(500, 8)

Explore la cantidad de registros, la media, el desvio y los cuartiles de las columnas numéricas.

In [8]:
data.describe()

Unnamed: 0,Avg Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
count,500.0,500.0,500.0,500.0,500.0
mean,33.053194,12.052488,37.060445,3.533462,499.314038
std,0.992563,0.994216,1.010489,0.999278,79.314782
min,29.532429,8.508152,33.913847,0.269901,256.670582
25%,32.341822,11.388153,36.349257,2.93045,445.038277
50%,33.082008,11.983231,37.069367,3.533975,498.887875
75%,33.711985,12.75385,37.716432,4.126502,549.313828
max,36.139662,15.126994,40.005182,6.922689,765.518462


Liste las columnas del dataframe indicando el tipo de datos.

In [11]:
for col in data.columns:
    print(f"Columnas en{col}: {data[col].dtype}")

Columnas enEmail: object
Columnas enAddress: object
Columnas enAvatar: object
Columnas enAvg Session Length: float64
Columnas enTime on App: float64
Columnas enTime on Website: float64
Columnas enLength of Membership: float64
Columnas enYearly Amount Spent: float64


## Preparación de los datos

Defina la columna objetivo a predecir en "y"  y "X" el dataframe con las características que se utilizarán para definir el modelo. Tenga en cuenta que solo se utilizarán las columnas numéricas.

In [16]:
# target object y
y = data['Yearly Amount Spent']
# Create X
features = ['Avg Session Length', 'Time on App', 'Time on Website', 'Length of Membership']
X = data[features]


Defina las particiones para entrenamiento y de validación con semila=1 e imprima cuantas filas utilizará para entrenamiento y cuantas para validar

In [17]:
# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

In [None]:
print(train_X.head())


   Avg Session Length  Time on App  Time on Website  Length of Membership
0           34.497268    12.655651        39.577668              4.082621
1           31.926272    11.109461        37.268959              2.664034
2           33.000915    11.330278        37.110597              4.104543
3           34.305557    13.717514        36.721283              3.120179
4           33.330673    12.795189        37.536653              4.446308


In [24]:
print(val_X.head())

     Avg Session Length  Time on App  Time on Website  Length of Membership
304           33.914015    12.266504        36.575031              3.023474
340           31.816428    14.288015        36.773861              2.964498
47            32.726785    12.988510        36.462003              4.113226
67            32.805220    11.835476        36.375066              3.439591
479           34.606242    11.761884        38.126520              1.820811


## Definición del modelo

Defina el modelo utilizando un arbol de decisión con semilla=1

In [25]:
#Specify Model
ecommerce_model = RandomForestRegressor(random_state=1)


Entrene el modelo 

In [26]:
# Fit Model
ecommerce_model.fit(train_X, train_y)

## Predicción y validación del modelo 

Utilice el modelo para realizar las predicciones con los datos de validación y calcule el valor MAE (mean absolute error) obtenido sin haber indicado la cantidad de hojas (max_leaf_nodes).

In [27]:
val_predictions = ecommerce_model.predict(val_X)
val_mae = mean_absolute_error(val_y, val_predictions)
print("Validation MAE when not specifying max_leaf_nodes: {:,.0f}".format(val_mae))

Validation MAE when not specifying max_leaf_nodes: 15


Defina la función "get_mae" que le permite calcular valores MAE para diferentes arbóles de decisión con diferentes números de hojas

In [28]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return mae

Utilice la función get_mae para calcular MAE para los tamaños de 10,50,100,200,500,1000

In [30]:
# Calcular MAE para diferentes valores de max_leaf_nodes
for max_leaf_nodes in [10, 50, 100, 200, 500, 1000]:
	mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
	print("Max leaf nodes: %d \t\t Mean Absolute Error: %f" %(max_leaf_nodes, mae))

Max leaf nodes: 10 		 Mean Absolute Error: 35.790272
Max leaf nodes: 50 		 Mean Absolute Error: 24.489327
Max leaf nodes: 100 		 Mean Absolute Error: 23.362035
Max leaf nodes: 200 		 Mean Absolute Error: 23.240380
Max leaf nodes: 500 		 Mean Absolute Error: 23.350298
Max leaf nodes: 1000 		 Mean Absolute Error: 23.350298


¿Cuál es el valor optimo de "max_leaf_nodes" a utilizar para este modelo?

In [31]:
max_leaf_nodes=100

In [32]:
assert max_leaf_nodes==100,"Error en max_leaf_nodes"

Calcule el vector de predicciones utilizando el modelo con la cantidad de hojas optimo y semilla 1, ahora con todos los datos. Calcule el mae final.

In [33]:
model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=1)
model.fit(X, y)
pred_tot = model.predict(X)
mae = mean_absolute_error(y, pred_tot)
print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %f" %(max_leaf_nodes, mae))

Max leaf nodes: 100  		 Mean Absolute Error:  7.755945


In [None]:
¿Que porcentaje de error obtengo respecto a la media de los valores a predecir?

In [34]:
print((mae / y.mean()) * 100)

1.553320046525108


In [35]:
assert round((mae / y.mean())*100)==2,"Error en resultado de porcentaje de error"

Explore al menos 10 valores calculados con la predicción y compare con los valore originales

In [36]:
# Mostrar 10 valores predichos y sus valores originales
for i in range(10):
	print(f"Predicho: {pred_tot[i]:.2f} - Original: {y.iloc[i]:.2f}")

Predicho: 590.14 - Original: 587.95
Predicho: 386.64 - Original: 392.20
Predicho: 510.21 - Original: 487.55
Predicho: 578.20 - Original: 581.85
Predicho: 607.48 - Original: 599.41
Predicho: 636.90 - Original: 637.10
Predicho: 532.74 - Original: 521.57
Predicho: 550.17 - Original: 549.90
Predicho: 578.20 - Original: 570.20
Predicho: 446.21 - Original: 427.20


## Random Forest 

Utilice ahora un modelo RandomForest con semilla=1 y calcule el MAE para los datos de validación y para todos los datos

In [38]:
forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
val_predict_rf = forest_model.predict(val_X)
mae_val_rf = mean_absolute_error(val_y, val_predict_rf)
print("Mae Random forest con datos de validación=%f" % (mae_val_rf))


Mae Random forest con datos de validación=15.095274


In [39]:
forest_model.fit(X, y)
predict_rf_tot = forest_model.predict(X)
mae_tot_rf = mean_absolute_error(y, predict_rf_tot)
print("Mae Random forest con todos los datos=%f" % (mae_tot_rf))


Mae Random forest con todos los datos=4.980112


¿Que porcentaje de error obtengo respecto a la media de los valores a predecir utilizando random_forest?

In [40]:
print((mae_tot_rf / y.mean()) * 100)

0.9973907821580759


In [41]:
assert round((mae_tot_rf / y.mean())*100)==1,"Error en resultado de porcentaje de error"

# New Section