## <font color ="#fa8231">Proyecto final: Prediccion de costo de consumo total por cliente

## <font color ="#fa8231">Instrucciones por fase

1. Datos y planteamiento
2. Análisis exploratorio
3. Modelado predictivo

### <font color ="#fa8231"> 1.- Datos y planteamiento

En esta fase del proyecto deberás realizar una presentación/documento/diagrama que contenga lo siguiente:
* **Descripción del dataset**
    - Qué datos representa, de dónde lo obtuviste
* **Motivación**
    - Por qué este dataset?
    - DATASET TIENE MUCHA APLICABILIDAD, ES INTUITIVO E INTERESANTE
* **Conocimiento de dominio**
    - Si aplica, qué relación tienes con el dominio del dataset? Has trabajado con datos similares antes?
* <font color ='indianred'> **Meta** </font>  
    - Define qué vas a hacer con el dataset, tienes 3 opciones:
        - **Predicción** (regresión o clasificación usando sklearn o tensorflow)
    - Explica por qué escogiste una de las 3 actividades y explica por qué tu resultado va a ser valioso
    
    
    - COLUMNA PARA PREDECIR: "mnt_wines"
    - METODO: REGRESION LINEAL 

###  <font color ="#fa8231"> 2.- Análisis exploratorio

En esta fase deberás de presentar una libreta que muestre los siguientes pasos:
* **Vistazos de los datos(P1)**
    - Presenta de la manera más clara que puedas las generalidades del dataset (número de renglones y columnas, tipos de datos, etc...)
* **Limpieza de datos(P1)**
    - Había nulos? Había columnas innecesarias? Había información redundante? Qué hiciste con estos datos? Por qué decidiste manejarlos como los hayas manejado?
* **Corrección de fechas(P1)**
    - Si tu dataset contiene fechas, convierte la columna que contenga las fechas a un objeto datetime
* **Extracción de columnas interesantes(P1,P2)**
    - Presenta la menor cantidad posible de columnas que *tú* consideres son las más relevantes a la actividad que seleccionaste
* **Exploración de columnas interesantes(P2)**
    - Justifica tu intuición con visualizaciones en seaborn y estadísticas descriptivas. Demuestra que las variables que seleccionaste como interesantes tienen potencial para resolver la actividad

###  <font color ="#fa8231"> Contexto del dataset y diccionario de datos

**Context**
 **Problem Statement**
 
Customer Personality Analysis is a detailed analysis of a company’s ideal customers. It helps a business to better understand its customers and makes it easier for them to modify products according to the specific needs, behaviors and concerns of different types of customers.

Customer personality analysis helps a business to modify its product based on its target customers from different types of customer segments. For example, instead of spending money to market a new product to every customer in the company’s database, a company can analyze which customer segment is most likely to buy the product and then market the product only on that particular segment.
 
 **Content**
 **Attributes**
 
 **People**
 
 - ID: Customer's unique identifier
 - Year_Birth: Customer's birth year
 - Education: Customer's education level
 - Marital_Status: Customer's marital status
 - Income: Customer's yearly household income
 - Kidhome: Number of children in customer's household
 - Teenhome: Number of teenagers in customer's household
 - Dt_Customer: Date of customer's enrollment with the company
 - Recency: Number of days since customer's last purchase
 - Complain: 1 if customer complained in the last 2 years, 0 otherwise
 
 
 **Products**
 
 
 - MntWines: Amount spent on wine in last 2 years
 - MntFruits: Amount spent on fruits in last 2 years
 - MntMeatProducts: Amount spent on meat in last 2 years
 - MntFishProducts: Amount spent on fish in last 2 years
 - MntSweetProducts: Amount spent on sweets in last 2 years
 - MntGoldProds: Amount spent on gold in last 2 years
 
 
 **Promotion**
 
 
 - NumDealsPurchases: Number of purchases made with a discount
 - AcceptedCmp1: 1 if customer accepted the offer in the 1st campaign, 0 otherwise
 - AcceptedCmp2: 1 if customer accepted the offer in the 2nd campaign, 0 otherwise
 - AcceptedCmp3: 1 if customer accepted the offer in the 3rd campaign, 0 otherwise
 - AcceptedCmp4: 1 if customer accepted the offer in the 4th campaign, 0 otherwise
 - AcceptedCmp5: 1 if customer accepted the offer in the 5th campaign, 0 otherwise
 - Response: 1 if customer accepted the offer in the last campaign, 0 otherwise
 
 
 **Medio de compra**
 
 
 - NumWebPurchases: Number of purchases made through the company’s web site
 - NumCatalogPurchases: Number of purchases made using a catalogue
 - NumStorePurchases: Number of purchases made directly in stores
 - NumWebVisitsMonth: Number of visits to company’s web site in the last month
 
  **Data Source: https://www.kaggle.com/imakash3011/customer-personality-analysis**

In [1]:
# Manejo de datos
import pandas as pd
import numpy as np
import datetime
import scipy.stats as st

# Graficos
import seaborn as sns
import matplotlib.pyplot as plt
plt.style.use(["ggplot","seaborn-white"])

# Librerias adicionales
from base_code.describe_df import data_description
from base_code.explore import remove_outliers
#from base_code.feature_selection import variable_normalization,select_kbest
from base_code.modeling import manual_model,final_model,linear_regression,random_forest_regressor

# Librerias para el modelo
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import ShuffleSplit
import sklearn.preprocessing
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest,f_regression
from sklearn import metrics

# Selección de modelos
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate
from sklearn.model_selection import GridSearchCV


ModuleNotFoundError: No module named 'base_code'

In [None]:
# Crear dataframe y describir datos de entrada
df = data_description("data/marketing_campaign.csv","\t")

In [None]:
# Eliminar nulos
df.dropna(inplace=True)

In [None]:
# Remover generaciones Z y Silence 
limites = [0, 1964, 1980, 'inf']
etiquetas = ['Baby Boomers', 'Generation X', 'Millenials']
pd.cut(x = df['year_birth'], bins = limites, labels = etiquetas)
df['generation'] = pd.cut(x = df['year_birth'], bins = limites, labels = etiquetas)
df.generation.value_counts()

In [None]:
# Crear variable para la edad de nuestros clientes.
current_date = datetime.datetime.now()
date = current_date.date()
df["client_age"] = date.year - df["year_birth"]

In [None]:
# Eliminar outliers par la variable "client_age"
df = remove_outliers(df,"client_age")
df["client_age"].describe()

In [None]:
# Eliminar outliers par la variable "income"
df = remove_outliers(df,"income")
df["income"].describe()

In [None]:
# Eliminar outliers par la variable "mnt_wines"
df = remove_outliers(df,"mnt_wines")
df["mnt_wines"].describe()

In [None]:
# Crear variable "children"
df["children"] = df["kidhome"] + df["teenhome"]
df["children"] = df["children"].apply(lambda value: 1 if value != 0 else 0)
#df.children.head(9)

In [None]:
# Crear variable "total_children"
df["total_children"] = df["kidhome"] + df["teenhome"]

In [None]:
print(df.shape)

### <font color ="#fa8231">3.- Modelado predictivo

* **Específica claramente cuál es la variable que vas a predecir y cuáles son sus predictores**
    - Puedes usar tantas variables como desees... pero deberás poder justificar su inclusión en el modelo
    - USAR SELECTKBEST PARA COMPARAR CON EL METODO MANUAL LAS MEJORES VARIABLES A UTILIZAR
    - modelo_manual = "mtn_wines ~ income + client_age + children"
    - VARIABLE A PREDECIR: "mtn_wines" 
    - PREDICTORES: "income"  "client_age" "children"

In [None]:
# Crear grafico para variables seleccionadas
# mnt_wines mnt_meat_products | children total_children
cols_traditional_model = ["mnt_wines","income","client_age","total_children"]
#cols_traditional_model = ["mnt_meat_products","income","children"]
df_traditional_model = df[cols_traditional_model]
sns.pairplot(data=df_traditional_model,corner=True,kind="reg",plot_kws={"line_kws":{'color':"#40407a"},"scatter_kws":{"alpha":0.1}});  

In [None]:
x1 = cols_traditional_model[1]
y = cols_traditional_model[0]
sns.lmplot(x=x1,y=y,data=df,line_kws={"color":"#40407a"});
print("Coeficiente de correlación de Pearson y p-value",st.pearsonr(df[x1],df[y]))

In [None]:
x2 = cols_traditional_model[2]
sns.lmplot(x=x2,y=y,data=df,line_kws={"color":"#40407a"});
print("Coeficiente de correlación de Pearson y p-value",st.pearsonr(df[x2],df[y]))

In [None]:
x3 = cols_traditional_model[3]
sns.lmplot(x=x3,y=y,data=df,line_kws={"color":"#40407a"});
print("Coeficiente de correlación de Pearson y p-value",st.pearsonr(df[x3],df[y]))

**Coeficiente de correlación de Pearson**
+ Grado de linealidad
+ $0$: no hay relación lineal
+ $1$: relación lineal perfecta
+ $-1$: relación lineal inversa perfecta

**p-value**
+ significancia de la linealidad
+ Si $p-value<0.05$, entonces podemos decir que el modelo de regresión es significativo



=> **Seleccion de variables predictoras(x) y target(y) de acuerdo a EDA**


In [None]:
# Variables predictoras
x = df_traditional_model[cols_traditional_model[1:]]
# Variable target
y = df_traditional_model[cols_traditional_model[0]]


* **Crea un train y un test set**


In [None]:
# Dividimos en conjunto de entrenamiento y de prueba
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 2)
print('x_train',x_train.shape)
print('y_train',y_train.shape)
print('x_test',x_test.shape) # <=== This is going to be used at the end of the process after final model has been selected
print('y_test',y_test.shape) # <=== This is going to be used at the end of the process after final model has been selected

In [None]:
# El conjunto de entrenamiento lo dividimos en conjunto de entrenamiento y conjunto de validación
x_train_final, x_validation, y_train_final, y_validation = train_test_split(x_train, y_train, test_size = 0.2, random_state = 3)
print('x_train_final',x_train_final.shape)
print('y_train_final',y_train_final.shape)
print('x_validation',x_validation.shape)
print('y_validation',y_validation.shape)

* **Preprocesa**
    - Si es una variable cualitativa usa onehot encoding o cualquier método de tu agrado, explica por qué es necesario preprocesar estas variables diferente a las cuantitativa
    - Si es una variable cuantitativa deberás estandarizar la variable utilizando el método de tu agrado, explica por qué es necesario/recomendado estandarizar variables

* **Especifíca qué modelo vas a utlizar**
    - Justifica por qué vas a usar ese modelo en particular y no otro
    - Para nuestro caso de uso necesitamos un modelo que nos ayude a predecir el consumo en           costo del vino. Por lo tanto necesitamos un modelo para regresion lineal. Vamos a               explorar los siguientes modelos: Linear Regression y Random Forest Regressor


* **Entrena tu modelo y realiza optimización de hiperparámetros con GridSearchCV**
    - Explica por qué es necesario hacer validación cruzada para encontrar los mejores hiperparámetros
    - Explica por qué es necesario optimizar los hiperparámetros
    - Describe claramente qué hace cada hiperparámetro que haya seleccionado y por qué lo seleccionaste
    - Interpreta los resultados de la validación cruzada y asegurate de que tu modelo no esté sobreajustado


* **Muestra e interpreta las métricas de desempeño de tu modelo**


In [None]:
df_manual_model,coef,intercept,model_LR = manual_model(x_train_final,y_train_final,x_validation,y_validation)
df_manual_model

In [None]:
print(coef)
print(intercept)
print(model_LR)

Modelo simple split

¿En regresión múltiple, qué signfica el score (coeficiente de determinación)?

Significa que 62% de la variación del consumo de vinos/carnes puede explicarse a través de las variables de entrada que utilizamos

Entrenar el modelo para usar cross validation

In [None]:
# Algoritmo: Linear Regression
LR_model_CV = Pipeline(steps=[("Scaler",StandardScaler()),
                              ("LR",LinearRegression())])
#LR_model_CV.fit(x_train,y_train)
print(type(LR_model_CV))

In [None]:
# Monitoreando dos metricas o mas
LR1 = cross_validate(LR_model_CV,x_train,y_train,cv=5,scoring=["r2","neg_root_mean_squared_error"])

In [None]:
df_cv = pd.DataFrame(LR1)
df_cv["LR_r2_avg"] = df_cv["test_r2"].sum()/df_cv.shape[0]
df_cv["LR_RMSE_avg"] = df_cv["test_neg_root_mean_squared_error"].sum()/df_cv.shape[0]
df_cv.sort_values(by=["test_neg_root_mean_squared_error"])

Evaluar el modelo

In [None]:
print("Linear Regression con validacion cruzada\n")
print("Diferencia de R2: ",df_cv.test_r2.max() - df_cv.test_r2.min())
print("Diferencia de RMSE: ",df_cv.test_neg_root_mean_squared_error.max() - df_cv.test_neg_root_mean_squared_error.min())

In [None]:
LR2 = cross_validate(LR_model_CV,x_train,y_train,scoring=['r2','neg_root_mean_squared_error'], cv=ShuffleSplit(5))

In [None]:
df_cv = pd.DataFrame(LR2)
df_cv["LR_r2_avg"] = df_cv["test_r2"].sum()/df_cv.shape[0]
df_cv["LR_RMSE_avg"] = df_cv["test_neg_root_mean_squared_error"].sum()/df_cv.shape[0]
df_cv.sort_values(by=["test_neg_root_mean_squared_error"])

In [None]:
print("Linear Regression con validacion cruzada con grupos aleatorios\n")
print("Diferencia de R2: ",df_cv.test_r2.max() - df_cv.test_r2.min())
print("Diferencia de RMSE: ",df_cv.test_neg_root_mean_squared_error.max() - df_cv.test_neg_root_mean_squared_error.min())

In [None]:
# Algoritmo: Random Forest Regressor
RFR_model_CV = Pipeline(steps=[("Scaler",StandardScaler()),
                              ("RFR",RandomForestRegressor())])
#RFR_model_CV.fit(x_train,y_train)
print(type(RFR_model_CV))

In [None]:
# Monitoreando dos metricas o mas
RFR1 = cross_validate(RFR_model_CV,x_train,y_train,cv=5,scoring=["r2","neg_root_mean_squared_error"])

In [None]:
df_cv = pd.DataFrame(RFR1)
df_cv["RFR_r2_avg"] = df_cv["test_r2"].sum()/df_cv.shape[0]
df_cv["RFR_RMSE_avg"] = df_cv["test_neg_root_mean_squared_error"].sum()/df_cv.shape[0]
df_cv.sort_values(by=["test_neg_root_mean_squared_error"])

In [None]:
print("Linear Regression con validacion cruzada\n")
print("Diferencia de R2: ",df_cv.test_r2.max() - df_cv.test_r2.min())
print("Diferencia de RMSE: ",df_cv.test_neg_root_mean_squared_error.max() - df_cv.test_neg_root_mean_squared_error.min())

In [None]:
RFR2 = cross_validate(RFR_model_CV,x_train,y_train,scoring=['r2','neg_root_mean_squared_error'], cv=ShuffleSplit(5))

In [None]:
df_cv = pd.DataFrame(RFR2)
df_cv["RFR_r2_avg"] = df_cv["test_r2"].sum()/df_cv.shape[0]
df_cv["RFR_RMSE_avg"] = df_cv["test_neg_root_mean_squared_error"].sum()/df_cv.shape[0]
df_cv.sort_values(by=["test_neg_root_mean_squared_error"])

In [None]:
print("Linear Regression con validacion cruzada con grupos aleatorios\n")
print("Diferencia de R2: ",df_cv.test_r2.max() - df_cv.test_r2.min())
print("Diferencia de RMSE: ",df_cv.test_neg_root_mean_squared_error.max() - df_cv.test_neg_root_mean_squared_error.min())

## Multi-modelo usando validacion cruzada y GridSearchCV

In [None]:
# Algoritmo: LinearRegression
multi_model = Pipeline(steps=[("Scaler",StandardScaler()),
                              ("model",LinearRegression())])
print(type(multi_model))

In [None]:
multi_model.named_steps["model"]

In [None]:
#Algoritmos: Linear Regression, Logistic Regression, KNeighborsRegressor and DecisionTreeRegressor.
param_grid = [{"model":[LinearRegression()],
               "model__fit_intercept":[True,False],
               "model__copy_X":[True]},
              {"model":[RandomForestRegressor()],
               "model__max_depth":[1,2,3,4,5,6],
               "model__max_samples":np.linspace(0.01,1,10),
               "model__bootstrap":[True]},
              {"model":[KNeighborsRegressor()],
               "model__n_neighbors":[1,2,3,4,5,6],
               "model__algorithm":["auto","ball_tree","kd_tree","brute"],
               "model__leaf_size":[30,60,90]},
              {"model":[DecisionTreeRegressor()],
               "model__criterion":["squared_error","absolute_error"],
               "model__splitter":["best","random"],
               "model__max_depth":[1,2,3,4,5,6]}]

In [None]:
# Instrucciones
grid_search_cv = GridSearchCV(estimator = multi_model,
                  param_grid = param_grid,
                  cv = 5,
                  scoring="neg_root_mean_squared_error")

In [None]:
grid_search_cv.fit(x_train,y_train)

In [None]:
# Revisar tipo de objecto
type(grid_search_cv)

In [None]:
results = pd.DataFrame(grid_search_cv.cv_results_).sort_values(by='rank_test_score')
results

In [None]:
# Mejor RMSE
grid_search_cv.best_score_

In [None]:
# Parametro con los que se obtuvo el mejor RMSE
grid_search_cv.best_params_

Evaluar el modelo
- Modelo Simple
- Modelo con pipeline
- Multi-modelo con pipeline

Re-entrenar el modelo

In [None]:
# Mejor modelo con parametros
grid_search_cv.best_estimator_


In [None]:
# Re-entrenar el modelo con los mejores parámetros
## Hacer validacion cruzada
#cross_val_score(grid_search_cv,x_train,y_train, scoring="neg_root_mean_squared_error", cv=5)
grid_search_cv.fit(x_train,y_train);

Predicciones

In [None]:
y_pred = grid_search_cv.predict(x_test)

In [None]:
# Crear variables para comparar resultados finales 
x_test["y_test"] = y_test
x_test["y_pred"] = y_pred
x_test["residuals"] = x_test["y_test"] - x_test["y_pred"] # Calcular residuos
x_test["abs_percent"] = (round(x_test["residuals"]/x_test["y_test"],6)*100).abs()

In [None]:
# Promedio de los residuos
x_test["residuals"].abs().mean()

In [None]:
print("MAE:",metrics.mean_absolute_error(y_test,y_pred))
print("MSE:",metrics.mean_squared_error(y_test,y_pred))
print("RMSE:",np.sqrt(metrics.mean_squared_error(y_test,y_pred)))
print("R2 Score:",metrics.r2_score(y_test,y_pred))

In [None]:
# Comparacion final de resultados
compare_cols = ["client_age","y_test","y_pred","residuals","abs_percent"]
compare = x_test[compare_cols]
print(compare.shape)
# Ascending order
print(compare.sort_values(by=["abs_percent"],ascending=True).head(60))

In [None]:
# Descending order
print(compare.sort_values(by=["abs_percent"],ascending=False).head(60))

In [None]:
# Comparar valores reales contra predicciones
# Plot
plt.rcParams.update({"figure.figsize":(15,10),"figure.dpi":100})
plt.scatter(compare["client_age"],compare["y_test"],color="orange",marker="o",label="Real")
plt.scatter(compare["client_age"],compare["y_pred"],color="green",marker="x",label="Prediction")
# Labels
plt.title("Comparativo de datos reales y prediccion")
plt.xlabel("client_age")
plt.ylabel('Wines')
plt.legend(loc='best')
plt.show()

In [None]:
# Boxplot
compare.boxplot(column=["y_test","y_pred"]);

In [None]:
y_train.plot.box();

# Borrar esta seccion antes de la presentacion
Para proyectos de clasificación o regresión:  
* 20% --> Se hizo un train y test set
* 20% --> Las variables predictoras están correctamente preprocesadas
* 20% --> El modelo que se usó se entrenó exitosamente
* 20% --> El modelo NO está sobreajustado
* 20% --> Las métricas de evaluación fueron correctamente elegidas e interpretadas