# Análisis de datos y visualización
## Proyecto académico final
 - Nombres: Rafael Castro Merino, Santiago Mendieta Carrion  
 - Fecha: 26/05/2024

## Carga del dataset: Sales prediction dataset

El conjunto de datos contiene información de compras de automóviles.

- Número de filas: 500

- Número de atributos/variables: 9 variables (3 categóricas y 6 numéricas).

- Información de las variables:
    - **customer name:** nombre del cliente
    - **customer e-mail:** correo electrónico del cliente
    - **country:** país de origen y de residencia del cliente
    - **gender:** género del cliente (0 para Femenino, 1 para Masculino)
    - **age:** edad del cliente
    - **annual Salary:** salario anual del cliente
    - **credit card debt:** deudas en la tarjeta de crédito del cliente
    - **net worth:** patrimonio neto del cliente(activos menos pasivos)
    - **car purchase amount:** monto de compra del automóvil que realiza el cliente
  
**Valores nulos:** Ninguno

**Autor:** Mohd Shahnawaz Aadil 

Se usará una copia del dataset "car_purchasing", disponible en Kaggle ("Sales prediction dataset"): https://www.kaggle.com/datasets/mohdshahnawazaadil/sales-prediction-dataset/data

In [27]:
# Librerías a utilizar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings

# Métodos de regresión no lineal:

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

from sklearn import preprocessing # para el escalado

from sklearn.model_selection import GridSearchCV # para búsqueda de hiperparámetros

### Preparación de datasets (entrenamiento y test)
from sklearn.model_selection import train_test_split
import calendar


In [28]:
#Carga del dataset:

data_url = "car_purchasing.csv"
data = pd.read_csv(data_url, sep=',', header=0, encoding='latin-1')
data[:10]      #Muestra del dataset

Unnamed: 0,customer name,customer e-mail,country,gender,age,annual Salary,credit card debt,net worth,car purchase amount
0,Martina Avila,cubilia.Curae.Phasellus@quisaccumsanconvallis.edu,Bulgaria,0,41.85172,62812.09301,11609.38091,238961.2505,35321.45877
1,Harlan Barnes,eu.dolor@diam.co.uk,Belize,0,40.870623,66646.89292,9572.957136,530973.9078,45115.52566
2,Naomi Rodriquez,vulputate.mauris.sagittis@ametconsectetueradip...,Algeria,1,43.152897,53798.55112,11160.35506,638467.1773,42925.70921
3,Jade Cunningham,malesuada@dignissim.com,Cook Islands,1,58.271369,79370.03798,14426.16485,548599.0524,67422.36313
4,Cedric Leach,felis.ullamcorper.viverra@egetmollislectus.net,Brazil,1,57.313749,59729.1513,5358.712177,560304.0671,55915.46248
5,Carla Hester,mi@Aliquamerat.edu,Liberia,1,56.824893,68499.85162,14179.47244,428485.3604,56611.99784
6,Griffin Rivera,vehicula@at.co.uk,Syria,1,46.607315,39814.522,5958.460188,326373.1812,28925.70549
7,Orli Casey,nunc.est.mollis@Suspendissetristiqueneque.co.uk,Czech Republic,1,50.193016,51752.23445,10985.69656,629312.4041,47434.98265
8,Marny Obrien,Phasellus@sedsemegestas.org,Armenia,0,46.584745,58139.2591,3440.823799,630059.0274,48013.6141
9,Rhonda Chavez,nec@nuncest.com,Somalia,1,43.323782,53457.10132,12884.07868,476643.3544,38189.50601


In [29]:
data.sample(10)     #Sample del dataset

Unnamed: 0,customer name,customer e-mail,country,gender,age,annual Salary,credit card debt,net worth,car purchase amount
88,Eagan Woodward,varius.et@Maecenas.edu,Indonesia,1,58.425733,58065.25694,4204.920492,388498.5102,50937.93844
347,"Bush, Jessica C.",dolor.sit.amet@iaculisneceleifend.ca,Micronesia,0,46.911891,56692.78044,7946.435929,685541.6501,49079.29461
113,Todd Maldonado,dui.semper.et@aultricies.net,Solomon Islands,0,58.466608,50649.64492,11211.72016,565932.1861,51941.6756
62,Gareth Morris,est.Nunc.laoreet@nullavulputatedui.edu,Iceland,0,54.558689,69236.68608,9842.842611,242495.9886,49730.53339
291,Rachel E. Suarez,non.vestibulum.nec@euturpis.co.uk,Guam,1,58.981594,70111.5398,7949.463649,239217.6732,53848.7555
42,Ryder Shaffer,Phasellus.dapibus.quam@inhendrerit.ca,Georgia,0,37.584596,50571.45969,13338.32852,348833.8403,28031.20985
181,Burton Carroll,rhoncus.id.mollis@Maurisvel.org,Algeria,0,42.144445,60432.40367,11417.46257,415005.3584,39331.20127
481,Heather,erat.Etiam@elementum.org,Madagascar,1,29.034521,55433.61187,10769.75059,276466.6203,21471.11367
413,Cameran,tristique@ligulaAliquam.net,Mauritania,0,48.142571,56944.87077,16449.0665,116407.5289,33766.6413
485,Dolan,ipsum.Phasellus@egestasblanditNam.edu,Yemen,1,60.416433,39460.00348,8769.290288,571245.3714,47443.74443


## EDA del dataset

In [31]:
data.shape    #Dimension del dataset

(500, 9)

In [32]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   customer name        500 non-null    object 
 1   customer e-mail      500 non-null    object 
 2   country              500 non-null    object 
 3   gender               500 non-null    int64  
 4   age                  500 non-null    float64
 5   annual Salary        500 non-null    float64
 6   credit card debt     500 non-null    float64
 7   net worth            500 non-null    float64
 8   car purchase amount  500 non-null    float64
dtypes: float64(5), int64(1), object(3)
memory usage: 35.3+ KB


In [33]:
data.describe()

Unnamed: 0,gender,age,annual Salary,credit card debt,net worth,car purchase amount
count,500.0,500.0,500.0,500.0,500.0,500.0
mean,0.506,46.241674,62127.239608,9607.645049,431475.713625,44209.799218
std,0.500465,7.978862,11703.378228,3489.187973,173536.75634,10773.178744
min,0.0,20.0,20000.0,100.0,20000.0,9000.0
25%,0.0,40.949969,54391.977195,7397.515792,299824.1959,37629.89604
50%,1.0,46.049901,62915.497035,9655.035568,426750.12065,43997.78339
75%,1.0,51.612263,70117.862005,11798.867487,557324.478725,51254.709517
max,1.0,70.0,100000.0,20000.0,1000000.0,80000.0


## Aplicación de modelos de predicción

### Asignacion de variables predictoras y variable a predecir

In [38]:
column_names=data.columns
x_columns = column_names[3:data.shape[1]-1]   #Se descarta las variables categóricas: customer name, customer e-mail y country
y_column = column_names[data.shape[1]-1]

X = data[x_columns]   # variables predictoras: gender, age, annual Salary, credit card debt y net worth
y = data[y_column]    # variable a predecir: car purchase amount

### Creación de datasets para el training y testing

In [39]:

X_train, X_test,y_train, y_test = train_test_split(X, y,test_size=0.20,random_state=10, shuffle=True)


## 1. Decision Tree Learning

### 1.1 Parámetros clave de un árbol de decisión

- <b>max_depth</b> (None | int): es la profundidad máxima de un árbol.
    - Se utiliza para controlar el sobreajuste: a una mayor profundidad el modelo aprenderá relaciones muy específicas de del train dataset.
    - Si su su valor es <i>None</i>, los nodos se expanden hasta que todas las hojas sean puras o hasta que todas las hojas contengan menos de <i>min_samples_split</i> observaciones.
    - Requiere ajuste.


- <b>min_samples_split</b>: define el número mínimo de observaciones que se requieren en un nodo para ser considerado para la división.
    - Valores demasiado altos pueden provocar un ajuste insuficiente, es decir, impiden que un modelo aprenda relaciones que podrían ser muy específicas de una muestra particular.
    - Su valor se puede establecer en alrededor del 0,5-1% de las observaciones. 
    - Se utiliza para controlar el overfitting, por lo que este es un parámetro que generalmente requiere ajuste.

- <b>min_samples_leaf</b>: define las muestras (u observaciones) mínimas requeridas en un nodo terminal u hoja.
    - Se utiliza para controlar el sobreajuste similar a <i>min_samples_split</i>.
    - Para empezar, se puede establecer en alrededor del 1% de todas las observaciones en el conjunto de datos.
    - Un valor demasiado pequeño hace que el modelo sea más propenso a capturar ruido y, por lo tanto, a sobreajustarse.

- <b>max_features</b>: número máximo de características a considerar para buscar la mejor división.

    - En dataset de pocas características, podemos trabajar con el valor de 1.0, lo cual significa, considerar una variable para la búsqueda.
    - En conjuntos de datos grandes, como de 100 variables (m) se puede optar por tomar la raiz cuadrada de m (es decir, 10), o debemos verificar hasta el 30-40% del número total de características.
    - Los valores más altos pueden provocar un ajuste excesivo, pero depende de cada caso.
      
- <b>random_state</b>: La semilla de número aleatorio generada cada vez. Un número aleatorio fijo es importante ya que, de lo contrario, tendríamos resultados diferentes en cada ejecución posterior, especialmente importante en el proceso de ajuste.

- <b>max_leaf_nodes</b>: número máximo de nodos terminales u hojas en un árbol.
    - Se puede definir en lugar de max_depth. 

### 1.2 Primer experimento: con todos los parámetros por defecto


In [40]:
#############
# Training
#############

dtr = DecisionTreeRegressor(random_state = 10) # Crear una instancia de DecisionTreeRegressor

dtr.fit(X_train, y_train) # crear el modelo a partir del dataset de entrenamiento

#############
# Predicción
predicted = dtr.predict(X_test) # generar predicción para el dataset de test
dtr_predictions = pd.DataFrame({'Actual':y_test,'Predicted':predicted}) # imprimir (y_real, y_predicted)
print(dtr_predictions[:5])
#############


#############
# Imprimir parámetros usados por el modelo
#############
print('Max features:', dtr.max_features_) # todas las variables fueron usadas para el split
print('Depth of the Decision Tree :', dtr.get_depth()) #  imprimir profundidad del árbol


          Actual    Predicted
151  47604.34591  46380.44732
424  31408.62631  29540.87013
154  42369.64247  41567.47033
190  56579.90338  56499.10202
131  38243.66481  36645.56090
Max features: 5
Depth of the Decision Tree : 16


In [41]:
#############
# Importancia de las variables al momento de crear el modelo:
#############

importances_sk = dtr.feature_importances_ # obtener coeficientes de variables

print(importances_sk) # imprimir coeficientes de variables

# Crear un dataframe con las variables y su importancia:
feature_importance_sk = {}
for i, feature in enumerate(x_columns):
    feature_importance_sk[feature] = round(importances_sk[i], 3)

print(f"Feature importance by sklearn: {feature_importance_sk}")

[0.00199281 0.39851336 0.36866286 0.0062894  0.22454158]
Feature importance by sklearn: {'gender': 0.002, 'age': 0.399, 'annual Salary': 0.369, 'credit card debt': 0.006, 'net worth': 0.225}


In [42]:
################################
# Evaluación
################################

# Train dataset:
accuracy_train = dtr.score(X_train, y_train)
print('accuracy_score on train dataset : ', accuracy_train)

# Test dataset:
score = dtr.score(X_test,y_test)
mseFull = np.mean((y_test - predicted)**2)

print("Accuracy of model: %f" % score)
print("Mean Squared Error: %f" % mseFull)

accuracy_score on train dataset :  1.0
Accuracy of model: 0.837123
Mean Squared Error: 15452907.374390


In [43]:
################################
### Imprimir el modelo
################################
from sklearn import tree
text_representation = tree.export_text(dtr, feature_names=x_columns) # exportar el modelo en texto
#print(text_representation) # descomentar para visualizar

In [44]:
# import export_graphviz 
from sklearn.tree import export_graphviz  
  
# exportar el árbol a un archivo tree.dot 
export_graphviz(dtr, out_file ='tree.png', 
               feature_names = x_columns)

### 1.3 Segundo experimento: usando como la parámetro la profundidad máxima

In [45]:
dtr = DecisionTreeRegressor(random_state = 10,
                            max_depth=13) # 

dtr.fit(X_train, y_train)

predicted = dtr.predict(X_test)

################################
# Evaluación
################################

# Train dataset
accuracy_train = dtr.score(X_train, y_train)
print('accuracy_score on train dataset : ', accuracy_train)

# Test dataset
score = dtr.score(X_test,y_test)
mseFull = np.mean((y_test - predicted)**2)

print("Accuracy of model: %f" % score)
print("Mean Squared Error: %f" % mseFull)

accuracy_score on train dataset :  0.9999816523941683
Accuracy of model: 0.843212
Mean Squared Error: 14875212.895583


### 1.4 Tercer experimento: usando otros parámetros

In [46]:
dtr = DecisionTreeRegressor(random_state = 10,
                            max_depth=13, 
                            min_samples_split=4,
                           min_samples_leaf=4,
                           max_features=1.0)


dtr.fit(X_train, y_train)

predicted = dtr.predict(X_test)

print('Depth of the Decision Tree :', dtr.get_depth()) # depth of the decision tree


################################
# Evaluación
################################

# Train dataset

accuracy_train = dtr.score(X_train, y_train)
print('accuracy_score on train dataset : ', accuracy_train)

# Test dataset
score = dtr.score(X_test,y_test)
mseFull = np.mean((y_test - predicted)**2)

print("Accuracy of model: %f" % score)
print("Mean Squared Error: %f" % mseFull)

Depth of the Decision Tree : 11
accuracy_score on train dataset :  0.9602708169443178
Accuracy of model: 0.834058
Mean Squared Error: 15743771.592010


De lo anterior podemos ver que un árbol de decisión ha funcionado mejor que con los parámetros por defecto. 

Los árboles de decisión tienen varios hiperparámetros diferentes. Para intentar mejorar el modelo debemos hacer experimentos usando una  búsqueda en grids y validación cruzada.

### 1.5 Tuning mediante Grid Search & Cross Validation

- Grid Search se utiliza para ejecutar un modelo repetidamente cada vez con diferentes parámetros especificados por el usuario.

- Cross validation se utiliza para entrenar con subconjuntos de datos (chunks o folds), especificados por la opción "cv". El valor de cv principalmente depende del tamaño del conjunto de datos:
    - Si el tamaño es pequeño: un número razonable pueden ser 10 o más; un número como este puede ser beneficioso porque permite utilizar una mayor proporción de datos para entrenamiento en cada iteración.
    - Si el tamaño es grande: un número menor de folds como 5 suele ser suficiente y reduce el tiempo de computación.

In [None]:
dtr = DecisionTreeRegressor(random_state=10, 
                            max_features=1.0)

params = {'min_samples_split': range(2, 20, 2), #range(start, stop, step)
          'min_samples_leaf': range(2, 20, 2),
          'max_depth': range(5, 15)}
    
grid_search = GridSearchCV(dtr, param_grid=params, cv=10)
grid_search.fit(X_train, y_train) #training

# Obtener el mejor modelo
best_model = grid_search.best_estimator_

# Ver los mejores hiperparámetros encontrados
print("Mejores hiperparámetros: ", grid_search.best_params_)


In [None]:
# Generar predicciones en el conjunto de prueba
y_test_pred = best_model.predict(X_test)

# Evaluar el rendimiento del mejor modelo:
mse = mean_squared_error(y_test, y_test_pred)
print(f"Mean Squared Error en el conjunto de prueba: {mse}")

score = best_model.score(X_test, y_test) 
print("R^2 del mejor modelo: %f" % score)

## Random Forest Model

Un bosque aleatorio, como su nombre indica, es una colección de árboles de decisión. 

Esto es particularmente útil ya que los árboles de decisión son propensos al sobreajuste (el sobreajuste. Un bosque aleatorio reduce esto en ejecutar cada árbol de decisión en un subconjunto diferente de datos y luego hace una predicción basada en la suma de las predicciones de todos los árboles del bosque.

#### Random Forest Parameters

Como un bosque aleatorio es una colección de árboles de decisión, los parámetros son en gran medida los mismos. He anotado los principales parámetros forestales específicos a continuación.

 - <b>n_estimators</b>: La cantidad de árboles a utilizar para construir el modelo predictivo antes de tomar el promedio de ellos. Generalmente, cuanto más alto, mejor, pero también consume más CPU.
   
 - <b>oob_score</b>: Esta es una validación cruzada integrada de los bosques aleatorios. Simplemente toma cada observación utilizada en diferentes árboles y encuentra la mejor puntuación.
   
 - <b>n_jobs</b>: En un entorno multiprocesador, si se establece en '-1' significa que no hay restricciones en los núcleos de la CPU que puede usar el modelo. Si se establece en '1', por ejemplo, solo puede usar 1.


In [None]:
rf = RandomForestRegressor(n_estimators= 100, random_state = 10, oob_score=True,
                           max_depth=7, min_samples_leaf=3, min_samples_split=7)


rf.fit(X_train, y_train)
predicted = rf.predict(X_test)
rf_predictions = pd.DataFrame({'Actual':y_test,'Predicted':predicted})
rf_score = rf.score(X_test,y_test)
print("predicted score against actual: %f" % rf_score)
rf_predictions.head()

#### Búsqueda de hiperparámetros:

In [None]:
params ={'max_depth':range(9,13),
         'min_samples_leaf':range(1,3),
         'min_samples_split':range(2,10,2)
}
grid_search = GridSearchCV(rf,param_grid=params,cv=10)
grid_search.fit(X_train, y_train)


print('Best score: {}'.format(grid_search.best_score_))
print('Best parameters: {}'.format(grid_search.best_params_))

predicted = grid_search.predict(X_test)

grid_predictions = pd.DataFrame({'Actual':y_test,'Predicted':predicted})
score = grid_search.score(X_test,y_test)
print("predicted score against actual: %f" % score)
grid_predictions.head()


De lo anterior podemos ver que el bosque aleatorio supera al árbol de decisión en un grado considerable. Al utilizar la búsqueda de cuadrícula, es posible que deba jugar con algunos parámetros y cambiar el modelo original como mejor le parezca. La razón es que si ejecuta gridsearch con una cuadrícula de parámetros grande, más tiempo tardará en ejecutarse, por lo que generalmente encuentro beneficioso comenzar con un rango grande con pasos grandes y reducirlo después de cada ejecución a un rango más pequeño con pasos más pequeños. . No he demostrado esto arriba porque ocuparía mucho espacio.

## Support Vector Regressor

La Support Vector Regressor admite regresión lineal y no lineal. Su misión es encajar tantas observaciones tanto como sea posible entre líneas intentando no caer en los márgenes.

Lo que se pretende con el SVM en regresión es buscar el hiperplano que mejor se ajuste a los datos y permita una tolerancia a los errores. En otras palabras, es una regresión lineal con restricciones.

### Parámetros clave:

- kernel: es el parámetro SVR más importante. Los kernels son funciones que transforman los datos en un espacio de mayor dimensión para facilitar la separación no lineal. Puede ser SVR lineal, polinomial o gaussiano.
    - Si tenemos una relación no lineal, podemos seleccionar polinomial o gaussiano (RBF es un tipo gaussiano).
- épsilon: representa al concepto de infracción o penalización que se aplica para las observaciones que caen fuera de los límites.

In [None]:
svm = make_pipeline(StandardScaler(), SVR(kernel="rbf", C=100, gamma=0.1, epsilon=0.1))
svm.fit(X_train, y_train)


In [None]:
predicted = svm.predict(X_test)

svm_predictions = pd.DataFrame({'Actual':y_test,'Predicted':predicted})

svm_predictions[:5]

################################
#Model score 
################################

# Train dataset

accuracy_train = svm.score(X_train, y_train)
print('Score en conjunto de  train : ', accuracy_train)

# Test dataset
score = svm.score(X_test,y_test)
mseFull = np.mean((y_test - predicted)**2)

print("Score en conjunto de test: %f" % score)
print("Mean Squared Error: %f" % mseFull)