# Análisis de datos y visualización
## Proyecto académico final
 - Nombres: Rafael Castro Merino, Santiago Mendieta Carrion  
 - Fecha: 26/05/2024

## 1. Carga del dataset: Sales prediction dataset

El conjunto de datos contiene información de compras de automóviles.

- Número de filas: 500

- Número de atributos/variables: 9 variables (3 categóricas y 6 numéricas).

- Información de las variables:
    - **customer name:** nombre del cliente
    - **customer e-mail:** correo electrónico del cliente
    - **country:** país de origen y de residencia del cliente
    - **gender:** género del cliente (0 para Femenino, 1 para Masculino)
    - **age:** edad del cliente
    - **annual Salary:** salario anual del cliente
    - **credit card debt:** deudas en la tarjeta de crédito del cliente
    - **net worth:** patrimonio neto del cliente(activos menos pasivos)
    - **car purchase amount:** monto de compra del automóvil que realiza el cliente
  
**Valores nulos:** Ninguno

**Autor:** Mohd Shahnawaz Aadil 

Se usará una copia del dataset "car_purchasing", disponible en Kaggle ("Sales prediction dataset"): https://www.kaggle.com/datasets/mohdshahnawazaadil/sales-prediction-dataset/data

In [1]:
# Librerías a utilizar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings

# Métodos de regresión no lineal:

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

from sklearn import preprocessing # para el escalado

from sklearn.model_selection import GridSearchCV # para búsqueda de hiperparámetros

### Preparación de datasets (entrenamiento y test)
from sklearn.model_selection import train_test_split
import calendar


In [2]:
#Carga del dataset:

data_url = "car_purchasing.csv"
data = pd.read_csv(data_url, sep=',', header=0, encoding='latin-1')
data[:10]      #Muestra del dataset

Unnamed: 0,customer name,customer e-mail,country,gender,age,annual Salary,credit card debt,net worth,car purchase amount
0,Martina Avila,cubilia.Curae.Phasellus@quisaccumsanconvallis.edu,Bulgaria,0,41.85172,62812.09301,11609.38091,238961.2505,35321.45877
1,Harlan Barnes,eu.dolor@diam.co.uk,Belize,0,40.870623,66646.89292,9572.957136,530973.9078,45115.52566
2,Naomi Rodriquez,vulputate.mauris.sagittis@ametconsectetueradip...,Algeria,1,43.152897,53798.55112,11160.35506,638467.1773,42925.70921
3,Jade Cunningham,malesuada@dignissim.com,Cook Islands,1,58.271369,79370.03798,14426.16485,548599.0524,67422.36313
4,Cedric Leach,felis.ullamcorper.viverra@egetmollislectus.net,Brazil,1,57.313749,59729.1513,5358.712177,560304.0671,55915.46248
5,Carla Hester,mi@Aliquamerat.edu,Liberia,1,56.824893,68499.85162,14179.47244,428485.3604,56611.99784
6,Griffin Rivera,vehicula@at.co.uk,Syria,1,46.607315,39814.522,5958.460188,326373.1812,28925.70549
7,Orli Casey,nunc.est.mollis@Suspendissetristiqueneque.co.uk,Czech Republic,1,50.193016,51752.23445,10985.69656,629312.4041,47434.98265
8,Marny Obrien,Phasellus@sedsemegestas.org,Armenia,0,46.584745,58139.2591,3440.823799,630059.0274,48013.6141
9,Rhonda Chavez,nec@nuncest.com,Somalia,1,43.323782,53457.10132,12884.07868,476643.3544,38189.50601


In [3]:
data.sample(10)     #Sample del dataset

Unnamed: 0,customer name,customer e-mail,country,gender,age,annual Salary,credit card debt,net worth,car purchase amount
369,"Stafford, Berk Y.",Quisque@ultriciessem.net,Dominican Republic,0,42.992297,60325.20676,10128.1151,62149.94034,29754.66271
397,"Chavez, Ralph U.",Aenean@interdum.edu,Tuvalu,0,36.572713,67548.77415,10462.35581,388284.2974,37871.7082
191,Gannon Marquez,Aliquam@porttitor.net,Mauritania,1,41.173664,65554.4018,12026.57975,462613.8587,42774.35579
209,Keiko O. Whitaker,est@porttitortellus.com,Timor-Leste,0,52.393966,58143.06285,9686.119304,261152.8211,42209.28948
425,Rhonda,Sed.congue.elit@faucibusleo.ca,Hungary,0,41.354502,79064.9559,7221.667169,365871.4992,47719.47741
439,Demetria,Donec.at@sedlibero.net,Slovakia,0,44.023662,64961.39305,6885.723977,265717.2542,39135.03023
271,Mechelle W. Stanton,Pellentesque.habitant@auctorquistristique.org,Saint Barthélemy,0,46.306478,53382.42693,5055.43571,438491.876,39549.13039
44,Tamara Guy,nec.eleifend@orci.org,Nauru,1,61.224132,79792.13096,14245.53319,497950.2933,68678.4352
43,Eric Noel,lacinia.at.iaculis@Fuscefermentumfermentum.edu,Mozambique,1,38.773002,50943.16256,10816.8855,299734.1278,27815.73813
218,Pamela M. Cantu,posuere.enim.nisl@lectusNullam.ca,China,0,47.056916,62311.11641,9832.05731,830430.3692,56563.98675


## 2. EDA del dataset

In [4]:
data.shape    #Dimension del dataset

(500, 9)

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   customer name        500 non-null    object 
 1   customer e-mail      500 non-null    object 
 2   country              500 non-null    object 
 3   gender               500 non-null    int64  
 4   age                  500 non-null    float64
 5   annual Salary        500 non-null    float64
 6   credit card debt     500 non-null    float64
 7   net worth            500 non-null    float64
 8   car purchase amount  500 non-null    float64
dtypes: float64(5), int64(1), object(3)
memory usage: 35.3+ KB


In [6]:
data.describe()

Unnamed: 0,gender,age,annual Salary,credit card debt,net worth,car purchase amount
count,500.0,500.0,500.0,500.0,500.0,500.0
mean,0.506,46.241674,62127.239608,9607.645049,431475.713625,44209.799218
std,0.500465,7.978862,11703.378228,3489.187973,173536.75634,10773.178744
min,0.0,20.0,20000.0,100.0,20000.0,9000.0
25%,0.0,40.949969,54391.977195,7397.515792,299824.1959,37629.89604
50%,1.0,46.049901,62915.497035,9655.035568,426750.12065,43997.78339
75%,1.0,51.612263,70117.862005,11798.867487,557324.478725,51254.709517
max,1.0,70.0,100000.0,20000.0,1000000.0,80000.0


## 3. Preprocesamiento antes de la aplicación de modelos de predicción

### 3.1. Modificación de variables

In [7]:
## Copia del dataset
data2=data.copy()

## Cambio de la variable categórica 'country' a numérica
label_encoder = preprocessing.LabelEncoder()   #Se declara un objeto de la clase LaberEncoder
data2['country']= label_encoder.fit_transform(data2['country']) #Se cambia la variable country a numérica

## Cambio de la variable numérica continua 'age' (float64) a variable numérica discreta (int64)
data2['age']=data2['age'].map(lambda x: round(x))  #Redondear el valor de la edad
data2   #Se imprime el dataset con las variable modificadas

Unnamed: 0,customer name,customer e-mail,country,gender,age,annual Salary,credit card debt,net worth,car purchase amount
0,Martina Avila,cubilia.Curae.Phasellus@quisaccumsanconvallis.edu,27,0,42,62812.09301,11609.380910,238961.2505,35321.45877
1,Harlan Barnes,eu.dolor@diam.co.uk,17,0,41,66646.89292,9572.957136,530973.9078,45115.52566
2,Naomi Rodriquez,vulputate.mauris.sagittis@ametconsectetueradip...,1,1,43,53798.55112,11160.355060,638467.1773,42925.70921
3,Jade Cunningham,malesuada@dignissim.com,41,1,58,79370.03798,14426.164850,548599.0524,67422.36313
4,Cedric Leach,felis.ullamcorper.viverra@egetmollislectus.net,26,1,57,59729.15130,5358.712177,560304.0671,55915.46248
...,...,...,...,...,...,...,...,...,...
495,Walter,ligula@Cumsociis.ca,128,0,41,71942.40291,6995.902524,541670.1016,48901.44342
496,Vanna,Cum.sociis.natoque@Sedmolestie.edu,208,1,38,56039.49793,12301.456790,360419.0988,31491.41457
497,Pearl,penatibus.et@massanonante.com,144,1,54,68888.77805,10611.606860,764531.3203,64147.28888
498,Nell,Quisque.varius@arcuVivamussit.net,24,1,59,49811.99062,14013.034510,337826.6382,45442.15353


In [8]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   customer name        500 non-null    object 
 1   customer e-mail      500 non-null    object 
 2   country              500 non-null    int32  
 3   gender               500 non-null    int64  
 4   age                  500 non-null    int64  
 5   annual Salary        500 non-null    float64
 6   credit card debt     500 non-null    float64
 7   net worth            500 non-null    float64
 8   car purchase amount  500 non-null    float64
dtypes: float64(4), int32(1), int64(2), object(2)
memory usage: 33.3+ KB


## 4. Aplicación de modelos de predicción

### 4.1. Asignacion de variables predictoras y variable a predecir

In [9]:
column_names=data2.columns                     #Nombre de las columnas del dataset
x_columns = column_names[3:data2.shape[1]-1]   #Nombre de las columnas de las variables predictoras
y_column = column_names[data2.shape[1]-1]      #Nombre de la columna de la variable a predecir

X = data2[x_columns]   # variables predictoras: country, gender, age, annual Salary, credit card debt y net worth
y = data2[y_column]    # variable a predecir: car purchase amount

### 4.2. Creación de datasets para el training y testing

In [10]:

X_train, X_test,y_train, y_test = train_test_split(X, y,test_size=0.20,random_state=10, shuffle=True)


### 4.3 Modelo 1: Árbol de decisión (Decision tree)

#### 4.3.1 Parámetros clave de un árbol de decisión

- <b>max_depth</b> (None | int): es la profundidad máxima de un árbol.
    - Se utiliza para controlar el sobreajuste: a una mayor profundidad el modelo aprenderá relaciones muy específicas de del train dataset.
    - Si su su valor es <i>None</i>, los nodos se expanden hasta que todas las hojas sean puras o hasta que todas las hojas contengan menos de <i>min_samples_split</i> observaciones.
    - Requiere ajuste.


- <b>min_samples_split</b>: define el número mínimo de observaciones que se requieren en un nodo para ser considerado para la división.
    - Valores demasiado altos pueden provocar un ajuste insuficiente, es decir, impiden que un modelo aprenda relaciones que podrían ser muy específicas de una muestra particular.
    - Su valor se puede establecer en alrededor del 0,5-1% de las observaciones. 
    - Se utiliza para controlar el overfitting, por lo que este es un parámetro que generalmente requiere ajuste.

- <b>min_samples_leaf</b>: define las muestras (u observaciones) mínimas requeridas en un nodo terminal u hoja.
    - Se utiliza para controlar el sobreajuste similar a <i>min_samples_split</i>.
    - Para empezar, se puede establecer en alrededor del 1% de todas las observaciones en el conjunto de datos.
    - Un valor demasiado pequeño hace que el modelo sea más propenso a capturar ruido y, por lo tanto, a sobreajustarse.

- <b>max_features</b>: número máximo de características a considerar para buscar la mejor división.

    - En dataset de pocas características, podemos trabajar con el valor de 1.0, lo cual significa, considerar una variable para la búsqueda.
    - En conjuntos de datos grandes, como de 100 variables (m) se puede optar por tomar la raiz cuadrada de m (es decir, 10), o debemos verificar hasta el 30-40% del número total de características.
    - Los valores más altos pueden provocar un ajuste excesivo, pero depende de cada caso.
      
- <b>random_state</b>: La semilla de número aleatorio generada cada vez. Un número aleatorio fijo es importante ya que, de lo contrario, tendríamos resultados diferentes en cada ejecución posterior, especialmente importante en el proceso de ajuste.

- <b>max_leaf_nodes</b>: número máximo de nodos terminales u hojas en un árbol.
    - Se puede definir en lugar de max_depth. 

#### 4.3.2 Primer experimento: con todos los parámetros por defecto


In [11]:
#############
# Training
#############

dtr = DecisionTreeRegressor(random_state = 10) # Crear una instancia de DecisionTreeRegressor

dtr.fit(X_train, y_train) # crear el modelo a partir del dataset de entrenamiento

#############
# Predicción
predicted = dtr.predict(X_test) # generar predicción para el dataset de test
dtr_predictions = pd.DataFrame({'Actual':y_test,'Predicted':predicted}) # imprimir (y_real, y_predicted)
print(dtr_predictions[:5])
#############


#############
# Imprimir parámetros usados por el modelo
#############
print('Max features:', dtr.max_features_) # todas las variables fueron usadas para el split
print('Depth of the Decision Tree :', dtr.get_depth()) #  imprimir profundidad del árbol


          Actual    Predicted
151  47604.34591  46635.49432
424  31408.62631  29540.87013
154  42369.64247  41567.47033
190  56579.90338  49568.47685
131  38243.66481  36645.56090
Max features: 5
Depth of the Decision Tree : 15


In [12]:
#############
# Importancia de las variables al momento de crear el modelo:
#############

importances_sk = dtr.feature_importances_ # obtener coeficientes de variables

print(importances_sk) # imprimir coeficientes de variables

# Crear un dataframe con las variables y su importancia:
feature_importance_sk = {}
for i, feature in enumerate(x_columns):
    feature_importance_sk[feature] = round(importances_sk[i], 3)

print(f"Feature importance by sklearn: {feature_importance_sk}")

[0.00164877 0.39155668 0.40397833 0.0073917  0.19542453]
Feature importance by sklearn: {'gender': 0.002, 'age': 0.392, 'annual Salary': 0.404, 'credit card debt': 0.007, 'net worth': 0.195}


In [13]:
################################
# Evaluación
################################

# Train dataset:
accuracy_train = dtr.score(X_train, y_train)
print('accuracy_score on train dataset : ', accuracy_train)

# Test dataset:
dt_score_1 = dtr.score(X_test,y_test)
mseFull = np.mean((y_test - predicted)**2)

print("Accuracy of model: %f" % dt_score_1)
print("Mean Squared Error: %f" % mseFull)

accuracy_score on train dataset :  1.0
Accuracy of model: 0.861319
Mean Squared Error: 13157348.093346


In [14]:
################################
### Imprimir el modelo
################################
from sklearn import tree
text_representation = tree.export_text(dtr, feature_names=x_columns) # exportar el modelo en texto
#print(text_representation) # descomentar para visualizar

In [15]:
# import export_graphviz 
from sklearn.tree import export_graphviz  
  
# exportar el árbol a un archivo tree.dot 
export_graphviz(dtr, out_file ='tree.png', 
               feature_names = x_columns)

#### 4.3.3 Segundo experimento: usando como parámetro la profundidad máxima

In [16]:
dtr = DecisionTreeRegressor(random_state = 10,
                            max_depth=13) # 

dtr.fit(X_train, y_train)

predicted = dtr.predict(X_test)

################################
# Evaluación
################################

# Train dataset
accuracy_train = dtr.score(X_train, y_train)
print('accuracy_score on train dataset : ', accuracy_train)

# Test dataset
dt_score_2 = dtr.score(X_test,y_test)
mseFull = np.mean((y_test - predicted)**2)

print("Accuracy of model: %f" % dt_score_2)
print("Mean Squared Error: %f" % mseFull)

accuracy_score on train dataset :  0.9999978563977109
Accuracy of model: 0.874724
Mean Squared Error: 11885591.215057


#### 4.3.4 Tercer experimento: usando otros parámetros

In [17]:
dtr = DecisionTreeRegressor(random_state = 10,
                            max_depth=13, 
                            min_samples_split=4,
                           min_samples_leaf=4,
                           max_features=1.0)


dtr.fit(X_train, y_train)

predicted = dtr.predict(X_test)

print('Depth of the Decision Tree :', dtr.get_depth()) # depth of the decision tree


################################
# Evaluación
################################

# Train dataset

accuracy_train = dtr.score(X_train, y_train)
print('accuracy_score on train dataset : ', accuracy_train)

# Test dataset
dt_score_3 = dtr.score(X_test,y_test)
mseFull = np.mean((y_test - predicted)**2)

print("Accuracy of model: %f" % dt_score_3)
print("Mean Squared Error: %f" % mseFull)

Depth of the Decision Tree : 9
accuracy_score on train dataset :  0.9599237894860692
Accuracy of model: 0.839314
Mean Squared Error: 15245094.446094


De lo anterior podemos ver que un árbol de decisión ha funcionado mejor que con los parámetros por defecto. 

Los árboles de decisión tienen varios hiperparámetros diferentes. Para intentar mejorar el modelo debemos hacer experimentos usando una  búsqueda en grids y validación cruzada.

#### 4.3.5 Cuarto experimento: Tuning mediante Grid Search & Cross Validation

- Grid Search se utiliza para ejecutar un modelo repetidamente cada vez con diferentes parámetros especificados por el usuario.

- Cross validation se utiliza para entrenar con subconjuntos de datos (chunks o folds), especificados por la opción "cv". El valor de cv principalmente depende del tamaño del conjunto de datos:
    - Si el tamaño es pequeño: un número razonable pueden ser 10 o más; un número como este puede ser beneficioso porque permite utilizar una mayor proporción de datos para entrenamiento en cada iteración.
    - Si el tamaño es grande: un número menor de folds como 5 suele ser suficiente y reduce el tiempo de computación.

In [18]:
dtr = DecisionTreeRegressor(random_state=10, 
                            max_features=1.0)

params = {'min_samples_split': range(2, 20, 2), #range(start, stop, step)
          'min_samples_leaf': range(2, 20, 2),
          'max_depth': range(5, 15)}
    
grid_search = GridSearchCV(dtr, param_grid=params, cv=10)
grid_search.fit(X_train, y_train) #training

# Obtener el mejor modelo
best_model = grid_search.best_estimator_

# Ver los mejores hiperparámetros encontrados
print("Mejores hiperparámetros: ", grid_search.best_params_)


Mejores hiperparámetros:  {'max_depth': 13, 'min_samples_leaf': 2, 'min_samples_split': 2}


In [19]:
# Generar predicciones en el conjunto de prueba
y_test_pred = best_model.predict(X_test)

# Evaluar el rendimiento del mejor modelo:
mse = mean_squared_error(y_test, y_test_pred)
print(f"Mean Squared Error en el conjunto de prueba: {mse}")

dt_score_4 = best_model.score(X_test, y_test) 
print("R^2 del mejor modelo: %f" % dt_score_4)

Mean Squared Error en el conjunto de prueba: 12955666.779064896
R^2 del mejor modelo: 0.863445


### 4.4 Modelo 2: Bosque aleatorio (Random forest)

Un bosque aleatorio, como su nombre indica, es una colección de árboles de decisión. 

Esto es particularmente útil ya que los árboles de decisión son propensos al sobreajuste (el sobreajuste. Un bosque aleatorio reduce esto en ejecutar cada árbol de decisión en un subconjunto diferente de datos y luego hace una predicción basada en la suma de las predicciones de todos los árboles del bosque.

#### 4.4.1. Parámetros del bosque aleatorio

Como un bosque aleatorio es una colección de árboles de decisión, los parámetros son en gran medida los mismos. He anotado los principales parámetros forestales específicos a continuación.

 - <b>n_estimators</b>: La cantidad de árboles a utilizar para construir el modelo predictivo antes de tomar el promedio de ellos. Generalmente, cuanto más alto, mejor, pero también consume más CPU.
   
 - <b>oob_score</b>: Esta es una validación cruzada integrada de los bosques aleatorios. Simplemente toma cada observación utilizada en diferentes árboles y encuentra la mejor puntuación.
   
 - <b>n_jobs</b>: En un entorno multiprocesador, si se establece en '-1' significa que no hay restricciones en los núcleos de la CPU que puede usar el modelo. Si se establece en '1', por ejemplo, solo puede usar 1.


#### 4.4.2 Primer experimento: parámetros por defecto

In [20]:
rf = RandomForestRegressor(random_state = 10)
rf.fit(X_train, y_train)
predicted = rf.predict(X_test)
rf_predictions = pd.DataFrame({'Actual':y_test,'Predicted':predicted})
rf_score_1 = rf.score(X_test,y_test)
print("predicted score against actual: %f" % rf_score_1)
rf_predictions.head()

predicted score against actual: 0.960617


Unnamed: 0,Actual,Predicted
151,47604.34591,47602.619574
424,31408.62631,30022.284155
154,42369.64247,41546.379921
190,56579.90338,55565.617845
131,38243.66481,37920.230831


#### 4.4.3 Segundo experimento: usando como parámetro la profundidad máxima

In [21]:
rf = RandomForestRegressor(random_state=10, max_depth=13)
rf.fit(X_train, y_train)
predicted = rf.predict(X_test)
rf_predictions = pd.DataFrame({'Actual':y_test,'Predicted':predicted})
rf_score_2 = rf.score(X_test,y_test)
print("predicted score against actual: %f" % rf_score_2)
rf_predictions.head()

predicted score against actual: 0.961181


Unnamed: 0,Actual,Predicted
151,47604.34591,47665.150268
424,31408.62631,30026.875527
154,42369.64247,41512.882579
190,56579.90338,55866.579198
131,38243.66481,37959.910979


#### 4.4.4 Tercer experimento: otros parámetros

In [22]:
rf = RandomForestRegressor(n_estimators= 100, random_state = 10, oob_score=True,
                           max_depth=13, min_samples_leaf=3, min_samples_split=7)
rf.fit(X_train, y_train)
predicted = rf.predict(X_test)
rf_predictions = pd.DataFrame({'Actual':y_test,'Predicted':predicted})
rf_score_3 = rf.score(X_test,y_test)
print("predicted score against actual: %f" % rf_score_3)
rf_predictions.head()

predicted score against actual: 0.953550


Unnamed: 0,Actual,Predicted
151,47604.34591,47737.796183
424,31408.62631,29894.869067
154,42369.64247,41306.93495
190,56579.90338,55443.018136
131,38243.66481,37898.151706


#### 4.4.5 Cuarto Experimento: Búsqueda de hiperparámetros

In [23]:
params ={'max_depth':range(9,13),
         'min_samples_leaf':range(1,3),
         'min_samples_split':range(2,10,2)
}
grid_search = GridSearchCV(rf,param_grid=params,cv=10)
grid_search.fit(X_train, y_train)


print('Best score: {}'.format(grid_search.best_score_))
print('Best parameters: {}'.format(grid_search.best_params_))

predicted = grid_search.predict(X_test)

grid_predictions = pd.DataFrame({'Actual':y_test,'Predicted':predicted})
rf_score_4 = grid_search.score(X_test,y_test)
print("predicted score against actual: %f" % rf_score_4)
grid_predictions.head()


Best score: 0.9455811839492647
Best parameters: {'max_depth': 11, 'min_samples_leaf': 1, 'min_samples_split': 2}
predicted score against actual: 0.960925


Unnamed: 0,Actual,Predicted
151,47604.34591,47823.057967
424,31408.62631,29999.655879
154,42369.64247,41667.70681
190,56579.90338,55839.263407
131,38243.66481,37906.832288


De lo anterior podemos ver que el bosque aleatorio supera al árbol de decisión en un grado considerable. Al utilizar la búsqueda de cuadrícula, es posible que deba jugar con algunos parámetros y cambiar el modelo original como mejor le parezca. La razón es que si ejecuta gridsearch con una cuadrícula de parámetros grande, más tiempo tardará en ejecutarse, por lo que generalmente encuentro beneficioso comenzar con un rango grande con pasos grandes y reducirlo después de cada ejecución a un rango más pequeño con pasos más pequeños. . No he demostrado esto arriba porque ocuparía mucho espacio.

## 5. Resultados obtenidos

In [51]:
## Agrupar los resultados obtenidos en un dataframe
nombre_columnas=['Experimento', 'Parámetros', 'Precisión Decision Tree', 'Precisión Random Forest']
lista_col_exps=['Experimento 1', 'Experimento 2', 'Experimento 3', 'Experimento 4']
lista_col_params=['Por defecto', 'Profundidad máxima', 'Otros parámetros', 'Búsqueda de parámetros']
lista_dt_score=[dt_score_1, dt_score_2, dt_score_3, dt_score_4]
lista_rf_score=[rf_score_1, rf_score_2, rf_score_3, rf_score_4]
lista_unida=[]
lista_unida.append(lista_col_exps)
lista_unida.append(lista_col_params)
lista_unida.append(lista_dt_score)
lista_unida.append(lista_rf_score)
resultados_df=pd.DataFrame(lista_unida).transpose()
resultados_df.columns=nombre_columnas
resultados_df.index=range(1, len(lista_col_exps)+1)
resultados_df

Unnamed: 0,Experimento,Parámetros,Precisión Decision Tree,Precisión Random Forest
1,Experimento 1,Por defecto,0.861319,0.960617
2,Experimento 2,Profundidad máxima,0.874724,0.961181
3,Experimento 3,Otros parámetros,0.839314,0.95355
4,Experimento 4,Búsqueda de parámetros,0.863445,0.960925


## 6. Conclusiones