**1. Leer el archivo CO2 emissions.csv**

In [2]:
import pandas as pd  # Importamos la biblioteca pandas y la abreviamos como pd para facilitar su uso.

# Leer el archivo CSV
# Utilizamos la función read_csv de pandas para leer el archivo 'CO2 emissions.csv' y cargarlo en un DataFrame llamado 'df'.
df = pd.read_csv('CO2 emissions.csv')

# Mostrar las primeras filas del DataFrame
# Utilizamos el método head() del DataFrame para imprimir las primeras cinco filas del DataFrame, lo que nos da una vista previa de los datos.
print(df.head())


   ENGINESIZE  CYLINDERS  FUELCONSUMPTION_CITY  FUELCONSUMPTION_HWY  \
0         2.0          4                   9.9                  6.7   
1         2.4          4                  11.2                  7.7   
2         1.5          4                   6.0                  5.8   
3         3.5          6                  12.7                  9.1   
4         3.5          6                  12.1                  8.7   

   CO2EMISSIONS  
0             0  
1             0  
2             0  
3             0  
4             0  


**2. Seleccionar aleatoriamente el 80% del conjunto de datos para entrenar y el 20% restante para las pruebas**

In [3]:
from sklearn.model_selection import train_test_split  # Importamos la función train_test_split de sklearn para dividir los datos en conjuntos de entrenamiento y prueba.

# Separar variables independientes y dependientes
# Aquí seleccionamos las columnas 'ENGINESIZE', 'CYLINDERS', 'FUELCONSUMPTION_CITY' y 'FUELCONSUMPTION_HWY' como variables independientes (X).
# La columna 'CO2EMISSIONS' es nuestra variable dependiente (y) que queremos predecir.
X = df[['ENGINESIZE', 'CYLINDERS', 'FUELCONSUMPTION_CITY', 'FUELCONSUMPTION_HWY']]
y = df['CO2EMISSIONS']

# Dividir los datos en conjuntos de entrenamiento y prueba
# Utilizamos la función train_test_split para dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%).
# El parámetro random_state=123 asegura que la división sea reproducible.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)



**3. Utilizar una estrategia para normalizar los datos**

In [4]:
from sklearn.preprocessing import StandardScaler  # Importamos la clase StandardScaler de sklearn para estandarizar las variables.

# Estandarizar las variables
# Creamos una instancia de StandardScaler, que estandariza los datos restando la media y dividiendo por la desviación estándar.
scaler = StandardScaler()

# Ajustamos el scaler a los datos de entrenamiento y transformamos X_train
# fit_transform ajusta el scaler a los datos de entrenamiento y luego los transforma.
X_train = scaler.fit_transform(X_train)

# Transformamos X_test utilizando el mismo scaler ajustado con X_train
# transform aplica la misma transformación a los datos de prueba sin volver a ajustar el scaler.
X_test = scaler.transform(X_test)


**4. Configurar los hiperparámetros del árbol de decisión y obtener 10 árboles variando max_depth**

In [5]:
from sklearn.tree import DecisionTreeClassifier  # Importamos la clase DecisionTreeClassifier de sklearn para crear árboles de decisión.
from sklearn.metrics import accuracy_score  # Importamos accuracy_score para evaluar la precisión del modelo.
import pandas as pd  # Importamos pandas para trabajar con DataFrames.

# Función para entrenar y evaluar árboles de decisión
def evaluate_decision_trees(criterion, splitter, max_depth_values, random_state=123):
    results = []  # Lista para almacenar los resultados
    for max_depth in max_depth_values:
        # Creamos un clasificador de árbol de decisión con los parámetros dados
        clf = DecisionTreeClassifier(criterion=criterion, splitter=splitter, max_depth=max_depth, random_state=random_state)
        clf.fit(X_train, y_train)  # Entrenamos el clasificador con los datos de entrenamiento
        y_pred = clf.predict(X_test)  # Realizamos predicciones sobre los datos de prueba
        accuracy = accuracy_score(y_test, y_pred)  # Calculamos la precisión del modelo
        # Almacenamos los resultados en la lista results
        results.append({'max_depth': max_depth, 'accuracy': accuracy})
    # Convertimos la lista de resultados en un DataFrame y lo devolvemos
    return pd.DataFrame(results)

# Evaluar árboles de decisión con criterion='gini', splitter='best'
max_depth_values = range(1, 11)  # Valores de profundidad máxima del árbol a probar
results_gini_best = evaluate_decision_trees('gini', 'best', max_depth_values)  # Evaluamos los árboles de decisión
print(results_gini_best)  # Imprimimos los resultados



   max_depth  accuracy
0          1  0.948598
1          2  0.943925
2          3  0.943925
3          4  0.939252
4          5  0.962617
5          6  0.953271
6          7  0.953271
7          8  0.957944
8          9  0.957944
9         10  0.957944


**5. Incluir una tabla con el accuracy para los 10 árboles del punto anterior**

In [6]:
# Mostrar la tabla de resultados
print("Resultados para criterion='gini' y splitter='best':")
print(results_gini_best)



Resultados para criterion='gini' y splitter='best':
   max_depth  accuracy
0          1  0.948598
1          2  0.943925
2          3  0.943925
3          4  0.939252
4          5  0.962617
5          6  0.953271
6          7  0.953271
7          8  0.957944
8          9  0.957944
9         10  0.957944


**6. Repetir el procedimiento con criterion='entropy', splitter='best'**

In [7]:
# Evaluar árboles de decisión con criterion='entropy', splitter='best'
results_entropy_best = evaluate_decision_trees('entropy', 'best', max_depth_values)
print(results_entropy_best)


   max_depth  accuracy
0          1  0.948598
1          2  0.953271
2          3  0.948598
3          4  0.943925
4          5  0.967290
5          6  0.957944
6          7  0.957944
7          8  0.962617
8          9  0.962617
9         10  0.962617


**7. Incluir una tabla con el accuracy para los 10 árboles del punto anterior**

In [8]:
# Mostrar la tabla de resultados
print("Resultados para criterion='entropy' y splitter='best':")
print(results_entropy_best)


Resultados para criterion='entropy' y splitter='best':
   max_depth  accuracy
0          1  0.948598
1          2  0.953271
2          3  0.948598
3          4  0.943925
4          5  0.967290
5          6  0.957944
6          7  0.957944
7          8  0.962617
8          9  0.962617
9         10  0.962617


**8. Repetir el procedimiento con criterion='entropy', splitter='random'**

In [9]:
# Evaluar árboles de decisión con criterion='entropy', splitter='random'
results_entropy_random = evaluate_decision_trees('entropy', 'random', max_depth_values)
print(results_entropy_random)


   max_depth  accuracy
0          1  0.813084
1          2  0.813084
2          3  0.925234
3          4  0.845794
4          5  0.855140
5          6  0.929907
6          7  0.864486
7          8  0.948598
8          9  0.934579
9         10  0.939252


**9. Incluir una tabla con el accuracy para los 10 árboles del punto anterior**

In [10]:
# Mostrar la tabla de resultados
print("Resultados para criterion='entropy' y splitter='random':")
print(results_entropy_random)


Resultados para criterion='entropy' y splitter='random':
   max_depth  accuracy
0          1  0.813084
1          2  0.813084
2          3  0.925234
3          4  0.845794
4          5  0.855140
5          6  0.929907
6          7  0.864486
7          8  0.948598
8          9  0.934579
9         10  0.939252


**10. Indicar los hiperparámetros que permiten obtener el árbol con mayor accuracy**

In [22]:
# Combinar los resultados en un solo DataFrame
all_results = pd.concat([
    results_gini_best.assign(criterion='gini', splitter='best'),  # Agregamos los resultados con criterion='gini' y splitter='best'
    results_entropy_best.assign(criterion='entropy', splitter='best'),  # Agregamos los resultados con criterion='entropy' y splitter='best'
    results_entropy_random.assign(criterion='entropy', splitter='random')  # Agregamos los resultados con criterion='entropy' y splitter='random'
])

# Encontrar el mejor modelo
best_tree_idx = all_results['accuracy'].idxmax()  # Encontramos el índice del modelo con la mayor precisión
best_tree = all_results.loc[best_tree_idx]  # Extraemos los detalles del mejor modelo

# Asegurarse de extraer correctamente los valores
best_criterion = best_tree['criterion']  # Obtenemos el valor del criterio del mejor modelo
best_splitter = best_tree['splitter']  # Obtenemos el valor del splitter del mejor modelo
best_max_depth = best_tree['max_depth']  # Obtenemos el valor de la profundidad máxima del mejor modelo

# Verificar tipos y convertir si es necesario
if isinstance(best_criterion, pd.Series):
    best_criterion = best_criterion.iloc[0]  # Si el valor es una serie, tomamos el primer elemento

if isinstance(best_splitter, pd.Series):
    best_splitter = best_splitter.iloc[0]  # Si el valor es una serie, tomamos el primer elemento

if isinstance(best_max_depth, pd.Series):
    best_max_depth = best_max_depth.iloc[0]  # Si el valor es una serie, tomamos el primer elemento

# Convertir a entero si es necesario
if isinstance(best_max_depth, float) and best_max_depth.is_integer():
    best_max_depth = int(best_max_depth)  # Convertimos la profundidad máxima a entero si es un número entero

# Imprimir el mejor modelo
print("Mejor Modelo:")
print(f"Criterion: {best_criterion}")  # Imprimimos el criterio del mejor modelo
print(f"Splitter: {best_splitter}")  # Imprimimos el splitter del mejor modelo
print(f"Max Depth: {best_max_depth}")  # Imprimimos la profundidad máxima del mejor modelo
print(f"Accuracy: {best_tree['accuracy']}")  # Imprimimos la precisión del mejor modelo



Mejor Modelo:
Criterion: gini
Splitter: best
Max Depth: 5
Accuracy: 4    0.962617
4    0.967290
4    0.855140
Name: accuracy, dtype: float64


**11. Seleccionar otro hiperparámetro y realizar dos variaciones
Se seleccionará el hiperparámetro min_samples_split.**

In [28]:
# Combinar los resultados en un solo DataFrame
all_results = pd.concat([
    results_gini_best.assign(criterion='gini', splitter='best'),
    results_entropy_best.assign(criterion='entropy', splitter='best'),
    results_entropy_random.assign(criterion='entropy', splitter='random')
])

# Encontrar el mejor modelo
best_tree_idx = all_results['accuracy'].idxmax()
best_tree = all_results.loc[best_tree_idx]

# Asegurarse de extraer correctamente los valores
best_criterion = best_tree['criterion']
best_splitter = best_tree['splitter']
best_max_depth = best_tree['max_depth']

# Verificar tipos y convertir si es necesario
if isinstance(best_criterion, pd.Series):
    best_criterion = best_criterion.iloc[0]

if isinstance(best_splitter, pd.Series):
    best_splitter = best_splitter.iloc[0]

if isinstance(best_max_depth, pd.Series):
    best_max_depth = best_max_depth.iloc[0]

# Convertir a entero si es necesario
if isinstance(best_max_depth, float) and best_max_depth.is_integer():
    best_max_depth = int(best_max_depth)

print("Mejor Modelo:")
print(f"Criterion: {best_criterion}")
print(f"Splitter: {best_splitter}")
print(f"Max Depth: {best_max_depth}")
print(f"Accuracy: {best_tree['accuracy']}")

# Extraer correctamente el mejor accuracy
best_accuracy_prev = best_tree['accuracy']
if isinstance(best_accuracy_prev, pd.Series):
    best_accuracy_prev = best_accuracy_prev.iloc[0]

# Función para evaluar variaciones de min_samples_split
def evaluate_min_samples_split(min_samples_split_values, criterion, splitter, max_depth, random_state=123):
    results = []
    for min_samples_split in min_samples_split_values:
        clf = DecisionTreeClassifier(criterion=criterion, splitter=splitter, max_depth=max_depth, min_samples_split=min_samples_split, random_state=random_state)
        clf.fit(X_train, y_train)
        y_pred = clf.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        results.append({'min_samples_split': min_samples_split, 'accuracy': accuracy})
    return pd.DataFrame(results)

# Evaluar con las mejores configuraciones encontradas
min_samples_split_values = [2, 10, 20]
results_min_samples_split = evaluate_min_samples_split(min_samples_split_values, best_criterion, best_splitter, best_max_depth)
print(results_min_samples_split)

# Mostrar los resultados
for result in results_min_samples_split.itertuples():
    print(f"Min Samples Split: {result.min_samples_split}")
    print(f"Accuracy: {result.accuracy:.4f}\n")

# Análisis final
print("Análisis del impacto del hiperparámetro 'min_samples_split':")
for result in results_min_samples_split.itertuples():
    print(f"Con min_samples_split={result.min_samples_split}, la precisión del modelo fue {result.accuracy:.4f}.")

# Comparación con el mejor accuracy obtenido anteriormente
for result in results_min_samples_split.itertuples():
    print(f"Comparando con el mejor accuracy anterior ({best_accuracy_prev:.4f}):")
    if result.accuracy > best_accuracy_prev:
        print(f"Min_samples_split={result.min_samples_split} mejora la precisión del modelo.")
    elif result.accuracy < best_accuracy_prev:
        print(f"Min_samples_split={result.min_samples_split} empeora la precisión del modelo.")
    else:
        print(f"Min_samples_split={result.min_samples_split} mantiene la precisión del modelo.")


Mejor Modelo:
Criterion: gini
Splitter: best
Max Depth: 5
Accuracy: 4    0.962617
4    0.967290
4    0.855140
Name: accuracy, dtype: float64
   min_samples_split  accuracy
0                  2  0.962617
1                 10  0.962617
2                 20  0.962617
Min Samples Split: 2
Accuracy: 0.9626

Min Samples Split: 10
Accuracy: 0.9626

Min Samples Split: 20
Accuracy: 0.9626

Análisis del impacto del hiperparámetro 'min_samples_split':
Con min_samples_split=2, la precisión del modelo fue 0.9626.
Con min_samples_split=10, la precisión del modelo fue 0.9626.
Con min_samples_split=20, la precisión del modelo fue 0.9626.
Comparando con el mejor accuracy anterior (0.9626):
Min_samples_split=2 mantiene la precisión del modelo.
Comparando con el mejor accuracy anterior (0.9626):
Min_samples_split=10 mantiene la precisión del modelo.
Comparando con el mejor accuracy anterior (0.9626):
Min_samples_split=20 mantiene la precisión del modelo.
