In [2]:

# IMPORTANT: RUN THIS CELL IN ORDER TO IMPORT YOUR KAGGLE DATA SOURCES
# TO THE CORRECT LOCATION (/kaggle/input) IN YOUR NOTEBOOK,
# THEN FEEL FREE TO DELETE THIS CELL.
# NOTE: THIS NOTEBOOK ENVIRONMENT DIFFERS FROM KAGGLE'S PYTHON
# ENVIRONMENT SO THERE MAY BE MISSING LIBRARIES USED BY YOUR
# NOTEBOOK.

import os
import sys
from tempfile import NamedTemporaryFile
from urllib.request import urlopen
from urllib.parse import unquote, urlparse
from urllib.error import HTTPError
from zipfile import ZipFile
import tarfile
import shutil

CHUNK_SIZE = 40960
DATA_SOURCE_MAPPING = 'mobile-price-classification:https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F11167%2F15520%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240517%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240517T155142Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D6cd9820555204a22a193f330b0f0c48d2910f913199b4a77c55021c5ffa9daa0034a2371cfddfe952164a72e27bb2ff143021ff7b4eb1b99b62873e36fe5a38e63e842b44c675a5b7545f4f3ce7193c7650972c45370de6d777f278bf378da49e9fdac767abe1f880b5c027626e25b099dcdc1b1d64f6b730e4c024c99b6e530b4868c823292030ad2b569e44df83981d91fcd4c641539a2f71d5cbbb4e8af9605bb19bc9489546db6bcb314f51593ba074961df032b76b13d635aaf7dd165ce361c4a2ecdf1456771f31a347779043b1755f5862216510bc2ae62ecd2198c03b302bf31bbfcdd666862c4d936e6b7d177b939b6ce7d76a5f30182ed31895110'

KAGGLE_INPUT_PATH='/kaggle/input'
KAGGLE_WORKING_PATH='/kaggle/working'
KAGGLE_SYMLINK='kaggle'

!umount /kaggle/input/ 2> /dev/null
shutil.rmtree('/kaggle/input', ignore_errors=True)
os.makedirs(KAGGLE_INPUT_PATH, 0o777, exist_ok=True)
os.makedirs(KAGGLE_WORKING_PATH, 0o777, exist_ok=True)

try:
  os.symlink(KAGGLE_INPUT_PATH, os.path.join("..", 'input'), target_is_directory=True)
except FileExistsError:
  pass
try:
  os.symlink(KAGGLE_WORKING_PATH, os.path.join("..", 'working'), target_is_directory=True)
except FileExistsError:
  pass

for data_source_mapping in DATA_SOURCE_MAPPING.split(','):
    directory, download_url_encoded = data_source_mapping.split(':')
    download_url = unquote(download_url_encoded)
    filename = urlparse(download_url).path
    destination_path = os.path.join(KAGGLE_INPUT_PATH, directory)
    try:
        with urlopen(download_url) as fileres, NamedTemporaryFile() as tfile:
            total_length = fileres.headers['content-length']
            print(f'Downloading {directory}, {total_length} bytes compressed')
            dl = 0
            data = fileres.read(CHUNK_SIZE)
            while len(data) > 0:
                dl += len(data)
                tfile.write(data)
                done = int(50 * dl / int(total_length))
                sys.stdout.write(f"\r[{'=' * done}{' ' * (50-done)}] {dl} bytes downloaded")
                sys.stdout.flush()
                data = fileres.read(CHUNK_SIZE)
            if filename.endswith('.zip'):
              with ZipFile(tfile) as zfile:
                zfile.extractall(destination_path)
            else:
              with tarfile.open(tfile.name) as tarfile:
                tarfile.extractall(destination_path)
            print(f'\nDownloaded and uncompressed: {directory}')
    except HTTPError as e:
        print(f'Failed to load (likely expired) {download_url} to path {destination_path}')
        continue
    except OSError as e:
        print(f'Failed to load {download_url} to path {destination_path}')
        continue

print('Data source import complete.')


Failed to load (likely expired) https://storage.googleapis.com/kaggle-data-sets/11167/15520/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240517%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240517T155142Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=6cd9820555204a22a193f330b0f0c48d2910f913199b4a77c55021c5ffa9daa0034a2371cfddfe952164a72e27bb2ff143021ff7b4eb1b99b62873e36fe5a38e63e842b44c675a5b7545f4f3ce7193c7650972c45370de6d777f278bf378da49e9fdac767abe1f880b5c027626e25b099dcdc1b1d64f6b730e4c024c99b6e530b4868c823292030ad2b569e44df83981d91fcd4c641539a2f71d5cbbb4e8af9605bb19bc9489546db6bcb314f51593ba074961df032b76b13d635aaf7dd165ce361c4a2ecdf1456771f31a347779043b1755f5862216510bc2ae62ecd2198c03b302bf31bbfcdd666862c4d936e6b7d177b939b6ce7d76a5f30182ed31895110 to path /kaggle/input/mobile-price-classification
Data source import complete.


# Clasificación de Precios de Telefonía Móvil

## Tabla de Contenidos
- [1. Planteamiento del Problema](#1.-Planteamiento-del-Problema)
- [2. Variables del Dataset](#2.-Variables-del-Dataset)
- [3. Importar Librerias](#3.-Importar-Librerias)
- [4. Importar Datos](#4.-Importar-Datos)
- [5. Análisis Exploratorio de Datos](#5.-Analisis-Exploratorio-de-Datos)
- [6. Definir Datos de Entrenamiento y Prueba](#6.-Definir-Datos-de-Entrenamiento-y-Prueba)
- [7. Transformación de Datos](#7.-Transformación-de-Datos)
    - [7.1 Transformar Set de Entrenamiento](#7.1-Transformar-Set-de-Entrenamiento)
    - [7.2 Transformar Set de Prueba](#7.2-Transformar-Set-de-Prueba)
- [8. Entrenamiento de Modelos](#8.-Entrenamiento-de-Modelos)
    - [8.1 Modelo XGBClassifier](#8.1-Modelo-XGBClassifier)
    - [8.2 Modelo RandomForestClassifier](#8.2-Modelo-RandomForestClassifier)
    - [8.3 Modelo SVC](#8.3-Modelo-SVC)
    - [8.4 Modelo KNN](#8.4-Modelo-KNN)
- [9. Metricas de Evaluación de Modelos](#9.-Metricas-de-Evaluación-de-Modelos)
- [10. Evaluación de Modelos con Validación Cruzada](#10.-Evaluación-de-Modelos-con-Validación-Cruzada)
    - [10.1 Evaluación Cruzada Modelo XGBClassifier](#10.1-Evaluación-Cruzada-Modelo-XGBClassifier)
    - [10.2 Evaluación Cruzada Modelo RandomForestClassifier](#10.2-Evaluación-Cruzada-Modelo-RandomForestClassifier)
    - [10.3 Evaluación Cruzada Modelo SVC](#10.3-Evaluación-Cruzada-Modelo-SVC)
    - [10.4 Evaluación Cruzada Modelo KNN](#10.4-Evaluación-Cruzada-Modelo-KNN)
- [11. Metricas de Evaluación de Modelos con Validación Cruzada](#11.-Metricas-de-Evaluación-de-Modelos-con-Validación-Cruzada)
- [12. Predicciones con Mejor Modelo](#12.-Predicciones-con-Mejor-Modelo)
- [13. Conclusiones](#13.-Conclusiones)
- [14. Bibliografía](#14.-Bibliografía)

# 1. Planteamiento del Problema

Bob ha fundado su propia empresa de telefonía móvil y busca competir con gigantes del mercado como Apple, Samsung, etc. Para abordar este desafío, se han recopilado datos de ventas de teléfonos móviles de diversas empresas y se busca identificar patrones y relaciones entre las características técnicas de los dispositivos.

En este contexto altamente competitivo, estimar el precio de venta de los teléfonos móviles es crucial para el éxito de su empresa.

¿Cuál es el mejor modelo predictivo para estimar los rangos de precios de teléfonos móviles, basado en características técnicas?

El objetivo de este proyecto, es desarrollar un modelo predictivo que pueda asignar a cada teléfono móvil un rango de precios, para proporcionar una guía clara sobre cómo posicionar los productos en el mercado. Esta predicción de rango de precios ayudará a Bob, a tomar decisiones estratégicas fundamentadas en datos, optimizando así sus estrategias de precios y su competitividad en el mercado de telefonía móvil.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 2. Variables del Dataset

__battery_power:__ Energía total que una batería puede almacenar en un tiempo medida en mAh

__blue:__ Tiene bluetooth o no

__clock_speed:__ Velocidad a la que el microprocesador ejecuta instrucciones

__dual_sim:__ Tiene soporte dual sim o no

__fc:__ Megapíxeles de la cámara frontal

__four_g:__ Tiene 4G o no

__int_memory:__ Memoria interna en Gigabytes

__m_dep:__ Profundidad del móvil en cm

__mobile_wt:__ Peso del teléfono móvil

__n_cores:__ Número de núcleos de procesador

__pc:__ Megapíxeles de la cámara principal

__px_height:__ Altura de resolución de píxeles

__px_width:__ Ancho de resolución de píxeles

__ram:__ Memoria de acceso aleatorio en megabytes

__sc_h:__ Altura de pantalla del móvil en cm

__sc_w:__ Ancho de pantalla del móvil en cm

__talk_time:__ mayor tiempo que durará una sola carga de batería cuando estés en llamada

__three_g:__ Tiene 3G o no

__touch_screen:__ Tiene pantalla táctil o no

__wifi:__ Tiene wifi o no

__price_range:__ Esta es la variable objetivo con valor de 0 (bajo costo), 1 (costo medio), 2 (costo alto) y 3 (costo muy alto).

- Dataset "train" lo llamaremos "df_mobile_market" que hace referencia a los datos de ventas de teléfonos móviles, que Bob a recopilado, de diversas empresas

- Dataset "test" lo llamaremos "df_feature_mobile" que hace referencia a los todos los telefonos a los cuales se necesita asignar un rango de precio

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 3. Importar Librerias

In [3]:
# Importar librerias necesarias para el analisis

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.model_selection import StratifiedShuffleSplit, GridSearchCV, cross_val_score, cross_val_predict
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from xgboost import XGBClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.feature_selection import SelectKBest, f_classif, RFECV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix
import warnings

In [4]:
# Desactivar las alertas

warnings.filterwarnings('ignore')

In [5]:
# Mostar todas las columnas de los DataFrame

pd.set_option('display.max_columns', None)

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 4. Importar Datos

In [None]:
# Importar las datasets

df_mobile_market = pd.read_csv('/kaggle/input/mobile-price-classification/train.csv')
df_feature_mobile = pd.read_csv('/kaggle/input/mobile-price-classification/test.csv', index_col = 'id')

In [None]:
# Visualizar DataFrame df_mobile_market


df_mobile_market.head()

In [None]:
# Visualizar DataFrame df_mobile_market

df_feature_mobile.head()

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 5. Analisis Exploratorio de Datos

In [None]:
# Visualizar info del DataFrame df_mobile_market

df_mobile_market.info()

In [None]:
# Visualizar DataFrame df_feature_mobile

df_feature_mobile.info()

In [None]:
# Visualizar datos en blanco del DataFrame df_mobile_market

datos_blanco = pd.DataFrame({
    'Registros en Blanco' : df_mobile_market.isna().sum(),
    '% Registros en Blanco' : df_mobile_market.isna().sum()/len(df_mobile_market)
})

datos_blanco

In [None]:
# Visualizar datos en blanco del DataFrame df_feature_mobile

datos_blanco = pd.DataFrame({
    'Registros en Blanco' : df_feature_mobile.isna().sum(),
    '% Registros en Blanco' : df_feature_mobile.isna().sum()/len(df_mobile_market)
})

datos_blanco

In [None]:
#Visualizar los valores distintos de las variables categoricas del DataFrame df_mobile_market

var_cat_mobile_market = df_mobile_market[['blue', 'dual_sim', 'four_g', 'three_g', 'touch_screen', 'wifi', 'price_range', 'n_cores']]

unique_counts_mobile_market = var_cat_mobile_market.nunique()
unique_values_mobile_market = var_cat_mobile_market.apply(lambda x: x.unique())

pd.DataFrame({'Frequency': unique_counts_mobile_market, 'Unique Values': unique_values_mobile_market})

In [None]:
#Visualizar los valores distintos de las variables categoricas del DataFrame df_feature_mobile

var_cat_feature_mobile = df_feature_mobile[['blue', 'dual_sim', 'four_g', 'three_g', 'touch_screen', 'wifi', 'n_cores']]

unique_counts_feature_mobile = var_cat_feature_mobile.nunique()
unique_values_feature_mobile = var_cat_feature_mobile.apply(lambda x: x.unique())

pd.DataFrame({'Frequency': unique_counts_feature_mobile, 'Unique Values': unique_values_feature_mobile})

In [None]:
# Visualizar las descripcion estadistica de las variables numericas de df_mobile_market

var_num_mobile_market = df_mobile_market.drop(var_cat_mobile_market.columns, axis = 1)
var_num_mobile_market.describe().T.round(1)

In [None]:
# Visualizar las descripcion estadistica de las variables numericas de df_feature_mobile

var_num_feature_mobile = df_feature_mobile.drop(var_cat_feature_mobile.columns, axis = 1)
var_num_feature_mobile.describe().T.round(1)

__Comentarios:__

- El DataFrame df_Mobile_market posee 2000 registros y el DataFrame df_feature_Mobile posee 1000 registros.
- Ambos DataFrame no posee registros vacíos.
- Ambos DataFrame posee las siguientes variables categóricas, a excepción de df_feature_mobile que no posee "price_range", debido a que es el set de datos al cual necesitamos predecir su rango de precio: __blue, dual_sim, four_g, three_g, touch_screen, wifi, price_range y n_cores__.
- Ambos DataFrame poseen las siguientes variables numericas: __blue, dual_sim, four_g, three_g, touch_screen, wifi, price_range y n_cores__.

In [None]:
# Visualizar la distibucion de los datos de las variables numericas

columns = var_num_mobile_market.columns.tolist()

fig, axes = plt.subplots(nrows=4, ncols=4, figsize=(15, 12))

for i, variable in enumerate(columns):
    row = i // 4
    col = i % 4

    sns.histplot(var_num_mobile_market[variable], bins=10, edgecolor = None, kde=True, ax = axes[row, col])

    mean_value = var_num_mobile_market[variable].mean()
    std_dev = var_num_mobile_market[variable].std()

    axes[row, col].axvline(mean_value, color='red', linewidth=1, label= f'µ: {mean_value:.1f}')
    axes[row, col].axvline(mean_value + std_dev, color='yellow', alpha = 0.0, linewidth=1, label= f'σ: {std_dev:.1f}')

    axes[row, col].set_xlabel('')
    axes[row, col].set_ylabel('Frequency', fontsize = 7)
    axes[row, col].set_title(variable)
    axes[row, col].legend(loc = 3, fontsize = 7)

plt.tight_layout(pad=2.5)

axes[3, 1].axis('off')
axes[3, 2].axis('off')
axes[3, 3].axis('off');

In [None]:
# Visualizar la distibucion de los datos de las variables categoricas

columns = var_cat_mobile_market.drop('price_range', axis = 1).columns.tolist()

fig, axes = plt.subplots(nrows=2, ncols=4, figsize=(15, 12))
axes[1,2] = plt.subplot2grid((2,4), (1,2), colspan=2)

plt.subplots_adjust(wspace=0.5, hspace=0.1)

for i, col in enumerate(columns):
    cross_tab = pd.crosstab(index=var_cat_mobile_market[col], columns=var_cat_mobile_market['price_range'])
    cross_tab_prop = pd.crosstab(index=var_cat_mobile_market[col], columns=var_cat_mobile_market['price_range'], normalize='index')

    row = i // 4
    col = i % 4

    cross_tab_prop.plot(kind = 'bar', stacked = True, width=0.8, colormap='Blues', sharey = True, ax = axes[row, col])

    for p in axes[row, col].patches:
        width, height = p.get_width(), p.get_height()
        x, y = p.get_xy()
        axes[row, col].annotate('{:.1f}%'.format(height*100), (x + width/2, y + height/2), ha='center', va='center', fontweight="bold")

    axes[row,col].legend(title = 'Price Range', ncol = 4, title_fontsize = 9, fontsize=8, loc = 9)
    axes[row,col].set_xticklabels(axes[row,col].get_xticklabels(), rotation=0)


plt.tight_layout(pad=3.0)

In [None]:
# Crear un heatmap para visualizar la correlacion entre variables del DataFrame df_mobile_market

matriz = df_mobile_market.corr(method = 'pearson')

mask = np.triu(np.ones_like(matriz, dtype=bool))

plt.figure(figsize=(16, 8))
ax = sns.heatmap(matriz,
                 annot = True,
                 cmap = 'Blues',
                 annot_kws={"fontsize":8},
                 mask = mask)

In [None]:
# Visualizar la distribucion de los datos de las variables con mayor correlación

variables = ['battery_power', 'px_height', 'px_width', 'ram']

fig, axes = plt.subplots(nrows = 2, ncols = 2, figsize = (16, 12))

for i, variable in enumerate(variables):
    row = i // 2
    col = i % 2

    sns.swarmplot(x = 'price_range', y = variable, data = df_mobile_market, ax = axes[row, col], palette = 'Blues')
    axes[row, col].set_title(f'Price_Range vs {variable.capitalize()}');

__Comentarios:__

- Al visualizar las variables numéricas, podemos darnos cuenta que la mayoría de las variables poseen datos distribuidos de manera normal. únicamente las variables __fc, px_heigth y sc_w__ poseen una asimetría positiva. Esto significa que la mayoría de los dispositivos móviles poseen valores bajos y unos cuantos poseen valores muy altos. Estos valores altos pueden corresponder a modelos de gama alta o dispositivos específicos que se orientan a dichas variables.
- En cuanto a las variables categóricas, podemos observar que la distribución porcentual de los datos sigue un patrón similar en las categorías de cada variable en relación a su rango de precio. Sin embargo, podemos ver una variación significativa en la variable __n_cores__, específicamente en el rango de precio __1 y 2__. Podríamos decir que el modelo podría tener dificultades para clasificar correctamente los teléfonos, en estos rangos de precios, en el caso que nos basáramos únicamente en esa variable.
- En el mapa de calor podemos ver que las variables __battery_power, px_height, px_width, ram__ poseen una correlación significativa positiva, en especial la variable __ram__.
- Al visualizar en un __swarmplot__, las variables mencionadas en el punto anterior, podemos darnos cuenta de la alta correlación, o de la clara segmentación, de los precios en base a la __ram__. Esto significa que entre más __ram__ posea un celular más alto será el precio.


[Tabla de Contenidos](#Tabla-de-Contenidos)

# 6. Definir Datos de Entrenamiento y Prueba

In [None]:
count_range_price = df_mobile_market.groupby('price_range').agg({'price_range':'count'})
count_range_price['% Frequency'] = (count_range_price.price_range/count_range_price.price_range.sum()) *100
count_range_price.rename(columns = {'price_range':'Frequency'})

In [None]:
# Dividir los datos de entrenamiento y prueba en la misma proporcion en ralacion a price_range

# Definir la distribucion de los datos
stratified = StratifiedShuffleSplit(n_splits =  1, test_size = 0.2, random_state = 11)

for index_train, index_test in stratified.split(df_mobile_market, df_mobile_market['price_range']):
    set_train = df_mobile_market.loc[index_train]
    set_test = df_mobile_market.loc[index_test]

In [None]:
set_train.head()

In [None]:
set_test.head()

In [None]:
# Comprobar la distribucion de los datos

data_distribution = pd.DataFrame({
    'set_train':set_train.price_range.value_counts()/df_mobile_market.price_range.value_counts(),
    'set_test':set_test.price_range.value_counts()/df_mobile_market.price_range.value_counts()
})


data_distribution

__Comentarios:__

- Vemos que la distribución de los datos es igual entre las clases de la variable __price_range__. Cada clase tiene 500 registros.
- Al usar el método __StratifiedShuffleSplit__, garantizamos que la distribución de las clases en los conjuntos de entrenamiento y prueba sea similar. Esto es importante para entrenar y evaluar modelos de manera más efectiva y evitar problemas como el sobreajuste o la evaluación sesgada por clases desbalanceadas. En este caso, asignamos a cada clase el 80% de los datos para entrenamiento y 20% para prueba.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 7. Transformación de Datos

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 7.1 Transformar Set de Entrenamiento

In [None]:
set_train_feature = set_train.drop('price_range', axis = 1)
set_train_target = set_train.price_range

In [None]:
set_train_feature.head()

In [None]:
set_train_target.head()

In [None]:
# Escalar los datos del set de entrenamiento

scaler = StandardScaler()
set_train_feature_scaler = scaler.fit_transform(set_train_feature)
set_train_feature = pd.DataFrame(set_train_feature_scaler, columns = set_train_feature.columns)
set_train_feature.head()

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 7.2 Transformar Set de Prueba

In [None]:
set_test_feature = set_test.drop('price_range', axis = 1)
set_test_target = set_test.price_range

In [None]:
set_test_feature.head()

In [None]:
set_test_target.head()

In [None]:
# Escalar los datos del set de prueba

set_test_feature_scaler = scaler.transform(set_test_feature)
set_test_feature = pd.DataFrame(set_test_feature_scaler, columns = set_test_feature.columns)
set_test_feature.head()

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 8. Entrenamiento de Modelos

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 8.1 Modelo XGBClassifier

El modelo __XGBClassifier__, es una potente técnica de aprendizaje automático que se utiliza comúnmente para problemas de clasificación. Este modelo es una implementación optimizada del algoritmo de aumento de gradiente que ha ganado popularidad debido a su precisión y eficiencia en una amplia gama de aplicaciones.

Para iniciar la construcción del modelo, utilizaremos el método __RFECV__ que es una técnica de selección automática de características, que nos ayuda a identificar las características más importantes para nuestro modelo, utilizando un proceso iterativo con validación cruzada.

__Hiperparametros que modificaremos:__

- __learning_rate:__ Es un número que controla la contribución de cada árbol al modelo final. Una tasa de aprendizaje más baja hace que el modelo aprenda de manera más conservadora, mientras que una tasa más alta puede llevar a un aprendizaje más rápido, pero también a un mayor riesgo de sobreajuste.

- __n_estimators:__ Indica cuántos árboles se deben construir en el proceso de boosting. Más estimadores generalmente significan un modelo más complejo y potente, pero también aumentan el tiempo de entrenamiento, el uso de recursos computaciones y el riesgo de sobreajuste si no se controlan adecuadamente.

Para obtener los hiperparametros óptimos para este modelo, utilizaremos el método __GridSearchCV__, que es una técnica de optimización en aprendizaje automático que nos ayuda a encontrar los mejores hiperparámetros para el modelo.


In [None]:
# Escoger las columnas más relevantes con RFECV

xgb = XGBClassifier()
selector_xgb = RFECV(xgb,
                step = 1,
                cv = 5,
                scoring = 'accuracy')

selector_xgb.fit(set_train_feature, set_train_target)

relevant_feature_xgb = set_train_feature.columns[selector_xgb.support_].tolist()

print(f'Numero de caracteristicas seleccionadas: {selector_xgb.n_features_}')
print(f'Caracteristicas seleccionadas: {relevant_feature_xgb}')

In [None]:
# Seleccionar los mejores hiperparametros

xgb = XGBClassifier()

param_grid_xgb = {
    'learning_rate':[0.1, 0.5, 0.8],
    'n_estimators':[50, 100, 200, 300]
}

grid_search_xgb = GridSearchCV(estimator = xgb,
                               param_grid = param_grid_xgb,
                               cv = 5,
                               scoring = 'accuracy')

grid_search_xgb.fit(set_train_feature[relevant_feature_xgb], set_train_target)

print(f'Mejores hiperparametros: {grid_search_xgb.best_params_}')

In [None]:
#Predecir datos con los set de entrenamiento y prueba

#Prediccion con set de entrenamiento
target_pred_xgb_train = grid_search_xgb.predict(set_train_feature[relevant_feature_xgb])

#Prediccion con set de prueba
target_pred_xgb_test = grid_search_xgb.predict(set_test_feature[relevant_feature_xgb])

In [None]:
#Obtener los score de clasificacion para los set de entrenamiento y prueba

#Score de clasificacion con set de entrenamiento
df_result_xgb_train = pd.DataFrame(data = [
    accuracy_score(set_train_target, target_pred_xgb_train),
    precision_score(set_train_target, target_pred_xgb_train, average = 'macro'),
    recall_score(set_train_target, target_pred_xgb_train, average = 'macro'),
    f1_score(set_train_target, target_pred_xgb_train, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['XGBClassifier']

)


#Score de clasificacion con set de prueba
df_result_xgb_test = pd.DataFrame(data = [
    accuracy_score(set_test_target, target_pred_xgb_test),
    precision_score(set_test_target, target_pred_xgb_test, average = 'macro'),
    recall_score(set_test_target, target_pred_xgb_test, average = 'macro'),
    f1_score(set_test_target, target_pred_xgb_test, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['XGBClassifier']

)

In [None]:
print(f'\033[1mClassification Report XGBClassifier set train\n\n\033[0m{classification_report(set_train_target, target_pred_xgb_train)}\n\n')
print(f'\033[1mClasiffication Report XGBClassifier set test\n\n\033[0m{classification_report(set_test_target, target_pred_xgb_test)}')

In [None]:
#Visualizar matriz de coeficiente para los set de entrenamiento y prueba

fig, axes = plt.subplots(nrows = 1, ncols = 2, figsize = (15,5))

#Matriz de coeficiente con set de entrenamiento
conf_matrix_xgb_train = confusion_matrix(set_train_target, target_pred_xgb_train)

sns.heatmap(conf_matrix_xgb_train, annot=True, cmap='Blues', fmt='g', ax = axes[0])
axes[0].set_xlabel('Predicted Values')
axes[0].set_ylabel('Real Values')
axes[0].set_title('Confusion Matrix XGBClassifier set train')


#Matriz de coeficiente con set de entrenamiento
conf_matrix_xgb_test = confusion_matrix(set_test_target, target_pred_xgb_test)

sns.heatmap(conf_matrix_xgb_test, annot=True, cmap='Blues', fmt='g', ax = axes[1])
axes[1].set_xlabel('Predicted Values')
axes[1].set_ylabel('Real Values')
axes[1].set_title('Confusion Matrix XGBClassifier set test');

__Comentarios:__

- El método __REFCV__ que se ha utilizado para selección de características, nos dice que las caracteristicas más importantes para este modelo son: __battery_power'__, __px_height__, __px_width__, __ram__
- El método __GridSearchCV__ que utilizamos para la selección de parámetros, nos dice que los mejores hiperparametros para este modelo son: __learning_rate: 0.8__ y un __n_estimators: 300__
- En relación al reporte de clasificación, nos centraremos en la métrica de __Precision__. La precisión indica la proporción de instancias clasificadas como positivas que realmente son positivas. En otras palabras, es la capacidad del modelo para no etiquetar incorrectamente una muestra negativa como positiva. Para cada clase (0, 1, 2, 3), describe cuántas de las instancias clasificadas como esa clase son realmente de esa clase.

El __macro avg__ de precision, que es un promedio no ponderado de dicha métrica, nos dice que hay un 100% de precisión en el modelo. Esto indica que todas las instancias clasificadas como positivas son realmente positivas, lo que podría indicar que el modelo está memorizando los datos de entrenamiento en lugar de generalizar patrones o, en otras palabras, el modelo esta sobreajustado.

Esto es notable cuando hacemos las predicciones con nuestro set de prueba, que es equivalente a hacer predicciones con datos nuevos. Ahora el modelo no se comporta de la misma manera, ya que obtenemos una diferencia, de precisión promedio, del 9% con respecto a la precisión promedio del set de entrenamiento; una diferencia considerablemente alta. Sin embargo, la precisión con el set de prueba es considerablemente bueno.

Si un modelo está sobreajustado a un conjunto de datos específico, es más probable que no funcione bien con datos nuevos y diferentes. Esto se debe a que el modelo no ha aprendido patrones generales que se apliquen a una variedad de situaciones. Para estos casos se recomienda realizar una validación cruzada.

La matriz de confusión nos muestra visualmente como las predicciones son clasificadas en cada una de las clases. Las clases clasificadas correctamente se sitúan en la diagonal principal de la matriz.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 8.2 Modelo RandomForestClassifier

El modelo __RandomForestClassifier__, es un algoritmo de aprendizaje automático que se utiliza para problemas de clasificación. Funciona mediante la creación de múltiples árboles de decisión y combina sus predicciones para obtener una clasificación final.

Para iniciar la construcción del modelo, utilizaremos el método __RFECV__ que es una técnica de selección automática de características, que nos ayuda a identificar las características más importantes para nuestro modelo, utilizando un proceso iterativo con validación cruzada.

__Hiperparametros que modificaremos:__

- __max_depth :__ Especifica la profundidad máxima de cada árbol de decisión en el bosque. Controla la complejidad de los árboles. Una profundidad mayor puede llevar a un modelo más complejo y propenso al sobreajuste, mientras que una profundidad menor puede resultar en un modelo más simple, pero con menos capacidad de aprendizaje.

- __max_leaf_nodes :__ Especifica el número máximo de nodos hoja permitidos en cada árbol. Controla la estructura y la complejidad de los árboles, influyendo en la capacidad del modelo para aprender patrones más complejos o más simples.

- __n_estimators:__ Indica cuántos árboles se deben construir en el proceso de boosting. Más estimadores generalmente significan un modelo más complejo y potente, pero también aumentan el tiempo de entrenamiento, el uso de recursos computaciones y el riesgo de sobreajuste si no se controlan adecuadamente.

Para obtener los hiperparametros óptimos para este modelo, utilizaremos el método __GridSearchCV__, que es una técnica de optimización en aprendizaje automático que nos ayuda a encontrar los mejores hiperparámetros para el modelo.

In [None]:
# Escoger las columnas más relevantes con RFECV

rfc = RandomForestClassifier(random_state = 11)
selector_rfc = RFECV(rfc,
                step = 1,
                cv = 5,
                scoring = 'accuracy')

selector_rfc.fit(set_train_feature, set_train_target)

relevant_feature_rfc = set_train_feature.columns[selector_rfc.support_].tolist()

print(f'Numero de caracteristicas seleccionadas: {selector_rfc.n_features_}')
print(f'Caracteristicas seleccionadas: {relevant_feature_rfc}')

In [None]:
# Seleccionar los mejores hiperparametros

rfc = RandomForestClassifier(random_state = 11)

param_grid_rfc = {
    'max_depth':[2, 4, 6],
    'max_leaf_nodes':[5, 10, 15],
    'n_estimators':[50, 100, 200]
}

grid_search_rfc = GridSearchCV(estimator = rfc,
                               param_grid = param_grid_rfc,
                               cv = 5,
                               scoring = 'accuracy')

grid_search_rfc.fit(set_train_feature[relevant_feature_rfc], set_train_target)

print(f'Mejores hiperparametros: {grid_search_rfc.best_params_}')

In [None]:
#Predecir datos con los set de entrenamiento y prueba

#Prediccion con set de entrenamiento
target_pred_rfc_train = grid_search_rfc.predict(set_train_feature[relevant_feature_rfc])

#Prediccion con set de prueba
target_pred_rfc_test = grid_search_rfc.predict(set_test_feature[relevant_feature_rfc])

In [None]:
#Obtener los score de clasificacion para los set de entrenamiento y prueba

#Score de clasificacion con set de entrenamiento
df_result_rfc_train = pd.DataFrame(data = [
    accuracy_score(set_train_target, target_pred_rfc_train),
    precision_score(set_train_target, target_pred_rfc_train, average = 'macro'),
    recall_score(set_train_target, target_pred_rfc_train, average = 'macro'),
    f1_score(set_train_target, target_pred_rfc_train, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['RandonForestClassifier']

)


#Score de clasificacion con set de prueba
df_result_rfc_test = pd.DataFrame(data = [
    accuracy_score(set_test_target, target_pred_rfc_test),
    precision_score(set_test_target, target_pred_rfc_test, average = 'macro'),
    recall_score(set_test_target, target_pred_rfc_test, average = 'macro'),
    f1_score(set_test_target, target_pred_rfc_test, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['RandonForestClassifier']

)

In [None]:
print(f'\033[1mClassification Report RandorForestClassifier set train\n\n\033[0m{classification_report(set_train_target, target_pred_rfc_train)}\n\n')
print(f'\033[1mClassificacion Report RandorForestClassifier set test\n\n\033[0m{classification_report(set_test_target, target_pred_rfc_test)}')

In [None]:
#Visualizar matriz de coeficiente para los set de entrenamiento y prueba

fig, axes = plt.subplots(nrows = 1, ncols = 2, figsize = (15,5))

#Matriz de coeficiente con set de entrenamiento
conf_matrix_rfc_train = confusion_matrix(set_train_target, target_pred_rfc_train)

sns.heatmap(conf_matrix_rfc_train, annot=True, cmap='Blues', fmt='g', ax = axes[0])
axes[0].set_xlabel('Predicted Values')
axes[0].set_ylabel('Real Values')
axes[0].set_title('Confusion Matrix RandomForestClassifier set train')


#Matriz de coeficiente con set de entrenamiento
conf_matrix_rfc_test = confusion_matrix(set_test_target, target_pred_rfc_test)

sns.heatmap(conf_matrix_rfc_test, annot=True, cmap='Blues', fmt='g', ax = axes[1])
axes[1].set_xlabel('Predicted Values')
axes[1].set_ylabel('Real Values')
axes[1].set_title('Confusion Matrix RandomForestClassifier set test');

__Comentarios:__

- El método __REFCV__ que utilizado para selección de características, nos dice que las características más importantes para este modelo son: __battery_power'__, __px_height__, __px_width__, __ram__
- El método __GridSearchCV__ que utilizamos para la selección de parámetros, nos dice que los mejores hiperparametros para este modelo son: __max_depth: 6__, __max_leaf_nodes: 15__, __n_estimators: 50__
- En relación al reporte de clasificación, nos centraremos en la métrica de __Precision__. La precisión indica la proporción de instancias clasificadas como positivas que realmente son positivas. En otras palabras, es la capacidad del modelo para no etiquetar incorrectamente una muestra negativa como positiva. Para cada clase (0, 1, 2, 3), describe cuántas de las instancias clasificadas como esa clase son realmente de esa clase.

El __macro avg__ de precision, que es un promedio no ponderado de dicha métrica, nos dice que hay un 90% de precisión en el modelo. podríamos decir que de 10 clases predichas, 9 son clasificadas correctamente.

la diferencia de precisión promedio en nuestro set de prueba es del 6%. Esta diferencia puedo considerarse aceptable y no necesariamente indica un problema de sobreajuste grave.

La matriz de confusión nos muestra visualmente como las predicciones son clasificadas en cada una de las clases. Las clases clasificadas correctamente se sitúan en la diagonal principal de la matriz.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 8.3 Modelo SVC

El modelo __Support Vector Classifier (SVC)__, es un algoritmo de aprendizaje supervisado utilizado para problemas de clasificación. Funciona encontrando el hiperplano óptimo que separa las clases en el espacio de características.

__Hiperparametros que modificaremos:__

- __Kernel :__  Es una función que transforma los datos a un espacio de características de mayor dimensión donde la separación entre clases puede ser más fácil. El tipo de kernel afecta significativamente la capacidad del modelo para manejar datos no lineales y la complejidad de la superficie de decisión.

- __Degree  :__ Es el grado del kernel polinomial. Controla la complejidad de la transformación polinomial aplicada a los datos. Un grado más alto puede hacer que el modelo sea más flexible pero también más propenso al sobreajuste.

- __Gamma :__ Es un parámetro para kernels no lineales. Controla la influencia de un solo ejemplo de entrenamiento, afectando la forma de la superficie de decisión. Un valor bajo de gamma significa que los ejemplos de entrenamiento tienen un alcance amplio, lo que puede resultar en un modelo más suave con regiones de clasificación más grandes. Un valor alto de gamma significa que los ejemplos de entrenamiento tienen un alcance más limitado, lo que puede llevar a un modelo más complejo y ajustado a los datos de entrenamiento.

- __C  :__ Controla la regularización en el modelo SVC. Un valor más alto de C permite al modelo clasificar correctamente más puntos de entrenamiento, incluso si eso significa tener un margen más estrecho. Es crucial para encontrar el equilibrio entre la clasificación correcta de los datos de entrenamiento y la maximización de la margen entre las clases. Un valor bajo de C puede dar lugar a una margen más amplia pero posiblemente a una menor precisión en la clasificación, mientras que un valor alto puede llevar a un sobreajuste.

Para obtener los hiperparametros óptimos para este modelo, utilizaremos el método __GridSearchCV__, que es una técnica de optimización en aprendizaje automático que nos ayuda a encontrar los mejores hiperparámetros para el modelo.

In [None]:
# Seleccionar los mejores hiperparametros

svc = SVC(random_state = 11)

param_grid_svc = [

    {'kernel':['poly'],
    'degree':[2, 3],
    'gamma':[0.01, 0.1, 1],
    'C':[0.1, 1, 10]},

    {'kernel':['rbf', 'sigmoid'],
    'gamma': [0.01, 0.1, 1],
    'C':[0.1, 1, 10]},

    {'kernel': ['linear'],
    'C':[0.1, 1, 10, 30, 50]}
]

grid_search_svc = GridSearchCV(estimator = svc,
                               param_grid = param_grid_svc,
                               cv = 5,
                               scoring = 'accuracy')

grid_search_svc.fit(set_train_feature, set_train_target)

print(f'Mejores hiperparametros: {grid_search_svc.best_params_}')

In [None]:
#Predecir datos con los set de entrenamiento y prueba

#Prediccion con set de entrenamiento
target_pred_svc_train = grid_search_svc.predict(set_train_feature)

#Prediccion con set de prueba
target_pred_svc_test = grid_search_svc.predict(set_test_feature)

In [None]:
#Obtener los score de clasificacion para los set de entrenamiento y prueba

#Score de clasificacion con set de entrenamiento
df_result_svc_train = pd.DataFrame(data = [
    accuracy_score(set_train_target, target_pred_svc_train),
    precision_score(set_train_target, target_pred_svc_train, average = 'macro'),
    recall_score(set_train_target, target_pred_svc_train, average = 'macro'),
    f1_score(set_train_target, target_pred_svc_train, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['SVC']

)


#Score de clasificacion con set de prueba
df_result_svc_test = pd.DataFrame(data = [
    accuracy_score(set_test_target, target_pred_svc_test),
    precision_score(set_test_target, target_pred_svc_test, average = 'macro'),
    recall_score(set_test_target, target_pred_svc_test, average = 'macro'),
    f1_score(set_test_target, target_pred_svc_test, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['SVC']

)

In [None]:
print(f'\033[1mClassification Report SVC set train\n\n\033[0m{classification_report(set_train_target, target_pred_svc_train)}\n\n')
print(f'\033[1mClassificacion Report SVC set test\n\n\033[0m{classification_report(set_test_target, target_pred_svc_test)}')

In [None]:
#Visualizar matriz de coeficiente para los set de entrenamiento y prueba

fig, axes = plt.subplots(nrows = 1, ncols = 2, figsize = (15,5))

#Matriz de coeficiente con set de entrenamiento
conf_matrix_svc_train = confusion_matrix(set_train_target, target_pred_svc_train)

sns.heatmap(conf_matrix_svc_train, annot=True, cmap='Blues', fmt='g', ax = axes[0])
axes[0].set_xlabel('Predicted Values')
axes[0].set_ylabel('Real Values')
axes[0].set_title('Confusion Matrix SCV set train')


#Matriz de coeficiente con set de entrenamiento
conf_matrix_svc_test = confusion_matrix(set_test_target, target_pred_svc_test)

sns.heatmap(conf_matrix_svc_test, annot=True, cmap='Blues', fmt='g', ax = axes[1])
axes[1].set_xlabel('Predicted Values')
axes[1].set_ylabel('Real Values')
axes[1].set_title('Confusion Matrix SVC set test');

__Comentarios:__

- El método __GridSearchCV__ que utilizamos para la selección de parámetros, nos dice que los mejores hiperparametros para este modelo son: __C: 10, kernel: linear__
- En relación al reporte de clasificación, nos centraremos en la métrica de __Precision__. La precisión indica la proporción de instancias clasificadas como positivas que realmente son positivas. En otras palabras, es la capacidad del modelo para no etiquetar incorrectamente una muestra negativa como positiva. Para cada clase (0, 1, 2, 3), describe cuántas de las instancias clasificadas como esa clase son realmente de esa clase:

El __macro avg__ de precision, que es un promedio no ponderado de dicha métrica, nos dice que hay un 98% de precisión en el modelo, cuando hacemos las predicciones con el set de entrenamiento.

Al hacer las predicciones con el set de prueba, que es equivalente a hacer predicciones con datos nuevos, vemos que la precisión del modelo es del 97%. Esto nos indica que el modelo tendrá un buen comportamiento con datos nuevos.

La matriz de confusión nos muestra visualmente como las predicciones son clasificadas en cada una de las clases. Las clases clasificadas correctamente se sitúan en la diagonal principal de la matriz.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 8.4 Modelo KNN

El modelo __KNeighborsClassifier__, es un algoritmo de aprendizaje supervisado utilizado para problemas de clasificación. Funciona identificando las k muestras más cercanas (vecinos) a un punto dado en el espacio de características y asignándole la clase más común entre esos vecinos.


__Hiperparametros que modificaremos:__

- __n_neighbors :__ Especifica el número de vecinos que se consideran para la clasificación de una muestra. Un valor más alto de n_neighbors puede suavizar la frontera de decisión, mientras que un valor más bajo puede llevar a una clasificación más ajustada.

- __weights :__ Determina cómo se ponderan las contribuciones de los vecinos en la votación. Las opciones comunes son "uniform" (todos los vecinos tienen el mismo peso) y "distance" (los vecinos más cercanos tienen más influencia).

- __metric:__ Especifica la métrica de distancia utilizada para medir la cercanía entre muestras.

Para obtener los hiperparametros óptimos para este modelo, utilizaremos el método __GridSearchCV__, que es una técnica de optimización en aprendizaje automático que nos ayuda a encontrar los mejores hiperparámetros para el modelo.

In [None]:
# Seleccionar los mejores hiperparametros

knn = KNeighborsClassifier()

param_grid_knn = {

    'n_neighbors': [3, 5, 7, 9],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']

}

grid_search_knn = GridSearchCV(estimator = knn,
                              param_grid = param_grid_knn,
                              cv = 5,
                              scoring = 'accuracy')

grid_search_knn.fit(set_train_feature, set_train_target)

print(f'Mejores hiperparametros: {grid_search_knn.best_params_}')

In [None]:
#Predecir datos con los set de entrenamiento y prueba

#Prediccion con set de entrenamiento
target_pred_knn_train = grid_search_knn.predict(set_train_feature)

#Prediccion con set de prueba
target_pred_knn_test = grid_search_knn.predict(set_test_feature)

In [None]:
#Obtener los score de clasificacion para los set de entrenamiento y prueba

#Score de clasificacion con set de entrenamiento
df_result_knn_train = pd.DataFrame(data = [
    accuracy_score(set_train_target, target_pred_knn_train),
    precision_score(set_train_target, target_pred_knn_train, average = 'macro'),
    recall_score(set_train_target, target_pred_knn_train, average = 'macro'),
    f1_score(set_train_target, target_pred_knn_train, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['KNN']

)


#Score de clasificacion con set de prueba
df_result_knn_test = pd.DataFrame(data = [
    accuracy_score(set_test_target, target_pred_knn_test),
    precision_score(set_test_target, target_pred_knn_test, average = 'macro'),
    recall_score(set_test_target, target_pred_knn_test, average = 'macro'),
    f1_score(set_test_target, target_pred_knn_test, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['KNN']

)

In [None]:
print(f'\033[1mClassification Report KNN set train\n\n\033[0m{classification_report(set_train_target, target_pred_knn_train)}\n\n')
print(f'\033[1mClassificacion Report KNN set test\n\n\033[0m{classification_report(set_test_target, target_pred_knn_test)}')

In [None]:
#Visualizar matriz de coeficiente para los set de entrenamiento y prueba

fig, axes = plt.subplots(nrows = 1, ncols = 2, figsize = (15,5))

#Matriz de coeficiente con set de entrenamiento
conf_matrix_knn_train = confusion_matrix(set_train_target, target_pred_knn_train)

sns.heatmap(conf_matrix_knn_train, annot=True, cmap='Blues', fmt='g', ax = axes[0])
axes[0].set_xlabel('Predicted Values')
axes[0].set_ylabel('Real Values')
axes[0].set_title('Confusion Matrix KNN set train')


#Matriz de coeficiente con set de entrenamiento
conf_matrix_knn_test = confusion_matrix(set_test_target, target_pred_knn_test)

sns.heatmap(conf_matrix_knn_test, annot=True, cmap='Blues', fmt='g', ax = axes[1])
axes[1].set_xlabel('Predicted Values')
axes[1].set_ylabel('Real Values')
axes[1].set_title('Confusion Matrix KNN set test');

__Comentarios:__

- El método __GridSearchCV__ que utilizamos para la selección de parámetros, nos dice que los mejores hiperparametros para este modelo son: __metric: manhattan, n_neighbors: 9, weights: distance__
- En relación al reporte de clasificación, nos centraremos en la métrica de __Precision__. La precisión indica la proporción de instancias clasificadas como positivas que realmente son positivas. En otras palabras, es la capacidad del modelo para no etiquetar incorrectamente una muestra negativa como positiva. Para cada clase (0, 1, 2, 3), describe cuántas de las instancias clasificadas como esa clase son realmente de esa clase.

El __macro avg__ de precision, que es un promedio no ponderado de dicha métrica, nos dice que hay un 100% de precisión en el modelo. Esto indica que todas las instancias clasificadas como positivas son realmente positivas, lo que podría indicar que el modelo está memorizando los datos de entrenamiento en lugar de generalizar patrones, o en otras palabras, el modelo esta sobreajustado.

Esto es notable cuando hacemos las predicciones con nuestro set de prueba, que es equivalente a hacer predicciones con datos nuevos. Ahora el modelo no se comporta de la misma manera, ya que obtenemos una diferencia, de precisión promedio, del 44% con respecto a la precisión promedio del set de entrenamiento; una diferencia demasiado alta.

 Si un modelo está sobreajustado a un conjunto de datos específico, es más probable que no funcione bien con datos nuevos y diferentes. Esto se debe a que el modelo no ha aprendido patrones generales que se apliquen a una variedad de situaciones. Para estos casos se recomienda realizar una validación cruzada.

 La matriz de confusión nos muestra visualmente como las predicciones son clasificadas en cada una de las clases. Las clases clasificadas correctamente se sitúan en la diagonal principal de la matriz.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 9. Metricas de Evaluación de Modelos

In [None]:
# Concatenar las metricas de clasificacion de los modelos, entrenados con set de entrenamiento

# Función para convertir números a formato de porcentaje
def format_percentage(num):
    return f'{num * 100:.2f}%'

print('\033[1mScore Result set train\n\n\033[0m')
result_scoring_train = pd.concat([df_result_xgb_train, df_result_rfc_train, df_result_svc_train, df_result_knn_train], axis = 1).T
result_scoring_train = result_scoring_train.sort_values(by = 'Accuracy', ascending = False)
result_scoring_train.applymap(format_percentage)

In [None]:
# Concatenar las metricas de clasificacion de los modelos, entrenados con set de entrenamiento

print('\033[1mScore Result set test\n\n\033[0m')
result_scoring_test = pd.concat([df_result_xgb_test, df_result_rfc_test, df_result_svc_test, df_result_knn_test], axis = 1).T
result_scoring_test = result_scoring_test.sort_values(by = 'Accuracy', ascending = False)
result_scoring_test.applymap(format_percentage)

__Comentarios:__

Al evaluar diferentes modelos para predecir las clases de nuestro set de datos, las cuales corresponden a los rangos de precios de celulares basados en características, descubrimos que para este caso de clasificación, el mejor modelo es __SVC__, ya que, en comparación a los demás modelos evaluados, el comportamiento es mejor. Obtuvimos un 98% de precisión con nuestro set de entrenamiento y un 97% con el set de prueba, que es equivalente a hacer predicciones con datos nuevos.

Es importante mencionar, que en los modelos __XGBClassifier__ y __KNN__, obtuvimos un 100% de precisión con los set de entrenamiento, pero como lo mencionamos anteriormente, esos modelos están sobreajustados, y al momento de hacer predicciones con nuevos set de datos, los modelos no tienen un comportamiento igual; se obtiene una diferencia significativa de un 44% en el modelo KNN, y una diferencia de 9% en el modelo XGBClassifier.

En el caso del modelo XGBClassifier, la precisión con un nuevo set de datos, es aceptable, a pesar que inicialmente el modelo se sobreajusto; se obtuvo una precisión del 90% con el set de prueba.

Para hacer una doble validación de nuestros resultados y confirmar que el modelo catalogado como "el mejor" para este ejercicio, haremos una validación cruzada para obtener las métricas con diferentes escenarios de datos.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 10. Evaluación de Modelos con Validación Cruzada

La validación cruzada proporciona una estimación más precisa del rendimiento del modelo. Esto se debe a que utiliza múltiples subconjuntos del set de entrenamiento para entrenar y evaluar el modelo, lo que reduce la variabilidad en la evaluación del rendimiento.

Al entrenar y evaluar el modelo en diferentes subconjuntos del set de entrenamiento, la validación cruzada ayuda a detectar y prevenir el sobreajuste.

Al utilizar múltiples pliegues de datos para entrenar y evaluar el modelo, la validación cruzada proporciona una evaluación más robusta del rendimiento del modelo que puede ser menos sensible a la variabilidad en los datos o a una única partición de los datos.

Para realizar la validación cruzada, utilizaremos __cross_val_predict__, que se utiliza para realizar predicciones mediante validación cruzada. Se divide el conjunto de datos en varios pliegues, o subconjuntos de datos, según el parámetro __cv__ especificado.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 10.1 Evaluación Cruzada Modelo XGBClassifier

In [None]:
# Precision promedio y desviacion estandar del modelo

cross_val_result_xgb = cross_val_score(grid_search_xgb,
                                 set_train_feature[relevant_feature_xgb],
                                 set_train_target,
                                 cv = 5,
                                 scoring = 'accuracy')

print(f'Precision promedio del modelo: {cross_val_result_xgb.mean()}')
print(f'Desviación estandar de la precision del modelo: {cross_val_result_xgb.std( )}')

In [None]:
# Prediccion con set de entrenamiento

cross_target_pred_xgb_train = cross_val_predict(grid_search_xgb,
                                set_train_feature[relevant_feature_xgb],
                                set_train_target,
                                cv = 5)

In [None]:
# Score de clasificacion con set de entrenamiento

cross_df_result_xgb_train = pd.DataFrame(data = [
    accuracy_score(set_train_target, cross_target_pred_xgb_train),
    precision_score(set_train_target, cross_target_pred_xgb_train, average = 'macro'),
    recall_score(set_train_target, cross_target_pred_xgb_train, average = 'macro'),
    f1_score(set_train_target, cross_target_pred_xgb_train, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['XGBClassifier']

)

In [None]:
print(f'\033[1mClassification Report XGBClassifier set train\n\n\033[0m{classification_report(set_train_target, cross_target_pred_xgb_train)}')

In [None]:
#Visualizar matriz de coeficiente para el set de entrenamiento

plt.figure(figsize = (7,5))

cross_conf_matrix_xgb_train = confusion_matrix(set_train_target, cross_target_pred_xgb_train)

sns.heatmap(cross_conf_matrix_xgb_train, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted Values')
plt.ylabel('Real Values')
plt.title('Confusion Matrix XGBClassifier set train');

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 10.2 Evaluación Cruzada Modelo RandomForestClassifier

In [None]:
# Precision promedio y desviacion estandar del modelo

cross_val_result_rfc = cross_val_score(grid_search_rfc,
                                 set_train_feature[relevant_feature_rfc],
                                 set_train_target,
                                 cv = 5,
                                 scoring = 'accuracy')

print(f'Precision promedio del modelo: {cross_val_result_rfc.mean()}')
print(f'Desviación estandar de la precision del modelo: {cross_val_result_rfc.std()}')

In [None]:
# Prediccion con set de entrenamiento

cross_target_pred_rfc_train = cross_val_predict(grid_search_rfc,
                                set_train_feature[relevant_feature_rfc],
                                set_train_target,
                                cv = 5)

In [None]:
# Score de clasificacion con set de entrenamiento

cross_df_result_rfc_train = pd.DataFrame(data = [
    accuracy_score(set_train_target, cross_target_pred_rfc_train),
    precision_score(set_train_target, cross_target_pred_rfc_train, average = 'macro'),
    recall_score(set_train_target, cross_target_pred_rfc_train, average = 'macro'),
    f1_score(set_train_target, cross_target_pred_rfc_train, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['RandonForestClassifier']

)

In [None]:
print(f'\033[1mClassification Report RandorForestClassifier set train\n\n\033[0m{classification_report(set_train_target, cross_target_pred_rfc_train)}')

In [None]:
#Visualizar matriz de coeficiente para el set de entrenamiento

plt.figure(figsize = (7,5))

cross_conf_matrix_rfc_train = confusion_matrix(set_train_target, cross_target_pred_rfc_train)

sns.heatmap(cross_conf_matrix_rfc_train, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted Values')
plt.ylabel('Real Values')
plt.title('Confusion Matrix RandomForestClassifier set train');

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 10.3 Evaluación Cruzada Modelo SVC

Para evitar que la validación cruzada de este modelo consuma mucho rendimiento computacional, modificaremos la variable __grid_search_svc__ para que se evalué solo con los mejores hiperparametos y no con todos los parámetros con los que se entrenó el __GridSearchCV__, ya que el kernel poly es demasiado pesado.

In [None]:
# Modelo con los mejores hiperparametros

best_params = grid_search_svc.best_params_

grid_search_svc = SVC(random_state = 11, **best_params)

grid_search_svc.fit(set_train_feature, set_train_target)

In [None]:
# Precision promedio y desviacion estandar del modelo

cross_val_result_svc = cross_val_score(grid_search_svc,
                                 set_train_feature,
                                 set_train_target,
                                 cv = 5,
                                 scoring = 'accuracy')

print(f'Precision promedio del modelo: {cross_val_result_svc.mean()}')
print(f'Desviación estandar de la precision del modelo: {cross_val_result_svc.std()}')

In [None]:
# Prediccion con set de entrenamiento

cross_target_pred_svc_train = cross_val_predict(grid_search_svc,
                                set_train_feature,
                                set_train_target,
                                cv = 5)

In [None]:
# Score de clasificacion con set de entrenamiento

cross_df_result_svc_train = pd.DataFrame(data = [
    accuracy_score(set_train_target, cross_target_pred_svc_train),
    precision_score(set_train_target, cross_target_pred_svc_train, average = 'macro'),
    recall_score(set_train_target, cross_target_pred_svc_train, average = 'macro'),
    f1_score(set_train_target, cross_target_pred_svc_train, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['SVC']

)

In [None]:
print(f'\033[1mClassification Report SVC set train\n\n\033[0m{classification_report(set_train_target, cross_target_pred_svc_train)}')

In [None]:
#Visualizar matriz de coeficiente para el set de entrenamiento

plt.figure(figsize = (7,5))

cross_conf_matrix_svc_train = confusion_matrix(set_train_target, cross_target_pred_svc_train)

sns.heatmap(cross_conf_matrix_svc_train, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted Values')
plt.ylabel('Real Values')
plt.title('Confusion Matrix SCV set train');

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 10.4 Evaluación Cruzada Modelo KNN

In [None]:
# Precision promedio y desviacion estandar del modelo

cross_val_result_knn = cross_val_score(grid_search_knn,
                                 set_train_feature,
                                 set_train_target,
                                 cv = 5,
                                 scoring = 'accuracy')

print(f'Precision promedio del modelo: {cross_val_result_knn.mean()}')
print(f'Desviación estandar de la precision del modelo: {cross_val_result_knn.std()}')

In [None]:
# Prediccion con set de entrenamiento
cross_target_pred_knn_train = cross_val_predict(grid_search_knn,
                                set_train_feature,
                                set_train_target,
                                cv = 5)

In [None]:
# Score de clasificacion con set de entrenamiento
cross_df_result_knn_train = pd.DataFrame(data = [
    accuracy_score(set_train_target, cross_target_pred_knn_train),
    precision_score(set_train_target, cross_target_pred_knn_train, average = 'macro'),
    recall_score(set_train_target, cross_target_pred_knn_train, average = 'macro'),
    f1_score(set_train_target, cross_target_pred_knn_train, average = 'macro')],
    index = ['Accuracy','Macro Precision','Macro Recall','Macro F1-score'],
    columns = ['KNN']

)

In [None]:
print(f'\033[1mClassification Report KNN set train\n\n\033[0m{classification_report(set_train_target, cross_target_pred_knn_train)}')

In [None]:
#Visualizar matriz de coeficiente para el set de entrenamiento

plt.figure(figsize = (7,5))

cross_conf_matrix_knn_train = confusion_matrix(set_train_target, cross_target_pred_knn_train)

sns.heatmap(cross_conf_matrix_knn_train, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted Values')
plt.ylabel('Real Values')
plt.title('Confusion Matrix KNN set train');

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 11. Metricas de Evaluación de Modelos con Validación Cruzada

In [None]:
# Concatenar las metricas de clasificacion de los modelos, entrenados con set de entrenamiento

cross_result_scoring_train = pd.concat([cross_df_result_xgb_train, cross_df_result_rfc_train, cross_df_result_svc_train, cross_df_result_knn_train], axis = 1).T
cross_result_scoring_train = cross_result_scoring_train.sort_values(by = 'Accuracy', ascending = False)
cross_result_scoring_train.applymap(format_percentage)

__Comentarios:__

Al utilizar validación cruzada en nuestros modelos logramos una corrección del sobreajuste al evaluar el modelo en diferentes particiones del conjunto de entrenamiento, específicamente en los modelos __XGBClassifier__ y __KNN__.

Con respecto al modelo __SVC__, La disminución en la precisión al usar validación cruzada fue del 2% aproximadamente, lo que puede indicar que el modelo está generalizando de manera más realista a datos no vistos y, aun así, el modelo tiene una precisión bastante buena, lo que indica que el modelo tiene la capacidad para adaptarse a diferentes variaciones en los datos.

Con estos resultados podemos concluir que el mejor modelo, para predecir el rango de precios, para nuestro conjunto de datos de celulares, es el modelo __SVC__, que tendrá una precisión de predicción del __96.75%__ en los datos.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 12. Predicciones con Mejor Modelo

In [None]:
# Escalar set de datos
df_feature_mobile_scaler = scaler.transform(df_feature_mobile)
df_feature_mobile = pd.DataFrame(df_feature_mobile_scaler, columns = df_feature_mobile.columns)
df_feature_mobile.head()

In [None]:
# Hacer predicciones de clases
target_pred = grid_search_svc.predict(df_feature_mobile)

# Revertir la transformacion escalar de los datos
df_feature_mobile_original = pd.DataFrame(scaler.inverse_transform(df_feature_mobile), columns=df_feature_mobile.columns)

# Unir el DataFrame con las predicciones hechas
df_feature_mobile_original['price_range_pred'] = target_pred
df_feature_mobile_original.head()

In [None]:
# Visualizar la frecuencia de las clases predichas

pred_count = df_feature_mobile_original['price_range_pred'].value_counts()

plt.figure(figsize=(8, 6))
ax = sns.barplot(x = pred_count.index, y = pred_count.values, palette = 'Blues')

for p in ax.patches:
    height = p.get_height()
    ax.annotate('{:.0f}'.format(height), (p.get_x() + p.get_width() / 2., height), ha = 'center', va = 'center', xytext = (0, 5), textcoords = 'offset points', fontsize = 11)

plt.title('Frequency Predicted Classes')
plt.xlabel('Price Range')
plt.ylabel('Frequency');

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 13. Conclusiones

El modelo SVC con kernel lineal y C=10 fue el que mejor se ajustó a los datos, alcanzando una precisión del 97% con validación cruzada. Esto indica que el modelo es capaz de realizar predicciones con alta precisión en datos no vistos.

La alta precisión del modelo en validación cruzada sugiere que se puede tener confianza en las predicciones realizadas. Sin embargo, siempre es recomendable monitorear el rendimiento del modelo en datos nuevos y realizar ajustes si es necesario para mantener la precisión en el futuro.

Al identificar la distribución de los dispositivos móviles en cada rango de precio, podemos observar que hay una cantidad significativa de dispositivos en cada categoría de precio. Esto sugiere que el modelo es capaz de categorizar efectivamente los dispositivos en los diferentes rangos de precios.

Con la capacidad de predecir a qué rango de precio pertenece cada dispositivo, se puede utilizar esta información para estimar precios de venta que sean competitivos y estén alineados con el mercado actual de celulares. Esto permite tomar decisiones más informadas sobre la fijación de precios para cada producto.

Además, la empresa puede tomar esta información para múltiples análisis o estrategias que deseen implementar. Por ejemplo:

-  __Segmentación de Mercado:__ Utilizar la distribución de dispositivos por rangos de precios para segmentar su mercado de manera efectiva. Por ejemplo, desarrollar estrategias de marketing y ventas específicas para cada segmento, adaptando la oferta de productos a las necesidades y preferencias de cada grupo de clientes.

- __Desarrollo de Productos Específicos:__ Utilizar la información sobre la demanda en cada rango de precios para guiar el desarrollo de nuevos productos o versiones mejoradas. Por ejemplo, si el rango de precio 2 tiene una alta demanda, se pueden lanzar productos con características específicas que sean atractivas para ese segmento.

- __Personalización de Experiencia del Cliente:__ Personalizar la experiencia del cliente según el rango de precios al que pertenezcan. Por ejemplo, ofrecer servicios postventa, garantías extendidas o programas de fidelización adaptados a las expectativas y necesidades de cada segmento de clientes.

- __Diferenciación Competitiva:__ Utilizar la distribución de dispositivos por rangos de precios para diferenciarse de la competencia. Por ejemplo, destacar las fortalezas en áreas donde se tiene una mayor participación de mercado, y en base a eso, desarrollar estrategias para captar clientes para ese segmento.

- __Optimización de Inventarios:__ Gestionar el inventario de manera eficiente, considerando la demanda en cada rango de precios. Por ejemplo, ajustar los niveles de stock y la disponibilidad de productos para evitar escasez o excedentes, asegurando una oferta adecuada para cada segmento de clientes.

[Tabla de Contenidos](#Tabla-de-Contenidos)

# 14. Bibliografía

D, K. (16 de Febrero de 2023). Optimizing Performance: SelectKBest for Efficient Feature Selection in Machine Learning. Recuperado el Marzo de 2024, de Medium: https://medium.com/@Kavya2099/optimizing-performance-selectkbest-for-efficient-feature-selection-in-machine-learning-3b635905ed48

EVIDENTLY AI. (2024). Accuracy, precision, and recall in multi-class classification. Recuperado el Marzo de 2024, de EVIDENTLY AI: https://www.evidentlyai.com/classification-metrics/multi-class-metrics

LENNARTGROSSER. (2019). Data Analysis and Classification using XGBoost. Recuperado el Marzo de 2024, de Kaggle: https://www.kaggle.com/code/lucidlenn/data-analysis-and-classification-using-xgboost

NEKOUEI, F. (2023). Noise-Resilient Mobile Price Classification. Recuperado el Marzo de 2024, de Kaggle: https://www.kaggle.com/code/farzadnekouei/noise-resilient-mobile-price-classification

Pramoditha, R. (19 de Junio de 2023). Recursive Feature Elimination (RFE) in Regression and Classification Models. Recuperado el Marzo de 2024, de Medium: https://rukshanpramoditha.medium.com/recursive-feature-elimination-rfe-in-regression-and-classification-models-7d2497930b10

SHARMA, A. (2018). Mobile Price Classification. Recuperado el Febrero de 2024, de Kaggle: https://www.kaggle.com/datasets/iabhishekofficial/mobile-price-classification/data