# <img style="float: left; padding-right: 5px; width: 200px" src="https://assets.entrepreneur.com/images/misc/1584487204_LOGOCODOS_fondoblanco-01.png?width=300">
# Data Science Interview

## Take Home: New or Used


### Julio 2023
### Javier Andrés Hernández Cárdenas
### javier.hrdez@gmail.com
### https://github.com/javierhrdez/ml-take-home.git

<hr style="height:2pt">

## Descripción

El dataset otorgado tiene 100.000 registros de items extraidos del marketplace en MercadoLibre, caracterizados a través de 26 diferentes columnas.

En el contexto del Marketplace de MercadoLibre, se detecta la necesidad de un algoritmo que prediga si un item listado en el marketplace es nuevo o usado.  
La tarea consiste en diseñar un modelo de machine learning que prediga si un item es nuevo o usado, y evaluar el mismo sobre un conjunto de datos separado.  
(Se adjunta una celda con la cual realizar la consumicion del dataset)

Para ello sugerimos realizar en una primera instancia un Exploratory Data Analysis (EDA) de este dataset, para entender la información contenida y obtener insights relevantes para tareas analíticas.

A continuación, una descripción de las columnas:

| Variable | Descripción |
| :------------- | :----------- |
| id | ID de la publicación |
| title | Título de la publicación |
| date_created | Fecha de creación de la publicación |
| base_price | Precio del producto en la publicación, sin descuento |
| price | Precio del producto en la publicación, con descuento |
| category_id | ID de categoría del producto |
| tags | Tags de la publicación |
| attributes | Atributos del producto publicado |
| variations | Variaciones del producto publicado |
| pictures | Fotos del producto publicado |
| seller_id | ID del vendedor |
| seller_country | País de residencia del vendedor |
| seller_province | Provincia de residencia del vendedor |
| seller_city | Ciudad de residencia del vendedor |
| seller_loyalty | Loyalty o segmento del vendedor |
| buying_mode | Modo de compra especificado |
| shipping_mode | Modo de envío especificado |
| shipping_admits_pickup | Flag indicando si se puede retirar al domicilio del vendedor |
| shipping_is_free | Flag indicando si el envío es gratis |
| status | Estado de la publicación |
| sub_status | Sub-estado de la publicación |
| warranty | Garantía del producto |
| is_new | Flag indicando si el producto es nuevo |
| initial_quantity | Stock inicial del producto |
| sold_quantity | Stock vendido del producto |
| available_quantity | Stock disponible del producto |

## Importar librerías

In [1]:

import pandas as pd
import numpy as np
import json
import re

import pickle
import os

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from stop_words import get_stop_words
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from scipy.sparse import hstack

import plotly.graph_objects as go
from sklearn.preprocessing import OneHotEncoder

import nltk
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize

from unidecode import unidecode

# Descargar recursos necesarios de nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/javi/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Cargar datos

Los datos previamente se insertaron en mongodb y posteriomente se exportaron a un dataframe de pandas. La razón fue que la función **read_json()** era excesivamente lenta para hacer la lectura del dataset. 

In [2]:
df_train = pd.read_csv("dataset/df_train.csv.gzip", compression='gzip', low_memory=False)
df_test  = pd.read_csv("dataset/df_test.csv.gzip" , compression='gzip', low_memory=False)

In [3]:
df_train.shape

(90003, 49)

In [4]:
df_test.shape

(10001, 48)

In [5]:
#df_train = df_train.sample(n=1000, random_state=1)
#df_test = df_test.sample(n=1000, random_state=1)

## Data QA


En primer lugar verificamos la presencia de "NA" en los dataset de train y test.

In [6]:
df_train.isna().sum()

seller_address                          3
warranty                            54757
sub_status                              3
condition                               6
seller_contact                      88018
deal_ids                                3
base_price                              3
shipping                                3
non_mercado_pago_payment_methods        3
seller_id                               3
variations                              3
location                                3
site_id                                 3
listing_type_id                         3
price                                   3
attributes                              3
buying_mode                             3
tags                                    6
listing_source                      90000
parent_item_id                      20693
coverage_areas                          3
category_id                             3
descriptions                            3
last_updated                      

In [7]:
df_test.isna().sum()

seller_address                          1
warranty                             6140
sub_status                              2
seller_contact                       9763
deal_ids                                1
base_price                              1
shipping                                1
non_mercado_pago_payment_methods        1
seller_id                               1
variations                              1
location                                1
site_id                                 1
listing_type_id                         1
price                                   1
attributes                              1
buying_mode                             1
tags                                    2
listing_source                      10000
parent_item_id                       2322
coverage_areas                          1
category_id                             1
descriptions                            1
last_updated                            1
international_delivery_mode       

In [8]:
# Se quitarán algunos NZ debido a que son pocos como se puede observar en el paso anterior

In [9]:
df_train = df_train[~df_train["title"].isna()]
df_train = df_train[~df_train["is_new"].isna()]

df_test = df_test[~df_test["title"].isna()]
df_test = df_test[~df_test["is_new"].isna()]

In [10]:
df_train["is_new"].unique()

array(['new', 'used'], dtype=object)

In [11]:
df_train["shipping"] = df_train["shipping"].apply(lambda x : eval(x))
df_test["shipping"] = df_test["shipping"].apply(lambda x : eval(x))

In [12]:
df_train["shipping_admits_pic"] = df_train["shipping"].apply(lambda x : x.get("local_pick_up"))
df_test["shipping_admits_pic"]  = df_test["shipping"].apply(lambda x : x.get("local_pick_up"))

In [13]:
df_train["shipping_admits_pic"].unique()

array([ True, False])

In [14]:
df_train["shipping_mode"] = df_train["shipping"].apply(lambda x : x.get("mode"))
df_test["shipping_mode"]  = df_test["shipping"].apply(lambda x : x.get("mode"))

In [15]:
df_train["shipping_mode"].unique()

array(['not_specified', 'me2', 'custom', 'me1'], dtype=object)

In [16]:
df_train["shipping_is_free"] = df_train["shipping"].apply(lambda x : x.get("free_shipping"))
df_test["shipping_is_free"]  = df_test["shipping"].apply(lambda x : x.get("free_shipping"))

In [17]:
df_train["shipping_is_free"].unique()

array([False,  True])

In [18]:
df_train["seller_address"] = df_train["seller_address"].apply(lambda x : eval(x))
df_test["seller_address"]  = df_test["seller_address"].apply(lambda x : eval(x))

In [19]:
# no se pide la ciudad en el dataset , pero creo que es relevante para tener contexto

df_train["seller_country"] = df_train["seller_address"].apply(lambda x : x.get("country").get("name"))
df_test["seller_country"]  = df_test["seller_address"].apply(lambda x : x.get("country").get("name"))

In [20]:
# quiero ver esto porque en caso de haber varios países quizás tendría que hacer conversiones de moneda entre países,
# pero al parecer no hará falta
df_train["seller_country"].unique()

array(['Argentina', ''], dtype=object)

In [21]:
df_train["seller_city"] = df_train["seller_address"].apply(lambda x : x.get("city").get("name") )
df_test["seller_city"]  = df_test["seller_address"].apply(lambda x : x.get("city").get("name") )

In [22]:
# al parecer esta variable es irrelevante para el modelo
df_train["seller_city"].unique()

array(['San Cristóbal', 'Buenos Aires', 'Boedo', ...,
       'Remedios De Escalada', 'bella vista (san miguel)', 'Almafuerte'],
      dtype=object)

In [23]:
df_train["seller_province"] = df_train["seller_address"].apply(lambda x : x.get("state").get("name") )
df_test["seller_province"]  = df_test["seller_address"].apply(lambda x : x.get("state").get("name") )

In [24]:
# creo que no lo ocuparé
df_train["seller_province"].unique()

array(['Capital Federal', 'Buenos Aires', 'Santa Fe', 'Tucumán',
       'Mendoza', 'Córdoba', 'La Pampa', 'Chubut', 'Entre Ríos', 'Jujuy',
       'Santiago del Estero', 'Corrientes', 'Salta', 'Formosa', 'Chaco',
       'Santa Cruz', 'Río Negro', 'Misiones', 'San Juan', 'Neuquén',
       'La Rioja', 'San Luis', 'Catamarca', 'Tierra del Fuego', ''],
      dtype=object)

In [25]:
# voy a solo usar las columnas especificadas en descripción del challenge

columns = ["id","title","date_created","base_price","price","category_id","tags","attributes","variations",
           "pictures","seller_id","seller_country","seller_province","seller_city","buying_mode",
           "is_new", "shipping_mode","shipping_admits_pic","shipping_is_free","status","sub_status","warranty",
           "initial_quantity","sold_quantity","available_quantity"] 

df_train = df_train[columns]
df_test = df_test[columns]

In [26]:
### voy a convertir todo a minúsculas los campos de texto : "title" y "warranty"
df_train["title"]    = df_train["title"].str.lower()
df_train["warranty"] = df_train["warranty"].str.lower()

df_test["title"]    = df_test["title"].str.lower()
df_test["warranty"] = df_test["warranty"].str.lower()

In [27]:
# elimina todos los números de los títulos
df_train["title"] = df_train["title"].apply(lambda x: re.sub(r'\d+', '', x))
df_test["title"] = df_test["title"].apply(lambda x: re.sub(r'\d+', '', x))

In [28]:
# Preprocesamiento de las descripciones para eliminar tildes y convertir "Ñ" a "N"
df_train["title"] = df_train["title"].apply(lambda x: unidecode(x))
df_test["title"] = df_test["title"].apply(lambda x: unidecode(x))

In [29]:
# Eliminar palabras de longitud "n" o inferior de las descripciones

def remove_words_by_length(text, n):
    words = text.split()
    filtered_words = [word for word in words if len(word) > n]
    return ' '.join(filtered_words)


df_train["title"] = df_train["title"].apply(lambda x: remove_words_by_length(x, 3))
df_test["title"] = df_test["title"].apply(lambda x: remove_words_by_length(x, 3))

In [31]:
# cambiar "nan" por espacios vacíos
df_train["warranty"] = np.where(df_train["warranty"].notnull(), df_train["warranty"], "")
df_test["warranty"]  = np.where(df_test["warranty"].notnull() , df_test["warranty"], "")

In [32]:
# Combinar las descripciones de los dos campos en un solo campo
df_train['descripcion_combinada'] = df_train["title"] + ' ' + df_train["warranty"]
df_test['descripcion_combinada']  = df_test["title"]  + ' ' + df_test["warranty"]

In [33]:
#convertir la fecha de string a datetime
df_train["date_created"] = pd.to_datetime(df_train["date_created"])

In [34]:
# me interesa ver el año porque podría tener que hacer ajustes a la inflación 
df_train["date_created"].min(), df_train["date_created"].max()

(Timestamp('2013-05-21 04:22:35+0000', tz='UTC'),
 Timestamp('2015-10-15 09:14:30+0000', tz='UTC'))

In [35]:
df_train["price"] = df_train["price"].astype(float)

In [36]:
#precio_prom_semanal = df_train.groupby(["is_new",pd.Grouper(key = 'date_created', freq = 'W')]).price.mean().fillna(0).reset_index()

In [37]:
#precio promedio por categoria de productos nuevos y usados
precio_by_category = df_train.groupby(["is_new","category_id"]).price.mean().reset_index()
#precio_by_category.pivot_table()

In [38]:
precio_by_category.is_new.value_counts()

new     7908
used    6072
Name: is_new, dtype: int64

In [39]:
precio_cat = precio_by_category.groupby(["is_new", "category_id"]).price.mean().reset_index()

In [40]:
precio_cat = precio_cat.pivot_table(index = ["category_id"], columns=['is_new'] , values = "price").reset_index()

In [41]:
precio_cat["precio_nuevo"] = np.where(precio_cat["new"].isnull(),1, 0)
precio_cat["precio_usado"] = np.where(precio_cat["used"].isnull(),1, 0)

In [42]:
#precios_cat = precio_cat[(precio_cat.new.notnull()) & (precio_cat.used.notnull())]

In [43]:
df_train = df_train.merge(precio_cat[["category_id","precio_nuevo","precio_usado"]],on = "category_id", how = "left")

In [44]:
df_test = df_test.merge(precio_cat[["category_id","precio_nuevo","precio_usado"]],on = "category_id", how = "left")

In [45]:
df_train["precio_nuevo"] = df_train["precio_nuevo"].fillna(0)
df_test["precio_nuevo"] = df_test["precio_nuevo"].fillna(0)

df_train["precio_usado"] = df_train["precio_usado"].fillna(0)
df_test["precio_usado"] = df_test["precio_usado"].fillna(0)

In [46]:
df_train["category_id"].nunique()

10491

In [80]:
#hipotesis
#la descripcion debiese reflejar 

# primero verificaremos si el dataset está balanceado o no

balance = df_train.groupby("is_new").size().reset_index()
colors = ['lightslategray','crimson']

fig = go.Figure(data=[go.Bar(
    x=balance["is_new"].values,
    y=balance[0].values,
    marker_color=colors # marker color can be a single color value or an iterable
)])
fig.update_layout(title_text='Balance dataset')


Se puede observar que las clases ("used", "new") que se quieren predecir están bastante equilibradas por lo que no hará falta tomar alguna acción para balancear el dataset

### Modelo

Para realizar el modelado, lo que se intentará es determinar a través del título del artículo ("title") si es nuevo o usado. Intuitivamente sabemos que en items que sean nuevos deberá predominar palabras como  "nuevo" , "nueva", mienstras que en el caso de productos usados debiesen predominar palabras como : "viejo" , "vieja" , "antiguo" , "antigua", etc.







A continuación lo que se quiere determinar si en los datos hay evidencia para poder creer que se podrá hacer una predicción 

In [54]:
#remover stopwords ("el", "los" , "las" , etc.)
stop_words = get_stop_words('spanish')

#obtener raíz de palabras
stemmer_es = SnowballStemmer('spanish') 


# Función para tokenizar y filtrar palabras vacías
def tokenize_and_filter(text):
    palabras = [stemmer_es.stem(palabra) for palabra in word_tokenize(text.lower()) if palabra.isalpha()]
    palabras_filtradas = [palabra for palabra in palabras if palabra not in stop_words]
    return palabras_filtradas

# Aplicar tokenización y filtrado a las descripciones
df_train['descripcion_tokenizada_title'] = df_train['title'].apply(tokenize_and_filter)
df_train['descripcion_tokenizada_warranty'] = df_train['warranty'].apply(tokenize_and_filter)

In [55]:
# Agrupar por categoría y contar la frecuencia de palabras
word_freq_nuevo = df_train[df_train['is_new'] == "new"]['descripcion_tokenizada_title'].explode().value_counts().head(20)
word_freq_usado = df_train[df_train['is_new'] == "used"]['descripcion_tokenizada_title'].explode().value_counts().head(20)


In [56]:
# Gráfico de barras para productos "nuevos"
fig_nuevo = go.Figure()
fig_nuevo.add_trace(go.Bar(x=word_freq_nuevo.index, y=word_freq_nuevo.values,
                           marker_color='indianred', name='Palabras más frecuentes para productos nuevos'))

fig_nuevo.update_layout(title='Palabras más frecuentes para productos nuevos',
                        xaxis_title='Palabra', yaxis_title='Frecuencia')

# Gráfico de barras para productos "usados"
fig_usado = go.Figure()
fig_usado.add_trace(go.Bar(x=word_freq_usado.index, y=word_freq_usado.values,
                           marker_color='lightseagreen', name='Palabras más frecuentes para productos usados'))

fig_usado.update_layout(title='Palabras más frecuentes para productos usados',
                        xaxis_title='Palabra', yaxis_title='Frecuencia')

# Mostrar los gráficos
fig_nuevo.show()
fig_usado.show()

De lo anterior se puede observar que hay buenos indicios para pensar que se podrá predecir con el título del artículo. En el caso de los artículos nuevos dos de las palabras más frecuentes son : "nuev" y "origina", mientras que para los artículos usados la palabra más frecuentes es : "antigu"

In [85]:
def densidad_palabras(word):
    total_palabras = len(word.split())
    total_palabras_distintas = len(set(word.split()))
    if total_palabras == 0:
        return 0
    return total_palabras_distintas/total_palabras



# Contar la cantidad de palabras en "descripcion_combinada"
df_train['cantidad_palabras_title'] = df_train['title'].apply(lambda x: densidad_palabras(x))
df_test['cantidad_palabras_title'] = df_test['title'].apply(lambda x: densidad_palabras(x))

In [86]:
cant_palabras = df_train.groupby(["is_new","category_id"]).cantidad_palabras_title.mean().reset_index()


In [87]:
cant_palabras.pivot_table(index = ["category_id"], columns=['is_new'] , values = "cantidad_palabras_title").reset_index()

is_new,category_id,new,used
0,MLA100009,,1.00
1,MLA100015,,1.00
2,MLA100022,,1.00
3,MLA100025,,1.00
4,MLA100028,1.0,1.00
...,...,...,...
10486,MLA9992,1.0,1.00
10487,MLA9996,1.0,0.98
10488,MLA9999,1.0,1.00
10489,MLA99991,,1.00


In [88]:
X_train = df_train.drop("is_new", axis = 1)  # Columna que contiene las descripciones de los productos
y_train = df_train['is_new'] 

X_test = df_test.drop("is_new", axis = 1)  # Columna que contiene las descripciones de los productos
y_test = df_test['is_new'] 

In [89]:
# Crear una instancia del vectorizador Bag of Words
vectorizer = CountVectorizer(stop_words=stop_words)

In [90]:
# Agregar stemming (orgen de las palabras) a los vectores numéricos
X_train_stemmed = [[stemmer_es.stem(word) for word in nltk.word_tokenize(document)] for document in X_train["title"]]
X_test_stemmed = [[stemmer_es.stem(word) for word in nltk.word_tokenize(document)] for document in X_test["title"]]

In [63]:
# Volver a transformar los datos en vectores numéricos después del stemming
X_train_vectorized_title = vectorizer.fit_transform([' '.join(doc) for doc in X_train_stemmed])
X_test_vectorized_title = vectorizer.transform([' '.join(doc) for doc in X_test_stemmed])

In [64]:
# # Agregar la cantidad de palabras como característica adicional
# X_train_cantidad_palabras = np.array(X_train_vectorized.sum(axis=1))  # Suma el conteo de palabras por fila
# X_train_cantidad_palabras = X_train_cantidad_palabras.reshape(-1, 1)
# 
# X_test_cantidad_palabras = np.array(X_test_vectorized.sum(axis=1))  # Suma el conteo de palabras por fila
# X_test_cantidad_palabras = X_test_cantidad_palabras.reshape(-1, 1)
# 
# # Unir todas las características en una matriz final
# #X_final = np.hstack((X_count.toarray(), X_booleana.values.reshape(-1, 1), X_cantidad_palabras))
# 
# X_train_vectorized = hstack((X_train_vectorized, X_train_cantidad_palabras))
# X_test_vectorized = hstack((X_test_vectorized  , X_test_cantidad_palabras ))

In [66]:
# Transformar las descripciones en vectores numéricos

# Agregar la variable cantidad_disponible al conjunto de características vectorizadas

#X_train_vectorized = vectorizer.fit_transform(X_train["descripcion_combinada"])
#X_test_vectorized  = vectorizer.transform(X_test["descripcion_combinada"])

#X_train_vectorized = hstack((X_train_vectorized, X_train['available_quantity'].values.reshape(-1, 1)))
#X_test_vectorized = hstack((X_test_vectorized, X_test['available_quantity'].values.reshape(-1, 1)))

In [67]:
# Codificar las categorías de los productos utilizando la codificación one-hot

encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
categories_encoded_train = encoder.fit_transform(X_train["category_id"].values.reshape(-1, 1))
categories_encoded_test = encoder.transform(X_test["category_id"].values.reshape(-1, 1))

In [68]:
# Agregar la cantidad de palabras como característica adicional
X_train_cantidad_palabras = np.array(X_train_vectorized_title.sum(axis=1))  # Suma el conteo de palabras por fila
X_test_cantidad_palabras = np.array(X_test_vectorized_title.sum(axis=1))
#X_cantidad_palabras = X_cantidad_palabras.reshape(-1, 1)

In [69]:
X_train_vectorized = hstack((X_train_vectorized_title, categories_encoded_train, X_train_cantidad_palabras))
X_test_vectorized  = hstack((X_test_vectorized_title, categories_encoded_test, X_test_cantidad_palabras))


#X_train_vectorized = hstack((X_train_vectorized_title, categories_encoded_train,))
#X_test_vectorized  = hstack((X_test_vectorized_title, categories_encoded_test))

#X_train_vectorized = hstack((X_train_vectorized_title,  X_train_cantidad_palabras))
#X_test_vectorized  = hstack((X_test_vectorized_title,  X_test_cantidad_palabras))


#X_train_vectorized = X_train_vectorized_title
#X_test_vectorized  = X_test_vectorized_title

In [70]:
# # Convertir la variable booleana a valores numéricos (0 o 1)
# X_train_booleana_new = df_train['precio_nuevo'].astype(int)
# X_test_booleana_new = df_test['precio_nuevo'].astype(int)
# 
# X_train_booleana_used = df_train['precio_usado'].astype(int)
# X_test_booleana_used = df_test['precio_usado'].astype(int)
# 
# # Agregar la variable booleana a la matriz de características con np.hstack
# X_train_vectorized = hstack((X_train_vectorized, X_train_booleana_new.values.reshape(-1, 1), X_train_booleana_used.values.reshape(-1, 1)))
# X_test_vectorized =hstack((X_test_vectorized, X_test_booleana_new.values.reshape(-1, 1), X_test_booleana_used.values.reshape(-1, 1)))



In [71]:
# Crear y entrenar el modelo de clasificación (Naive Bayes)
#classifier = MultinomialNB()
from sklearn.linear_model import SGDClassifier
#classifier = SGDClassifier()
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression()
classifier.fit(X_train_vectorized, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = classifier.predict(X_test_vectorized)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy:.2f}')

report = classification_report(y_test, y_pred)
print('Informe de clasificación:')
print(report)



lbfgs failed to converge (status=1):
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression



Precisión del modelo: 0.82
Informe de clasificación:
              precision    recall  f1-score   support

         new       0.84      0.82      0.83      5406
        used       0.80      0.81      0.80      4593

    accuracy                           0.82      9999
   macro avg       0.82      0.82      0.82      9999
weighted avg       0.82      0.82      0.82      9999



In [72]:
out = pd.DataFrame({"y":y_test, "y_pred": y_pred})
conf_matrix = pd.crosstab(out.y, out.y_pred, rownames=['Etiqueta Real'], colnames=['Predicción'], margins=True)
print('Matriz de Confusión:')
print(conf_matrix)

Matriz de Confusión:
Predicción      new  used   All
Etiqueta Real                  
new            4459   947  5406
used            866  3727  4593
All            5325  4674  9999


In [73]:
import sklearn.metrics as metrics

In [74]:
# Presentación de los resultados de la evaluación.
print("Exactitud: %.3f" % (metrics.accuracy_score(out.y, out.y_pred))) # accuracy
print("Precisión: %.3f" % (metrics.precision_score(out.y, out.y_pred, average="macro"))) # precision
print("Sensibilidad: %.3f" % (metrics.recall_score(out.y, out.y_pred, average="macro"))) # sensibilidad
print("F1-score: %.3f" % (metrics.f1_score(out.y, out.y_pred, average="macro"))) # F-score

Exactitud: 0.819
Precisión: 0.817
Sensibilidad: 0.818
F1-score: 0.818


In [75]:
# Extraemos la matriz de confusión
print("Matriz de confusión:\n", metrics.confusion_matrix(out.y, out.y_pred))

Matriz de confusión:
 [[4459  947]
 [ 866 3727]]


In [76]:
print("Tabla de métricas:\n", metrics.classification_report(out.y, out.y_pred))

Tabla de métricas:
               precision    recall  f1-score   support

         new       0.84      0.82      0.83      5406
        used       0.80      0.81      0.80      4593

    accuracy                           0.82      9999
   macro avg       0.82      0.82      0.82      9999
weighted avg       0.82      0.82      0.82      9999



In [77]:
# param_grid = [    
#      {'penalty' : ['l1', 'l2', 'elasticnet', 'none'],
#      'C' : np.logspace(-4, 4, 20),
#      'solver' : ['newton-cg','liblinear','sag','saga'],
#      'max_iter' : [100, 500]
#      #'max_iter' : [100, 1000,2500, 5000]
#      }
#  ]
# 
# 
# 
# from sklearn.model_selection import GridSearchCV
# 
# clf = GridSearchCV(classifier, param_grid = param_grid,cv = 2, verbose=True, n_jobs=4)
# 
# best_clf = clf.fit(X_train_vectorized, y_train)

In [78]:
#best_clf.best_estimator_

In [79]:
#print (f'Accuracy - : {best_clf.score(X_train_vectorized, y_train):.3f}')