In [1]:
import sys
sys.path.insert(1, '../') 
from utils.loader import Loader
import tensorflow as tf
import pandas as pd
import numpy as np
from gensim.models import Word2Vec
import re
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Embedding, Flatten, Input
from tensorflow.keras.models import Model
import matplotlib.pyplot as plt

In [2]:
train = Loader.load_train()

In [3]:
descriptions = [col for col in train.columns if "description" in col]

print(descriptions)

def custom_concat(row, cols):
    # Construir la descripción con lógica condicional basada en el valor de la celda
    parts = []
    for col_name in cols:  # Cambio para iterar solo sobre las columnas especificadas
        if col_name in row.index:  # Verificar que el nombre de la columna esté en el DataFrame
            value = row[col_name]
            if value == "no tiene" or not isinstance(value, str):
                parts.append(f"no tiene {col_name}")
            else:
                parts.append(str(value))  # Convertir a string para evitar problemas al unir
    # Unir todas las partes con espacios
    return ' '.join(parts)

# Aplicar la función al DataFrame
train['full_description'] = train.apply(custom_concat, axis=1, args=(descriptions,))
#train[descriptions].apply(lambda col: col.apply(lambda x: type(x).__name__).value_counts())

#descriptions.append("idx")
#descriptions.append("price")
#descriptions.append("km")

['motor_description', 'transmission_description', 'parking_sensors_description', 'Exterior_Llantas_description', 'Exterior_Molduras_description', 'Exterior_Neumáticos_description', 'Exterior_Puerta_description', 'Exterior_Retrovisor_description', 'Confort_Volante_description', 'seat_description', 'head_supporter_description']


In [4]:
filtered_columns = ["idx", "price", "km", "fuelType", "full_description"]
train = train[filtered_columns]
train

Unnamed: 0,idx,price,km,fuelType,full_description
0,105953,22490,68887.0,Gasolina,"Motor de 1,3 litros ( 1.332 cc ) , cuatro cili..."
1,15683,19990,116892.0,Diésel,"Motor de 2,0 litros ( 1.969 cc ) , cuatro cili..."
2,153684,17500,130820.0,Diésel,"Motor de 1,6 litros ( 1.560 cc ) , cuatro cili..."
3,156928,22900,50773.0,Híbrido,"Motor de 1,8 litros ( 1.798 cc ) , cuatro cili..."
4,24443,4000,269000.0,Diésel,"Motor de 1,9 litros ( 1.910 cc ) , 4 cilindros..."
...,...,...,...,...,...
115592,19845,22900,77653.0,Diésel,"Motor de 1,6 litros ( 1.598 cc ) , cuatro cili..."
115593,102652,4995,157000.0,Gasolina,"Motor de 2,0 litros ( 1.997 cc ) , 4 cilindros..."
115594,101658,17490,129000.0,Gas natural (CNG),"Motor de 1,4 litros ( 1.395 cc ) , cuatro cili..."
115595,69350,19850,151560.0,Diésel,"Motor de 2,2 litros ( 2.191 cc ) , cuatro cili..."


In [5]:
def preprocess_text(text):
    # Convertir a minúsculas y eliminar caracteres especiales (pero mantener los números)
    text = text.lower()
    text = re.sub(r'[^\w\s\d]', '', text)  # Eliminar signos de puntuación, pero mantener números
    tokens = text.split()
    return tokens

train['tokens'] = train['full_description'].apply(preprocess_text)
model_w2v = Word2Vec(sentences=train['tokens'], vector_size=100, window=1, min_count=3, workers=8)
word_vectors = model_w2v.wv

# Crear una función para convertir cada descripción a un embedding promedio
def get_average_embedding(tokens, model):
    embeddings = [model[word] for word in tokens if word in model]
    if embeddings:
        return np.mean(embeddings, axis=0)
    else:
        return np.zeros(model.vector_size)  # Si no hay palabras en el modelo, devolver vector de ceros

# Aplicar el embedding a todas las descripciones
train['embedding'] = train['tokens'].apply(lambda x: get_average_embedding(x, word_vectors))

In [6]:
# Asumiendo que train es tu DataFrame y 'price' es la columna objetivo
X_km = train[['km']].values  # Características numéricas
y = train['price'].values  # Etiqueta objetivo

# Dividir el conjunto de datos en entrenamiento y prueba
X_train_km, X_test_km, y_train, y_test = train_test_split(X_km, y, test_size=0.2, random_state=42)

In [7]:
# Asumiendo que ya has creado los embeddings
X_textual = np.vstack(train['embedding'].values)

# Dividir los embeddings textuales en entrenamiento y prueba
X_train_text, X_test_text = train_test_split(X_textual, test_size=0.2, random_state=42)

In [8]:
scaler = StandardScaler()
X_train_km_scaled = scaler.fit_transform(X_train_km)
X_test_km_scaled = scaler.transform(X_test_km)

In [9]:
# Crear entradas separadas
from numpy import concatenate


input_km = Input(shape=(1,), name='input_km')
input_text = Input(shape=(100,), name='input_text')  # Asegúrate de que 100 coincida con la dimensión de tus embeddings

# Combinar las entradas
combined_input = concatenate([input_km, input_text])

# Añadir capas densas después de la combinación
x = Dense(128, activation='relu')(combined_input)
x = Dropout(0.2)(x)
x = Dense(64, activation='relu')(x)
x = Dense(32, activation='relu')(x)
output = Dense(1)(x)  # Capa de salida para regresión

# Crear el modelo
model = Model(inputs=[input_km, input_text], outputs=output)

# Compilar el modelo
model.compile(optimizer=tf.keras.optimizers.Adam(0.01), loss='huber', metrics=['mae'])

# Resumen del modelo
model.summary()

ValueError: A KerasTensor is symbolic: it's a placeholder for a shape an a dtype. It doesn't have any actual numerical value. You cannot convert it to a NumPy array.

In [None]:
history = model.fit(
    [X_train_km_scaled, X_train_text], y_train,
    epochs=10, batch_size=32,
    validation_data=([X_test_km_scaled, X_test_text], y_test)
)

In [None]:
plt.figure(figsize=(10, 6))

# Plotea la pérdida del conjunto de entrenamiento
plt.plot(history.history['loss'], label='Training Loss')

# Plotea la pérdida del conjunto de validación
plt.plot(history.history['val_loss'], label='Validation Loss')

# Añade título y etiquetas
plt.title('Model Loss Over Epochs')
plt.xlabel('Epochs')
plt.ylabel('Loss (Mean Squared Error)')

# Añade leyenda
plt.legend()

# Añade cuadrícula
plt.grid(True)

# Muestra el gráfico
plt.show()