# MACHINE LEARNING

Deseamos construir un modelo de Machine Learning que permita predecir el valor de un vehículo de
segunda mano en función de las siguientes características.

1. Año del Vehículo: Representado como un número entero, por ejemplo, 2017.
2. Marca del Vehículo: Incluyendo marcas como "Toyota," "Honda," "Ford," etc.
3. Kilometraje: La cantidad de kilómetros recorridos por el vehículo.
4. Color del Vehículo: Puede ser "Blanco," "Gris," "Negro," u otro.

Se ha observado que el color del vehículo puede influir ligeramente en el precio, con vehículos más claros
siendo ligeramente más económicos que los de colores oscuros

* Resolviendo la Solución

### Respondiendo las preguntas


**1. ¿Cuál es el objetivo principal de este problema?**
> - El objetivo principal de este problema es desarrollar un modelo predictivo que pueda estimar con precisión el valor de mercado de un vehículo de segunda mano, considerando factores como su año, marca, kilometraje y color. Una correcta estimación puede ayudar tanto a vendedores como a compradores a tomar decisiones informadas sobre el precio adecuado.



**2. ¿Qué tipo de problema de Machine Learning es este?**
> - Este es un problema de regresión. En la regresión, nuestro objetivo es predecir una variable dependiente continua (en este caso, el precio del vehículo) basada en una o más variables independientes.



**3. ¿Cuál es la variable objetivo en este problema?**
> - La variable objetivo, también conocida como variable dependiente, es el "valor" o "precio" del vehículo de segunda mano. Es el resultado que deseamos predecir utilizando las características o variables independientes proporcionadas.



**4. ¿Cuáles son las variables predictoras en este problema?**
> - Las variables predictoras, también conocidas como características o variables independientes, en este caso son: Año del Vehículo, Marca del Vehículo, Kilometraje y Color del Vehículo. Estas características influyen o tienen alguna relación con el precio de reventa de un vehículo.


**5. ¿Cómo se puede preprocesar la variable "Marca del Vehículo" antes de usarla en el modelo?**
- Una forma de preprocesar la variable "Marca del Vehículo" es mediante la codificación ordinal. En esta técnica, asignamos un número entero único a cada categoría (o marca, en este caso). Siguiendo tu ejemplo:
  - Toyota: 1
  - Honda: 2
  - Ford: 3

  Así, un vehículo de marca Toyota se representaría con el número 1, Honda con el 2, y Ford con el 3.


**6. Describe brevemente cómo manejarías los valores ausentes en el conjunto de datos.**
- Los valores ausentes en el dataset son inevitables y pueden surgir por diversas razones. Se podría manejar de la siguiente manera:
  - **Eliminación:** Descartar registros que tengan valores faltantes.
  - **Imputación:** Rellenar valores faltantes con estadísticas descriptivas, como la media, mediana o moda. Es una técnica rápida pero puede no ser la más adecuada siempre.
  - **Modelos de Imputación:** Como KNN imputer, que estima valores faltantes basándose en sus vecinos más cercanos.


**7. Explica cómo codificarías la variable categórica "Color del Vehículo" para su uso en el modelo.**
- Para manejar la variable categórica "Color del Vehículo", se puede utilizar la codificación one-hot, también conocida como codificación de matriz de identidad. Esta técnica implica convertir cada valor posible de la variable categórica en una nueva columna binaria. Por ejemplo: Si nuestros colores son "Blanco", "Gris" y "Negro", después de aplicar la codificación one-hot, tendríamos tres nuevas columnas:
  - es_blanco: 1 si el vehículo es blanco, 0 en caso contrario.
  - es_gris: 1 si el vehículo es gris, 0 en caso contrario.
  - es_negro: 1 si el vehículo es negro, 0 en caso contrario.



  > Así, un vehículo blanco se representaría como [1, 0, 0], un vehículo gris como [0, 1, 0], y uno negro como [0, 0, 1].

  > Esta técnica permite que el modelo no asuma un orden natural entre los colores, lo que es especialmente útil si no hay un orden claro o inherente en la categoría.
 


**8. ¿Por qué es importante dividir el conjunto de datos en conjuntos de entrenamiento y prueba? ¿Cuál es la proporción típica?**
> - Es esencial para evaluar el rendimiento del modelo en datos no vistos y prevenir el sobreajuste. Si usamos todo el conjunto de datos para entrenar, no tendremos una forma efectiva de validar si nuestro modelo generaliza bien a nuevos datos. Una proporción típica es 70% entrenamiento, 15% validación y 15% prueba, aunque también es común usar 80% entrenamiento y 20% prueba.


**9. ¿Qué tipo de modelo de Machine Learning sería adecuado para este problema de regresión? ¿Por qué?**
> - Un buen punto de partida es un modelo de Regresión Lineal, debido a su simplicidad y eficiencia.


## Código de la Solución

In [1]:
#Importanto librerias
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.model_selection import train_test_split

In [2]:
#cargando los datos
#cargando años
anios = [2019,2011,2015,2015,2008,2007,2006,2016,2010,2006,2005,2016,2016,2021,2014,2020]
#cargando marca de los vehiculos, donde toyota es 1, honda es 2, ford es 3
marca = [2,2,3,3,1,1,3,3,1,1,3,2,1,2,2,2]

color = [[0,0,1],[0,0,1],[1,0,0],[0,1,0],[1,0,0],[0,1,0],[0,0,1],[1,0,0],[0,1,0],[1,0,0],[1,0,0],[1,0,0],[1,0,0],[0,0,1],[1,0,0],[1,0,0]]

#cargando el kilometraje
kilometraje =[73148,159555,129358,53555,22159,111530,85077,40920,24457,83953,57995,176829,14692,181830,42065,50299]

#cargando datos de los precios}
precio = [3100.148, 15161.555,30288.358,11039.555,2688.159,15965.53,10747.077,6432.92,22559.457,1150.953,10656.995,10013.829,12053.692,33999.83,15157.065,13069.299]



In [3]:
#creamos un dataframe con los datos para visualizarlos
df = pd.DataFrame({'Anio':anios,'Marca':marca,'Color':color,'Kilometraje':kilometraje,'Precio':precio})

In [4]:
#Preprocensamiento de los datos
X=np.column_stack((anios,marca,kilometraje,color))
y=np.array(precio)


In [5]:
# dividimos los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [6]:
#Creando la red neuronal
#definimos el modelo
model = tf.keras.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=[6]),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1)
])


In [7]:
#compilamos el modelo
model.compile(optimizer='adam',loss='mean_squared_error')

In [8]:
#entrenamos el modelo
model.fit(X_train, y_train, epochs=800, verbose=0)

<keras.src.callbacks.History at 0x1b17d8ecb10>

In [9]:
df

Unnamed: 0,Anio,Marca,Color,Kilometraje,Precio
0,2019,2,"[0, 0, 1]",73148,3100.148
1,2011,2,"[0, 0, 1]",159555,15161.555
2,2015,3,"[1, 0, 0]",129358,30288.358
3,2015,3,"[0, 1, 0]",53555,11039.555
4,2008,1,"[1, 0, 0]",22159,2688.159
5,2007,1,"[0, 1, 0]",111530,15965.53
6,2006,3,"[0, 0, 1]",85077,10747.077
7,2016,3,"[1, 0, 0]",40920,6432.92
8,2010,1,"[0, 1, 0]",24457,22559.457
9,2006,1,"[1, 0, 0]",83953,1150.953


In [39]:
# Predecir el precio de un vehículo nuevo (recuerda normalizar las entradas de la misma manera que el conjunto de entrenamiento)
nuevo_vehiculo = np.array([[2021, 2, 15000, 1, 0, 0],[2021, 2, 15000, 0, 0, 1],[2012, 1, 95000, 1, 0, 0],[2012, 1, 95000, 0, 0, 1],[2018, 2, 60000, 1, 0, 0],[2018, 3, 60000, 0, 0, 1]])
prediccion = model.predict(nuevo_vehiculo)

#selecccionar del nuevo vehiculo los tres ultimos datos de cada y validarlos, por ejemplo si es 0,1,0 es gris, si es 1,0,0 es blanco, si es 0,0,1 es negro

# Determinar el color basado en las últimas tres entradas
def determinar_color(entrada):
    if np.array_equal(entrada, [1, 0, 0]):
        return "Blanco"
    elif np.array_equal(entrada, [0, 1, 0]):
        return "Gris"
    elif np.array_equal(entrada, [0, 0, 1]):
        return "Negro"
    else:
        return "desconocido"

df_1 = pd.DataFrame(columns=["Año", "Marca", "Kilometraje", "Color", "Precio Predicho"])

for i, vehiculo in enumerate(nuevo_vehiculo):
    color = determinar_color(vehiculo[-3:])   
    
    marca_dict = {1: 'Toyota', 2: 'Honda', 3: 'Ford'}
    marca_str = marca_dict[int(vehiculo[1])]
    df_1.loc[i] = [vehiculo[0], marca_str, vehiculo[2], color, f"${prediccion[i][0]:.2f}"]

df_1





Unnamed: 0,Año,Marca,Kilometraje,Color,Precio Predicho
0,2021,Honda,15000,Blanco,$10293.73
1,2021,Honda,15000,Negro,$10317.43
2,2012,Toyota,95000,Blanco,$13839.80
3,2012,Toyota,95000,Negro,$13859.21
4,2018,Honda,60000,Blanco,$11491.71
5,2018,Ford,60000,Negro,$11518.68


#### Desarrollado por @Gian