# Sistema de recomendación de vehículos

## Introducción

Se trata de una Web-app que ayudará al cliente a encontrar los vehículos que mejor se ajusten a sus preferencias. En base a la configuración de las características del vehículo ideal que introduzca el usuario desde el Front, se le recomendarán 20 modelos y sus versiones concretas vigentes en el mercado español, con el mejor precio que se viene ofreciendo en los concesionarios del país. Dado que no poseemos datos reales de preferencias del consumidor (es un objetivo a futuro de negocio *a tener en cuenta) se trata pues de un Content-Based Recommender System sobre Python.

Los datos sobre los que se trabaja no están disponibles inicialmente, por lo que nos construiremos nuestros datasets desde cero. Para ello, recuerriremos al 'scrapeo' de todos los datos necesarios, desde los modelos de vehículos a la venta y todas sus versiones (serán nuestras columnas), hasta los mejores precios ( nos lo ofrece la web www.autodescuento.com ) o las capacidades de los maleteros, que serán nuestras variables o columnas.

Una vez se dispone de los datos limpios, el algoritmo de selección de las recomendaciones se basa en el cáclulo de las mínimas distancias euclídeas entre el vector de entrada ( vehículo con las características buscadas por el cliente ) y los casi 6.000 modelos disponibles en nuestro dataset creado. Por último, se realiza un filtrado de los resltados por precio.

Se ha desarrollado íntegramente en Python, con la inestimable ayuda de las siguientes librerías tratadas en clase:

    - 'Scraping' de los datos: BeautifulSoup, Requests, Pandas.
    
    -  Limpieza, formateo, codificiación y normalización de los datos: Pandas y Numpy + Comandos de shell Linux.
    
    -  Cálculo de las distancias entre variables dependientes (vehículos): Scipy.
    
    -  Visualización de resultados: Pandas y Seaborn.
    
    -  Levantamiento y gestión del servidor local y la Web-App: Flask y Requests.
 

*Nota: El objetivo a medio plazo sería recabar información por medio de un breve registro del usuario, sobre la cual guardar información de gustos y búsquedas, para, posteriormente, cambiar el modelo del Recomendador a un algoritmo predictivo.

## Estructura de ficheros 

/TFM/

    1.Scraping data.ipynb
    2.Scraping extra data - Maleteros.ipynb
    3.Limpieza y ordenacion de datos.ipynb
    4.Recomendador.ipynb
    Dataframe_limpio.csv
    listado.csv
    segmentos.csv
    maleteros
    Memoria - Sistema de recomendación de vehículos - Pablo Real.ipynb
    normalizado.csv

    .CarRecommender/

## 1. Scraping data.ipynb 

Este Notebook contiene el script que 'scrapea' los datos que formarán nuestro dataset sobre el que trabajaremos. Extrae todo tipo de datos de más de 6.000 modelos a la venta en España, incluídos algunos vehículos comerciales que, posteriormente, se prescindirá de ellos por no entrar en el objetivo de negocio.

El script tarda de media, dependiendo de las características de la máquina, unos 30 minutos en ejectutarse, luego, para su prueba, se puede partir del archivo de salida almacenado en local 'Dataframe_limpio.csv'.

#### Fuente 

http://www.autodescuento.com/

#### Librerías necesarias 

Se desarrolla con BeautifulSoup, requests y pandas.

#### Salida del script 

Genera el archivo 'Dataframe_limpio.csv' con nuestro Dataset. En este punto, nuestros datos contienen: 

    -  5.932 variables dependientes: Filas del Dataframe que representan los vehículos a la venta en España.
    
    -  33 variables independientes: Columnas del Dataframe con características de cada vehículo. Consta de variables categóricas y numéricas indistintamente.


*NOTA1: Variables independientes disponibles: 'version', 'precio', 'puertas', 'combustible', 'traccion', 'cv', 'cambio', 'n_marchas', 'co2', 'autonomia', 'consumo', 'airbags', 'garantia', 'cilindrada', 'capacidad deposito', 'marchas', 'max_vel', '0_a_100', 'rpm', 'par', 'control traccion', 'control estabilidad', 'estrellas NCAP', 'alarma', 'cierre centralizado', 'cierre automatico', 'tipo llave', 'start/stop', 'CD/mp3/dvd', 'carroceria', 'peso', 'MODELOS').

*NOTA2: El script se ejecutará periódicamente, con una periodicidad que dependerá del modelo de negocio. Debido a la velocidad de salida de nuevos vehículos al mercado, una ejecución semanal sería suficiente. 

## 2. Scraping extra data - Maleteros.ipynb

Este Notebook contiene el script que 'scrapea' las capacidades de los maleteros de los vehículos de nuestro dataset. Este dato, de manera frecuente representa una característica fundamental a la hora de escoger un vehículo nuevo. Se deberá ejecutar siempre que se ejecute el script de 'scrapeo' principal.

#### Fuente 

http://www.medidasdecoches.com/

#### Librerías necesarias

Se desarrolla con BeautifulSoup, requests y pandas.

#### Salida del script

Genera el archivo 'maleteros.csv' con los modelos y sus correspondientes capacidades de los maleteros.

*NOTA: El script se ejecutará periódicamente siempre junto con el script principal 'Scraping data'. 

## 3. Limpieza y ordenacion de datos.ipynb

Este Notebook contiene el grueso del proyecto. En él se llevan a cabo los siguientes procesos:

    - Unión de los diferentes dataframes almacenados.
    
        Se unen los dataframes con pandas, para formar el Dataframe global que contiene todas las variables.
        
    - Limpieza de los datos.
    
        Se limpian los dataframes con pandas, eliminando variables que por decisión de negocio no entren en los análisis, eliminando vehículos especiales y comerciales, etc. 
        
    - Formateo de los datos.
    
        Se asignan los tipos correctos a las variables, se formatean las variables eliminando caracteres extraños, se formatean ciertas variables por conveniencia, etc.
        
    - Codificación de las variables.
    
        Se codifican las variables categóricas según decisión de negocio.
        
    - Normalización de las variables.
    
        Se realiza una normalización de las variables mediante un escalado Min-Max, para evitar valores negativos.
        
    - Almacenamiento de los datasets sobre los que el Back-End realizará las acciones del lado del servidor.
    
        Guardamos los dataframes que forman nuestra BDD.
        
        
En este punto, nuestros datos contienen: 

    -  5.232 variables dependientes: Filas del Dataframe que representan los vehículos bajo análisis.
    
    -  17 variables independientes: Columnas del Dataframe con las características finales que tomarán parte en el algoritmo de decisión.
    
    
    
*NOTA1. Variables independientes finales: 'precio', 'puertas', 'combustible', 'traccion', 'cv', 'cambio', 'n_marchas', 'co2', 'autonomia', 'consumo', 'garantia', 'capacidad deposito', '0_a_100', 'maletero', 'offsetTops', 'tipo_marca', 'longitud', 'Segmento'.

*NOTA2. El script se ejecutará periódicamente tras los 'scrapeos' de los datos y maleteros.

#### Datos de entrada 

Datasets 'scrapeados': Dataframe_limpio.csv y maleteros.csv.

#### Librerías necesarias

Se desarrolla con pandas y numpy.

#### Salida del Notebook

Genera los archivos 'listado.csv' y 'normalizado.csv', sobre los cuales trabajarán los métodos controladores que calcularán los vehículos recomendados en cada caso del lado del servidor, llamados desde el Front-End de la web-app.

## 4. Recomendador.ipynb

Este Notebook contiene los métodos disponibles para realizar la recomendación del lado del servidor. Los métodos desarrollados son los siguientes:

    - recomienda_20(list): Recibe una lista de 17 parámetros configurados desde Front (preferencias del usuario), y devuelve un Dataframe con los 20 vehículos recomendados para el caso en cuestión.
    
    - recomienda_20F(list): Recibe una lista de 17 parámetros configurados desde Front (preferencias del usuario), y devuelve un Dataframe con los 20 vehículos recomendados para el caso en cuestión, filtrados en precio en un rango de [presupuesto - 30%presupuesto, presupuesto + 20%presupuesto].
    
    - top_distancias_20(list): Recibe una lista de 17 parámetros configurados desde Front (preferencias del usuario), y devuelve un Dataframe con las 20 menores distancias encontradas, y los índices de los vectores a los que pertenecen dichas distancias.
    
Las distancias entre el vector que representa la selección del usuario y los diferentes vehículos de nuestra base de datos se calculan como distancias euclídeas entre vectores de 17 dimensiones.

#### Librerías necesarias 

Las distancias se calculan por medio del método 'distance' del paquete Scipy. En concreto, será necesario importar el módulo scipy.spatial.

    *IMPORTANTE: Este Notebook debe se guarda en formato Python (.py), ya que sus métodos deben ser accesibles del lado del servidor. La app importará recomendador.py para llamar a sus métodos si fuera necesario.

## 5. Aplicación web - CarRecommender

La aplicación se implementa sobre el framework ofrecido por Flask, en Python. Se ejecutará en un servidor local, gestionado por Flask en nuestra propia máquina. 

La estructura de ficheros de la aplicación deberá ser la siguiente:

/CarRecommender/

            listado.csv
            normalizado.csv
            recomendador.py
            recomendador.pyc
            run.py
        flask/
            bin/
            include/
            lib/

        static/
            style.css
        templates/
            index.html
            views.html
        tmp/

#### 5.1. BDD 

Los archivos generados por los scripts anteriores (normalizado.csv y listado.csv) deberán estar en el directorio raíz de la app (/CarRecommender), para que los métodos del Back puedan consumir sus datos.

#### 5.2. Templates 

La aplicación tendrá la pantalla inicial (landing page, index.html) y la página resultado en la que se mostrarán las recomendaciones y el gráfico (views.html).

#### 5.3. Lógica de negocio 

Se recogerán los datos introducidos por el usuario y se ejecutará el método disponible en recomendador.py que devuelve una tabla con los 20 vehículos recomendados. Se mostrará la tabla y un gráfico de barplots con los mejores precios por modelo.

#### 5.4. Librerías necesarias

Se necesitará importar flask, pandas, matplotlib.pyplot, seaborn, base64 y StringIO.

# Replicar el proceso y lanzar en local 

## Opción A ) Comprobación global de la app sin ejecutar los bloques de 'scrapeo' 

Para comprobar el correcto funcionamiento del proyecto, se deben seguir los siguientes pasos:



#### 1. Clonar el repositorio de Github:
    
       https://github.com/prealfer/TFM_Recomendador_de_automoviles

#### 2. Comprobar que el árbol de ficheros y archivos está como se indica a continuación:


/TFM/

    1.Scraping data.ipynb
    2.Scraping extra data - Maleteros.ipynb
    3.Limpieza y ordenacion de datos.ipynb
    4.Recomendador.ipynb
    Dataframe_limpio.csv
    listado.csv
    maleteros
    Guía funcional - Sistema de recomendación de vehículos - Pablo Real.ipynb
    normalizado.csv

    .CarRecommender/
    
            listado.csv
            normalizado.csv
            recomendador.py
            recomendador.pyc
            run.py
        flask/
            bin/
            include/
            lib/

        static/
            style.css
        templates/
            index.html
            views.html
        tmp/

#### 3. Lanzar en el servidor local el archivo run.py: 

Dentro del directorio  .CarRecommender/  ejecutar el archivo run.py ejecutando el siguiente comando:

        CarRecommender usuario$ python run.py 

#### 4. Acceder mediante el navegador a la siguiente url:

    http://localhost:5000

Y ya habremos accedido a nuestra aplicación, una vez dentro podemos realizar tantas consultas de vehículos recomendados como queramos.

##  Opción B ) Replicando el proyecto desde cero (+ 35 mins)

El proceso será el mismo salvo que en este caso no será necesario disponer de los archivos .csv que representan nuestra BDD, ya que los crearemos desde cero. Para ello habrá que ejecutar por completo los Notebooks que forman el proyecto:

    - 1. Scraping data.ipynb
    - 2. Scraping extra data - Maleteros.ipynb
    - 3. Limpieza y ordenacion de datos.ipynb

Por último, deberá generarse el archivo recomendador.py (guardándose el Notebook '4. Recomendador.ipynb' en formato Python (.py)) y copiándose a la carpeta raíz de la app ./CarRecommender/, tal y como se ve en el árbol anterior.