Notebook para el desarrollo del proyecto datascience desafio latam

### Equipo de trabajo

## Roles para el desarrollo del proyecto

● Líder del equipo                          = Jorge Guerrero / Paulo Gonzalez

● Analista de datos                         = Esteban Sanchez / Gonzalo Rojas

● Control de calidad y validación de datos  = Esteban Sanchez / Gonzalo Rojas

● Ingeniero/a de modelamiento               = Daniel Mardones / Jorge Guerrero

● Visualización de datos                    = Daniel Mardones / Jorge Guerrero

● Documentador/a                            = Daniel Mardones / Paulo Gonzalez

### Selección del tema y motivación

Se selecciona el tema propuesto Automotora, debido a que es una necesidad replicable, universal y contemporanea a cualquier epoca. Nuestra motivación es generar una herramienta de apoyo a la toma de decisiones de los equipos de compra y venta, para obtener las mejores opciones presentes en el mercado, mejorando la rentabilidad del negocio.

### Planificación de la investigación

 ## Requerimientos:
  
    # 1. Generar una herramienta que ayude al equipo de compras a encontrar las mejores oportunidades.
        Atraves de un modelo de clasificación que nos permita encontrar la mejor rentabilidad, usando técnicas de ML.

    # 2. Definir una propuesta de inversión (lista de automóviles convenientes) para la Automotora.
        Por medio de las metricas obtenidos podremos definir una propuesta para inversion, mediante vehiculos que esten por debajo del precio de venta promedio, lo cual permite un mejor margen de venta.

    # 3. Definir una estrategia de venta por gama de vehículos.
        Se incorpora una columna la cual clasifica la marca del vehiculo en generalista o premium. Con esto podremos generar un analisis del comporatamiento en la venta de vehiculos y con esto desarrollar una estrategia.

    # 4. Encontrar oportunidades de compra y venta entre ciudades/estados.
        Atraves de un EDA, podemos determinar en que ciudades / estados se encuentran las mejores oportunidades de compra y determinar las mejores ciudades / estados para vender estos vehiculos, maximizando la utilidad.

## Hipotesis

    Nuestra hipotesis es poder determinar, mediante un modelo clasificatorio si es rentable la compra de un vehiculo, de acuerdo a sus especifaciones, para una posterior venta.

## Definición del Vector Objetivo

    El vector objetivo es la variable Price.

## Estrategias analíticas a nivel descriptivo

    Se desarrollorá un EDA, el cual nos visualizara la distrubición de vehiculos de acuerdo a la marca, modelos, año, ciudad, estado, millas y valores de vehiculos.

## Modelación y predicción de trabajo

    Como primera estrategia utilizaremos la libreria Lazy Predict, utilizando su implementacion estandar, para conocer de forma preliminar los mejores clasificadores para esta solución. Para almacenar los resultados, utilizaremos una base de datos Postgres, lo que permite obtener mediante una query realizada por web, si es conveniente la compra del vehiculo.

### Disclaimer

- Los datos no seran encriptados.

- Los set de datos no contienen datos faltantes.

- Existen 3 dataset, los cuales por origen se encuentran dividos en: 
    muestra total = true_car_listings.csv
    muestra entrenamiento = true_cars_train.csv
    muestra validacion = true_cars_test.csv
    Debido a esto, no se realiza divisiones de muestra, solo de vector objetivo y matriz de atributos.

In [None]:
# Procesamiento de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import lazypredict


# Machine Learning
from sklearn.ensemble import GradientBoostingClassifier, AdaBoostClassifier, RandomForestClassifier 
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import BernoulliNB
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report

from lazypredict.Supervised import LazyClassifier
from lazypredict.Supervised import LazyRegressor


# Tratamiento de warnings
import warnings
warnings.simplefilter('ignore')

In [None]:
df_eda = pd.read_csv('Apoyo Tema Propuesto - Automotora/true_car_listings.csv')
df_eda


In [None]:
df_eda['Make'].unique()

In [None]:
premium = ['Acura','Alfa','Aston','AM','Audi', 'Bentley', 'BMW','Cadillac','Ferrari','Genesis','HUMMER','INFINITI',
           'Jaguar','Lamborghini', 'Land', 'Lexus', 'Lincoln', 'Lotus', 'Maserati','Maybach', 'McLaren', 'Mercedes-Benz',
           'MINI','Porsche','Rolls-Royce', 'Saab', 'Saturn', 'Scion','smart','Tesla','Volvo']
generalista = ['Buick','Cadillac', 'Chevrolet', 'Chrysler', 'Dodge', 'FIAT','Fisker', 'Ford', 'Freightliner', 'Geo', 
               'GMC', 'Honda','Hyundai', 'Isuzu', 'Jeep', 'Kia', 'Mazda', 'Mercury','Mitsubishi', 'Nissan', 
               'Oldsmobile', 'Plymouth', 'Pontiac', 'Ram','Subaru', 'Suzuki',  'Toyota', 'Volkswagen']

In [None]:
df_train = pd.read_csv('Apoyo Tema Propuesto - Automotora/true_cars_train.csv',sep=';' )
df_train

In [None]:
df_test = pd.read_csv('Apoyo Tema Propuesto - Automotora/true_cars_test.csv',sep=';' )
df_test

In [None]:
df_test['Price']

In [None]:
df_X_train_lazy = df_train
# Preprocesamiento de variables parta graficos
df_X_train_lazy['City'] = LabelEncoder().fit_transform(df_X_train_lazy['City'])
df_X_train_lazy['State'] = LabelEncoder().fit_transform(df_X_train_lazy['State'])
df_X_train_lazy['Vin'] = LabelEncoder().fit_transform(df_X_train_lazy['Vin'])
df_X_train_lazy['Make'] = LabelEncoder().fit_transform(df_X_train_lazy['Make'])
df_X_train_lazy['Model'] = LabelEncoder().fit_transform(df_X_train_lazy['Model'])
df_X_train_lazy.sample(5,random_state = 666)

In [None]:
df_y_test_lazy = df_test
df_y_test_lazy['City'] = LabelEncoder().fit_transform(df_y_test_lazy['City'])
df_y_test_lazy['State'] = LabelEncoder().fit_transform(df_y_test_lazy['State'])
df_y_test_lazy['Vin'] = LabelEncoder().fit_transform(df_y_test_lazy['Vin'])
df_y_test_lazy['Make'] = LabelEncoder().fit_transform(df_y_test_lazy['Make'])
df_y_test_lazy['Model'] = LabelEncoder().fit_transform(df_y_test_lazy['Model'])
df_y_test_lazy.sample(5,random_state = 666)

In [None]:
X_train_lazy = df_X_train_lazy.drop(columns = 'Price')
X_test_lazy = df_test.drop(columns = 'Price')

In [None]:
y_train_lazy = df_X_train_lazy['Price']
y_test_lazy = df_y_test_lazy['Price']

In [None]:
lazy_reg = LazyRegressor(verbose = 0, ignore_warnings = True, predictions=True)
models,predictions = lazy_reg.fit(X_train_lazy, X_test_lazy, y_train_lazy, y_test_lazy)