Notebook para el desarrollo del proyecto datascience desafio latam

### Equipo de trabajo

## Roles para el desarrollo del proyecto

● Líder del equipo                          = Jorge Guerrero / Paulo Gonzalez

● Analista de datos                         = Esteban Sanchez / Gonzalo Rojas

● Control de calidad y validación de datos  = Esteban Sanchez / Gonzalo Rojas

● Ingeniero/a de modelamiento               = Daniel Mardones / Jorge Guerrero

● Visualización de datos                    = Daniel Mardones / Jorge Guerrero

● Documentador/a                            = Daniel Mardones / Paulo Gonzalez

### Selección del tema y motivación

Se selecciona el tema propuesto Automotora, debido a que es una necesidad replicable, universal y contemporanea a cualquier epoca. Nuestra motivación es generar una herramienta de apoyo a la toma de decisiones de los equipos de compra y venta, para obtener las mejores opciones presentes en el mercado, mejorando la rentabilidad del negocio.

### Planificación de la investigación

 ## Requerimientos:
  
    # 1. Generar una herramienta que ayude al equipo de compras a encontrar las mejores oportunidades.
        Atraves de un modelo de clasificación que nos permita encontrar la mejor rentabilidad, usando técnicas de ML.

    # 2. Definir una propuesta de inversión (lista de automóviles convenientes) para la Automotora.
        Por medio de las metricas obtenidos podremos definir una propuesta para inversion, mediante vehiculos que esten por debajo del precio de venta promedio, lo cual permite un mejor margen de venta.

    # 3. Definir una estrategia de venta por gama de vehículos.
        Se incorpora una columna la cual clasifica la marca del vehiculo en generalista o premium. Con esto podremos generar un analisis del comporatamiento en la venta de vehiculos y con esto desarrollar una estrategia.

    # 4. Encontrar oportunidades de compra y venta entre ciudades/estados.
        Atraves de un EDA, podemos determinar en que ciudades / estados se encuentran las mejores oportunidades de compra y determinar las mejores ciudades / estados para vender estos vehiculos, maximizando la utilidad.

## Hipotesis

    Nuestra hipotesis es poder determinar, mediante un modelo clasificatorio si es rentable la compra de un vehiculo, de acuerdo a sus especifaciones, para una posterior venta.

## Definición del Vector Objetivo

    El vector objetivo es la variable Price.

## Estrategias analíticas a nivel descriptivo

    Se desarrollorá un EDA, el cual nos visualizara la distrubición de vehiculos de acuerdo a la marca, modelos, año, ciudad, estado, millas y valores de vehiculos.

## Modelación y predicción de trabajo

    Como primera estrategia utilizaremos la libreria Lazy Predict, utilizando su implementacion estandar, para conocer de forma preliminar los mejores clasificadores para esta solución. Para almacenar los resultados, utilizaremos una base de datos Postgres, lo que permite obtener mediante una query realizada por web, si es conveniente la compra del vehiculo.

### Disclaimer

- Los datos no seran encriptados.

- Los set de datos no contienen datos faltantes.

- Existen 3 dataset, los cuales por origen se encuentran dividos en: 
    muestra total = true_car_listings.csv
    muestra entrenamiento = true_cars_train.csv
    muestra validacion = true_cars_test.csv
    Debido a esto, no se realiza divisiones de muestra, solo de vector objetivo y matriz de atributos.

In [28]:
# Procesamiento de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import lazypredict


# Machine Learning
from sklearn.ensemble import GradientBoostingClassifier, AdaBoostClassifier, RandomForestClassifier 
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.linear_model import LogisticRegression, LinearRegression, Lasso
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import make_regression
from sklearn.preprocessing import LabelEncoder
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.metrics import classification_report
from sklearn.metrics import mean_squared_error, median_absolute_error, r2_score, confusion_matrix

from lazypredict.Supervised import LazyClassifier
from lazypredict.Supervised import LazyRegressor


# Tratamiento de warnings
import warnings
warnings.simplefilter('ignore')

In [29]:
df_eda = pd.read_csv('Apoyo Tema Propuesto - Automotora/true_car_listings.csv')
df_eda


Unnamed: 0,Price,Year,Mileage,City,State,Vin,Make,Model
0,8995,2014,35725,El Paso,TX,19VDE2E53EE000083,Acura,ILX6-Speed
1,10888,2013,19606,Long Island City,NY,19VDE1F52DE012636,Acura,ILX5-Speed
2,8995,2013,48851,El Paso,TX,19VDE2E52DE000025,Acura,ILX6-Speed
3,10999,2014,39922,Windsor,CO,19VDE1F71EE003817,Acura,ILX5-Speed
4,14799,2016,22142,Lindon,UT,19UDE2F32GA001284,Acura,ILXAutomatic
...,...,...,...,...,...,...,...,...
852117,63215,2017,9,Culver City,CA,YV1A22MK9H1013237,Volvo,S90T6
852118,72260,2017,3201,Englewood,NJ,YV4A22PL3H1186162,Volvo,XC90T6
852119,55999,2016,28941,Fort Collins,CO,YV4A22PL4G1000868,Volvo,XC90AWD
852120,60240,2017,3005,San Leandro,CA,YV4A22NLXH1006162,Volvo,V90


In [30]:
df_eda['Make'].unique()

array(['Acura', 'Alfa', 'AM', 'Aston', 'Audi', 'Bentley', 'BMW', 'Buick',
       'Cadillac', 'Chevrolet', 'Chrysler', 'Dodge', 'Ferrari', 'FIAT',
       'Fisker', 'Ford', 'Freightliner', 'Genesis', 'Geo', 'GMC', 'Honda',
       'HUMMER', 'Hyundai', 'INFINITI', 'Isuzu', 'Jaguar', 'Jeep', 'Kia',
       'Lamborghini', 'Land', 'Lexus', 'Lincoln', 'Lotus', 'Maserati',
       'Maybach', 'Mazda', 'McLaren', 'Mercedes-Benz', 'Mercury', 'MINI',
       'Mitsubishi', 'Nissan', 'Oldsmobile', 'Plymouth', 'Pontiac',
       'Porsche', 'Ram', 'Rolls-Royce', 'Saab', 'Saturn', 'Scion',
       'smart', 'Subaru', 'Suzuki', 'Tesla', 'Toyota', 'Volkswagen',
       'Volvo'], dtype=object)

In [31]:
df_eda['City'].unique()

array(['El Paso', 'Long Island City', 'Windsor', ..., 'Winslow',
       'Bergenfield', 'Belmont'], dtype=object)

In [32]:
df_eda['State'].unique()

array([' TX', ' NY', ' CO', ' UT', ' FL', ' CT', ' ID', ' ND', ' CA',
       ' NJ', ' OH', ' VA', ' IN', ' AZ', ' OR', ' KS', ' NE', ' MA',
       ' MD', ' GA', ' MN', ' HI', ' LA', ' NM', ' IL', ' AL', ' PA',
       ' SC', ' NC', ' WA', ' WI', ' OK', ' KY', ' MS', ' MO', ' ME',
       ' AR', ' MI', ' NV', ' TN', ' Fl', ' NH', ' DE', ' WV', ' Az',
       ' VT', ' SD', ' IA', ' RI', ' ga', ' Oh', ' MT', ' DC', ' AK',
       ' Va', ' WY', ' Md', ' Ca', ' Ga'], dtype=object)

In [33]:
premium = ['Acura','Alfa','Aston','AM','Audi', 'Bentley', 'BMW','Cadillac','Ferrari','Genesis','HUMMER','INFINITI',
           'Jaguar','Lamborghini', 'Land', 'Lexus', 'Lincoln', 'Lotus', 'Maserati','Maybach', 'McLaren', 'Mercedes-Benz',
           'MINI','Porsche','Rolls-Royce', 'Saab', 'Saturn', 'Scion','smart','Tesla','Volvo']
generalista = ['Buick','Cadillac', 'Chevrolet', 'Chrysler', 'Dodge', 'FIAT','Fisker', 'Ford', 'Freightliner', 'Geo', 
               'GMC', 'Honda','Hyundai', 'Isuzu', 'Jeep', 'Kia', 'Mazda', 'Mercury','Mitsubishi', 'Nissan', 
               'Oldsmobile', 'Plymouth', 'Pontiac', 'Ram','Subaru', 'Suzuki',  'Toyota', 'Volkswagen']

In [34]:
df_eda.insert(2, 'gama','generalista')

In [35]:
df_eda.sample(10,random_state=666)

Unnamed: 0,Price,Year,gama,Mileage,City,State,Vin,Make,Model
16166,27900,2014,generalista,50087,Baton Rouge,LA,WAUGFAFC2EN111452,Audi,A62.0T
585294,14447,2015,generalista,46247,Warsaw,IN,3MZBM1U73FM148785,Mazda,Mazda3i
177225,39991,2015,generalista,14299,Reno,NV,1GCUKREC2FF204596,Chevrolet,Silverado
525989,18077,2017,generalista,17711,Victorville,CA,5XXGT4L33HG128066,Kia,OptimaLX
814571,34240,2015,generalista,43864,Baltimore,MD,JTEBU5JRXF5206862,Toyota,4Runner4x4
73747,5881,2001,generalista,130382,Layton,UT,1G6KD54YX1U295423,Cadillac,DeVille4dr
153745,16595,2011,generalista,110069,Greenville,SC,2CNALDEC2B6351567,Chevrolet,EquinoxFWD
847482,4388,2001,generalista,101787,Wellesley,MA,YV1RS61R812075059,Volvo,S602.4
125628,12490,2011,generalista,92990,Cary,NC,1GNKRGEDXBJ373229,Chevrolet,TraverseFWD
292572,16499,2011,generalista,60748,Middlebury,CT,1FMJU1G56BEF51244,Ford,Expedition4WD


In [36]:
df_train = pd.read_csv('Apoyo Tema Propuesto - Automotora/true_cars_train.csv',sep=';' )
df_train

Unnamed: 0,Price,Year,Mileage,City,State,Vin,Make,Model
0,10888,2013,19606,Long Island City,NY,19VDE1F52DE012636,Acura,ILX5-Speed
1,10999,2014,39922,Windsor,CO,19VDE1F71EE003817,Acura,ILX5-Speed
2,14799,2016,22142,Lindon,UT,19UDE2F32GA001284,Acura,ILXAutomatic
3,7989,2012,105246,Miami,FL,JH4CU2F83CC019895,Acura,TSXAutomatic
4,13995,2013,32384,West Jordan,UT,JH4CU2F64DC006203,Acura,TSX5-Speed
...,...,...,...,...,...,...,...,...
639140,54995,2017,2474,Berwyn,PA,YV1A22MK1H1010445,Volvo,S90T6
639141,72260,2017,3201,Englewood,NJ,YV4A22PL3H1186162,Volvo,XC90T6
639142,55999,2016,28941,Fort Collins,CO,YV4A22PL4G1000868,Volvo,XC90AWD
639143,60240,2017,3005,San Leandro,CA,YV4A22NLXH1006162,Volvo,V90


In [37]:
df_test = pd.read_csv('Apoyo Tema Propuesto - Automotora/true_cars_test.csv',sep=';' )
df_test

Unnamed: 0,Price,Year,Mileage,City,State,Vin,Make,Model
0,8995,2014,35725,El Paso,TX,19VDE2E53EE000083,Acura,ILX6-Speed
1,8995,2013,48851,El Paso,TX,19VDE2E52DE000025,Acura,ILX6-Speed
2,14490,2014,34032,Greatneck,NY,JH4CU2F84EC002686,Acura,TSXSpecial
3,12921,2012,58550,Boise,ID,JH4CU2F44CC003220,Acura,TSXAutomatic
4,14995,2014,23454,Hackettstown,NJ,19VDE1F31EE009243,Acura,ILX5-Speed
...,...,...,...,...,...,...,...,...
212972,59175,2017,1322,Englewood,NJ,YV1A22MKXH1010413,Volvo,S90T6
212973,54995,2017,9631,Berwyn,PA,YV1A22MK2H1013239,Volvo,S90T6
212974,61990,2017,2201,Winston Salem,NC,YV1A22ML0H1006850,Volvo,S90T6
212975,46500,2017,8,San Leandro,CA,YV140MEM3H1370217,Volvo,V60T5


In [38]:
df_test['Price']

0          8995
1          8995
2         14490
3         12921
4         14995
          ...  
212972    59175
212973    54995
212974    61990
212975    46500
212976    63215
Name: Price, Length: 212977, dtype: int64

In [39]:
df_X_train_model = df_train
# Preprocesamiento de variables parta graficos
df_X_train_model['City'] = LabelEncoder().fit_transform(df_X_train_model['City'])
df_X_train_model['State'] = LabelEncoder().fit_transform(df_X_train_model['State'])
df_X_train_model['Vin'] = LabelEncoder().fit_transform(df_X_train_model['Vin'])
df_X_train_model['Make'] = LabelEncoder().fit_transform(df_X_train_model['Make'])
df_X_train_model['Model'] = LabelEncoder().fit_transform(df_X_train_model['Model'])
df_X_train_model.sample(5,random_state = 666)

Unnamed: 0,Price,Year,Mileage,City,State,Vin,Make,Model
442685,22352,2017,18,1552,49,492419,35,1437
639090,35995,2015,39854,174,44,634717,55,2451
369434,24499,2015,25922,2159,39,31193,25,565
584292,10977,2012,76922,724,26,384633,53,480
382542,38999,2017,3677,1701,20,39191,25,1105


In [40]:
df_y_test_model = df_test
df_y_test_model['City'] = LabelEncoder().fit_transform(df_y_test_model['City'])
df_y_test_model['State'] = LabelEncoder().fit_transform(df_y_test_model['State'])
df_y_test_model['Vin'] = LabelEncoder().fit_transform(df_y_test_model['Vin'])
df_y_test_model['Make'] = LabelEncoder().fit_transform(df_y_test_model['Make'])
df_y_test_model['Model'] = LabelEncoder().fit_transform(df_y_test_model['Model'])
df_y_test_model.sample(5,random_state = 666)

Unnamed: 0,Price,Year,Mileage,City,State,Vin,Make,Model
136963,7500,2011,103951,2480,32,187821,27,1873
200471,29499,2015,38356,478,5,120348,54,1941
76818,7495,2004,187376,1275,46,37061,15,766
34567,25624,2014,29711,471,49,51952,9,1843
65872,6599,2010,108049,368,6,22408,15,835


In [41]:
X_train_model = df_X_train_model.drop(columns = 'Price')
X_test_model = df_test.drop(columns = 'Price')

In [42]:
y_train_model = df_X_train_model['Price']
y_test_model = df_y_test_model['Price']

In [43]:
clf_dt = DecisionTreeRegressor().fit(X_train_model, y_train_model)

In [44]:
y_hat_dt = clf_dt.predict(X_test_model)
print(f'''Reporte para DecisionTreeRegressor
RMSE: {np.sqrt(mean_squared_error(y_test_model, y_hat_dt))}
MAE: {median_absolute_error(y_test_model, y_hat_dt)}
R2 Score: {r2_score(y_test_model, y_hat_dt)}''')

Reporte para DecisionTreeRegressor
RMSE: 20092.915278279812
MAE: 6961.0
R2 Score: -1.1636083889679396


In [45]:
clf_lr = LinearRegression().fit(X_train_model, y_train_model)

In [46]:
y_hat_lr = clf_lr.predict(X_test_model)
print(f'''Reporte para DLinearRegression
RMSE: {np.sqrt(mean_squared_error(y_test_model, y_hat_dt))}
MAE: {median_absolute_error(y_test_model, y_hat_dt)}
R2 Score: {r2_score(y_test_model, y_hat_dt)}''')

Reporte para DLinearRegression
RMSE: 20092.915278279812
MAE: 6961.0
R2 Score: -1.1636083889679396
