Notebook para el desarrollo del proyecto datascience desafio latam

### Equipo de trabajo

## Roles para el desarrollo del proyecto

● Líder del equipo                          = Jorge Guerrero / Paulo Gonzalez

● Analista de datos                         = Esteban Sanchez / Gonzalo Rojas

● Control de calidad y validación de datos  = Esteban Sanchez / Gonzalo Rojas

● Ingeniero/a de modelamiento               = Daniel Mardones / Jorge Guerrero

● Visualización de datos                    = Daniel Mardones / Jorge Guerrero

● Documentador/a                            = Daniel Mardones / Paulo Gonzalez

### Selección del tema y motivación

Se selecciona el tema propuesto Automotora, debido a que es una necesidad replicable, universal y contemporanea a cualquier epoca. Nuestra motivación es generar una herramienta de apoyo a la toma de decisiones de los equipos de compra y venta, para obtener las mejores opciones presentes en el mercado, mejorando la rentabilidad del negocio.

### Planificación de la investigación

 ## Requerimientos:
  
    # 1. Generar una herramienta que ayude al equipo de compras a encontrar las mejores oportunidades.
        Atraves de un modelo de clasificación que nos permita encontrar la mejor rentabilidad, usando técnicas de ML.

    # 2. Definir una propuesta de inversión (lista de automóviles convenientes) para la Automotora.
        Por medio de las metricas obtenidos podremos definir una propuesta para inversion, mediante vehiculos que esten por debajo del precio de venta promedio, lo cual permite un mejor margen de venta.

    # 3. Definir una estrategia de venta por gama de vehículos.
        Se incorpora una columna la cual clasifica la marca del vehiculo en generalista o premium. Con esto podremos generar un analisis del comporatamiento en la venta de vehiculos y con esto desarrollar una estrategia.

    # 4. Encontrar oportunidades de compra y venta entre ciudades/estados.
        Atraves de un EDA, podemos determinar en que ciudades / estados se encuentran las mejores oportunidades de compra y determinar las mejores ciudades / estados para vender estos vehiculos, maximizando la utilidad.

## Hipotesis

    Nuestra hipotesis es poder determinar, mediante un modelo clasificatorio si es rentable la compra de un vehiculo, de acuerdo a sus especifaciones, para una posterior venta.

## Definición del Vector Objetivo

    El vector objetivo es la variable Price.

## Estrategias analíticas a nivel descriptivo

    Se desarrollorá un EDA, el cual nos visualizara la distrubición de vehiculos de acuerdo a la marca, modelos, año, ciudad, estado, millas y valores de vehiculos.

## Modelación y predicción de trabajo

    Como primera estrategia utilizaremos la libreria Lazy Predict, utilizando su implementacion estandar, para conocer de forma preliminar los mejores clasificadores para esta solución. Para almacenar los resultados, utilizaremos una base de datos Postgres, lo que permite obtener mediante una query realizada por web, si es conveniente la compra del vehiculo.

### Disclaimer

- Los datos no seran encriptados.

- Los set de datos no contienen datos faltantes.

- Existen 3 dataset, los cuales por origen se encuentran dividos en: 
    muestra total = true_car_listings.csv
    muestra entrenamiento = true_cars_train.csv
    muestra validacion = true_cars_test.csv
    Debido a esto, no se realiza divisiones de muestra, solo de vector objetivo y matriz de atributos.

In [7]:
# Procesamiento de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Informacion del sistema
from sinfo import sinfo

# Machine Learning
from sklearn.ensemble import GradientBoostingClassifier, AdaBoostClassifier, RandomForestClassifier 
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import BernoulliNB
from sklearn.metrics import classification_report

import lazypredict
from lazypredict.Supervised import LazyClassifier
from lazypredict.Supervised import LazyRegressor

# Tratamiento de warnings
import warnings
warnings.simplefilter('ignore')

### Aspectos computacionales, descripcion de funciones utilizadas e informacion del sistema

In [8]:
sinfo()

The `sinfo` package has changed name and is now called `session_info` to become more discoverable and self-explanatory. The `sinfo` PyPI package will be kept around to avoid breaking old installs and you can downgrade to 0.3.2 if you want to use it without seeing this message. For the latest features and bug fixes, please install `session_info` instead. The usage and defaults also changed slightly, so please review the latest README at https://gitlab.com/joelostblom/session_info.
-----
lazypredict 0.2.12
matplotlib  3.5.2
numpy       1.22.4
pandas      1.4.2
seaborn     0.11.2
sinfo       0.3.4
sklearn     1.1.3
-----
IPython             8.4.0
jupyter_client      7.3.4
jupyter_core        4.10.0
jupyterlab          3.4.8
notebook            6.5.1
-----
Python 3.10.8 (tags/v3.10.8:aaaf517, Oct 11 2022, 16:50:30) [MSC v.1933 64 bit (AMD64)]
Windows-10-10.0.22621-SP0
16 logical CPU cores, AMD64 Family 25 Model 80 Stepping 0, AuthenticAMD
-----
Session information updated at 2023-01-27 21:

In [9]:
df_eda = pd.read_csv('Apoyo Tema Propuesto - Automotora/true_car_listings.csv')
df_eda

Unnamed: 0,Price,Year,Mileage,City,State,Vin,Make,Model
0,8995,2014,35725,El Paso,TX,19VDE2E53EE000083,Acura,ILX6-Speed
1,10888,2013,19606,Long Island City,NY,19VDE1F52DE012636,Acura,ILX5-Speed
2,8995,2013,48851,El Paso,TX,19VDE2E52DE000025,Acura,ILX6-Speed
3,10999,2014,39922,Windsor,CO,19VDE1F71EE003817,Acura,ILX5-Speed
4,14799,2016,22142,Lindon,UT,19UDE2F32GA001284,Acura,ILXAutomatic
...,...,...,...,...,...,...,...,...
852117,63215,2017,9,Culver City,CA,YV1A22MK9H1013237,Volvo,S90T6
852118,72260,2017,3201,Englewood,NJ,YV4A22PL3H1186162,Volvo,XC90T6
852119,55999,2016,28941,Fort Collins,CO,YV4A22PL4G1000868,Volvo,XC90AWD
852120,60240,2017,3005,San Leandro,CA,YV4A22NLXH1006162,Volvo,V90


In [10]:
df_eda['Make'].unique()

array(['Acura', 'Alfa', 'AM', 'Aston', 'Audi', 'Bentley', 'BMW', 'Buick',
       'Cadillac', 'Chevrolet', 'Chrysler', 'Dodge', 'Ferrari', 'FIAT',
       'Fisker', 'Ford', 'Freightliner', 'Genesis', 'Geo', 'GMC', 'Honda',
       'HUMMER', 'Hyundai', 'INFINITI', 'Isuzu', 'Jaguar', 'Jeep', 'Kia',
       'Lamborghini', 'Land', 'Lexus', 'Lincoln', 'Lotus', 'Maserati',
       'Maybach', 'Mazda', 'McLaren', 'Mercedes-Benz', 'Mercury', 'MINI',
       'Mitsubishi', 'Nissan', 'Oldsmobile', 'Plymouth', 'Pontiac',
       'Porsche', 'Ram', 'Rolls-Royce', 'Saab', 'Saturn', 'Scion',
       'smart', 'Subaru', 'Suzuki', 'Tesla', 'Toyota', 'Volkswagen',
       'Volvo'], dtype=object)

In [11]:
premium = ['Acura','Alfa','Aston','AM','Audi', 'Bentley', 'BMW','Cadillac','Ferrari','Genesis','HUMMER','INFINITI',
           'Jaguar','Lamborghini', 'Land', 'Lexus', 'Lincoln', 'Lotus', 'Maserati','Maybach', 'McLaren', 'Mercedes-Benz',
           'MINI','Porsche','Rolls-Royce', 'Saab', 'Saturn', 'Scion','smart','Tesla','Volvo']
generalista = ['Buick','Cadillac', 'Chevrolet', 'Chrysler', 'Dodge', 'FIAT','Fisker', 'Ford', 'Freightliner', 'Geo', 
               'GMC', 'Honda','Hyundai', 'Isuzu', 'Jeep', 'Kia', 'Mazda', 'Mercury','Mitsubishi', 'Nissan', 
               'Oldsmobile', 'Plymouth', 'Pontiac', 'Ram','Subaru', 'Suzuki',  'Toyota', 'Volkswagen']

In [12]:
df_train = pd.read_csv('Apoyo Tema Propuesto - Automotora/true_cars_train.csv',sep=';' )
df_train

Unnamed: 0,Price,Year,Mileage,City,State,Vin,Make,Model
0,10888,2013,19606,Long Island City,NY,19VDE1F52DE012636,Acura,ILX5-Speed
1,10999,2014,39922,Windsor,CO,19VDE1F71EE003817,Acura,ILX5-Speed
2,14799,2016,22142,Lindon,UT,19UDE2F32GA001284,Acura,ILXAutomatic
3,7989,2012,105246,Miami,FL,JH4CU2F83CC019895,Acura,TSXAutomatic
4,13995,2013,32384,West Jordan,UT,JH4CU2F64DC006203,Acura,TSX5-Speed
...,...,...,...,...,...,...,...,...
639140,54995,2017,2474,Berwyn,PA,YV1A22MK1H1010445,Volvo,S90T6
639141,72260,2017,3201,Englewood,NJ,YV4A22PL3H1186162,Volvo,XC90T6
639142,55999,2016,28941,Fort Collins,CO,YV4A22PL4G1000868,Volvo,XC90AWD
639143,60240,2017,3005,San Leandro,CA,YV4A22NLXH1006162,Volvo,V90


In [13]:
df_test = pd.read_csv('Apoyo Tema Propuesto - Automotora/true_cars_test.csv',sep=';' )
df_test

Unnamed: 0,Price,Year,Mileage,City,State,Vin,Make,Model
0,8995,2014,35725,El Paso,TX,19VDE2E53EE000083,Acura,ILX6-Speed
1,8995,2013,48851,El Paso,TX,19VDE2E52DE000025,Acura,ILX6-Speed
2,14490,2014,34032,Greatneck,NY,JH4CU2F84EC002686,Acura,TSXSpecial
3,12921,2012,58550,Boise,ID,JH4CU2F44CC003220,Acura,TSXAutomatic
4,14995,2014,23454,Hackettstown,NJ,19VDE1F31EE009243,Acura,ILX5-Speed
...,...,...,...,...,...,...,...,...
212972,59175,2017,1322,Englewood,NJ,YV1A22MKXH1010413,Volvo,S90T6
212973,54995,2017,9631,Berwyn,PA,YV1A22MK2H1013239,Volvo,S90T6
212974,61990,2017,2201,Winston Salem,NC,YV1A22ML0H1006850,Volvo,S90T6
212975,46500,2017,8,San Leandro,CA,YV140MEM3H1370217,Volvo,V60T5


In [14]:
df_test['Price']

0          8995
1          8995
2         14490
3         12921
4         14995
          ...  
212972    59175
212973    54995
212974    61990
212975    46500
212976    63215
Name: Price, Length: 212977, dtype: int64