In [None]:
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import seaborn as sns 
from sklearn.preprocessing import OrdinalEncoder
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.ensemble import GradientBoostingRegressor

from sklearn.metrics import mean_squared_error, mean_absolute_error

import mlflow
# Global settings
n_jobs = -1 # This parameter conrols the parallel processing. -1 means using all processors.
random_state = 40

In [None]:

# URL del archivo CSV en el repositorio de GitHub
url1 = 'https://raw.githubusercontent.com/jsalcedo14/DSA_project/master/dataTrain_carListings.csv'
url2 = 'https://raw.githubusercontent.com/jsalcedo14/DSA_project/master/dataTest_carListings.csv'
# Lee el archivo CSV en un DataFrame de pandas
data = pd.read_csv(url1)
test = pd.read_csv(url2)

In [None]:
# Codificación de las variables categoricas
cat = ['State','Make','Model']
dic = {'State':{},'Make':{},'Model':{}}

for i in cat:
    idx, codex = pd.factorize(data[i])
    data[i] = idx
    # Diccionario de referencia
    dic[i].update({code: i for i, code in enumerate(codex)})
    # Codificación de variables en testing con base en el diccionario
    test[i] = test[i].apply(lambda code: dic[i][code])

In [None]:
print('Cantidad Datos:',len(data))

# Control de Outliers
Q1 = data['Price'].quantile(0.25)
print('Primer Cuartil:', Q1)

Q3 = data['Price'].quantile(0.75)
print('Tercer Cuartil:', Q3)

IQR = Q3 - Q1
print('Rango Intercuartil:', IQR)

Mediana = data['Price'].median()
print('Mediana:', Mediana)

Valor_Minimo = data['Price'].min()
print('Valor Mínimo:', Valor_Minimo)

Valor_Maximo = data['Price'].max()
print('Valor Máximo:', Valor_Maximo)

BI_Calculado = (Q1 - 1.5 * IQR)
print('BI_Calculado: \n', BI_Calculado)

BS_Calculado = (Q3 + 1.5 * IQR)
print('BS_Calculado: \n', BS_Calculado)

Cantidad Datos: 400000
Primer Cuartil: 13499.0
Tercer Cuartil: 26999.0
Rango Intercuartil: 13500.0
Mediana: 18450.0
Valor Mínimo: 5001
Valor Máximo: 79999
BI_Calculado: 
 -6751.0
BS_Calculado: 
 47249.0


In [None]:
ubicacion_outliers = (data['Price'] < BI_Calculado) | (data['Price'] > BS_Calculado)
outliers = data[ubicacion_outliers]
print('\n Lista de Outliers \n', outliers)

ubicacion_sin_out = (data['Price'] >= BI_Calculado) & (data['Price'] <= BS_Calculado)
data = data[ubicacion_sin_out]


 Lista de Outliers 
         Price  Year  Mileage  State  Make  Model
90      61700  2017      355      5     1     68
122     49977  2015    25740      7     1     86
128     47550  2011    47383     22    22     91
168     51400  2015    44905      2    10    105
187     73216  2016     4912      2     1    117
...       ...   ...      ...    ...   ...    ...
399900  59980  2017    10989      2     1     45
399931  67365  2017     4519      0     9    144
399956  63900  2016    21501     32    22     91
399957  52998  2017     4694     25     2    230
399992  50990  2017    23896      2    27    162

[10880 rows x 6 columns]


In [None]:
# Selección de variables numéricas (X)

X = data.drop(['Price'], axis=1)

X['YxM'] = X['Year'] * X['Mileage']
test['YxM'] = test['Year'] * test['Mileage']

y = data['Price']

In [None]:
# Separación de variables predictoras (X) y variable de interés (y) en set de entrenamiento y test usandola función train_test_split
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=40)

In [None]:
# defina el servidor para llevar el registro de modelos y artefactos
#mlflow.set_tracking_uri('http://localhost:5000')
# registre el experimento
experiment = mlflow.set_experiment("/xgboost")

# Aquí se ejecuta MLflow sin especificar un nombre o id del experimento. MLflow los crea un experimento para este cuaderno por defecto y guarda las características del experimento y las métricas definidas. 

with mlflow.start_run(experiment_id=experiment.experiment_id):
    # defina los parámetros del modelo
    learning_rate = 0.1
    max_depth = 10
    n_estimators = 300
    subsample = 1
    
    # Crea el modelo con los parámetros definidos
    xgb_regressor = xgb.XGBRegressor(
        learning_rate=learning_rate,
        max_depth=max_depth,
        n_estimators=n_estimators,
        subsample=subsample,
        verbosity=0,
        random_state=random_state
    )
    
    # Entrena con los datos de entrenamiento
    xgb_regressor.fit(X_train, y_train)
    
    # Realiza predicciones de prueba
    predictions = xgb_regressor.predict(X_test)
  
    # Calcula métricas
    mse = mean_squared_error(y_test, predictions)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_test, predictions)
    mape = np.mean(np.abs((y_test - predictions) / y_test)) * 100
  
    # Registra los parámetros
    mlflow.log_param("learning_rate", learning_rate)
    mlflow.log_param("max_depth", max_depth)
    mlflow.log_param("n_estimators", n_estimators)
    mlflow.log_param("subsample", subsample)
  
    # Registra el modelo
    mlflow.xgboost.log_model(xgb_regressor, "xgboost-model")
  
    # Registra las métricas
    mlflow.log_metric("mse", mse)
    mlflow.log_metric("rmse", rmse)
    mlflow.log_metric("mae", mae)
    mlflow.log_metric("mape", mape)
    
    print(f'Mean Squared Error: {mse}')
    print(f'Root Mean Squared Error: {rmse}')
    print(f'Mean Absolute Error: {mae}')
    print(f'Mean Absolute Percentage Error: {mape}%')



Uploading artifacts:   0%|          | 0/5 [00:00<?, ?it/s]

Mean Squared Error: 8577104.760914449
Root Mean Squared Error: 2928.669452313533
Mean Absolute Error: 2015.9703342551522
Mean Absolute Percentage Error: 10.754942596495487%
