# Tarea - Clasificacion Binaria de Pinturas para Auto

In [14]:
import random
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

## 1 - Importación y Depuración de Datos

Importamos el conjunto de datos y lo depuramos aplicando 3 transformaciones al mismo

1. Tipos de datos: asignamos los tipos de datos a cada variables. A Airbags la vamos a tratar como categóricas por tener saltos no continuos para que pueda capturar no linealidades posibles a futuro.

2. Datos missings: imputamos a los datos missings de variables categóricas la moda y a los de variables numéricas la media

3. Estandarización: estandarizamos las variables tratadas como continuas usando la técnica a escala entre 0 y 1.

4. Dummies en Categóricas: agregamos columnas dummys para los n-1 valores posibles de cada variable categórica

In [19]:
bronze_data = pd.read_excel('../Statement/datos_tarea25.xlsx')

silver_data = bronze_data.copy()  # Crear una copia del dataset original

# 1. Manejar missing en otras columnas
# Convertir las columnas a sus tipos de datos correctos
silver_data['Levy'] = pd.to_numeric(silver_data['Levy'], errors='coerce')  # Convertir Levy a numérico
silver_data['Mileage'] = silver_data['Mileage'].str.replace(' km', '').str.replace(',', '').astype(float)  # Convertir Mileage a numérico
silver_data['Engine volume'] = silver_data['Engine volume'].str.replace(' Turbo', '').astype(float)  # Convertir Engine volume a numérico
silver_data['Prod. year'] = silver_data['Prod. year'].astype(int)  # Asegurar que Prod. year sea entero

for column in silver_data.columns:
    if silver_data[column].dtype == 'object':  # Imputar moda para variables categóricas
        silver_data[column].fillna(silver_data[column].mode()[0], inplace=True)
    elif silver_data[column].dtype in ['int64', 'float64']:  # Imputar promedio para variables numéricas
        silver_data[column].fillna(silver_data[column].mean(), inplace=True)

# 2. Crear columnas dummys para variables categóricas

silver_data = pd.get_dummies(silver_data, columns=silver_data.drop(columns=['Color']).select_dtypes(include=['object']).columns, drop_first=True)

# 3. Estandarizar variables continuas a escala [0, 1]
scaler = MinMaxScaler()
numerical_columns = silver_data.select_dtypes(include=['int64', 'float64']).columns
silver_data[numerical_columns] = scaler.fit_transform(silver_data[numerical_columns])


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  silver_data[column].fillna(silver_data[column].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  silver_data[column].fillna(silver_data[column].mode()[0], inplace=True)


Dividimos los conjuntos de datos para train y test usando una semilla de aleatoriedad prefijada

In [22]:
Y = silver_data['Color'] 
X = silver_data.drop(columns=['Color'])
print("Variables explicativas: ", list(X.columns))
print("Variable objetivo: ", Y.name)

SEED = 12345
random.seed(SEED)
np.random.seed(SEED)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=SEED)

Variables explicativas:  ['Price', 'Levy', 'Prod. year', 'Engine volume', 'Mileage', 'Cylinders', 'Airbags', 'Manufacturer_LEXUS', 'Manufacturer_MERCEDES-BENZ', 'Manufacturer_TOYOTA', 'Category_Jeep', 'Category_Sedan', 'Leather interior_Yes', 'Fuel type_Hybrid', 'Fuel type_Petrol', 'Gear box type_Tiptronic', 'Drive wheels_Front', 'Drive wheels_Rear', 'Wheel_Right-hand drive']
Variable objetivo:  Color
