In [None]:
# Imports required for the notebook
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Silence warnings for clarity in the notebook
import warnings
warnings.filterwarnings('ignore')

print('Notebook imports loaded')

: 

# Data Cleaning - Regression of Used Car Prices

In [None]:
# Instalaci√≥n silenciosa de missingno (compatible fuera de IPython)
import sys
import subprocess

try:
    import missingno as msno
except ImportError:
    subprocess.run([sys.executable, "-m", "pip", "install", "missingno"], check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
    import missingno as msno


###Importamos las librer√≠as necesarias para realiar nuestro procesamiento y limpieza de datos

In [None]:
# Importamos las librer√≠as ensenciales
import pandas as pd # Para manejo de datos
import numpy as np # Para operaciones num√©ricas
import plotly as pl # Para visualizaciones interactivas
import seaborn as sns # Para gr√°ficos estad√≠sticos
import missingno as msno # Para visualizar datos faltantes

#1. Cargamos el dataset


In [None]:
# Carga del csv a dataframe
df_train = pd.read_csv('../data/raw/train.csv')
df_test = pd.read_csv('../data/raw/test.csv')

In [None]:
# Mostramos las primeras filas
df_train.head()

In [None]:
# Mostramos las primeras filas
df_test.head()

In [None]:
# Voy a obtener un registro para ver y entender todos los valores de cada columna
record = df_train.iloc[0] # obtengo el primer registro
print(record)

In [None]:
#Info general del dataframe
df_train.info()

In [None]:
df_test.info()

In [None]:
#Ver forma del dataframe
df_train.shape, df_test.shape #filas, columnas

In [None]:
#Datos estad√≠sticos para datos num√©ricos
df_train.describe()

#2. Exploraci√≥n de los tipos de datos
Antes de comenzar con cualquier an√°lisis exploratorio, es fundamental examinar los tipos de datos de cada columna del dataset.
Esto nos permitir√°:

Verificar que los campos tengan el tipo de dato correcto
Detectar columnas que requieran conversi√≥n (por ejemplo, fechas)
Identificar variables num√©ricas, categ√≥ricas y temporales
Anticipar posibles problemas durante el an√°lisis estad√≠stico
Para ello, utilizamos las funciones df_train.dtypes y df_train.info(), que proporcionan una visi√≥n general de la estructura del DataFrame.

In [None]:
print("Tipo de dato para cada columna:")
print(df_train.dtypes)

Para este proyecto hemos decidido convertir los tipos de datos object en category, ya que tenemos valores repetidos y nos servir√° para entrenar el modelo de forma m√°s √≥ptima

In [None]:
# Obtenemos una lista de las columnas que queremos cambiar su tipo
cat_cols = [
    'brand','model','fuel_type','transmission',
    'ext_col','int_col','accident','clean_title'
]
# Cambiamos el tipo a category
df_train[cat_cols] = df_train[cat_cols].astype('category')

df_test[cat_cols] = df_test[cat_cols].astype('category')

df_train.info(), df_test.info()


An√°lisis de valores faltantes o nulos


In [None]:
# df_train.count() Podemos ver los valores no nulos de cada columna
df_train.count(), df_test.count()

In [None]:
missing = df_train.isna().sum().sort_values(ascending=False) # Sumamos los valores nulos y los ordenamos de mayor a menor
missing_pct = (missing / len(df_train)) * 100 # Sacamos el porcentaje del total

pd.DataFrame({"missing": missing, "percent": missing_pct})


In [None]:
missing = df_test.isna().sum().sort_values(ascending=False) # Sumamos los valores nulos y los ordenamos de mayor a menor
missing_pct = (missing / len(df_test)) * 100 # Sacamos el porcentaje del total

pd.DataFrame({"missing": missing, "percent": missing_pct})


In [None]:
import matplotlib.pyplot as plt

# Mostramos
missing_pct[missing_pct > 0].plot(kind='bar')
plt.title("Missing Values Percentage")
plt.show()


Al solo tener solo 3 campos con datos faltantes y solo clean_title llega al 11 % hemos decidido imputar los datos, rellenando los valores faltantes por:

-clean_tittle 11% : "Unknown" -> (Yes,No,Unkown)

-fuel_type 2.7% : se rellenara con el valor m√°s popular

-accident 1.3%: "Unknown"

Esto nos permite no dropear filas y perder datos valiosos para nuestro estudio

## Cambio de tipo en df_train

In [None]:
# For clean_title
df_train['clean_title'] = df_train['clean_title'].cat.add_categories('Unknown')
df_train['clean_title'] = df_train['clean_title'].fillna('Unknown')

#Como obtener el valor m√°s populas
# If your data has:
# Gasoline: 100,000 cars
# Diesel: 50,000 cars
# Electric: 30,000 cars
# Hybrid: 8,000 cars

df_train['fuel_type'].mode()     # Returns: 0    Gasoline (Series)
df_train['fuel_type'].mode()[0]  # Returns: Gasoline (string)

# For fuel_type
most_common_fuel = df_train['fuel_type'].mode()[0] # Guardamos el valor mas popular
df_train['fuel_type'] = df_train['fuel_type'].fillna(most_common_fuel) # Rellenamos los valores faltantes

# For accident
df_train['accident'] = df_train['accident'].cat.add_categories('Unknown')
df_train['accident'] = df_train['accident'].fillna('Unknown')

## Cambio de tipo en df_test

In [None]:
# For clean_title
df_test['clean_title'] = df_test['clean_title'].cat.add_categories('Unknown')
df_test['clean_title'] = df_test['clean_title'].fillna('Unknown')

#Como obtener el valor m√°s populas
# If your data has:
# Gasoline: 100,000 cars
# Diesel: 50,000 cars
# Electric: 30,000 cars
# Hybrid: 8,000 cars

df_test['fuel_type'].mode()     # Returns: 0    Gasoline (Series)
df_test['fuel_type'].mode()[0]  # Returns: Gasoline (string)

# For fuel_type
most_common_fuel = df_test['fuel_type'].mode()[0] # Guardamos el valor mas popular
df_test['fuel_type'] = df_test['fuel_type'].fillna(most_common_fuel) # Rellenamos los valores faltantes

# For accident
df_test['accident'] = df_test['accident'].cat.add_categories('Unknown')
df_test['accident'] = df_test['accident'].fillna('Unknown')

In [None]:
# Check for exact duplicates no existen duplicados
duplicates_train = df_train.duplicated()
duplicates_test = df_test.duplicated()
print(f"Exact duplicates_train: {duplicates_train.sum()} , Exact duplicates_train: {duplicates_test.sum()} ")

##A√±adiendo la columna "car_age"
En este paso hemos decidido a√±adir una columna nueva, donde obtendremos el tiempo que lleva un coche en el mercado

In [None]:
from datetime import datetime # Importaci√≥n de las librerias para obtener la fecha

current_year = datetime.now().year # Guardamos la fecha en una variable
df_train['car_age'] = current_year - df_train['model_year'] # Creamos una columna donde restamos a la fecha actual el a√±o del modelo del coche
df_test['car_age'] = current_year - df_test['model_year'] # Creamos una columna donde restamos a la fecha actual el a√±o del modelo del coche
# Verify it worked
print(df_train[['model_year', 'car_age']].head())
print(f"\nCar age range: {df_train['car_age'].min()} to {df_train['car_age'].max()} years")

#Tratamiento de la Columna Engine
Se realiz√≥ un proceso de limpieza y transformaci√≥n de la columna engine, la cual conten√≠a informaci√≥n combinada en formato de texto. Mediante el uso de expresiones regulares, se extrajeron tres variables num√©ricas relevantes para el modelado: potencia del motor (horsepower), tama√±o del motor en litros, y n√∫mero de cilindros.

üîç Inspecci√≥n de la Columna Engine

Se visualizaron las primeras filas de la columna engine para identificar el formato del texto y determinar qu√© variables pod√≠an extraerse posteriormente.



In [None]:
df_train['engine'].head()

Se calcul√≥ el n√∫mero de valores √∫nicos en la columna engine para evaluar la diversidad de formatos y la complejidad del proceso de extracci√≥n


In [None]:
print(f"Number of unique values in 'engine' column: {df_train['engine'].nunique()}")

Se analizaron los valores m√°s frecuentes de la columna engine junto con sus conteos para identificar patrones comunes y variaciones en el formato del texto.



In [None]:
print("Most frequent unique values in 'engine' column:")
print(df_train['engine'].value_counts().head(10))

Se defini√≥ una expresi√≥n regular para identificar valores num√©ricos seguidos de ‚ÄúHP‚Äù y se aplic√≥ sobre la columna engine para extraer la potencia del motor en una nueva variable num√©rica.


In [None]:
import re

# Expresi√≥n regular para buscar n√∫meros seguidos de 'HP'
# Captura valores como: 172HP o 172.5HP
pattern_hp = r'(\d+\.?\d*)HP'

# Extraemos el valor de horsepower desde la columna 'engine'
# str.extract devuelve solo el n√∫mero encontrado gracias al par√©ntesis ()
# [0] selects the first (and only) capturing group.
df_train['horsepower'] = df_train['engine'].str.extract(pattern_hp)[0]
df_test['horsepower'] = df_test['engine'].str.extract(pattern_hp)[0]

# Convertimos la columna a tipo num√©rico
# Si alg√∫n valor no se puede convertir, se convierte en NaN
df_train['horsepower'] = pd.to_numeric(df_train['horsepower'], errors='coerce')
df_test['horsepower'] = pd.to_numeric(df_test['horsepower'], errors='coerce')

# Mostramos las primeras filas para verificar que se extrajo correctamente
print("DataFrame head with extracted horsepower:")
print(df_train[['engine', 'horsepower']].head())

Se verific√≥ la cantidad de valores faltantes en la nueva columna horsepower y se calcularon estad√≠sticas descriptivas para analizar su distribuci√≥n y valores centrales, lo que permite evaluar la calidad de la extracci√≥n y decidir c√≥mo tratar los datos faltantes.



In [None]:
print("Missing values in 'horsepower' column:")
print(df_train['horsepower'].isnull().sum())

print("\nDescriptive statistics for 'horsepower' column:")
print(df_train['horsepower'].describe())

El siguiente paso es extraer el tama√±o del motor en litros de la columna 'engine' utilizando expresiones regulares. Esto implicar√° crear una nueva columna num√©rica para este dato, manejar los posibles valores faltantes convirtiendo los errores a 'NaN' y, finalmente, verificar la extracci√≥n mostrando las primeras filas del DataFrame. Todo esto se hace para cumplir con el requisito principal de la tarea de extraer informaci√≥n estructurada como el tama√±o del motor



In [None]:
import re

# Patr√≥n para capturar n√∫meros seguidos de 'L' (litros)
pattern_engine_size = r'(\d+\.?\d*)L'

# Extraer tama√±o del motor y crear nueva columna
df_train['engine_size_L'] = df_train['engine'].str.extract(pattern_engine_size)[0]
df_test['engine_size_L'] = df_test['engine'].str.extract(pattern_engine_size)[0]

# Convertir a n√∫mero, valores inv√°lidos se vuelven NaN
df_train['engine_size_L'] = pd.to_numeric(df_train['engine_size_L'], errors='coerce')
df_test['engine_size_L'] = df_test['engine'].str.extract(pattern_engine_size)[0]

# Verificar extracci√≥n mostrando las primeras filas
print("DataFrame head with extracted engine size (Liters):")
print(df_train[['engine', 'engine_size_L']].head())

Ahora que hemos extra√≠do 'engine_size_L', necesitamos revisar si hay valores faltantes para saber cu√°ntos registros no tienen informaci√≥n del tama√±o del motor y mostrar estad√≠sticas descriptivas (como promedio, m√≠nimo, m√°ximo y desviaci√≥n) para entender la distribuci√≥n y completitud de los datos, de manera similar a c√≥mo se analiz√≥ la columna 'horsepower'


In [None]:
print("Missing values in 'engine_size_L' column:")
print(df_train['engine_size_L'].isnull().sum())

print("\nDescriptive statistics for 'engine_size_L' column:")
print(df_train['engine_size_L'].describe())

A continuaci√≥n, necesitamos extraer el n√∫mero de cilindros desde la columna 'engine' usando expresiones regulares, crear una nueva columna num√©rica para almacenar ese dato, manejar posibles valores faltantes convirti√©ndolos en NaN si hay errores, y finalmente verificar la extracci√≥n mostrando las primeras filas del DataFrame, tal como se requiere para obtener informaci√≥n estructurada como el n√∫mero de cilindros.


In [None]:
import re

# Patr√≥n para capturar n√∫meros seguidos de la palabra 'Cylinder'
# Busca uno o m√°s d√≠gitos antes de 'Cylinder'; los par√©ntesis capturan solo el n√∫mero.
pattern_cylinders = r'(\d+)\s*Cylinder'

# Extraer el n√∫mero de cilindros de la columna 'engine' y crear nueva columna
df_train['cylinders'] = df_train['engine'].str.extract(pattern_cylinders)[0]
df_test['cylinders'] = df_test['engine'].str.extract(pattern_cylinders)[0]

# Convertir la columna 'cylinders' a tipo num√©rico; valores inv√°lidos se vuelven NaN
df_train['cylinders'] = pd.to_numeric(df_train['cylinders'], errors='coerce')
df_test['cylinders'] = df_test['engine'].str.extract(pattern_cylinders)[0]

# Verificar la extracci√≥n mostrando las primeras filas
print("DataFrame head with extracted number of cylinders:")
print(df_train[['engine', 'cylinders']].head())

Ahora que hemos extra√≠do 'cylinders', necesitamos revisar si hay valores faltantes para identificar registros sin informaci√≥n del n√∫mero de cilindros y mostrar estad√≠sticas descriptivas (como promedio, m√≠nimo, m√°ximo y desviaci√≥n) para entender la distribuci√≥n y completitud de los datos, de manera similar a c√≥mo se analizaron las columnas 'horsepower' y 'engine_size_L'



In [None]:
print("Missing values in 'cylinders' column:")
print(df_train['cylinders'].isnull().sum())

print("\nDescriptive statistics for 'cylinders' column:")
print(df_train['cylinders'].describe())

Necesito visualizar la distribuci√≥n de las nuevas columnas num√©ricas extra√≠das: 'horsepower', 'engine_size_L' y 'cylinders', para comprender sus caracter√≠sticas, tal como solicita la tarea principal. Para esto, los histogramas son la herramienta m√°s adecuada.



In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Set up the figure and axes for subplots
fig, axes = plt.subplots(1, 3, figsize=(20, 6))
fig.suptitle('Distribution of Extracted Engine Features', fontsize=16)

# Plot distribution of horsepower
sns.histplot(df_train['horsepower'].dropna(), kde=True, ax=axes[0])
axes[0].set_title('Horsepower Distribution')
axes[0].set_xlabel('Horsepower (HP)')
axes[0].set_ylabel('Frequency')

# Plot distribution of engine_size_L
sns.histplot(df_train['engine_size_L'].dropna(), kde=True, ax=axes[1])
axes[1].set_title('Engine Size (Liters) Distribution')
axes[1].set_xlabel('Engine Size (Liters)')
axes[1].set_ylabel('Frequency')

# Plot distribution of cylinders
sns.histplot(df_train['cylinders'].dropna(), kde=True, ax=axes[2], bins=len(df_train['cylinders'].unique())-1)
axes[2].set_title('Cylinders Distribution')
axes[2].set_xlabel('Number of Cylinders')
axes[2].set_ylabel('Frequency')
axes[2].set_xticks(sorted(df_train['cylinders'].dropna().unique()))

plt.tight_layout(rect=[0, 0.03, 1, 0.95]) # Adjust layout to prevent title overlap
plt.show()

Resumen de la Extracci√≥n y Limpieza de las Caracter√≠sticas del Motor

En esta secci√≥n nos centramos en extraer y limpiar caracter√≠sticas num√©ricas de la columna engine del DataFrame df_train. El proceso incluy√≥ los siguientes pasos clave:

Exploraci√≥n de la columna 'engine': Se analiz√≥ inicialmente la columna 'engine', que es de tipo texto y contiene informaci√≥n de potencia (horsepower), tama√±o del motor y n√∫mero de cilindros. Se observ√≥ una gran cantidad de valores √∫nicos, lo que requer√≠a una estrategia de extracci√≥n robusta.

Extracci√≥n de Horsepower: Se usaron expresiones regulares para identificar y extraer los valores num√©ricos que aparecen justo antes de 'HP'. Luego se convirtieron a tipo num√©rico, convirtiendo los errores en NaN. Se revisaron los valores faltantes y estad√≠sticas descriptivas para entender la completitud y distribuci√≥n de los datos.

Extracci√≥n del Tama√±o del Motor (Litros): De manera similar a la potencia, se emplearon expresiones regulares para extraer los n√∫meros seguidos de 'L'. Se convirtieron a tipo num√©rico, y se analizaron los valores faltantes y estad√≠sticas descriptivas.

Extracci√≥n del N√∫mero de Cilindros: Se utilizaron expresiones regulares para extraer los valores num√©ricos antes de 'Cylinder'. Estos valores se convirtieron a tipo num√©rico y se revis√≥ su completitud y distribuci√≥n mediante conteo de valores faltantes y estad√≠sticas descriptivas.

Visualizaci√≥n de Distribuciones: Finalmente, se generaron histogramas para cada columna num√©rica nueva ('horsepower', 'engine_size_L' y 'cylinders') para inspeccionar visualmente sus distribuciones, identificar posibles valores at√≠picos y comprender sus caracter√≠sticas generales.

## Manejar Valores Faltantes en Nuevas Columnas



Necesito calcular la mediana de cada una de las nuevas columnas num√©ricas ('horsepower', 'engine_size_L' y 'cylinders') y luego usar estas medianas para llenar los valores faltantes en sus respectivas columnas, siguiendo las instrucciones iniciales. Finalmente, se verificar√° la imputaci√≥n revisando si todav√≠a existen valores nulos.



In [None]:
print("Filling missing values with median for 'horsepower', 'engine_size_L', and 'cylinders'...")

# Calculate the median for each column
median_horsepower = df_train['horsepower'].median()
median_engine_size_L = df_train['engine_size_L'].median()
median_cylinders = df_train['cylinders'].median()

# Fill NaN values with the calculated medians
df_train['horsepower'] = df_train['horsepower'].fillna(median_horsepower)
df_train['engine_size_L'] = df_train['engine_size_L'].fillna(median_engine_size_L)
df_train['cylinders'] = df_train['cylinders'].fillna(median_cylinders)

# Ensure df_test columns are numeric before calculating medians
df_test['horsepower'] = pd.to_numeric(df_test['horsepower'], errors='coerce')
df_test['engine_size_L'] = pd.to_numeric(df_test['engine_size_L'], errors='coerce')
df_test['cylinders'] = pd.to_numeric(df_test['cylinders'], errors='coerce')

# Calculate the median for each column
median_horsepower = df_test['horsepower'].median()
median_engine_size_L = df_test['engine_size_L'].median()
median_cylinders = df_test['cylinders'].median()

# Fill NaN values with the calculated medians
df_test['horsepower'] = df_test['horsepower'].fillna(median_horsepower)
df_test['engine_size_L'] = df_test['engine_size_L'].fillna(median_engine_size_L)
df_test['cylinders'] = df_test['cylinders'].fillna(median_cylinders)

print(f"Missing values in 'df_train.horsepower' after imputation: {df_train['horsepower'].isnull().sum()}")
print(f"Missing values in 'df_train.engine_size_L' after imputation: {df_train['engine_size_L'].isnull().sum()}")
print(f"Missing values in 'df_train.cylinders' after imputation: {df_train['cylinders'].isnull().sum()}")

print(f"Missing values in 'df_test.horsepower' after imputation: {df_test['horsepower'].isnull().sum()}")
print(f"Missing values in 'df_test.engine_size_L' after imputation: {df_test['engine_size_L'].isnull().sum()}")
print(f"Missing values in 'df_test.cylinders' after imputation: {df_test['cylinders'].isnull().sum()}")


## Visualizar Nuevas Caracter√≠sticas




Necesito crear una visualizaci√≥n completa de la distribuci√≥n de las columnas 'horsepower', 'engine_size_L' y 'cylinders', incluyendo histogramas y diagramas de caja (boxplots), para evaluar sus distribuciones e identificar posibles valores at√≠picos, siguiendo las instrucciones de la subtarea.



In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# List of columns to visualize
features = ['horsepower', 'engine_size_L', 'cylinders']

# Set up the figure and axes for 2 rows (histograms and boxplots) and 3 columns (for each feature)
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(20, 10))
fig.suptitle('Distribution and Outlier Detection of Extracted Engine Features', fontsize=18, y=1.02)

for i, feature in enumerate(features):
    # Histogram with KDE in the first row
    sns.histplot(df_train[feature], kde=True, ax=axes[0, i], color='skyblue')
    axes[0, i].set_title(f'Histogram of {feature}')
    axes[0, i].set_xlabel(feature)
    axes[0, i].set_ylabel('Frequency')
    axes[0, i].legend([f'{feature} Distribution'], loc='upper right')

    # Boxplot in the second row
    sns.boxplot(y=df_train[feature], ax=axes[1, i], color='lightcoral')
    axes[1, i].set_title(f'Boxplot of {feature}')
    axes[1, i].set_ylabel(feature)
    axes[1, i].legend([f'{feature} Outliers'], loc='upper right')

# Adjust layout to prevent titles and labels from overlapping
plt.tight_layout(rect=[0, 0.03, 1, 0.98]) # Adjust rect to make space for suptitle
plt.show()

## Resumen de la Extracci√≥n y Limpieza de Caracter√≠sticas del Motor

Esta secci√≥n se centr√≥ en la extracci√≥n y limpieza de caracter√≠sticas num√©ricas de la columna `engine` en el DataFrame `df_train`. El proceso involucr√≥ los siguientes pasos clave:

1.  **Exploraci√≥n de la columna 'engine'**: Un an√°lisis inicial de la columna 'engine' revel√≥ su naturaleza basada en cadenas de texto, que conten√≠a informaci√≥n sobre la potencia (HP), el tama√±o del motor (Litros) y el n√∫mero de cilindros. Se observ√≥ un gran n√∫mero de valores √∫nicos, lo que exigi√≥ una estrategia de extracci√≥n robusta.

2.  **Extracci√≥n de Caballos de Fuerza (HP)**: Se utilizaron expresiones regulares para identificar y extraer los valores num√©ricos que preced√≠an inmediatamente a 'HP'. Los valores extra√≠dos se convirtieron luego a un tipo de dato num√©rico, donde los errores se coercionaron a `NaN`. Se revisaron los valores faltantes y las estad√≠sticas descriptivas para comprender la completitud y distribuci√≥n de los datos.

3.  **Extracci√≥n del Tama√±o del Motor (Litros)**: De manera similar a la potencia, se emplearon expresiones regulares para extraer los valores num√©ricos seguidos de 'L' (para Litros). Estos se convirtieron a un tipo num√©rico, y se examinaron los valores faltantes junto con las estad√≠sticas descriptivas.

4.  **Extracci√≥n del N√∫mero de Cilindros**: Nuevamente se utilizaron expresiones regulares para extraer los valores num√©ricos que preced√≠an a 'Cylinder'. Los valores extra√≠dos se convirtieron a un tipo de dato num√©rico, y su completitud y distribuci√≥n se analizaron mediante el recuento de valores faltantes y las estad√≠sticas descriptivas.

5.  **Manejo de Valores Faltantes en Nuevas Columnas**: Se calcul√≥ la mediana para cada una de las nuevas columnas num√©ricas ('horsepower', 'engine_size_L', 'cylinders') y se utiliz√≥ para rellenar los valores faltantes en sus respectivas columnas. Esto asegur√≥ que no hubiera valores nulos en estas caracter√≠sticas, lo que es crucial para el an√°lisis y modelado subsiguientes.

6.  **Visualizaci√≥n de Distribuciones**: Finalmente, se generaron histogramas con estimaci√≥n de densidad de kernel (KDE) y boxplots para cada una de las columnas num√©ricas reci√©n creadas ('horsepower', 'engine_size_L' y 'cylinders'). Esto permiti√≥ inspeccionar visualmente sus distribuciones, identificar posibles valores at√≠picos y comprender sus caracter√≠sticas generales despu√©s de la imputaci√≥n.

#Visualizaci√≥n de val√≥res √∫nicos de nuestras variables categ√≥ricas

In [None]:
import gc

#Varables categ√≥ricas df_train
categorical_columns = df_train.select_dtypes(include=['category']).columns
unique_values = {col: df_train[col].nunique() for col in categorical_columns}
for col, unique_count in unique_values.items():
    print(f"{col}: {unique_count} unique values")

gc.collect()

In [None]:


#Varables categ√≥ricas df_test
categorical_columns = df_test.select_dtypes(include=['category']).columns
unique_values = {col: df_test[col].nunique() for col in categorical_columns}
for col, unique_count in unique_values.items():
    print(f"{col}: {unique_count} unique values")

gc.collect()

Visto que tanto en ext_col, in_col y model presentan muchos valores √∫nicos hemos decidido eliminarlo de nuestro dataset, adem√°s se har√° la transformaci√≥n de la columna transmission para tener dos categor√≠as Autom√°tico (A/T) o Manuel (M/T)

# Transformaci√≥n de la columna transmission para tener solo 2 categor√≠as

In [None]:
#Funcion para reemplazar el valor
def map_transmission_safe(x):
    x = str(x).lower()

    manual_keywords = ['manual', 'm/t']
    auto_keywords = [
        'automatic', 'a/t', 'cvt', 'dual', 'dct', 'auto',
        'single-speed', 'fixed gear', 'overdrive'
    ]

    if any(k in x for k in manual_keywords):
        return 'MT'
    elif any(k in x for k in auto_keywords):
        return 'AT'
    elif 'speed' in x:
        return 'AT'
    else:
        return 'Other'


#Creacion de nueva columna
df_train['transmission_simple'] = df_train['transmission'].apply(map_transmission_safe)
df_train['transmission_simple'].value_counts()


df_test['transmission_simple'] = df_train['transmission'].apply(map_transmission_safe)
df_test['transmission_simple'].value_counts()


## Eliminar Columna 'engine' Original, id y columnas no interesadas para entrenar el modelo

### Subtask:
Remover la columna 'engine' original del DataFrame, ya que su informaci√≥n ha sido extra√≠da y estructurada en nuevas columnas ('horsepower', 'engine_size_L', 'cylinders'), para evitar redundancia y optimizar el DataFrame.

Adem√°s se eliminar√°n columnas no importantes para nuestro estudio y futuro entrenamiento del modelo, tales como el id y el color


In [None]:
df_train.info()

In [None]:
print("Removing the original 'engine' column...")
columnas_a_eliminar = ['id', 'engine', 'model', 'transmission','ext_col','int_col']
df_train = df_train.drop(columns=columnas_a_eliminar)
df_test = df_test.drop(columns=columnas_a_eliminar)



In [None]:
# Verify the column has been removed
print("DataFrame columns after dropping 'engine':")
df_train.info(), df_test.info()

## Exportar DataFrame Limpio a CSV

Exportamos el DataFrame `df_train` a un nuevo archivo CSV llamado `cleaned_train.csv`. Esto asegurar√° que todas las transformaciones y limpiezas realizadas en este notebook se guarden para ser utilizadas en el An√°lisis Exploratorio de Datos (EDA) o en la fase de modelado, sin necesidad de repetir los pasos.

In [None]:
# Exportar el DataFrame a un archivo CSV
df_train.to_csv('../data/raw/cleaned_train.csv', index=False)
df_test.to_csv('../data/raw/cleaned_test.csv', index=False)

print("DataFrame exportado exitosamente a '../data/raw/cleaned_train.csv' y '../data/raw/cleaned_test.csv'")

## Resumen del Proceso de Preparaci√≥n de Datos de Coches Usados

Para preparar los datos y asegurar que el modelo de predicci√≥n de precios funcione de manera √≥ptima, se ha realizado una serie de pasos clave de limpieza y transformaci√≥n. Aqu√≠ un resumen:

1.  **Carga y Primera Revisi√≥n de los Datos**:
    *   Se han cargado los datos de coches usados y se han revisado para entender su estructura, el tipo de informaci√≥n que contiene cada columna (n√∫meros, texto, etc.) y si exist√≠an datos incompletos.

2.  **Organizaci√≥n de la Informaci√≥n Categ√≥rica**:
    *   Se han convertido columnas como la marca, el modelo o el tipo de combustible a un formato 'categ√≥rico'. Esto ayuda al sistema a procesarlas de forma m√°s eficiente, especialmente cuando hay muchas opciones diferentes.

3.  **Manejo de Datos Faltantes**:
    *   Se ha identificado la informaci√≥n que faltaba. Por ejemplo, si el historial de accidentes o el estado del t√≠tulo del coche no estaban reportados, se han marcado como 'Desconocido'. Si faltaba el tipo de combustible, se ha asumido el m√°s com√∫n ('Gasolina') para no perder datos importantes.

4.  **Verificaci√≥n de Duplicados**:
    *   Se ha asegurado que no hubiera registros exactamente id√©nticos en el conjunto de datos, lo que podr√≠a sesgar los an√°lisis.

5.  **Creaci√≥n de la 'Edad del Coche'**:
    *   Se ha a√±adido una nueva columna que calcula directamente cu√°ntos a√±os tiene cada coche, ya que la antig√ºedad es un factor crucial para el precio.

6.  **Extracci√≥n de Detalles del Motor**:
    *   La columna que describ√≠a el motor era un texto largo. De ah√≠, se han extra√≠do tres datos num√©ricos muy importantes: la *potencia* (caballos de fuerza), el *tama√±o del motor* (en litros) y el *n√∫mero de cilindros*. Cualquier valor que no se pudo extraer se ha rellenado con el valor promedio para mantener el conjunto de datos completo.

7.  **Simplificaci√≥n del Tipo de Transmisi√≥n**:
    *   La columna de transmisi√≥n ten√≠a muchas variantes. Se ha simplificado a solo dos categor√≠as principales: 'Autom√°tica' (AT) o 'Manual' (MT), para facilitar que el modelo la entienda.

8.  **Eliminaci√≥n de Columnas No Esenciales**:
    *   Se han eliminado algunas columnas que ya no eran necesarias o que eran demasiado complejas para el modelo, como el identificador del coche, la descripci√≥n original del motor (porque ya se extrajo la informaci√≥n), el modelo exacto (por su gran variedad) y los colores exteriores e interiores.

9.  **Guardado de los Datos Preparados**:
    *   Finalmente, se han guardado estos conjuntos de datos 'limpios' en nuevos archivos CSV. As√≠, est√°n listos para la siguiente etapa, donde se analizar√°n en profundidad y se usar√°n para entrenar el modelo predictivo.

En resumen, se han transformado los datos brutos en un formato estructurado, completo y relevante, listo para que un modelo de aprendizaje autom√°tico pueda aprender a predecir los precios de los coches usados de manera efectiva. La decisi√≥n de mantener los precios 'extremos' (outliers) es para que el modelo pueda aprender a valorar correctamente coches de lujo o especiales, no solo los del rango medio.