## Introducción

En este notebook, se lleva a cabo la limpieza y preparación del conjunto de datos 'cars.csv', que contiene anuncios de venta de automóviles y fue obtenido de Kaggle (enlace: https://www.kaggle.com/datasets/lepchenkov/usedcarscatalog/data). El objetivo principal es transformar los datos en un formato adecuado para análisis posteriores.

## Librería

In [1]:
import pandas as pd

## Carga de datos

Se cargarán los datos de 'cars.csv' y se inspeccionarán inicialmente para entender su estructura y contenido.

In [3]:
df = pd.read_csv('../Data/cars.csv')
df.head(10)

Unnamed: 0,manufacturer_name,model_name,transmission,color,odometer_value,year_produced,engine_fuel,engine_has_gas,engine_type,engine_capacity,...,feature_1,feature_2,feature_3,feature_4,feature_5,feature_6,feature_7,feature_8,feature_9,duration_listed
0,Subaru,Outback,automatic,silver,190000,2010,gasoline,False,gasoline,2.5,...,True,True,True,False,True,False,True,True,True,16
1,Subaru,Outback,automatic,blue,290000,2002,gasoline,False,gasoline,3.0,...,True,False,False,True,True,False,False,False,True,83
2,Subaru,Forester,automatic,red,402000,2001,gasoline,False,gasoline,2.5,...,True,False,False,False,False,False,False,True,True,151
3,Subaru,Impreza,mechanical,blue,10000,1999,gasoline,False,gasoline,3.0,...,False,False,False,False,False,False,False,False,False,86
4,Subaru,Legacy,automatic,black,280000,2001,gasoline,False,gasoline,2.5,...,True,False,True,True,False,False,False,False,True,7
5,Subaru,Outback,automatic,silver,132449,2011,gasoline,False,gasoline,2.5,...,True,False,False,False,True,False,True,True,True,67
6,Subaru,Forester,automatic,black,318280,1998,gasoline,False,gasoline,2.5,...,True,False,False,True,True,False,False,True,True,307
7,Subaru,Legacy,automatic,silver,350000,2004,gasoline,False,gasoline,2.5,...,True,True,False,False,False,False,False,False,True,73
8,Subaru,Outback,automatic,grey,179000,2010,gasoline,False,gasoline,2.5,...,True,True,True,True,True,True,True,True,True,87
9,Subaru,Forester,automatic,silver,571317,1999,gasoline,False,gasoline,2.5,...,True,True,False,False,True,False,False,False,True,43


### Exploracion descriptiva inicial

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38531 entries, 0 to 38530
Data columns (total 30 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   manufacturer_name  38531 non-null  object 
 1   model_name         38531 non-null  object 
 2   transmission       38531 non-null  object 
 3   color              38531 non-null  object 
 4   odometer_value     38531 non-null  int64  
 5   year_produced      38531 non-null  int64  
 6   engine_fuel        38531 non-null  object 
 7   engine_has_gas     38531 non-null  bool   
 8   engine_type        38531 non-null  object 
 9   engine_capacity    38521 non-null  float64
 10  body_type          38531 non-null  object 
 11  has_warranty       38531 non-null  bool   
 12  state              38531 non-null  object 
 13  drivetrain         38531 non-null  object 
 14  price_usd          38531 non-null  float64
 15  is_exchangeable    38531 non-null  bool   
 16  location_region    385

In [6]:
df.shape

(38531, 30)

In [7]:
df.describe()

Unnamed: 0,odometer_value,year_produced,engine_capacity,price_usd,number_of_photos,up_counter,duration_listed
count,38531.0,38531.0,38521.0,38531.0,38531.0,38531.0,38531.0
mean,248864.638447,2002.943734,2.055161,6639.971021,9.649062,16.306091,80.577249
std,136072.37653,8.065731,0.671178,6428.152018,6.093217,43.286933,112.826569
min,0.0,1942.0,0.2,1.0,1.0,1.0,0.0
25%,158000.0,1998.0,1.6,2100.0,5.0,2.0,23.0
50%,250000.0,2003.0,2.0,4800.0,8.0,5.0,59.0
75%,325000.0,2009.0,2.3,8990.0,12.0,16.0,91.0
max,1000000.0,2019.0,8.0,50000.0,86.0,1861.0,2232.0


## Eliminación de columnas irrelevantes

Se procedió a eliminar columnas consideradas irrelevantes para el objetivo del estudio. La exclusión de estas variables se justifica en que no contribuyen con información significativa al análisis y podrían dificultar la interpretación de los resultados.

In [8]:
df = df.drop(columns=[ 'feature_0', 'feature_1', 'feature_2', 'feature_3', 'feature_4', 'feature_5', 'feature_6', 'feature_7', 'feature_8', 'feature_9'])
df.head()

Unnamed: 0,manufacturer_name,model_name,transmission,color,odometer_value,year_produced,engine_fuel,engine_has_gas,engine_type,engine_capacity,body_type,has_warranty,state,drivetrain,price_usd,is_exchangeable,location_region,number_of_photos,up_counter,duration_listed
0,Subaru,Outback,automatic,silver,190000,2010,gasoline,False,gasoline,2.5,universal,False,owned,all,10900.0,False,Минская обл.,9,13,16
1,Subaru,Outback,automatic,blue,290000,2002,gasoline,False,gasoline,3.0,universal,False,owned,all,5000.0,True,Минская обл.,12,54,83
2,Subaru,Forester,automatic,red,402000,2001,gasoline,False,gasoline,2.5,suv,False,owned,all,2800.0,True,Минская обл.,4,72,151
3,Subaru,Impreza,mechanical,blue,10000,1999,gasoline,False,gasoline,3.0,sedan,False,owned,all,9999.0,True,Минская обл.,9,42,86
4,Subaru,Legacy,automatic,black,280000,2001,gasoline,False,gasoline,2.5,universal,False,owned,all,2134.11,True,Гомельская обл.,14,7,7


También se realizará la conversión de la columna 'year_produced' al tipo datetime para facilitar su manejo en análisis temporales futuros.

In [9]:
df['year_produced'] = pd.to_datetime(df['year_produced'].astype(str), format='%Y')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38531 entries, 0 to 38530
Data columns (total 20 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   manufacturer_name  38531 non-null  object        
 1   model_name         38531 non-null  object        
 2   transmission       38531 non-null  object        
 3   color              38531 non-null  object        
 4   odometer_value     38531 non-null  int64         
 5   year_produced      38531 non-null  datetime64[ns]
 6   engine_fuel        38531 non-null  object        
 7   engine_has_gas     38531 non-null  bool          
 8   engine_type        38531 non-null  object        
 9   engine_capacity    38521 non-null  float64       
 10  body_type          38531 non-null  object        
 11  has_warranty       38531 non-null  bool          
 12  state              38531 non-null  object        
 13  drivetrain         38531 non-null  object        
 14  price_

## Valores nulos y duplicados

Ahora, revisaremos la presencia de valores nulos y duplicados en el DataFrame para asegurar la calidad de los datos antes de proceder con análisis más profundos, dependiendo de los valores nulos que salgan, les haremos el tratamiento adecuado.

### Valores nulos

In [10]:
df.isnull().sum()

manufacturer_name     0
model_name            0
transmission          0
color                 0
odometer_value        0
year_produced         0
engine_fuel           0
engine_has_gas        0
engine_type           0
engine_capacity      10
body_type             0
has_warranty          0
state                 0
drivetrain            0
price_usd             0
is_exchangeable       0
location_region       0
number_of_photos      0
up_counter            0
duration_listed       0
dtype: int64

In [11]:
df[df['engine_capacity'].isnull()]

Unnamed: 0,manufacturer_name,model_name,transmission,color,odometer_value,year_produced,engine_fuel,engine_has_gas,engine_type,engine_capacity,body_type,has_warranty,state,drivetrain,price_usd,is_exchangeable,location_region,number_of_photos,up_counter,duration_listed
8782,Fiat,500,automatic,orange,27000,2013-01-01,electric,False,electric,,hatchback,False,owned,front,14900.0,True,Минская обл.,11,13,77
9048,Fiat,500,automatic,orange,49000,2014-01-01,electric,False,electric,,hatchback,False,owned,front,16000.0,False,Минская обл.,18,1,11
24226,Chevrolet,Volt,automatic,silver,168000,2013-01-01,electric,False,electric,,liftback,False,owned,front,12950.0,True,Минская обл.,21,5,6
25943,Nissan,Leaf,automatic,white,57357,2015-01-01,electric,False,electric,,hatchback,False,owned,front,13850.0,False,Минская обл.,20,57,75
26203,Nissan,Leaf,automatic,blue,97400,2011-01-01,electric,False,electric,,hatchback,False,owned,front,9300.0,True,Минская обл.,7,21,64
26222,Nissan,Leaf,automatic,white,50000,2014-01-01,electric,False,electric,,hatchback,False,owned,front,12900.0,False,Минская обл.,12,7,18
26582,Nissan,Leaf,automatic,black,84000,2014-01-01,electric,False,electric,,hatchback,False,owned,front,14500.0,False,Минская обл.,12,19,138
26914,Nissan,Leaf,automatic,black,84500,2013-01-01,electric,False,electric,,hatchback,False,owned,front,15500.0,False,Брестская обл.,5,2,58
27554,BMW,i3,automatic,white,54150,2015-01-01,electric,False,electric,,hatchback,False,owned,rear,24750.0,True,Минская обл.,23,17,18
29590,BMW,i3,automatic,other,67000,2018-01-01,electric,False,electric,,liftback,False,owned,rear,39999.0,False,Минская обл.,6,2,57


Los valores nulos en "engine_capacity" corresponden a autos eléctricos, ya que no tienen cilindrada. En ese caso, se imputará con 0 para reflejar su naturaleza.

### Imputación de valores nulos

In [12]:
df['engine_capacity'] = df['engine_capacity'].fillna(0)

In [13]:
df.isnull().sum()

manufacturer_name    0
model_name           0
transmission         0
color                0
odometer_value       0
year_produced        0
engine_fuel          0
engine_has_gas       0
engine_type          0
engine_capacity      0
body_type            0
has_warranty         0
state                0
drivetrain           0
price_usd            0
is_exchangeable      0
location_region      0
number_of_photos     0
up_counter           0
duration_listed      0
dtype: int64

In [14]:
df[df['engine_capacity'] == 0]

Unnamed: 0,manufacturer_name,model_name,transmission,color,odometer_value,year_produced,engine_fuel,engine_has_gas,engine_type,engine_capacity,body_type,has_warranty,state,drivetrain,price_usd,is_exchangeable,location_region,number_of_photos,up_counter,duration_listed
8782,Fiat,500,automatic,orange,27000,2013-01-01,electric,False,electric,0.0,hatchback,False,owned,front,14900.0,True,Минская обл.,11,13,77
9048,Fiat,500,automatic,orange,49000,2014-01-01,electric,False,electric,0.0,hatchback,False,owned,front,16000.0,False,Минская обл.,18,1,11
24226,Chevrolet,Volt,automatic,silver,168000,2013-01-01,electric,False,electric,0.0,liftback,False,owned,front,12950.0,True,Минская обл.,21,5,6
25943,Nissan,Leaf,automatic,white,57357,2015-01-01,electric,False,electric,0.0,hatchback,False,owned,front,13850.0,False,Минская обл.,20,57,75
26203,Nissan,Leaf,automatic,blue,97400,2011-01-01,electric,False,electric,0.0,hatchback,False,owned,front,9300.0,True,Минская обл.,7,21,64
26222,Nissan,Leaf,automatic,white,50000,2014-01-01,electric,False,electric,0.0,hatchback,False,owned,front,12900.0,False,Минская обл.,12,7,18
26582,Nissan,Leaf,automatic,black,84000,2014-01-01,electric,False,electric,0.0,hatchback,False,owned,front,14500.0,False,Минская обл.,12,19,138
26914,Nissan,Leaf,automatic,black,84500,2013-01-01,electric,False,electric,0.0,hatchback,False,owned,front,15500.0,False,Брестская обл.,5,2,58
27554,BMW,i3,automatic,white,54150,2015-01-01,electric,False,electric,0.0,hatchback,False,owned,rear,24750.0,True,Минская обл.,23,17,18
29590,BMW,i3,automatic,other,67000,2018-01-01,electric,False,electric,0.0,liftback,False,owned,rear,39999.0,False,Минская обл.,6,2,57


### Valores duplicados

Ahora, veremos si hay valores duplicados en el DataFrame y los eliminaremos si es necesario.

In [15]:
df.columns.duplicated()

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False])

In [16]:
df.duplicated().sum()

41

In [17]:
duplicados = df[df.duplicated(keep = False)]
print(f'Número de filas duplicadas (total, incluyendo primeras): {len(duplicados)}')
duplicados.head(10)

Número de filas duplicadas (total, incluyendo primeras): 69


Unnamed: 0,manufacturer_name,model_name,transmission,color,odometer_value,year_produced,engine_fuel,engine_has_gas,engine_type,engine_capacity,body_type,has_warranty,state,drivetrain,price_usd,is_exchangeable,location_region,number_of_photos,up_counter,duration_listed
5766,Mitsubishi,Lancer,automatic,black,250000,2003-01-01,gasoline,False,gasoline,2.0,sedan,False,owned,front,2500.0,False,Минская обл.,8,1,50
5767,Mitsubishi,Lancer,automatic,black,250000,2003-01-01,gasoline,False,gasoline,2.0,sedan,False,owned,front,2500.0,False,Минская обл.,8,1,50
6555,Citroen,Xantia,mechanical,silver,520000,1998-01-01,diesel,False,diesel,2.1,universal,False,owned,front,1000.0,True,Витебская обл.,4,8,16
6556,Citroen,Xantia,mechanical,silver,520000,1998-01-01,diesel,False,diesel,2.1,universal,False,owned,front,1000.0,True,Витебская обл.,4,8,16
9995,Ford,Scorpio,mechanical,yellow,55555,1995-01-01,gasoline,False,gasoline,2.0,liftback,False,owned,rear,600.0,True,Брестская обл.,4,1,1
9996,Ford,Scorpio,mechanical,yellow,55555,1995-01-01,gasoline,False,gasoline,2.0,liftback,False,owned,rear,600.0,True,Брестская обл.,4,1,1
11379,Ford,Transit,mechanical,grey,700000,2005-01-01,diesel,False,diesel,2.4,minibus,False,owned,rear,3319.74,False,Брестская обл.,3,9,60
11380,Ford,Transit,mechanical,grey,700000,2005-01-01,diesel,False,diesel,2.4,minibus,False,owned,rear,3319.74,False,Брестская обл.,3,9,60
11703,Ford,Mondeo,mechanical,green,380000,1998-01-01,diesel,False,diesel,1.8,universal,False,owned,front,1350.0,False,Минская обл.,8,1,67
11704,Ford,Mondeo,mechanical,green,380000,1998-01-01,diesel,False,diesel,1.8,universal,False,owned,front,1350.0,False,Минская обл.,8,1,67


Podemos ver que hay varios valores duplicados, pero, al tratarse de anuncios de venta, es posible que haya varios anuncios del mismo coche, por lo que no los eliminaremos.

## Separación del dataset limpio

In [19]:
marcas = df['manufacturer_name'].unique()

# Dividir la lista de marcas en 3 partes lo más equilibradas posible
parte1 = marcas[:len(marcas)//3]
parte2 = marcas[len(marcas)//3:2*len(marcas)//3]
parte3 = marcas[2*len(marcas)//3:]

# Filtrar el DataFrame por cada grupo de marcas
df1 = df[df['manufacturer_name'].isin(parte1)]
df2 = df[df['manufacturer_name'].isin(parte2)]
df3 = df[df['manufacturer_name'].isin(parte3)]

# Guardar en CSV
df1.to_csv("../Data/carros_parte1.csv", index=False)
df2.to_csv("../Data/carros_parte2.csv", index=False)
df3.to_csv("../Data/carros_parte3.csv", index=False)

# Mostrar la cantidad de datos guardados en cada CSV
print(f"Tamaño de df1: {len(df1)}")
print(f"Tamaño de df2: {len(df2)}")
print(f"Tamaño de df3: {len(df3)}")

Tamaño de df1: 7881
Tamaño de df2: 16747
Tamaño de df3: 13903


El dataset se fragmenta en tres subconjuntos con el propósito de facilitar el análisis exploratorio. Esta separación permite aplicar enfoques diferenciados según el objetivo de cada sección, además de optimizar el manejo de un volumen de datos que, en su totalidad, podría dificultar la interpretación. También, podemos ver que la cantidad de datos en cada CSV no es similar, pero esto se hizo para que en los CSV no hubiera una misma marca de auto en dos archivos, sino que, cada una tuviera diferentes marcas para que en los análisis no se repitieran.