In [3]:
import pandas as pd


In [4]:
# Lectura del dataset
df_cars = pd.read_csv("../data/carlistings.csv")

# 2 Limpieza

En este apartado se llevarán a cabo diversas tareas de limpieza y preparación del dataset, como estandarizar nombres de columnas, eliminar campos innecesarios y convertir valores textuales en datos numéricos útiles. Además, se corregirán inconsistencias, se separará la marca del modelo y se añadirá una nueva clasificación del vehículo para facilitar análisis posteriores.

## 2.1 Modificación de columnas

En este apartado se normalizarán los nombres de las columnas para mantener un formato uniforme y más manejable en Python, aplicando minúsculas y guiones bajos. Además, se eliminará la columna "listingid" por no aportar información útil y presentar saltos en su secuencia

In [5]:
df_cars.columns = df_cars.columns.str.lower() # Nombra a minúscula (ya disponen del guión bajo)
df_cars.drop("listingid", axis = 1, inplace=True) # Elimina la columna "listingid" porque no me aporta nada para tratar estos datos
df_cars.sample() # Visualiza el cambio

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
199,Toyota Etios Liva GD SP,Hyderabad,2014,104000,Diesel,Manual,First,23.59 kmpl,1364 CC,67.06 bhp,5,4000


## 2.2 Normalizar formatos y corregir incoherencias

Aquí se retirarán las unidades y símbolos presentes en estas columnas para convertirlas en valores numéricos tipo int o float. Esto permitirá realizar cálculos fiables, obtener máximos y mínimos coherentes y facilitar cualquier análisis estadístico posterior.

### 2.2.1 Búsqueda de incoherencias

En este apartado se realizará una exploración inicial del dataset para detectar valores anómalos, formatos irregulares o datos que se salgan de los rangos esperados. Esta revisión preliminar permitirá identificar los principales problemas a corregir durante las fases posteriores de limpieza.

In [6]:
df_cars.duplicated().sum() 

    # Revisa que no haya duplicados que se deban tratar

np.int64(0)

In [7]:
df_cars["fuel_type"].unique() 

    # Revisa para esta variable cualitativa los distintos valores para observar que no haya nada raro

array(['Diesel', 'Petrol'], dtype=object)

In [8]:
df_cars["transmission"].unique() 

    # Revisa para esta variable cualitativa los distintos valores para observar que no haya nada raro

array(['Manual', 'Automatic'], dtype=object)

In [9]:
df_cars["owner_type"].unique() 
    
    # Revisa para esta variable cualitativa los distintos valores para observar que no haya nada raro

array(['First', 'Second', 'Fourth & Above', 'Third'], dtype=object)

In [10]:
df_cars["mileage"].unique() 

    # Revisa para esta variable cualitativa los distintos valores para observar que no haya nada raro
        # Se muestran dos tipos de unidades: kmpl y km/kg. 
            # kmpl: Suele referirse a kilómetros por litro, común en coches diesel o gasolina
            # km/kg: Suele referirse a kilómetros por kilo, común en coches de gas (GNC, GLP...)
        # Se muestran coches con 0 --> valor llamativo

array(['19.67 kmpl', '13 km/kg', '20.77 kmpl', '15.2 kmpl', '23.08 kmpl',
       '11.36 kmpl', '20.54 kmpl', '22.3 kmpl', '21.56 kmpl', '16.8 kmpl',
       '25.2 kmpl', '12.7 kmpl', '0.0 kmpl', '13.5 kmpl', '25.8 kmpl',
       '28.4 kmpl', '20.45 kmpl', '14.84 kmpl', '22.69 kmpl',
       '23.65 kmpl', '13.53 kmpl', '18.5 kmpl', '14.4 kmpl',
       '16.48 km/kg', '20.92 kmpl', '17.5 kmpl', '12.8 kmpl',
       '19.01 kmpl', '14.53 kmpl', '11.18 kmpl', '12.4 kmpl',
       '16.09 kmpl', '14.0 kmpl', '24.3 kmpl', '18.15 kmpl', '11.74 kmpl',
       '22.07 kmpl', '19.7 kmpl', '25.4 kmpl', '25.32 kmpl', '14.62 kmpl',
       '14.28 kmpl', '14.9 kmpl', '11.25 kmpl', '24.4 kmpl', '16.55 kmpl',
       '17.11 kmpl', '22.9 kmpl', '17.8 kmpl', '18.9 kmpl', '15.04 kmpl',
       '25.17 kmpl', '20.36 kmpl', '9.49 km/kg', '18.2 kmpl',
       '13.68 kmpl', '20.0 kmpl', '15.8 kmpl', '25.0 kmpl', '16.4 kmpl',
       '24.52 kmpl', '22.1 kmpl', '8.5 kmpl', '15.1 kmpl', '16.95 kmpl',
       '19.64 kmpl', '16.5

In [11]:
df_cars["engine"].unique() 

    # Revisa para esta variable cualitativa los distintos valores para observar que no haya nada raro
        # Unidades en "CC" que se refiere a la cilindrada --> Estas unidades no son importantes para el análisis, se deberán quitar

array(['1582 CC', '1199 CC', '1248 CC', '1968 CC', '1461 CC', '2755 CC',
       '1598 CC', '1462 CC', '1497 CC', '2179 CC', '2477 CC', '1498 CC',
       '2143 CC', '1995 CC', '1984 CC', '1197 CC', '998 CC', '2494 CC',
       '1798 CC', '2696 CC', '2698 CC', '1061 CC', '1198 CC', '2987 CC',
       '796 CC', '624 CC', '1999 CC', '1991 CC', '2694 CC', '1120 CC',
       '2498 CC', '799 CC', '2393 CC', '1399 CC', '1796 CC', '2148 CC',
       '1396 CC', '1950 CC', '4806 CC', '1998 CC', '1193 CC', '2982 CC',
       '1493 CC', '2967 CC', '2993 CC', '1196 CC', '1799 CC', '2497 CC',
       '2354 CC', '1373 CC', '2996 CC', '1591 CC', '2894 CC', '5461 CC',
       '814 CC', '1595 CC', '936 CC', '1086 CC', '1997 CC', nan,
       '1896 CC', '1390 CC', '1364 CC', '2199 CC', '993 CC', '999 CC',
       '1405 CC'], dtype=object)

In [12]:
df_cars["power"].unique() 

    # Revisa para esta variable cualitativa los distintos valores para observar que no haya nada raro
        # Unidades en bhp (brake Horsepower) que se refiere a los caballos del coche --> Estas unidades no son importantes para el análisis, se deberán quitar

array(['126.2 bhp', '88.7 bhp', '88.76 bhp', '140.8 bhp', '63.1 bhp',
       '171.5 bhp', '103.6 bhp', '74 bhp', '103.25 bhp', '116.3 bhp',
       '187.7 bhp', '115 bhp', '175.56 bhp', '98.6 bhp', '83.8 bhp',
       '167.62 bhp', '190 bhp', '88.5 bhp', '177.01 bhp', '80 bhp',
       '67.1 bhp', '102 bhp', '108.45 bhp', '138.1 bhp', '184 bhp',
       '179.5 bhp', '103.5 bhp', '64 bhp', '82 bhp', '254.8 bhp',
       '73.9 bhp', '46.3 bhp', '37.5 bhp', '77 bhp', '82.9 bhp',
       '149.92 bhp', '138.03 bhp', '112.2 bhp', '163.7 bhp', '71 bhp',
       '105 bhp', '174.33 bhp', '75 bhp', '103.2 bhp', '53.3 bhp',
       '78.9 bhp', '147.6 bhp', '147.8 bhp', '68 bhp', '186 bhp',
       '170 bhp', '69 bhp', '140 bhp', '78 bhp', '194 bhp', '500 bhp',
       '108.5 bhp', '86.8 bhp', '187.74 bhp', '132 bhp', '86.7 bhp',
       '73.94 bhp', '117.3 bhp', '218 bhp', '168.5 bhp', '89.84 bhp',
       '110 bhp', '90 bhp', '82.85 bhp', '67 bhp', '241.4 bhp', '35 bhp',
       '270.9 bhp', '126.32 bhp', '7

In [13]:
df_cars["seats"].unique() 

# Revisa el número de asientos ya que se ha identificado un valor de "0", y se desea saber si existen más valores menores de 2
    # Se tendrá que revisar los coches con "0" asientos, si no son muchos, se podrían buscar en internet y completarlos
        # También se podría revisar si existen mismos modelos con otro número de asientos

array([5, 7, 8, 4, 6, 2, 0])

### 2.2.2 Corregir incoherencia en "mileage"

En este apartado se revisarán los valores de "mileage" para detectar datos que no encajen con el rango esperado o presenten formatos incorrectos. Una vez identificadas las incoherencias, se corregirán o sustituirán para garantizar que el kilometraje represente valores reales y consistentes.

In [14]:
df_cars[df_cars["mileage"].str.contains("km/kg")] 

    # Visualiza las columnas con "km/kg" en "mileage"
        # Observamos que el combustible no es gas
        # Como son únicamente 3 coches, los vemos en internet y comprobamos que no suelen ser de gas
            # De este modo corroboramos que es una equivocación al añadir las unidades y que podemos considerarlo como "kmpl" 

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
1,Honda Jazz V,Islamabad,2011,46000,Petrol,Manual,First,13 km/kg,1199 CC,88.7 bhp,5,6000
24,Nissan Micra Diesel XV,Abbottabad,2012,54000,Diesel,Manual,First,16.48 km/kg,1461 CC,63.1 bhp,5,5666
56,Nissan X-Trail SLX AT,Abbottabad,2010,121812,Diesel,Automatic,First,9.49 km/kg,1995 CC,147.6 bhp,5,10333


In [15]:
df_cars["mileage"] = df_cars["mileage"].str.replace("km/kg", "kmpl") 

    # Modifica las unidades a "kmpl" para unificar unidades (aunque luego lo eliminemos)

### 2.2.3 Revisar y tratar valores nulos/incoherentes de "engine" y "power"

Aquí se analizarán ambas columnas para identificar valores faltantes o poco plausibles que puedan distorsionar el análisis. Se aplicarán estrategias como imputación, corrección manual o eliminación de registros en caso de ser necesario para asegurar la integridad del dataset.

In [16]:
df_cars.isna().sum() 

    # Revisa qué columnas tienen valores nulos
        # Vemos que "engine" y "power" tienen 2 valores nulos cada uno

name                 0
location             0
year                 0
kilometers_driven    0
fuel_type            0
transmission         0
owner_type           0
mileage              0
engine               2
power                2
seats                0
price                0
dtype: int64

In [17]:
df_cars[(df_cars["engine"].isnull()) | (df_cars["power"].isnull())] 

    # Visualiza las filas con valores nulos
        # No quiero eliminar estas filas si no es necesario
        # Reviso primero si hay modelos iguales --> Si no, añadiré la media

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
186,Honda City 1.5 GXI,Chitral,2007,60006,Petrol,Manual,First,0.0 kmpl,,,0,3933
200,Honda Civic,Faislabad,2010,42001,Petrol,Manual,First,16.1 kmpl,,,0,2813


In [18]:
df_cars[df_cars["name"].str.contains("Honda City")] 

    # Revisa si todos los Honda City tienen CC similar
        # Todos son muy similares, y los de "1.5" tienen 1497 CC. Que coincide con la moda, añadiré este valor

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
9,Honda City 1.5 V AT Sunroof,Faislabad,2012,60000,Petrol,Automatic,First,16.8 kmpl,1497 CC,116.3 bhp,5,5986
23,Honda City Corporate Edition,Quetta,2012,51920,Petrol,Manual,First,16.8 kmpl,1497 CC,116.3 bhp,5,5666
64,Honda City ZX CVT,Quetta,2007,63000,Petrol,Automatic,Second,16.4 kmpl,1497 CC,78 bhp,5,2466
81,Honda City i VTEC E,Hyderabad,2009,52000,Petrol,Manual,First,17.8 kmpl,1497 CC,117.3 bhp,5,4333
152,Honda City i DTEC V,Multan,2015,42831,Diesel,Manual,First,26.0 kmpl,1498 CC,98.6 bhp,5,9480
186,Honda City 1.5 GXI,Chitral,2007,60006,Petrol,Manual,First,0.0 kmpl,,,0,3933
228,Honda City i-VTEC V,Faislabad,2011,32572,Petrol,Manual,First,17.4 kmpl,1497 CC,117.3 bhp,5,5160
236,Honda City i VTEC V,Multan,2016,33915,Petrol,Manual,First,17.8 kmpl,1497 CC,117.3 bhp,5,10786
270,Honda City 1.5 S MT,Rawalpindi,2011,55000,Petrol,Manual,First,17.0 kmpl,1497 CC,118 bhp,5,5613
274,Honda City 1.5 V AT,Rawalpindi,2009,78442,Petrol,Automatic,First,16.8 kmpl,1497 CC,118 bhp,5,4760


In [19]:
df_cars[df_cars["name"].str.contains("Honda City")].agg({"mileage": "mode", "power": "mode", "engine": "mode", "seats": "mode"})
    
    # Muestra la moda de las columnas ordenadas
        # Estos datos los añadiré al Honda City con valores nulos/incoherentes

Unnamed: 0,mileage,power,engine,seats
0,16.8 kmpl,117.3 bhp,1497 CC,5


In [20]:
df_cars.loc[186, "mileage"] = "16.8 kmpl"
df_cars.loc[186, "power"] = "117.3 bhp"
df_cars.loc[186, "engine"] = "1497 CC"
df_cars.loc[186, "seats"] = 5

    # Cambia los valores del "Honda City", que corresponde con el número 186 del índice

In [21]:
df_cars[df_cars["name"].str.contains("Honda Civic")] 

    # Muestra todos los Honda Civic
        # Revisamos si hay datos que comparar para poder extraer una conclusión de qué valores añadir
        # Al no tener, sacaré la moda para no influir en exceso en el análisis posterior
            # Es una única fila y el resto de datos me conviene mantenerlos

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
19,Honda Civic,Peshawar,2015,55392,Diesel,Manual,Second,23.65 kmpl,1248 CC,88.5 bhp,5,11000
40,Honda Civic,Lahore,2017,22033,Diesel,Manual,First,25.32 kmpl,1198 CC,77 bhp,6,7440
47,Honda Civic,Rawalpindi,2012,75800,Diesel,Manual,Second,16.55 kmpl,2498 CC,105 bhp,6,7333
51,Honda Civic,Hyderabad,2013,65650,Diesel,Manual,First,28.4 kmpl,1248 CC,74 bhp,5,5133
62,Honda Civic,Islamabad,2016,178000,Diesel,Manual,First,25.0 kmpl,1396 CC,69 bhp,5,3333
89,Honda Civic,Hyderabad,2014,58000,Diesel,Manual,First,15.1 kmpl,2179 CC,140 bhp,7,10800
93,Honda Civic,Peshawar,2016,62000,Petrol,Manual,First,18.9 kmpl,998 CC,67.1 bhp,5,5933
103,Honda Civic,Hyderabad,2012,65000,Diesel,Manual,Second,16.0 kmpl,2179 CC,140 bhp,7,7666
109,Honda Civic 2006-2010 1.8 V MT,Hyderabad,2010,71088,Petrol,Manual,First,13.5 kmpl,1799 CC,130 bhp,5,4466
123,Honda Civic,Multan,2017,44285,Petrol,Manual,First,20.73 kmpl,1373 CC,91.1 bhp,5,9960


In [22]:
df_cars[df_cars["name"].str.contains("Honda Civic")].agg({"power": "mode", "engine": "mode", "seats": "mode"})

    # Muestra la moda de las columnas de interés
        # Estos datos los añadiré al Honda Civic con valores nulos/incoherentes

Unnamed: 0,power,engine,seats
0,74 bhp,1248 CC,5


In [23]:
df_cars.loc[200, "power"] = "74 bhp"
df_cars.loc[200, "engine"] = "1248 CC"
df_cars.loc[200, "seats"] = 5

    # Cambia los valores del "Honda Civic", que corresponde con el número 186 del índice

### 2.2.4 Quitar unidades y convertir en float/int los valores de "mileage", "engine" y "power"

En este punto se eliminarán las unidades (como cc, kmpl o bhp) que acompañan a los valores originales y se transformarán en datos numéricos. Esta conversión permitirá realizar cálculos, comparaciones y visualizaciones precisas en el análisis posterior.

In [24]:
df_cars["mileage"] = df_cars["mileage"].str.extract(r"(\d+\.?\d*)").astype(float)
df_cars["engine"] = df_cars["engine"].str.extract(r"(\d+)").astype(int)
df_cars["power"] = df_cars["power"].str.extract(r"(\d+\.?\d*)").astype(float)

    # Elimina las unidades de "mileage", "engine" y "power"

In [25]:
df_cars.sample() 

    # Visualiza para comprobar que se han eliminado las unidades

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
124,Subaru Forester,Rawalpindi,2016,54000,Diesel,Automatic,First,16.0,2179,140.0,7,17666


### 2.2.5 Revisar y solucionar incoherencias no detectadas

Finalmente, se realizará una revisión exhaustiva del dataset para identificar posibles errores que no hayan aparecido en los pasos anteriores. Se evaluarán patrones, outliers y combinaciones anómalas para asegurar que no queden inconsistencias ocultas que afecten al análisis final.

In [26]:
df_cars.info() 

    # Comprueba que se han cambiado los valores a float/int

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 296 entries, 0 to 295
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   name               296 non-null    object 
 1   location           296 non-null    object 
 2   year               296 non-null    int64  
 3   kilometers_driven  296 non-null    int64  
 4   fuel_type          296 non-null    object 
 5   transmission       296 non-null    object 
 6   owner_type         296 non-null    object 
 7   mileage            296 non-null    float64
 8   engine             296 non-null    int64  
 9   power              296 non-null    float64
 10  seats              296 non-null    int64  
 11  price              296 non-null    int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 27.9+ KB


In [27]:
df_cars.describe() 

    # Revisamos de nuevo que no haya outliers incoherentes
        # Se observa que el mínimo en "mileage" sigue siendo "0"
        # Se observa que el mínimo en "seats" sigue siendo "0" 
        # Revisaremos estos datos e intentaremos solucionarlo de la mejor manera posible

Unnamed: 0,year,kilometers_driven,mileage,engine,power,seats,price
count,296.0,296.0,296.0,296.0,296.0,296.0,296.0
mean,2013.540541,57791.131757,18.212399,1641.679054,115.548953,5.239865,13137.266892
std,2.97191,35160.124277,4.488974,605.490334,58.643606,0.835585,14238.860963
min,2002.0,1000.0,0.0,624.0,35.0,0.0,733.0
25%,2012.0,34153.0,15.1,1199.0,76.95,5.0,4666.0
50%,2014.0,53000.0,18.5,1497.0,100.3,5.0,7939.5
75%,2016.0,70000.5,21.11,1992.0,140.0,5.0,14859.75
max,2019.0,262000.0,28.4,5461.0,500.0,8.0,93813.0


In [28]:
df_cars[(df_cars["mileage"] == 0) | (df_cars["seats"] == 0)] 

    # Con estos datos se procede a:
        # Comparar con otros modelos
        # Si misma cilindrada, mismo consumo --> si no, sacar modas de "mileage" 
        # Mismo modelo de coche, mismos asientos

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
12,Land Rover Freelander 2 TD4 SE,Karachi,2012,85000,Diesel,Automatic,Second,0.0,2179,115.0,5,23333
65,Mercedes-Benz C-Class Progressive C 220d,Lahore,2019,15369,Diesel,Automatic,First,0.0,1950,194.0,5,47560
220,Ford Figo Diesel,Peshawar,2015,70436,Diesel,Manual,First,0.0,1498,99.0,0,4800


In [29]:
df_cars[df_cars["name"].str.contains("Land Rover")] 

    # Muestra los coches de la marca "Land Rover" 
        # Vemos que tiene misma cilindrada que el resto de "Land Rover" por lo que consideraremos mismo consumo aunque sea distinto modelo

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
11,Land Rover Range Rover 2.2L Pure,Hyderabad,2014,72000,Diesel,Automatic,First,12.7,2179,187.7,5,36000
12,Land Rover Freelander 2 TD4 SE,Karachi,2012,85000,Diesel,Automatic,Second,0.0,2179,115.0,5,23333
183,Land Rover Range Rover 2.2L Dynamic,Lahore,2018,36091,Diesel,Automatic,First,12.7,2179,187.7,5,74346


In [30]:
df_cars.loc[12, "mileage"] = 12.7

    # Cambia el valor de 0 a 12.7

In [31]:
df_cars[df_cars["name"].str.contains("Mercedes-Benz")] 

    # Muestra los coches de la marca "Mercedes-Benz" 
        # Hay valores muy dispares, usaremos la moda 

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
17,Mercedes-Benz New C-Class C 220 CDI BE Avantgare,Peshawar,2014,78500,Diesel,Automatic,First,14.84,2143,167.62,5,37333
36,Mercedes-Benz M-Class ML 350 CDI,Karachi,2013,85000,Diesel,Automatic,First,11.74,2987,254.8,5,37333
60,Mercedes-Benz New C-Class C 200 CGI Avantgarde,Hyderabad,2015,58000,Petrol,Automatic,First,11.74,1796,186.0,5,35600
61,Mercedes-Benz New C-Class 200 CDI Classic,Karachi,2011,65000,Diesel,Manual,Second,15.8,2148,170.0,5,13333
65,Mercedes-Benz C-Class Progressive C 220d,Lahore,2019,15369,Diesel,Automatic,First,0.0,1950,194.0,5,47560
115,Mercedes-Benz B Class B200 CDI,Karachi,2014,53753,Diesel,Automatic,Second,15.0,2143,107.3,5,22333
120,Mercedes-Benz New C-Class 200 K AT,Faislabad,2009,28352,Petrol,Automatic,First,11.7,1796,178.0,5,12466
127,Mercedes-Benz SLC 43 AMG,Faislabad,2017,13372,Petrol,Automatic,First,19.0,2996,362.07,2,72000
133,Mercedes-Benz New C-Class C 220 CDI Avantgarde,Multan,2014,44965,Diesel,Automatic,First,19.27,2143,170.0,5,23933
144,Mercedes-Benz S Class 2005 2013 S 500,Faislabad,2010,35277,Petrol,Automatic,First,7.81,5461,362.9,5,40000


In [32]:
df_cars[df_cars["name"].str.contains("Mercedes-Benz")].agg({"mileage" : "mode", "power": "mode", "engine": "mode", "seats": "mode"})

    # Muestra la moda para los "Mercedes-Benz" en las columnas necesarias

Unnamed: 0,mileage,power,engine,seats
0,19.27,170.0,2143,5


In [33]:
df_cars.loc[65, "mileage"] = 19.27 

    # Modifica el "0" por la moda obtenida

In [34]:
df_cars[df_cars["name"].str.contains("Ford Figo")] 

    # Muestra la tabla con todos los coche "Ford Figo" con el fin de poder comparar
        # No encontramos un modelo similar
            # Buscamos en internet el consumo aproximado que puede tener un Ford Figo Diesel (1.5 TDCi del 2015)
            #    Aproximadamente unos 24 kmpl

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
59,Ford Figo Diesel Titanium,Peshawar,2010,72000,Diesel,Manual,First,20.0,1399,68.0,5,3666
79,Ford Figo Diesel ZXI,Abbottabad,2012,70337,Diesel,Manual,First,20.0,1399,68.0,5,3733
159,Ford Figo Diesel Titanium,Rawalpindi,2010,66123,Diesel,Manual,Second,20.0,1399,68.0,5,2800
184,Ford Figo Diesel ZXI,Islamabad,2010,120000,Diesel,Manual,First,20.0,1399,68.0,5,3466
220,Ford Figo Diesel,Peshawar,2015,70436,Diesel,Manual,First,0.0,1498,99.0,0,4800
225,Ford Figo Diesel EXI,Faislabad,2012,41284,Diesel,Manual,First,20.0,1399,68.05,5,3333


In [35]:
df_cars.loc[220, "mileage"] = 24 # Modifica el valor de "mileage"
df_cars.loc[220, "seats"] = 5 # Modifica el valor de "seats"

In [36]:
df_cars.describe() 

    # Comprueba que haya datos estadísticos coherentes
        # Ya tenemos datos cocherentes, podemos ultimar detalles y comenzar con el análisis

Unnamed: 0,year,kilometers_driven,mileage,engine,power,seats,price
count,296.0,296.0,296.0,296.0,296.0,296.0,296.0
mean,2013.540541,57791.131757,18.401486,1641.679054,115.548953,5.256757,13137.266892
std,2.97191,35160.124277,4.118522,605.490334,58.643606,0.777842,14238.860963
min,2002.0,1000.0,7.81,624.0,35.0,2.0,733.0
25%,2012.0,34153.0,15.175,1199.0,76.95,5.0,4666.0
50%,2014.0,53000.0,18.565,1497.0,100.3,5.0,7939.5
75%,2016.0,70000.5,21.1575,1992.0,140.0,5.0,14859.75
max,2019.0,262000.0,28.4,5461.0,500.0,8.0,93813.0


## 2.3 Ajuste de la columna "name"

En este punto se dividirá la información contenida en la columna "name" para obtener dos columnas independientes: "make" (marca) y "model" (modelo). Esta separación permitirá un análisis más detallado y segmentado de los vehículos.

In [37]:
df_cars.sample(5) 

    # Visualiza el dataframe para poder encontrar el dataframe

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
224,Honda Civic,Abbottabad,2016,64000,Diesel,Manual,First,22.9,1248,74.0,5,9066
195,Skoda Fabia 1.4 MPI Ambiente,Rawalpindi,2009,87459,Petrol,Manual,First,14.7,1390,85.0,5,3666
264,Mazda CX-5,Abbottabad,2018,31025,Diesel,Manual,First,28.4,1248,74.0,5,9533
106,Subaru Forester,Lahore,2017,38053,Petrol,Manual,First,15.1,1196,73.0,5,5213
285,Mercedes-Benz New C-Class C 220 CDI Avantgarde,Multan,2015,77771,Diesel,Automatic,First,19.27,2143,170.0,5,24853


In [38]:
df_cars["make"] = df_cars["name"].str.extract(r"(^\w+\-?\w+)")

    # Crea una columna nueva llamada "make", extrae el "name" hasta el primer espacio y lo añade a esta nueva columna

df_cars["model"] = df_cars["name"].str.replace(r"(^\w+\-?\w+)", "", regex=True)

    # Crea una columna nueva llamada "model", elimina el "name" hasta el primer espacio y añade el resto a esta nueva columna

df_cars.sample()

    # Visualiza el DataFrame para comprobar que se ha modificado

Unnamed: 0,name,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price,make,model
273,Hyundai Verna 1.6 SX VTVT (O),Multan,2012,54308,Petrol,Manual,First,17.1,1591,121.3,5,5706,Hyundai,Verna 1.6 SX VTVT (O)


In [39]:
make = df_cars.pop("make")
model= df_cars.pop ("model")
df_cars.insert(0, "make", make)
df_cars.insert(1, "model", model)

    # Reordena las columnas para que aparezcan en las 2 primeras posiciones --> Facilidad de visualización

In [40]:
df_cars.drop("name", axis = 1, inplace = True) 

    # Elimina la columna "name" porque ya no aporta valor

In [41]:
df_cars.sample() 

    # Visualiza el DataFrame para comrpobar que el cambio se haya guardado

Unnamed: 0,make,model,location,year,kilometers_driven,fuel_type,transmission,owner_type,mileage,engine,power,seats,price
115,Mercedes-Benz,B Class B200 CDI,Karachi,2014,53753,Diesel,Automatic,Second,15.0,2143,107.3,5,22333


## 2.4 Guardar DataFrame limpio

In [42]:
df_cars.to_csv("./data/carlistings_limpio.csv", index=False)

OSError: Cannot save file into a non-existent directory: 'data'