In [1]:
import pandas as pd
import numpy as np

## 1.Introducción

En este notebook voy a trabajar con un dataset de coches obtenido de Kaggle, concretamente del conjunto “Cars Datasets 2025”:
https://www.kaggle.com/datasets/abdulmalik1518/cars-datasets-2025

El dataset contiene información detallada de diferentes modelos de coches: marca, motor, cilindrada, potencia, velocidad, precio, combustible, asientos, etc.
Cada fila representa un coche individual, no datos agregados ni resúmenes, lo que significa que se puede analizar cada vehículo por separado y detectar fácilmente valores extraños, errores o patrones.

### 1.1.¿Cuál es el objetivo de este proyecto?

El propósito de este ejercicio es aprender a realizar un flujo completo y ordenado de análisis exploratorio inicial (EDA) sobre un dataset real. El objetivo no es realizar análisis estadísticos avanzados, sino dominar las fases fundamentales que permiten comprender y describir datos antes de cualquier modelado.

### 2.Exploración

Vamos a comenzar haciendo un vistazo general de la tabla para ver que tenemos

In [7]:
#Lo primero que hacemos es cargar el dataset y  visualizarlo
df=pd.read_csv('../data/dataset_sucio_para_limpieza.csv')
#Ya podemos acceder a los metodos de pandas para explorar el dataset. 
#1.Usando .sample(4) se muestran 4 filas aleatorias del dataset
df.sample(4)

Unnamed: 0,Company Names!!,Car_Name @,Tipo de motor,CC / Batt.Capacidad,Horse Power(HP)!,velocidad max kmh,0_100 km/h (seg),Precio $$ coche,TipoCombustible,Num Asientos,Par motor (Nm)??
0,Ferrari,SF90 STRADALE,V8,3990cc,963hp,340km/h,2.5 sec,"$1,100,000",Plug In Hybrid,2,800 Nm
908,Jaguar,XE R-Dynamic,I4 Petrol,1999cc(I4),340hp,250km/h,5.4 sec,"$60,000",Petrol,5,450 Nm
1362,Skoda,Kodiaq 2024,2.0L Turbo I4,1984cc,204 hp,210km/h,8.5 sec,??,Petrol,7,320 Nm
40,Aston Martin,LAGONDA TARAF,V12,"5,935cc",540hp,,4.2 sec,"$1,100,000",Petrol,4,630


In [8]:
# Primeras filas
df.head()

Unnamed: 0,Company Names!!,Car_Name @,Tipo de motor,CC / Batt.Capacidad,Horse Power(HP)!,velocidad max kmh,0_100 km/h (seg),Precio $$ coche,TipoCombustible,Num Asientos,Par motor (Nm)??
0,Ferrari,SF90 STRADALE,V8,3990cc,963hp,340km/h,2.5 sec,"$1,100,000",Plug In Hybrid,2,800 Nm
1,Rolls Royce,PHANTOM,V12,6749cc,563-hp,250km/h,5.3 sec,"$460,000",Petrol,5,900 N·m
2,Ford,KA+,1.2L Petrol,"1,200cc",70-85hp,165km/h,10.5 sec,"$12,000-$15,000",Petrol,5,100 - 140 Nm
3,Mercedes,GT 63 S,V8,"3,982cc",630hp,250km/h,3.2 sec,"$161,000",Petrol,4,900 Nm
4,Audi,R8 Gt,V10,"5,204cc",602hp,320km/h,3.6 sec,"$253,290",Petrol,2,560 Nm


In [None]:
# Últimas filas
df.tail()

Unnamed: 0,Company Names!!,Car_Name @,Tipo de motor,CC / Batt.Capacidad,Horse Power(HP)!,velocidad max kmh,0_100 km/h (seg),Precio $$ coche,TipoCombustible,Num Asientos,Par motor (Nm)??
1385,Toyota,Compact GT Line,2.0L Hybrid I4,1998cc+Battery,200hp,205km/h,7.5 sec,$34000,Hybrid,5,260 Nm
1386,Volkswagen,Sedan Sport,,1998cc,245hp,230km/h,6.6 sec,$36000,Petrol,5,370 nm
1387,Volvo,SUV Luxury,2.0L Turbo I4,1969cc,250hp,220km/h,7.0 sec,$45000,Petrol,5,350 Nm
1388,Opel,Crossover Trail,1.5L Turbo I4,1496cc,180hp,205km/h,8.1 sec,$30000,Petrol,5,270 Nm
1389,Citroën,Hatchback Performance,1.6L Turbo I4,1598cc,210hp,215 KMH,7.4 sec,$29000,Petrol,5,300 Nm


### 2.1 Dimensiones

In [10]:
df

Unnamed: 0,Company Names!!,Car_Name @,Tipo de motor,CC / Batt.Capacidad,Horse Power(HP)!,velocidad max kmh,0_100 km/h (seg),Precio $$ coche,TipoCombustible,Num Asientos,Par motor (Nm)??
0,Ferrari,SF90 STRADALE,V8,3990cc,963hp,340km/h,2.5 sec,"$1,100,000",Plug In Hybrid,2,800 Nm
1,Rolls Royce,PHANTOM,V12,6749cc,563-hp,250km/h,5.3 sec,"$460,000",Petrol,5,900 N·m
2,Ford,KA+,1.2L Petrol,"1,200cc",70-85hp,165km/h,10.5 sec,"$12,000-$15,000",Petrol,5,100 - 140 Nm
3,Mercedes,GT 63 S,V8,"3,982cc",630hp,250km/h,3.2 sec,"$161,000",Petrol,4,900 Nm
4,Audi,R8 Gt,V10,"5,204cc",602hp,320km/h,3.6 sec,"$253,290",Petrol,2,560 Nm
...,...,...,...,...,...,...,...,...,...,...,...
1385,Toyota,Compact GT Line,2.0L Hybrid I4,1998cc+Battery,200hp,205km/h,7.5 sec,$34000,Hybrid,5,260 Nm
1386,Volkswagen,Sedan Sport,,1998cc,245hp,230km/h,6.6 sec,$36000,Petrol,5,370 nm
1387,Volvo,SUV Luxury,2.0L Turbo I4,1969cc,250hp,220km/h,7.0 sec,$45000,Petrol,5,350 Nm
1388,Opel,Crossover Trail,1.5L Turbo I4,1496cc,180hp,205km/h,8.1 sec,$30000,Petrol,5,270 Nm


Como podemos observar el df tiene 1390 filas y 11 columnas. Otra forma de ver la dimensión del df es:

In [11]:
df.shape #Esta forma es mas visual

(1390, 11)

### 2.2 Nombre de las columnas

Vamos a ver los nombres de las columnas para poder renombrarlo y dar un formato adecuado

In [12]:
df.columns

Index([' Company  Names!!', 'Car_Name @', 'Tipo de motor  ',
       'CC / Batt.Capacidad ', ' Horse Power(HP)! ', 'velocidad max kmh ',
       '0_100 km/h  (seg) ', 'Precio $$ coche', 'TipoCombustible  ',
       '  Num Asientos ', 'Par motor (Nm)??'],
      dtype='object')

Podemos observar que los nombres de las columnas están llenos de fallos gramaticales

### 2.3.Tipos de datos

In [13]:
# Info general del DataFrame (podemos observar los tipos de datos)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1390 entries, 0 to 1389
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0    Company  Names!!     1390 non-null   object
 1   Car_Name @            1390 non-null   object
 2   Tipo de motor         1389 non-null   object
 3   CC / Batt.Capacidad   1359 non-null   object
 4    Horse Power(HP)!     1324 non-null   object
 5   velocidad max kmh     1323 non-null   object
 6   0_100 km/h  (seg)     1384 non-null   object
 7   Precio $$ coche       1321 non-null   object
 8   TipoCombustible       1390 non-null   object
 9     Num Asientos        1349 non-null   object
 10  Par motor (Nm)??      1363 non-null   object
dtypes: object(11)
memory usage: 119.6+ KB


In [14]:
# Tipos de datos por columna
df.dtypes

 Company  Names!!       object
Car_Name @              object
Tipo de motor           object
CC / Batt.Capacidad     object
 Horse Power(HP)!       object
velocidad max kmh       object
0_100 km/h  (seg)       object
Precio $$ coche         object
TipoCombustible         object
  Num Asientos          object
Par motor (Nm)??        object
dtype: object

Todas las columnas aparecen como object porque contienen texto mezclado con números y valores desordenados. Esto impide que Pandas pueda identificar correctamente el tipo de dato real de cada columna. Tras la limpieza, muchas de ellas se convertirán en columnas numéricas (int/float), lo que permitirá realizar un análisis correcto.

`Más adelante.....`

In [15]:
df.sample(2)

Unnamed: 0,Company Names!!,Car_Name @,Tipo de motor,CC / Batt.Capacidad,Horse Power(HP)!,velocidad max kmh,0_100 km/h (seg),Precio $$ coche,TipoCombustible,Num Asientos,Par motor (Nm)??
1243,Cadillac,Escalade V,6.2L Supercharged V8,6162CC,682hp,290km/h,4.4 sec,??,Petrol,7,885 Nm
887,Bugatti,La Voiture Noire,8.0L Quad-Turbo W16,7993cc,1500hp,420km/h,2.5 sec,"$18,000,000",Petrol,2,1600 Nm


Como bien he dicho tras realizar la limpieza veremos los tipos de datos correctos para cada columna

### 2.4.Resumen estadístico

Aún no tiene mucho sentido realizarlo ya que no tenemos números para poder ver comparaciones entre sí. Volveremos a realizarlo posteriormente.

In [16]:
df.describe()

Unnamed: 0,Company Names!!,Car_Name @,Tipo de motor,CC / Batt.Capacidad,Horse Power(HP)!,velocidad max kmh,0_100 km/h (seg),Precio $$ coche,TipoCombustible,Num Asientos,Par motor (Nm)??
count,1390,1390,1389,1359,1324,1323,1384,1321,1390,1349,1363
unique,52,1358,409,481,552,174,181,616,37,16,392
top,Nissan,Mistral,I4,1984cc,310hp,250km/h,6.5 sec,??,Petrol,5,400 Nm
freq,163,3,64,31,21,134,51,93,883,758,64


### 2.5.Valores perdidos (NaN)

In [17]:
# Contar valores nulos por columna del mayor al menor
df.isna().sum().sort_values(ascending=False)

Precio $$ coche         69
velocidad max kmh       67
 Horse Power(HP)!       66
  Num Asientos          41
CC / Batt.Capacidad     31
Par motor (Nm)??        27
0_100 km/h  (seg)        6
Tipo de motor            1
 Company  Names!!        0
Car_Name @               0
TipoCombustible          0
dtype: int64

In [18]:
# Porcentaje de nulos por columna
(df.isna().mean() * 100).round(2).sort_values(ascending=False)

Precio $$ coche         4.96
velocidad max kmh       4.82
 Horse Power(HP)!       4.75
  Num Asientos          2.95
CC / Batt.Capacidad     2.23
Par motor (Nm)??        1.94
0_100 km/h  (seg)       0.43
Tipo de motor           0.07
 Company  Names!!       0.00
Car_Name @              0.00
TipoCombustible         0.00
dtype: float64

Vemos que la columna Precio es donde más valores faltan


### 2.6.Duplicados

In [19]:
# Número de filas duplicadas completas
df.duplicated().sum()

np.int64(0)

In [20]:
# Ver las filas duplicadas (si las hay)
df[df.duplicated(keep=False)]

Unnamed: 0,Company Names!!,Car_Name @,Tipo de motor,CC / Batt.Capacidad,Horse Power(HP)!,velocidad max kmh,0_100 km/h (seg),Precio $$ coche,TipoCombustible,Num Asientos,Par motor (Nm)??


No hay duplicados en mi dataset

### 2.7 Ver valores únicos de cada columna

In [21]:
#listado de todos los nombres de las columnas
df.columns

Index([' Company  Names!!', 'Car_Name @', 'Tipo de motor  ',
       'CC / Batt.Capacidad ', ' Horse Power(HP)! ', 'velocidad max kmh ',
       '0_100 km/h  (seg) ', 'Precio $$ coche', 'TipoCombustible  ',
       '  Num Asientos ', 'Par motor (Nm)??'],
      dtype='object')

In [22]:
df[" Company  Names!!"].unique()

array(['Ferrari', 'Rolls Royce', 'Ford', 'Mercedes', 'Audi', 'McLaren',
       'Aston Martin', 'Bentley', 'Lamborghini', 'Toyota', 'Nissan',
       'Bmw', 'Volvo', 'Kia', 'Honda', 'Hyundai', 'Mahindra',
       'Maruti Suzuki', 'Volkswagen', 'Porsche', 'Cadillac',
       'Tata Motors', 'Tesla', 'Jeep', 'Mazda', 'Chevrolet', 'Gmc',
       'Peugeot', 'Bugatti', 'Jaguar', 'Acura', 'Mitsubishi',
       'Alfa Romeo', 'BMW', 'BYD', 'Citroën', 'Cupra', 'Dacia', 'Dodge',
       'Genesis', 'Land Rover', 'Lexus', 'Lucid', 'Maserati', 'Mini',
       'Opel', 'Polestar', 'Renault', 'Skoda', 'Subaru', 'Suzuki',
       'Alpine'], dtype=object)

In [35]:
df["Car_Name @"].unique()

array(['SF90 STRADALE', 'PHANTOM', 'KA+', ..., 'SUV Black Edition',
       'Crossover Platinum', 'Hatchback Performance'],
      shape=(1358,), dtype=object)

In [24]:
df["Tipo de motor  "].unique()

array(['V8', 'V12', '1.2L Petrol', 'V10', 'I4', 'BOXER-4', 'V6',
       'ELECTRIC MOTOR', 'I6', 'ELECTRIC ', 'ELECTRIC', 'I3',
       'I4 + ELECTRIC', 'HYBRID', '1.2L,4-CYLINDER,INLINE-4(I4)',
       '1.4L,4-CYLINDER,INLINE-4(I4)', '2.0L,4-CYLINDER,INLINE-4(I4)',
       '2.2L,4-CYLINDER,INLINE-4(I4)', '1.5L,4-CYLINDER,INLINE(I4)',
       '2.0L,4-CYLINDER,WITH HYBRID SYSTEM', '1.6L,TURBOCHARGED INLINE-3',
       '3.3L,V6,TWIN TURBO DIESEL', '3.5L,V6,HYBRID TWIN-TURBO',
       '2.0L,INLINE-4', 'HYDROGEN FUEL CELL,ELECTRIC MOTOR',
       '2.8L,TURBO,DIESEL', '2.5L,INLINE-4,HYBRID,OR 3.5L,V6',
       '2.0L HYBRID', '4.0L,DIESEL', '1.5L,HYBRID', '1.0L,INLINE-3',
       '3.5L,V6,PLUG IN HYBRID', '1.8L,HYBRID',
       '1.6L PETROL + PLUG IN HYBRID SYSTEM',
       '2.5L Turbocharged Inline-4', '1.6L PETROL ', '2.0L Inline-4',
       '2.5L Turbo Diese', 'Electric Motor', '2.5L Inline-4', '3.8L V6',
       '1.6L Inline-4', '3.3L V6', '1.6L Turbo GDI 4-cylinder',
       '1.5L Turbo I4 / Electric'

In [25]:
df["CC / Batt.Capacidad "].unique()

array(['3990cc', '6749cc', '1,200cc', '3,982cc', '5,204cc', '3,994cc',
       '3,996cc', '6,498cc', '3900 cm3', '6496cc', '3,900cc', '6,496cc',
       '2,998cc', '1,998cc', '2,387cc', '5,663cc', '5663CC', '3,799cc',
       '3,696cc', nan, '3,498cc', '2,488cc', '5,598cc', '3996 cc',
       '5,935cc', '3996 cm3', '649,8 cc', '5204 cc', '3,998cc', '6,592cc',
       '6,749cc', '6592 cc', '6749 cc', '1991cc', 'desconocido',
       '2,996cc', '2996 cm3', '199,1 cc', '1,991cc', '299,6 cc',
       '5,980cc', '439,5 cc', '2,993cc', '4,935cc', '2993CC', '4,395cc',
       '3,993cc', '3993 cm3', '2,995cc', '2995CC', '1,984cc', '95kwh',
       '1998CC', '1,499cc', '1,496cc', '1,995cc', '1,598cc', '1,969cc',
       '2,480cc', '1,996cc', '1,600cc/13.8kwh', '1,498cc',
       '1,600cc/1.49kwh', '1,598cc/13.8kwh', '1998 cc', '3,471cc',
       '3,500cc', '1,798cc', '2,494cc', '345,6 cc', '3956 cc', '2,694cc',
       '3,456cc', '3,956cc', '1,986cc',
       '64.8kwh(BaseModel),72.8kwh(HigherEndModel', '1,4

In [26]:
df[" Horse Power(HP)! "].unique()

array(['963hp', '563-hp', '70-85hp', '630hp', '602hp', '710 hp', '656hp',
       '550hp', '750hp', nan, '592hp', '612hp', '789hp', '710hp', '382HP',
       '205hp', '228hp', '381hp', '600hp', '332hp', '400hp', '300hp',
       '149hp', '201hp', '284hp', '310hp', '1160hp', '1000hp', '715hp',
       '503hp', '542hp', '580hp', '540hp', '836hp', '819hp', '759hp',
       '640hp', '740hp', '641hp', '610hp', '700hp', '769hp', '671hp',
       '610 hp', '591hp', '624hp', '563hp', '591 hp', '624 hp', '624HP',
       '563 hp', '496hp', '603hp', '429hp', '362hp', '402hp', '255hp',
       '382hp', '751hp', '627hp', '493hp', '444hp', '523hp', '623hp',
       '335hp', '349hp', '306hp', '248hp', '335HP', '335-hp', '248HP',
       '369hp', '523 hp', '136hp', '261hp', '302hp', '116-hp', '190hp',
       '109hp', '150hp', '178hp', '224hp', '95hp', '102hp', '136HP',
       '116hp', '163hp', '247hp', '295hp', '187hp', '240hp', '315HP',
       '192hp', '227hp', '180hp', '301hp', '139hp', '121hp', '203hp',
   

In [27]:
df["velocidad max kmh "].unique()

array(['340km/h', '250km/h', '165km/h', '320km/h', '341km/h', '314km/h',
       '318km/h', '356km/h', nan, '226km/h', '220 Km/h', '200km/h',
       '315km/h', '290km/h', '225km/h', '240km/h', '402km/h', '362km/h',
       '322km/h', '313km/h', '291km/h', '328km/h', '324km/h', '350km/h',
       '325 Km/h', '325km/h', '350 Km/h', '305km/h', '355km/h', '250',
       '250 Km/h', '250 KMH', '250 kmh', '285km/h', '280km/h', '330km/h',
       '240 Km/h', '230km/h', '213km/h', '216km/h', '185km/h', '195km/h',
       '211km/h', '230 KMH', '200 kmh', '220km/h', '210km/h', '272km/h',
       '180km/h', '201km/h', '200 Km/h', '210 Km/h', '186km/h', '209km/h',
       '180 KMH', '190km/h', '200', '160km/h', '230 kmh', '170km/h',
       '175km/h', '130km/h', '215km/h', '140km/h', '185 KMH', '235km/h',
       '233km/h', '205km/h', '183km/h', '145km/h', '238km/h', '196km/h',
       '190 KMH', '217km/h', '138km/h', '148km/h', '193km/h', '205 kmh',
       '191km/h', '246km/h', '187km/h', '200 KMH', '205 Km

In [28]:
df["0_100 km/h  (seg) "].unique()

array(['2.5 sec', '5.3 sec', '10.5 sec', '3.2 sec', '3.6 sec', '2.9 sec',
       '4.0 sec', '3.4 sec', '4.1 sec', '6.4 sec', '5.6 sec', '6.7 sec',
       '6.9 sec', '4.7 sec', '7.3 sec', '5.8 sec', '8.2 sec', '7.5 sec',
       '6.5 sec', '6.8 sec', '5.9 sec', '3.9 sec', '4.5 sec', '4.2 sec',
       '2.8 sec', '3.0 sec', '3.1 sec', '3.3 sec', '4.8 sec', '4.4 sec',
       '4.9 sec', '5.2 sec', '4.3 sec', '5.1 sec', '5.5 sec', '5.7 sec',
       ' 6.1 sec', '6.1 sec', '3.7 sec', '3.5 sec', '5.4 sec', '6.3 sec',
       '3.8 sec', '8.5 sec', '10.3 sec', '10.9 sec', '8.4 sec',
       '7.1  sec', '12.2 sec', '11.2 sec', '8.9 sec', '7.1 sec',
       '7.7 sec', '7.2 sec', '8.0 sec', '8.3 sec', '7.9 sec', '8.1 sec',
       '6.0 sec', '9.4 sec', '9.5 sec', '9.2 sec', '6.2 sec', '10.2 sec',
       '7.6 sec', '11.5 sec', '5. 0 sec', '9.0 sec', '10.0 sec', nan,
       '11 sec', '14.8 sec', '13.5 sec', '9.3 sec', '7.4 sec',
       '10. 5 sec', '14.0 sec', '8 sec', '9.8 sec', '6 sec', '7.8 sec',
      

In [29]:
df["Precio $$ coche"].unique()

array(['$1,100,000 ', '$460,000 ', '$12,000-$15,000', '$161,000 ',
       '$253,290 ', '$499,000 ', '$193,440 ', '$311,000 ', '$4,500,000 ',
       '$280,000 ', '$350,000 ', '$210,000 ', '$230,000 ', '$1,700,000 ',
       '$220,000 ', '$240,000 ', '$53,900 ', '$27,000 ', '$30,000 ',
       '$85,000 ', '$50,000 ', '$113,000 ', '$40,000 ', '$25,000 ',
       '$35,000 ', '$20,000 ', '$28,000 ', '3.200.000€', '??',
       '$316,000 ', '$208,000 ', '$142,000 ', '$189,000 ', nan,
       '$294,000 ', '$1,300,000 ', '$2,800,000 ', '$518,000 ', '274.000€',
       '$261,000 ', '$493,000 ', '$211,000 ', '$287,000 ', '$445,000 ',
       '$308,000 ', '$421,000 ', '$242,000 ', '$545,000 ', '$258,000 ',
       '$573,000 ', '$263,000 ', '$327,000 ', '$603,000 ', '$253,000 ',
       '332.000€', '$330,000 ', '$360,000 ', '$325,000 ', '$500,000 ',
       '$390,000 ', '$450,000 ', '$340,000 ', '$320,000 ', '$116,000 ',
       '$53,000 ', '109.000€', '$62,000 ', '$99,000 ', '$63,000 ',
       '$52,000 ', '

In [30]:
df["TipoCombustible  "].unique()

array(['Plug In Hybrid', 'Petrol', 'PETROL', 'diesel', 'Hybrid', 'petrol',
       'Electric', 'Diesel', 'DIESEL', 'Petrol/Diesel', 'PETROL/DIESEL',
       'Plug-In Hybrid', 'Petrol/Awd', 'Petrol/Hybrid', 'Hydrogen',
       'Diesel/Petrol', 'petrol/ev', 'Petrol/hyrbrid', 'Hybrid/Electric',
       'Petrol, Hybrid', 'Petrol, Diesel', 'electric', 'Hybrid (Petrol)',
       'Cng/Petrol', 'ELECTRIC', 'HYBRID', 'hybrid', 'Hybrid/Petrol',
       'hyrbrid', 'Diesel Hybrid', 'Petrol (Hybrid)', 'petrol/diesel',
       'Hybrid (Gas + Electric)', 'Gas / Hybrid', 'Hybrid / Plug-In',
       'plug in-In hyrbrid', 'PLUG-IN HYBRID'], dtype=object)

In [31]:
df["  Num Asientos "].unique()

array(['2', '5', '4', 'dos', nan, '7', 'cinco', 'cuatro', '8', '20', '15',
       '12', '3', 'siete', '9', '6', '1'], dtype=object)

In [32]:
df["Par motor (Nm)??"].unique()

array(['800 Nm', '900 N·m', '100 - 140 Nm', '900 Nm', '560 Nm', '770 Nm',
       '685 Nm', '690 Nm', '718 N·m', '760 Nm', '719 Nm', '500 Nm',
       '205 Nm', '250 Nm', '651 Nm', '637 Nm', '366 Nm', '475 Nm',
       '380 Nm', '354 Nm', '240 Nm', '270 Nm', '351 Nm', '381 Nm',
       '1000 Nm', '700 Nm', '630 Nm', '630', '821 Nm', '720 Nm', '600 Nm',
       nan, '850 Nm', '850Nm', '565 Nm', '870 Nm', '850 nm', '500 nm',
       '520 Nm', '620 Nm', '950 Nm', '750 Nm', '650 nm', '550 Nm',
       '650 Nm', '840 Nm', '900', '800Nm', '400 Nm', '400 N·m', '664 Nm',
       '570 Nm', '500 N·m', '400Nm', '400 nm', '220 nm', '450 Nm',
       '200 Nm', '300 Nm', '270 nm', '200Nm', '350 Nm', '370 Nm', '360',
       '142 Nm', '335 Nm', '360 Nm', '150 Nm', '330 Nm', '145 Nm',
       '120 Nm', '280', '320 Nm', '113 Nm', '200 nm', '250 nm', '130 Nm',
       '93 Nm', '280 Nm', '340 Nm', '390 Nm', '420Nm', '356 Nm', '400',
       '355 Nm', '395 Nm', '264 Nm', '295 Nm', '300Nm', '175 Nm',
       '350 N·m', 

`IMP: DE ESTA FORMA APARECEN TODOS LOS VALORES DIFERENTES PERO PARA SABER EL NUMERO DE VALORES DISTINTOS USAMOS:`

```python
df["nombre_columna"].nunique()  
```

In [33]:
df.nunique()

 Company  Names!!         52
Car_Name @              1358
Tipo de motor            409
CC / Batt.Capacidad      481
 Horse Power(HP)!        552
velocidad max kmh        174
0_100 km/h  (seg)        181
Precio $$ coche          616
TipoCombustible           37
  Num Asientos            16
Par motor (Nm)??         392
dtype: int64

Al usar nunique() veo que hay 17 tipos de asientos y 37 tipos de combustible, algo imposible en un dataset real. Esto demuestra que están muy sucias

### 3.Conclusión tras realizar la exploración

Después de analizar el dataset, queda bastante claro que está muy desordenado. Hay columnas que deberían ser numéricas pero aparecen como texto, valores escritos de mil formas diferentes, símbolos mezclados con números, unidades inconsistentes y bastantes datos faltantes. También he visto cosas que no tienen sentido, como 17 tipos distintos de asientos o 37 tipos de combustible, lo cual confirma que la información no está estandarizada.

En general, la exploración me ha servido para entender qué problemas tiene el dataset y qué partes necesitan una limpieza más profunda. Gracias a esta fase ya tengo claro qué columnas debo corregir, transformar o normalizar antes de poder hacer cualquier análisis real. El siguiente paso será aplicar toda la limpieza necesaria para dejar los datos listos para trabajar.