![](CintillaTecNM-ITD.png)

##  1. Que es Data Wrangling  <a id='id1'> </a>

- Es el proceso de tomar datos sin procesar desorganizados o incompletos y estandarizarlos para que pueda acceder a ellos, consolidarlos y analizarlos fácilmente. 
- También implica mapear campos de datos desde el origen hasta el destino, por ejemplo, apuntar a un campo, fila o columna en un conjunto de datos e implementar una acción como unir, analizar, limpiar, consolidar o filtrar para producir el resultado requerido.
- **Data Wrangling es el proceso de convertir los datos desde un formato inicial a uno apropiado para su análisis**.

## 2. Contexto de la práctica    <a id='id2'> </a>

El objetivo de este laboratorio es utilizar métodos de pandas para importar un conjunto de datos y realizar las tareas siguientes:  

1. Identificar los datos faltantes
2. Manejar los datos faltantes
3. corregir el formato de los datos
4. Estandarización de los datos

Trabajará con un archivo que contiene **informacion sobre vehiculos de diferentes marcas, precios, rendimientos, revoluciones, motores, capacidadades, tipo de combustible, entre otras caracteristicas**.  


Este conjunto de datos consta de estas caracteristicas:

- **symboling**: Calificación de riesgo de seguro asignada (valores: -3, -2, -1, 0, 1, 2, 3). Un valor de +3 indica que el auto es riesgoso, -3 que probablemente sea bastante seguro
- **normalized-losses**: Pérdidas normalizadas en uso en comparación con otros automóviles
- **make**: Fabricante
- **fuel-type**: Tipo Gasolina (diesel, gas)
- **aspiration**: Motor (std, turbo)
- **num-of-doors**: Número de puertas (four, two)
- **body-style**: Tipo de vehiculo (hardtop, wagon, sedan, hatchback, convertible) 
- **drive-wheels**: Traccion ruedas (4wd, fwd, rwd)
- **engine-location**: Ubicación del motor (front, rear)
- **wheel-base**: Distancia entre ejes (desde 86.6 hasta 120.9)
- **length**: Longitud del vehiculos (desde 141.1 desde 208.1)
- **width**: Ancho del vehiculo (desde 60.3 hasta 72.3
- **height**: Altura del vehiculo ( desde 47.8 hasta 59.8)
- **curb-weight**: Peso en vacío (desde 1488 hasta 4066)
- **engine-type**:Ttipo de motor (dohc, dohcv, l, ohc, ohcf, ohcv, rotor)
- **num-of-cylinders**: Número de cilindros (eight, five, four, six, three, twelve, two)
- **engine-size**: Tamaño del motor (desde 61 hasta 326)
- **fuel-system**: Sistema de combustible (1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi)
- **bore**: Diametro del cilindro (desde 2.54 hasta 3.94)
- **stroke**: Distancia dentro del cilindro que recorre el pistón. (desde 2.07 hasta 4.17)
- **compression-ratio**: índice de compresión (desde 7 hasta 23)
- **horsepower**: Caballo de fuerza (desde 48 hasta 288)
- **peak-rpm**: Revoluciones por minito (desde 4150 hasta 6600)
- **city-mpg**: Consumo de combustible en ciudad en millas por galon (desde 13 hasta 49)
- **highway-mpg**:  Consumo de combustible en carretera en millas por galon (desde 16 hasta 54)
- **price**: Precio




In [1]:
import pandas as pd
import matplotlib as plt
from matplotlib import pyplot
import numpy as np

In [2]:
autos = pd.read_csv("autos.csv")
autos.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


In [3]:
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [4]:
autos.replace( "?", np.nan, inplace = True)
autos.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [5]:
valores_perdidos = autos.isnull()
valores_perdidos.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
9,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True


In [6]:
autos["price"].isnull().value_counts()

False    201
True       4
Name: price, dtype: int64

In [7]:
autos["normalized-losses"].isnull().value_counts()

False    164
True      41
Name: normalized-losses, dtype: int64

In [8]:
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       203 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [9]:
for columna in valores_perdidos.columns.values.tolist():
    print(columna)
    print(valores_perdidos[columna].value_counts() )
    print(")")

symboling
False    205
Name: symboling, dtype: int64
)
normalized-losses
False    164
True      41
Name: normalized-losses, dtype: int64
)
make
False    205
Name: make, dtype: int64
)
fuel-type
False    205
Name: fuel-type, dtype: int64
)
aspiration
False    205
Name: aspiration, dtype: int64
)
num-of-doors
False    203
True       2
Name: num-of-doors, dtype: int64
)
body-style
False    205
Name: body-style, dtype: int64
)
drive-wheels
False    205
Name: drive-wheels, dtype: int64
)
engine-location
False    205
Name: engine-location, dtype: int64
)
wheel-base
False    205
Name: wheel-base, dtype: int64
)
length
False    205
Name: length, dtype: int64
)
width
False    205
Name: width, dtype: int64
)
height
False    205
Name: height, dtype: int64
)
curb-weight
False    205
Name: curb-weight, dtype: int64
)
engine-type
False    205
Name: engine-type, dtype: int64
)
num-of-cylinders
False    205
Name: num-of-cylinders, dtype: int64
)
engine-size
False    205
Name: engine-size, dtype: int64

In [10]:
##  Otra forma mas facil de verificar los valores nulos

autos.isnull().sum()

symboling             0
normalized-losses    41
make                  0
fuel-type             0
aspiration            0
num-of-doors          2
body-style            0
drive-wheels          0
engine-location       0
wheel-base            0
length                0
width                 0
height                0
curb-weight           0
engine-type           0
num-of-cylinders      0
engine-size           0
fuel-system           0
bore                  4
stroke                4
compression-ratio     0
horsepower            2
peak-rpm              2
city-mpg              0
highway-mpg           0
price                 4
dtype: int64

#### Con base en el resumén de arriba, cada columna tiene 205 filas de datos, siete columnas que contienen información faltante:

- "normalized-losses": 41 datos faltantes
- "num-of-doors": 2 datos faltantes
- "bore": 4 datos faltantes
- "stroke" : 4 datos faltantes
- "horsepower": 2 datos faltantes
- "peak-rpm": 2 datos faltantes
- "price": 4 datos faltantes


## 4. Manejar Valores Faltantes   <a id='id4'> </a>
¿Como se manejan los valores faltantes?
- **Eliminando datos** 
1. eliminar toda la fila
2. eliminar toda la columna  

- **Remplazando datos**  
1. remplazarlos por la media
2. remplazarlos por la frecuencia
3. remplazarlos en base a otras funciones

### Alternativas para tratar la falta de datos

- Todas las columnas deberían ser eliminadas solo si la mayoría de las entradas de la columna estan vacias. 
- En nuestro conjunto de datos ninguna de las columnas estan tan vacias como para eliminarlas completamente. 
- Tenemos cierta libertad de elegir cual método usar para reemplazar los datos; sin embargo, algunos métodos puedieran ser mejores que otros. 
- Se aplicara diferente método para diferentes columnas:

**Remplazar con la Media:**

- "normalized-losses": 41 datos faltantes , remplazar con la media
- "stroke": 4 datos faltantes , remplazar con la media
- "bore": 4 datos faltantes , remplazar con la media
- "horsepower": 2 datos faltantes , remplazar con la media
- "peak-rpm": 2 datos faltantes , remplazar con la media

**Remplazar con la Frecuencia:**

- "num-of-doors": 2 datos faltantes, remplazar con "cuatro".
**Razón**: El 84% de los sedanes es de cuatro puertas. Debido que tener cuatro puertas es mas frecuente, es mas probable que ocurra.



###   Reemplazar valores por la media

#### Calcular el promedio de la columna  normalized-losses y
#### Remplazar "NaN por el valor de la media en la columna "normalized-losses"

In [11]:
promedio_normalized_losses = autos["normalized-losses"].astype("float").mean( axis =0)
print("Promedio", promedio_normalized_losses)

Promedio 122.0


In [12]:
autos["normalized-losses"].replace(np.nan, promedio_normalized_losses,
                                  inplace = True)

In [13]:
autos.head()


Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,122.0,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


### Columna 'bore' 
#### Calcular el valor de la media de la columna 'bore' 
#### Remplazar "NaN por el valor de la media

In [14]:
avg_bore = autos["bore"].astype("float").mean(axis=0)
print("Promedio de diametro del cilindro", avg_bore)

Promedio de diametro del cilindro 3.3297512437810957


In [15]:
autos["bore"].replace(np.nan, avg_bore, inplace = True)

### Columna stroke

#### Calcular el valor de la media de la columna 'stroke' 
#### Remplazar "NaN por el valor de la media

**stroke** distancia dentro del cilindro que recorre el piston

In [16]:
avg_stroke = autos["stroke"].astype("float").mean(axis=0)
print("Promedio de lamdistancia dentro del cilindro que recorre el piston", avg_stroke)

Promedio de lamdistancia dentro del cilindro que recorre el piston 3.2554228855721337


In [17]:
autos["stroke"].replace(np.nan, avg_stroke, inplace = True)

### Columna horsepower

#### Calcular el valor de la media de la columna 'horsepower' 
#### Remplazar "NaN por el valor de la media

In [18]:
avg_horsepower = autos["horsepower"].astype("float").mean(axis=0)
print("Promedio de los caballos de fuerza del motor", avg_horsepower)

Promedio de los caballos de fuerza del motor 104.25615763546799


In [19]:
autos["horsepower"].replace(np.nan, avg_horsepower, inplace = True)

### Columna peak-rpm

In [20]:
avg_peak_rpm = autos["peak-rpm"].astype("float").mean(axis=0)
print("Promedio de los caballos de fuerza del motor", avg_peak_rpm)

Promedio de los caballos de fuerza del motor 5125.369458128079


In [21]:
autos["peak-rpm"].replace(np.nan, avg_peak_rpm, inplace = True)

### Número de puertas

#### Remplazar valores faltantes con la Frecuencia (moda)

- En esta variable es de tipo texto y no se puede reemplazar por el valor de la media
- Sin embargo, se puede usar el valor de la moda, es decir, el valor que más se repite

In [22]:
autos["num-of-doors"].value_counts()

four    114
two      89
Name: num-of-doors, dtype: int64

In [23]:
autos["num-of-doors"].replace(np.nan, "four", inplace = True)

### Verificar los cambios que ya no tengamos valores nulos

In [24]:
valores_perdidos = autos.isnull()
valores_perdidos.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True


In [39]:
autos.isnull().sum()

symboling            0
normalized-losses    0
make                 0
fuel-type            0
aspiration           0
num-of-doors         0
body-style           0
drive-wheels         0
engine-location      0
wheel-base           0
length               0
width                0
height               0
curb-weight          0
engine-type          0
num-of-cylinders     0
engine-size          0
fuel-system          0
bore                 0
stroke               0
compression-ratio    0
horsepower           0
peak-rpm             0
city-mpg             0
highway-mpg          0
price                4
dtype: int64

### Eliminar valores faltantes 

Para el caso de los valores faltantes en la columna Price, **se decide borrar todo el renglón**. Esto se debe a que no es recomendable sustituir el valor porque esta columna es la que se usara para predecir el precio de un vehiculo con similares caracteristicas.

In [40]:
# eliminar toda la fila con valores NaN en la columna "price"

autos.dropna(subset=["price"], axis=0, inplace=True)

# restablece el índice debido a que eliminamos dos filas
autos.reset_index(drop=True, inplace=True)

In [41]:
# Verificamos

autos.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,122,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0
5,2,122,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110.0,5500.0,19,25,15250.0
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110.0,5500.0,19,25,17710.0
7,1,122,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110.0,5500.0,19,25,18920.0
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140.0,5500.0,17,20,23875.0
9,2,192,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101.0,5800.0,23,29,16430.0


In [44]:
# Ahora ya nomas son 201 registros
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 201 entries, 0 to 200
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          201 non-null    int64  
 1   normalized-losses  201 non-null    int32  
 2   make               201 non-null    object 
 3   fuel-type          201 non-null    object 
 4   aspiration         201 non-null    object 
 5   num-of-doors       201 non-null    object 
 6   body-style         201 non-null    object 
 7   drive-wheels       201 non-null    object 
 8   engine-location    201 non-null    object 
 9   wheel-base         201 non-null    float64
 10  length             201 non-null    float64
 11  width              201 non-null    float64
 12  height             201 non-null    float64
 13  curb-weight        201 non-null    int64  
 14  engine-type        201 non-null    object 
 15  num-of-cylinders   201 non-null    object 
 16  engine-size        201 non

##   Corregir el formato de los datos <a id='id5'> </a>

- El último paso para limpiar los datos es revisar y asegurar que su formato sea el correcto (int, float, text u otro.)
- Con Pandas sería

   - **dataframe.dtypes** para revisar el tipo de dato

   - **datafframe.astype()** para cambiar el tipo de dato

Vamos a listar los tipos de datos para cada columna

In [38]:
autos.dtypes

symboling              int64
normalized-losses      int32
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower           float64
peak-rpm             float64
city-mpg               int64
highway-mpg            int64
price                float64
dtype: object

#### Como resultado del paso anterior vemos que:

- Algunas columnas no tienen el tipo correcto de dato. 
- Las variables numericas deben ser de tipo 'float' o 'int', 
- las variables de cadenas (categoria) deben ser de tipo 'object'. 
- Las variables **'bore' y 'stroke'** son valores numericos que describen los motores, asi que podemos esperar que sean del tipo 'float' o 'int'; sin embargo, se muestran como tipo 'objetc'.  

Debemos convertir los tipos de datos al formato apropiado para cada columna utilizando el método **"astype()"**.

In [45]:
autos[ ["bore", "stroke"] ] = autos[["bore", "stroke"]].astype("float")

In [46]:
autos[["normalized-losses"]] = autos[["normalized-losses"]].astype("int")

In [47]:
autos[ ["peak-rpm", "horsepower", "price"] ] = autos[[ "peak-rpm", "horsepower", "price"]].astype("float")

In [48]:
autos.dtypes

symboling              int64
normalized-losses      int32
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                 float64
stroke               float64
compression-ratio    float64
horsepower           float64
peak-rpm             float64
city-mpg               int64
highway-mpg            int64
price                float64
dtype: object