# Data wrangling set de vehículos.

## Primero una vista general de la data: cantidad de filas, que contiene cada columna y formato.

In [1]:
import pandas as pd

columns = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
df = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data", names=columns)

df

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.40,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.40,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.40,23.0,106,4800,26,27,22470


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [3]:
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0
mean,0.834146,98.756585,174.049268,65.907805,53.724878,2555.565854,126.907317,10.142537,25.219512,30.75122
std,1.245307,6.021776,12.337289,2.145204,2.443522,520.680204,41.642693,3.97204,6.542142,6.886443
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.3,64.1,52.0,2145.0,97.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.1,66.9,55.5,2935.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.3,59.8,4066.0,326.0,23.0,49.0,54.0


In [4]:
df[df.duplicated()]

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price


En este caso solo voy a preocuparme por limpiar la data. Debería saber cual será su uso así no limpio y guardo columnas y/o filas que no sean necesarias y sean un desperdicio de tiempo y almacenamiento.

El primer paso después de darle un vistazo a la data, será manipular los datos nulos o ausentes.

## Manipular datos nulos.

In [5]:
df.isnull().values.any()

False

En el caso de este set de datos, los valores nulos o ausentes tienen "?" como valor. Pero "?" nos convertirá la columna a tipo objeto, y lo ideal será convertirlo a un valor nulo que nos permita usar otras funciones.

In [6]:
import numpy as np
df.replace("?", np.nan, inplace = True)

In [7]:
df.isnull().sum().sort_values(ascending=False)

normalized-losses    41
price                 4
stroke                4
bore                  4
peak-rpm              2
num-of-doors          2
horsepower            2
engine-type           0
highway-mpg           0
city-mpg              0
compression-ratio     0
fuel-system           0
engine-size           0
num-of-cylinders      0
symboling             0
height                0
width                 0
length                0
wheel-base            0
engine-location       0
drive-wheels          0
body-style            0
aspiration            0
fuel-type             0
make                  0
curb-weight           0
dtype: int64

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       203 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

### Modificando el tipo de dato de las columnas que presentaban valores nulos.

Pandas, al leer un archivo, automáticamente establece un tipo de datos para cada columna.

Los valores nulos que inicialmente eran "?" hacían que la columna fuese tipo objeto, siendo cada dato object o no, así que debemos modificar el formato de cada columna segun sea su caso.

In [9]:
df["normalized-losses"] = df["normalized-losses"].astype("Int64")
df["bore"] = df["bore"].astype("Float64")
df["stroke"] = df["stroke"].astype("Float64")
df["horsepower"] = df["horsepower"].astype("Int64")
df["peak-rpm"] = df["peak-rpm"].astype("Int64")
df["price"] = df["price"].astype("Int64")

Cambiar las celdas que tienen el valor "?" por np.nan (que es un valor nulo) nos permite cambiar el tipo de dato a int o float. El tipo de dato nos permitirá poder hacer operaciones matematicas con las columnas que tienen el datatype numérico, a pesar de tener valores nulos.

### Sustituyendo valores nulos.

Ahora debemos sustituir los valores nulos segun sea conveniente segun el tipo de dato. Dependiendo del uso que vaya a tener la data es que se debería considerar sustituir los valores nulos intentando estimar el valor faltante (con el promedio, la moda, etc) o eliminar la fila o columna que presente valores faltantes. 

In [10]:
df["normalized-losses"].min()

65

In [11]:
df["normalized-losses"].max()

256

In [12]:
df["normalized-losses"].mean()

122.0

In [13]:
percent_missing = df["normalized-losses"].isnull().sum() * 100 / len(df["normalized-losses"])
percent_missing

20.0

Como el porcentaje de datos faltantes de las pérdidas normalizadas es tan grande (1 de cada 5 datos en las perdidas normalizadas está ausente) y aunque puedo sustituir los valores ausentes por el promedio, ya que es una variable continua, lo ideal será no utilizar la variable o las columnas con los datos faltantes como referencia para determinar algun tipo de correlación, para modelos predictivos o para análisis. De ser necesaria en algun modelo o en algun tipo de análisis, lo ideal sería eliminar las columnas en las que presente valores nulos para evitar que el 20% de ellos afecte el modelo (se suele cosiderar un numero de datos faltantes mayor o igual al 10% como inaceptable).

In [14]:
df[df['num-of-doors'].isnull()]

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
27,1,148.0,dodge,gas,turbo,,sedan,fwd,front,93.7,...,98,mpfi,3.03,3.39,7.6,102,5500,24,30,8558
63,0,,mazda,diesel,std,,sedan,fwd,front,98.8,...,122,idi,3.39,3.39,22.7,64,4650,36,42,10795


In [15]:
df[df['body-style'] == "sedan"]['num-of-doors'].value_counts()

four    79
two     15
Name: num-of-doors, dtype: int64

Como el número de puertas en un vehículo es una variable discreta, no tiene mucho sentido usar un promedio, en cambio, sustituir por el valor más probable tiene mucho más sentido.

In [16]:
df["num-of-doors"].replace(np.nan, "four", inplace = True)
df["num-of-doors"].unique()

array(['two', 'four'], dtype=object)

In [17]:
df["bore"].mean()

3.3297512437810943

In [18]:
sorted(df[(df["bore"] > 3.25) & (df["bore"] < 3.40)]["bore"].unique())

[3.27, 3.31, 3.33, 3.34, 3.35, 3.39]

Los condicionales aquí quizás no son de gran importancia, pero en un set de datos grande nos permite solo obtener la información necesaria.

Como "bore" es el ancho de un cilindro, y como es probable que sean de dimensiones "exactas", es decir, digamos que de 3.5 salta a 3.54, no puede haber un tamaño intermedio de los cilindros. Como el promedio es 3.3297, que redondeado sería 3.33, sustituiré el valor nulo por 3.33.

In [19]:
df["bore"].replace(np.nan, 3.33, inplace = True)

In [20]:
df["stroke"].mean()

3.255422885572139

In [21]:
sorted(df[(df["stroke"] > 3.10) & (df["stroke"] < 3.35)]["stroke"].unique())

[3.11, 3.12, 3.15, 3.16, 3.19, 3.21, 3.23, 3.27, 3.29]

De igual manera, como "stroke" es la distancia desde el punto mas bajo al punto mas alto en el que se mueve el piston, seguramente será un tamaño exacto, asi que se sustituira el valor nulo por el mas cercano al promedio.

In [22]:
df["stroke"].replace(np.nan, 3.27, inplace = True)

In [23]:
df["horsepower"].describe()

count         203.0
mean     104.256158
std       39.714369
min            48.0
25%            70.0
50%            95.0
75%           116.0
max           288.0
Name: horsepower, dtype: Float64

En el caso de los caballos de fuerza de un vehículo, es un cálculo que debe realizarse con el torque y las revoluciones por minuto. Como en este caso no lo tenemos, utilizaremos una fórmula que muestra un resultado aproximado, la cual es "bore" por "stroke" por "numero de cilindros" por 3,14. 

In [24]:
df[["bore", "stroke", "num-of-cylinders"]]

Unnamed: 0,bore,stroke,num-of-cylinders
0,3.47,2.68,four
1,3.47,2.68,four
2,2.68,3.47,six
3,3.19,3.4,four
4,3.19,3.4,five
...,...,...,...
200,3.78,3.15,four
201,3.78,3.15,four
202,3.58,2.87,six
203,3.01,3.4,six


Como el número de cilindros no está en un tipo de dato numérico, lo debemos convertir en numérico y así poder realizar el calculo

In [25]:
df['num-of-cylinders'].unique()

array(['four', 'six', 'five', 'three', 'twelve', 'two', 'eight'],
      dtype=object)

In [26]:
df['num-of-cylinders'].replace({'two': 2, 'three': 3, 'four': 4, 'five': 5, 'six': 6, 'eight': 8, 'twelve': 12}, inplace=True)
df['num-of-cylinders']

0      4
1      4
2      6
3      4
4      5
      ..
200    4
201    4
202    6
203    6
204    4
Name: num-of-cylinders, Length: 205, dtype: int64

In [27]:
df_hp = round(df['bore'] * df['stroke'] * df['num-of-cylinders'] * 3.14)
df_hp = df_hp.astype('int64')

df.iloc[[130, 131]]

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
130,0,,renault,gas,std,four,wagon,fwd,front,96.1,...,132,mpfi,3.46,3.9,8.7,,,23,31,9295
131,2,,renault,gas,std,two,hatchback,fwd,front,96.1,...,132,mpfi,3.46,3.9,8.7,,,23,31,9895


In [28]:
df["horsepower"].fillna(df_hp, inplace=True)
df["horsepower"]

0      111
1      111
2      154
3      102
4      115
      ... 
200    114
201    160
202    134
203    106
204    114
Name: horsepower, Length: 205, dtype: Int64

In [29]:
df.iloc[[130, 131]]

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
130,0,,renault,gas,std,four,wagon,fwd,front,96.1,...,132,mpfi,3.46,3.9,8.7,169,,23,31,9295
131,2,,renault,gas,std,two,hatchback,fwd,front,96.1,...,132,mpfi,3.46,3.9,8.7,169,,23,31,9895


Si modificamos el valor nulo por la media, habriamos cambiado los caballos de fuerza por 104, mientras que según el cálculo los caballos de fuerza de estos vehículos son de 169. De igual manera esto es para acercarnos al valor real, ya que el valor real necesita un cálculo con más variables porque el valor de los caballos de fuerza según esta fórmula varía un poco del valor real.

Este tipo de cálculos pueden extender el proceso pero en algunos casos puede ayudar a no perder datos que pueden ser importantes y en algunos casos los cálculos son sencillos y muy precisos.

En el caso del pico de RPM, para el cálculo necesitamos conocer los caballos de fuerza y el torque, y como no tenemos información del torque, sistutuiremos por la media.

In [30]:
df["peak-rpm"].mean()

5125.369458128079

In [31]:
df["peak-rpm"].unique()

<IntegerArray>
[5000, 5500, 5800, 4250, 5400, 5100, 4800, 6000, 4750, 4650, 4200, 4350, 4500,
 5200, 4150, 5600, 5900, 5750, <NA>, 5250, 4900, 4400, 6600, 5300]
Length: 24, dtype: Int64

En este caso, la variable es discreta y va en multiplos de 100, así que se sustituirá por el valor mas cercano.

In [32]:
df["peak-rpm"].replace(np.nan, 5100, inplace = True)

In [33]:
df["price"].describe()

count           201.0
mean     13207.129353
std       7947.066342
min            5118.0
25%            7775.0
50%           10295.0
75%           16500.0
max           45400.0
Name: price, dtype: Float64

En cuanto al precio no hay fórmula precisa, ya que el precio puede ser afectado por muchísimas variables y estimaciones de parte de la marca. Como son solo 4 filas que no contienen informacion en el precio y como seguramente en casi cualquier análisis que se haga se tomará muy en cuenta el precio, la mejor opcion seria desechar las filas.

En este caso se sustituirá por el entero más cercano al promedio para mostrar como, el sustutuir por el promedio aunque a veces pueda ser razonable, también afecta estadísticamente la desviación, los algunos percentiles y la mediana.

In [34]:
df["price"].replace(np.nan, 13207, inplace = True)

In [35]:
df["price"].describe()

count           205.0
mean     13207.126829
std       7868.768212
min            5118.0
25%            7788.0
50%           10595.0
75%           16500.0
max           45400.0
Name: price, dtype: Float64

Una vez corregidos los valores nulos o ausentes, debemos normalizar y estandarizar la data.

## Estandarizar la data.

La data puede venir en practicamente cualquier formato y no necesariamente se ajusta a nuestros estándares. Si ya existe información en nuestro base de datos y vamos a agregar nueva información, hay que hacer qe coincidan, pero si no, puede ser pertinente modificarla hacia estándares comunes de nuestra región.

Por ejemplo, los bienes raíces en algunos paises usan para medir el área en pies cuadrados, y probablemente para nosotros esa medida de referencia no nos brinde información clara.

In [36]:
df[["city-mpg", "highway-mpg"]].head()

Unnamed: 0,city-mpg,highway-mpg
0,21,27
1,21,27
2,19,26
3,24,30
4,18,22


Las columnas "city-mpg" y "highway-mpg" representan la cantidad de millas por galón americano que recorre el vehículo, tanto en la ciudad como en la autopista respectivamente. Cambiaremos esas columnas por kilometros por litro de combustible.

Una milla es 1,60934 kilómetros y 1 galón americano es 3,78541 litros. 3,78541 entre 1,60934 es igual a 2,352, es decir, la relación mpg es 2,352 veces mayor a la relación kilómetros por litro. También podemos dividir 1,60934 entre 3,78541 y obtener 0,4251, es decir, el valor de la relación kpl es aproximadamente el 42,51% del valor de la relación mpg.

In [37]:
df["city-mpg"] = df["city-mpg"] * 0.4251

In [38]:
df["city-mpg"]

0       8.9271
1       8.9271
2       8.0769
3      10.2024
4       7.6518
        ...   
200     9.7773
201     8.0769
202     7.6518
203    11.0526
204     8.0769
Name: city-mpg, Length: 205, dtype: float64

In [39]:
df["highway-mpg"] = df["highway-mpg"] * 0.4251

In [40]:
df["highway-mpg"]

0      11.4777
1      11.4777
2      11.0526
3      12.7530
4       9.3522
        ...   
200    11.9028
201    10.6275
202     9.7773
203    11.4777
204    10.6275
Name: highway-mpg, Length: 205, dtype: float64

In [41]:
df.rename(columns={"city-mpg": "city-kpl", "highway-mpg":'highway-kpl'}, inplace=True)

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    Int64  
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    int64  
 16  engine-size        205 non

In [43]:
df[["wheel-base", "length", "width", "height", "bore", "stroke"]]

Unnamed: 0,wheel-base,length,width,height,bore,stroke
0,88.6,168.8,64.1,48.8,3.47,2.68
1,88.6,168.8,64.1,48.8,3.47,2.68
2,94.5,171.2,65.5,52.4,2.68,3.47
3,99.8,176.6,66.2,54.3,3.19,3.4
4,99.4,176.6,66.4,54.3,3.19,3.4
...,...,...,...,...,...,...
200,109.1,188.8,68.9,55.5,3.78,3.15
201,109.1,188.8,68.8,55.5,3.78,3.15
202,109.1,188.8,68.9,55.5,3.58,2.87
203,109.1,188.8,68.9,55.5,3.01,3.4


Las columnas "wheel-base", "length", "width", "height", "bore" y "stroke" están todas en pulgadas, las convertiremos a centímetros multiplicando su valor por 2,54.

In [44]:
df["wheel-base"] = df["wheel-base"] * 2.54
df["length"] = df["length"] * 2.54
df["width"] = df["width"] * 2.54
df["height"] = df["height"] * 2.54
df["bore"] = df["bore"] * 2.54
df["stroke"] = df["stroke"] * 2.54

df[["wheel-base", "length", "width", "height", "bore", "stroke"]] = df[["wheel-base", "length", "width", "height", "bore", "stroke"]].round(decimals=2)
df[["wheel-base", "length", "width", "height", "bore", "stroke"]]

Unnamed: 0,wheel-base,length,width,height,bore,stroke
0,225.04,428.75,162.81,123.95,8.81,6.81
1,225.04,428.75,162.81,123.95,8.81,6.81
2,240.03,434.85,166.37,133.10,6.81,8.81
3,253.49,448.56,168.15,137.92,8.1,8.64
4,252.48,448.56,168.66,137.92,8.1,8.64
...,...,...,...,...,...,...
200,277.11,479.55,175.01,140.97,9.6,8.0
201,277.11,479.55,174.75,140.97,9.6,8.0
202,277.11,479.55,175.01,140.97,9.09,7.29
203,277.11,479.55,175.01,140.97,7.65,8.64


La columna "curb-weight" muestra el peso del vehículo en libras. Para convertirlo a kilogramo debemos dividir el peso en libras entre 0,4535.

In [45]:
df['curb-weight']

0      2548
1      2548
2      2823
3      2337
4      2824
       ... 
200    2952
201    3049
202    3012
203    3217
204    3062
Name: curb-weight, Length: 205, dtype: int64

In [46]:
df['curb-weight'] = (df['curb-weight'] * 0.4535).round(decimals=2)

df['curb-weight']

0      1155.52
1      1155.52
2      1280.23
3      1059.83
4      1280.68
        ...   
200    1338.73
201    1382.72
202    1365.94
203    1458.91
204    1388.62
Name: curb-weight, Length: 205, dtype: float64

## Normalizar la data.

Podemos normalizar data convirtiendola en scala del valor máximo de la columna y así el valor de la columna irá de 0 a 1, siendo 1 que es igual al valor máximo.

In [47]:
df['height'] = df['height'] / df['height'].max()
df['length'] = df['length'] / df['length'].max()
df['width'] = df['width'] / df['width'].max()

In [48]:
df[["length", "width", "height"]]

Unnamed: 0,length,width,height
0,0.811151,0.886572,0.816051
1,0.811151,0.886572,0.816051
2,0.822691,0.905957,0.876292
3,0.848629,0.915650,0.908026
4,0.848629,0.918427,0.908026
...,...,...,...
200,0.907259,0.953006,0.928106
201,0.907259,0.951590,0.928106
202,0.907259,0.953006,0.928106
203,0.907259,0.953006,0.928106


Otra función al normalizar data eliminando redundancia es cuando tenemos columnas que dicen lo mismo de maneras distintas. Lamentablemente en esta data no hay casos así, así que crearé unos para explicarlo y corregirlo.

In [49]:
df.iloc[[20, 21, 22, 23, 24, 25]]

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-kpl,highway-kpl,price
20,0,81,chevrolet,gas,std,four,sedan,fwd,front,240.03,...,90,2bbl,7.7,7.9,9.6,70,5400,16.1538,18.2793,6575
21,1,118,dodge,gas,std,two,hatchback,fwd,front,238.0,...,90,2bbl,7.54,8.2,9.41,68,5500,15.7287,17.4291,5572
22,1,118,dodge,gas,std,two,hatchback,fwd,front,238.0,...,90,2bbl,7.54,8.2,9.4,68,5500,13.1781,16.1538,6377
23,1,118,dodge,gas,turbo,two,hatchback,fwd,front,238.0,...,98,mpfi,7.7,8.61,7.6,102,5500,10.2024,12.753,7957
24,1,148,dodge,gas,std,four,hatchback,fwd,front,238.0,...,90,2bbl,7.54,8.2,9.4,68,5500,13.1781,16.1538,6229
25,1,148,dodge,gas,std,four,sedan,fwd,front,238.0,...,90,2bbl,7.54,8.2,9.4,68,5500,13.1781,16.1538,6692


In [50]:
df.at[20, 'num-of-doors'] = 4
df.at[22, 'num-of-doors'] = 2
df.at[23, 'num-of-doors'] = 2

In [51]:
df.iloc[[20, 21, 22, 23, 24, 25]]

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-kpl,highway-kpl,price
20,0,81,chevrolet,gas,std,4,sedan,fwd,front,240.03,...,90,2bbl,7.7,7.9,9.6,70,5400,16.1538,18.2793,6575
21,1,118,dodge,gas,std,two,hatchback,fwd,front,238.0,...,90,2bbl,7.54,8.2,9.41,68,5500,15.7287,17.4291,5572
22,1,118,dodge,gas,std,2,hatchback,fwd,front,238.0,...,90,2bbl,7.54,8.2,9.4,68,5500,13.1781,16.1538,6377
23,1,118,dodge,gas,turbo,2,hatchback,fwd,front,238.0,...,98,mpfi,7.7,8.61,7.6,102,5500,10.2024,12.753,7957
24,1,148,dodge,gas,std,four,hatchback,fwd,front,238.0,...,90,2bbl,7.54,8.2,9.4,68,5500,13.1781,16.1538,6229
25,1,148,dodge,gas,std,four,sedan,fwd,front,238.0,...,90,2bbl,7.54,8.2,9.4,68,5500,13.1781,16.1538,6692


In [52]:
df['num-of-doors'].unique()

array(['two', 'four', 4, 2], dtype=object)

El los valores en número de puertas "two" y "2" nos indican lo mismo, el vehículo tiene 2 puertas, pero a nivel de dato hay redundancia, si quisieramos saber cuantos hay de cada número de puertas, "two" y "2 se separaran como valores distintos.

In [53]:
df['num-of-doors'].value_counts()

four    115
two      87
2         2
4         1
Name: num-of-doors, dtype: int64

Además si quisieramos agrupar por el número de puertas para ver otras columnas tendríamos el mismo problema, para eliminar redundancia debe eliminarse redundancia, y debe sustituirse no solo por el valor que aparezca más o menos veces, sino según sea conveniente. Por ejemplo, si esto también sucediera con el número de cilindros, aunque quizas valores como "four" o "six" fuese mas comunes que "4" o "6", como se utilizará también para un calculo, lo conveniente será sustituirlo por el valor numérico.

En este caso se usara el formato que tenia inicialmente.

In [54]:
df['num-of-doors'].replace({2: "two", 4: "four"}, inplace=True)

In [55]:
df['num-of-doors'].value_counts()

four    116
two      89
Name: num-of-doors, dtype: int64

Por último, hay ver si existen filas en las que se repitan todas las celdas.

In [56]:
df[df.duplicated()]

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-kpl,highway-kpl,price


In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    Int64  
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    float64
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    int64  
 16  engine-size        205 non

## Manual de la data.

Al terminar de manejar la data, es una buena idea crear un formato que indica que es la información que tiene cada columna.

"symboling": índice que refleja el riesgo de un carro, siendo -3 muy seguro y 3 muy riesgoso.

"Normalized-losses": perdida promedio por carro asegurado al año. El valor debe oscilar entre 65 y 265.

-"make": la marca del vehículo.

-"fuel-type": tipo de combustible.

-"num-of-doors": número de puertas.

-"body-style": tipo de cuerpo del vehículo.

-"drive-wheels": tipo de tracción.

-"engine-location": ubicación del motor.

-"wheel-base": distancia entre ejes en centímetros.

-"length", "width" y "height": largo, ancho y alto del vehículo e centímetros.

-"curb-weight": peso estando vacío.

-"engine-type": tipo de motor.

-"num-of-cylinders": número de cilindros.

-"engine-size": tamaño del motor.

-"bore": diámetro del cilindro en centímetros.

-"stroke": recorrido del cilindro en centímetros.

-"compression-ratio": relación de compresión.

-"horsepower": caballos de fuerza.

-"peak-rpm": pico de revoluciones por minuto.

-"city-kpl": promedio aproximado de kilometros recorrido por litro de combustible consumido dentro de la ciudad.

-"highway-kpl": promedio aproximado de kilometros recorrido por litro de combustible consumido dentro en una autopista.

-"price": precio del vehículo en dólares.


In [60]:
df.to_csv("vehiculos.csv", index=False)