In [None]:
import pandas as pd
import numpy as np

path = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df = pd.read_csv(path, header=None)
print("The first 5 rows of the dataframe") 
df.head(5)


In [None]:
# create headers list
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
print("headers\n", headers)

In [None]:
df.columns = headers
df.head(10)

In [None]:
#Eliminar filas sin datos de precio
df.dropna(subset=["price"], axis=0)

En este punto de la ejecución si nos fijamos en el índice podremos observar que el índice tiene campos ausentes, que corresponde con las filas que se eliminaron en el paso anterior. Por lo que debemos reestablecer dicho índice para facilitar operaiones posteriores.

In [None]:
#Reestablecemos el índice del dataset, en el mismo objeto.
df.reset_index(drop=True, inplace=True)

#Volvemos a recuperar los datos una vez corregidos
df.head()

Tipado:

Algunas columnas poseen tipos que no corresponden con sus valores. Algunos ejemplos son los valores numéricos en forma de cadena de caracteres.
En nuestro caso, las columnas con `stroke`, `broke`, `normalized-losses`, `price` y `peak-rpm` aparecen como objetos, siendo sus tipos correctos enteros y coma flotante.

In [None]:
df[["bore", "stroke"]] = df[["bore", "stroke"]].astype("float")
df[["normalized-losses"]] = df[["normalized-losses"]].astype("int")
df[["price"]] = df[["price"]].astype("float")
df[["peak-rpm"]] = df[["peak-rpm"]].astype("float")

In [None]:
#Comprobamos los tipos de las columnas del dataframe
df.dtypes

Estandarizacion:



Normalizacion:

In [None]:
df.head()

# replace (original value) by (original value)/(maximum value)
df["length"] = df["length"]/df["length"].max()
df["width"] = df["width"]/df["width"].max()
df['height'] = df['height']/df['height'].max() 
df[["length","width","height"]].head()

Binning:
Agruparemos los valores que representan los caballos de fuerza de los vehículos en grupos discretos. Se representará mediante un histograma.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.hist(df["horsepower"])

plt.xlabel("horsepower")
plt.ylabel("count")
plt.title("HORSEPOWER BINS")

Generaremos 3 categorías de igual tamaño, según la potencia de los vehículos(baja, alta o media).

In [None]:
#numero de grupos
nbins = 3
bins = np.linspace(min(df["horsepower"]),max(df["horsepower"]), nbins+1)
bins
bin_names = ['Low', 'Medium', 'High']


Creamos una columna en el dataframe con el grupo al que pertence la potencia del vehículo.

In [None]:

df['horsepower-binned'] = pd.cut(df['horsepower'], bins, labels=bin_names ,include_lowest = True)
df[['horsepower','horsepower-binned']].head(20)

#Número de vehículos según potencia
group_count = df["horsepower-bined"].value_counts()

Podemos volver a representar el histograma anterior con los grupos actuales.

In [None]:
%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot
pyplot.bar(bin_names, group_count)

plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("count")
plt.pyplot.title("horsepower bins")

Podemos guardar el nuevo dataset ya corregido y bien tipado.

In [None]:
df.to_csv('fixed.csv')