# PREPARACIÓN DE LOS DATOS

In [417]:
# Cargar las librerias necesarias
import numpy as np
import pandas as pd
import matplotlib as plt
import plotly.express as px
import seaborn as sns

In [418]:
# Cargar el dataset para explorarlo

df = pd.read_csv("../coches_segunda_mano.csv", index_col = 0)

df

Unnamed: 0,Nombre,Detalles,Precio al contado,Precio financiado,Año matriculación,Kilometros,Tipo combustible,Tipo de cambio,Potencia,Puertas,Tipo de vendedor
0,CITROEN C5 Aircross,BlueHDi S&S Shine EAT8 180,19.500 €,17.995 €,9/2019,62.473 km,Diésel,Automática,176 cv,5 puertas,Profesional
1,MERCEDES Clase A,A 250 4Matic 7G-DCT,37.400 €,36.400 €,11/2022,9.058 km,Gasolina,Automática,224 cv,5 puertas,Profesional
2,MINI Countryman,COUNTRYMAN COOPER SD ALL4,12.990 €,11.490 €,6/2014,95.100 km,Diésel,Manual,143 cv,5 puertas,Profesional
3,PEUGEOT 2008,1.2 PureTech S&S GT Line 110,10.990 €,9.490 €,1/2016,99.937 km,Gasolina,Manual,110 cv,5 puertas,Profesional
4,MERCEDES Clase B,B 200 7G-DCT,23.790 €,20.790 €,3/2019,34.567 km,Gasolina,Automática,163 cv,5 puertas,Profesional
...,...,...,...,...,...,...,...,...,...,...,...
9995,SEAT León,1.6TDI CR Reference 90,10.490 €,9.690 €,5/2016,152.061 km,Diésel,Manual,90 cv,5 puertas,Profesional
9996,FORD Transit,FT 350 L3 Kombi Ambiente 130,26.900 €,Posibles reparaciones no informadas,11/2019,115.469 km,Diésel,Manual,130 cv,4 puertas,Profesional
9997,FIAT Punto,1.3Mjt 16v Feel/Class,4.490 €,Posibles reparaciones no informadas,4/2008,149.115 km,Diésel,Manual,70 cv,5 puertas,Profesional
9998,BMW X1,sDrive 18d,20.490 €,18.490 €,9/2019,94.595 km,Diésel,Manual,150 cv,5 puertas,Profesional


In [419]:
df.dtypes

Nombre               object
Detalles             object
Precio al contado    object
Precio financiado    object
Año matriculación    object
Kilometros           object
Tipo combustible     object
Tipo de cambio       object
Potencia             object
Puertas              object
Tipo de vendedor     object
dtype: object

In [420]:
# Eliminar columna "Precio financiado" por contener muchos registros sin valor

del df["Precio financiado"]

In [421]:
# En cuanto al año de matriculación, se entiende que el mes no será relevante para el modelo e impide usarlo como dato numérico

years = df["Año matriculación"].str.split("/", expand = True)

df.loc[:, "Año matriculación"] = years.pop(1)

In [422]:
# Arreglar kilómetros, potencia y número de puertas

df["Kilometros"] = df["Kilometros"].str.replace(" km", "")

df["Potencia"] = df["Potencia"].str.replace(" cv", "")

df["Puertas"] = df["Puertas"].str.replace(" puertas", "")

In [423]:
# Eliminar símbolo del euro en el precio y otros valores que no interesan

df["Precio al contado"] = df["Precio al contado"].str.replace("€", "")

df["Precio al contado"] = df["Precio al contado"].str.replace("Posibles reparaciones no informadas", "")

df["Precio al contado"] = df["Precio al contado"].str.replace("Posibles reparaciones no informada", "")

df["Precio al contado"] = df["Precio al contado"].str.replace("Posibles reparaciones no informad", "")

In [424]:
# Se obtienen los valores nulos por columna. Sólo hay un valor nulo. Hay que localizarlo y eliminarlo

df[df["Nombre"].isnull() == True]


Unnamed: 0,Nombre,Detalles,Precio al contado,Año matriculación,Kilometros,Tipo combustible,Tipo de cambio,Potencia,Puertas,Tipo de vendedor
2446,,,,,,Diésel,,,,


In [425]:
df.drop([2446], axis = 0, inplace = True)

In [426]:
df.shape

(9999, 10)

# CAMBIAR LOS TIPOS DE DATOS

In [427]:
# Separar columnas numéricas y categóricas

df["Año matriculación"] = df["Año matriculación"].astype(int)

df["Precio al contado"] = df["Precio al contado"].astype(float) * 1000

df["Kilometros"] = df["Kilometros"].astype(float) * 100

df["Potencia"] = df["Potencia"].astype(int)

df["Puertas"] = df["Puertas"].astype(int)

In [428]:
df.dtypes

Nombre                object
Detalles              object
Precio al contado    float64
Año matriculación      int32
Kilometros           float64
Tipo combustible      object
Tipo de cambio        object
Potencia               int32
Puertas                int32
Tipo de vendedor      object
dtype: object

In [429]:
# Separar los datos según sean numéricos o categóricos

df_num = df._get_numeric_data()

df_cat = df.drop(df_num.columns, axis = 1)

In [430]:
# Obtener la información estadística 

df.describe()

Unnamed: 0,Precio al contado,Año matriculación,Kilometros,Potencia,Puertas
count,9999.0,9999.0,9999.0,9999.0,9999.0
mean,21677.690669,2019.449645,6394.439744,147.391239,4.782978
std,14560.976532,3.464367,5776.304487,65.769516,0.603307
min,1000.0,1994.0,0.0,45.0,2.0
25%,14390.0,2018.0,2456.6,110.0,5.0
50%,18990.0,2020.0,5526.5,130.0,5.0
75%,25990.0,2022.0,9000.0,158.0,5.0
max,890000.0,2024.0,99800.0,680.0,5.0


In [431]:
# Generar un dataset limpio

df.to_csv("../dataset_limpio.csv")

In [432]:
df

Unnamed: 0,Nombre,Detalles,Precio al contado,Año matriculación,Kilometros,Tipo combustible,Tipo de cambio,Potencia,Puertas,Tipo de vendedor
0,CITROEN C5 Aircross,BlueHDi S&S Shine EAT8 180,19500.0,2019,6247.3,Diésel,Automática,176,5,Profesional
1,MERCEDES Clase A,A 250 4Matic 7G-DCT,37400.0,2022,905.8,Gasolina,Automática,224,5,Profesional
2,MINI Countryman,COUNTRYMAN COOPER SD ALL4,12990.0,2014,9510.0,Diésel,Manual,143,5,Profesional
3,PEUGEOT 2008,1.2 PureTech S&S GT Line 110,10990.0,2016,9993.7,Gasolina,Manual,110,5,Profesional
4,MERCEDES Clase B,B 200 7G-DCT,23790.0,2019,3456.7,Gasolina,Automática,163,5,Profesional
...,...,...,...,...,...,...,...,...,...,...
9995,SEAT León,1.6TDI CR Reference 90,10490.0,2016,15206.1,Diésel,Manual,90,5,Profesional
9996,FORD Transit,FT 350 L3 Kombi Ambiente 130,26900.0,2019,11546.9,Diésel,Manual,130,4,Profesional
9997,FIAT Punto,1.3Mjt 16v Feel/Class,4490.0,2008,14911.5,Diésel,Manual,70,5,Profesional
9998,BMW X1,sDrive 18d,20490.0,2019,9459.5,Diésel,Manual,150,5,Profesional
