# Entregable Data Preparation

In [1]:
#importamos librerías y herramientas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder,MinMaxScaler, OrdinalEncoder

###Creamos el Data Frame y lo nombramos _df_bmw_

In [3]:
df_bmw = pd.read_csv("./data/bmw_pricing_v3.csv")

In [4]:
# ESTRUCTURA DE DATOS
df_bmw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4843 entries, 0 to 4842
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   marca                        3873 non-null   object 
 1   modelo                       4840 non-null   object 
 2   km                           4841 non-null   float64
 3   potencia                     4842 non-null   float64
 4   fecha_registro               2420 non-null   object 
 5   tipo_gasolina                4838 non-null   object 
 6   color                        4398 non-null   object 
 7   tipo_coche                   3383 non-null   object 
 8   volante_regulable            4839 non-null   object 
 9   aire_acondicionado           4357 non-null   object 
 10  camara_trasera               4841 non-null   object 
 11  asientos_traseros_plegables  1452 non-null   object 
 12  elevalunas_electrico         4841 non-null   object 
 13  bluetooth         

###Revisamos si hay duplicados para eliminar

In [7]:
df_bmw[df_bmw.duplicated(keep=False)] #No hay duplicados
#Para comprobar que no hay duplicados hago un conteo inicial de mis filas, utilizo drop_duplicated y vuelvo a contar filas
# len(imdb)
# imdb.drop_duplicated(inplace=True)
# len(imdb)

Unnamed: 0,marca,modelo,km,potencia,fecha_registro,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,asientos_traseros_plegables,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta


###Iniciamos con los  cambios, previa copia

In [8]:
df_bmw2 = df_bmw.copy()

In [9]:
df_bmw2.isnull().sum()

marca                           970
modelo                            3
km                                2
potencia                          1
fecha_registro                 2423
tipo_gasolina                     5
color                           445
tipo_coche                     1460
volante_regulable                 4
aire_acondicionado              486
camara_trasera                    2
asientos_traseros_plegables    3391
elevalunas_electrico              2
bluetooth                       728
gps                               0
alerta_lim_velocidad            728
precio                            6
fecha_venta                       1
dtype: int64

In [10]:
#Observamos nulos inferiores al 1% en las columnas, las eliminamos
for i in df_bmw2:
  if df_bmw2[i].isnull().sum() < 7:
   df_bmw2.dropna(subset=[i],inplace=True)

###Hacemos una copia para revisar variable por variable

In [11]:
#Empezamos a revisar las variables
df_bmw3 = df_bmw2.copy()

In [12]:
df_bmw3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4817 entries, 0 to 4842
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   marca                        3852 non-null   object 
 1   modelo                       4817 non-null   object 
 2   km                           4817 non-null   float64
 3   potencia                     4817 non-null   float64
 4   fecha_registro               2408 non-null   object 
 5   tipo_gasolina                4817 non-null   object 
 6   color                        4375 non-null   object 
 7   tipo_coche                   3368 non-null   object 
 8   volante_regulable            4817 non-null   object 
 9   aire_acondicionado           4335 non-null   object 
 10  camara_trasera               4817 non-null   object 
 11  asientos_traseros_plegables  1444 non-null   object 
 12  elevalunas_electrico         4817 non-null   object 
 13  bluetooth              

###Variable **Marca**
Observamos que tiene solo dos únicos valores y como sabemos que el dataset es de BMW, los nulos lo completamos con la moda y/o la misma marca. Al tratarse de toda la columna el mismo valor, decidimos eliminarla.

In [None]:
#df_bmw3['marca'].isnull().sum()
#df_bmw3['marca'].unique()
#df_bmw3['marca'].value_counts(normalize=True)
df_bmw3['marca'].fillna(df_bmw3['marca'].mode()[0], inplace=True) #Completo los nulos con la moda

In [14]:
del(df_bmw3['marca'])

###Variable **Color**
Observamos su distribución con _normalize_ y lo reemplazamos los nulos con la moda

In [None]:
df_bmw3[df_bmw3['color'].isnull()]
#df_bmw3['color'].value_counts(normalize=True)
df_bmw3['color'].fillna(df_bmw3['color'].mode()[0], inplace=True)

In [16]:
df_bmw4 = df_bmw3.copy()

###Variable **tipo_coche**
Reemplazamos los nulos con _sin tipo_

In [19]:
df_bmw4['tipo_coche'].fillna('sin tipo', inplace=True)

###Variable **aire_acondicionado**

In [18]:
df_bmw4['aire_acondicionado'].unique() #Evaluamos luego

array([True, False, nan], dtype=object)

###Variable **asientos_traseros_plegables**

In [20]:
#Eliminamos la columna ya que tienes mas del 75% nulos
del(df_bmw4['asientos_traseros_plegables'])

###Variable **bluetooth**

In [21]:
df_bmw4['bluetooth'].unique() #Evaluamos luego

array([nan, True, False], dtype=object)

###Variable **alerta_lim_velocidad**

In [22]:
df_bmw4['alerta_lim_velocidad'].unique() #Evaluamos luego

array([nan, True, False], dtype=object)