## INFORME DE ANÁLISIS EXPLORATORIO DE DATOS
### BMW Pricing Dataset

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import LabelEncoder,MinMaxScaler

In [3]:
pd.set_option('display.max_rows',None)
pd.set_option('display.max_columns',None)

### 1. Análisis inicial

In [3]:
# Importamos los datos a un DataFrame de pandas
bmw = pd.read_csv('dataset/bmw_pricing_v3.csv')

In [4]:
bmw.shape

(4843, 18)

In [5]:
bmw.sample(5)

Unnamed: 0,marca,modelo,km,potencia,fecha_registro,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,asientos_traseros_plegables,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
822,,520,191841.0,135.0,2014-04-01,diesel,black,,True,True,True,,True,True,True,True,19300.0,2018-03-01
1993,,116,146057.0,85.0,2012-06-01,diesel,,,False,True,False,,False,False,True,False,8900.0,2018-03-01
4559,BMW,X1,134886.0,120.0,,diesel,silver,suv,True,True,False,False,True,False,True,True,15200.0,2018-07-01
182,BMW,520,146528.0,140.0,2014-07-01,diesel,,,True,True,True,,False,False,True,,18600.0,2018-08-01
233,BMW,520,173446.0,135.0,2013-02-01,diesel,black,estate,True,True,False,,True,False,True,False,15600.0,2018-01-01


In [6]:
bmw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4843 entries, 0 to 4842
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   marca                        3873 non-null   object 
 1   modelo                       4840 non-null   object 
 2   km                           4841 non-null   float64
 3   potencia                     4842 non-null   float64
 4   fecha_registro               2420 non-null   object 
 5   tipo_gasolina                4838 non-null   object 
 6   color                        4398 non-null   object 
 7   tipo_coche                   3383 non-null   object 
 8   volante_regulable            4839 non-null   object 
 9   aire_acondicionado           4357 non-null   object 
 10  camara_trasera               4841 non-null   object 
 11  asientos_traseros_plegables  1452 non-null   object 
 12  elevalunas_electrico         4841 non-null   object 
 13  bluetooth         

In [7]:
bmw.describe()

Unnamed: 0,km,potencia,precio
count,4841.0,4842.0,4837.0
mean,140959.3,128.981826,15831.920612
std,60208.53,38.994839,9222.630708
min,-64.0,0.0,100.0
25%,102884.0,100.0,10800.0
50%,141080.0,120.0,14200.0
75%,175217.0,135.0,18600.0
max,1000376.0,423.0,178500.0


In [10]:
bmw.describe(include=[object])

Unnamed: 0,marca,modelo,fecha_registro,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,asientos_traseros_plegables,elevalunas_electrico,bluetooth,alerta_lim_velocidad,fecha_venta
count,3873,4840,2420,4838,4398,3383,4839,4357,4841,1452,4841,4115,4115,4842
unique,1,76,180,5,10,8,2,2,2,2,2,2,2,13
top,BMW,320,2013-07-01,diesel,black,estate,True,True,False,False,False,False,True,2018-05-01
freq,3873,752,93,4631,1499,1107,2662,3465,3864,1150,2612,3119,2240,809


### 2. Análisis de duplicados

In [11]:
bmw.duplicated().value_counts()

False    4843
Name: count, dtype: int64

In [13]:
bmw[bmw.duplicated()]

Unnamed: 0,marca,modelo,km,potencia,fecha_registro,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,asientos_traseros_plegables,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta


No hay registros duplicados

### 3. Tratamiento de datos nulos

In [14]:
bmw.isnull().sum()

marca                           970
modelo                            3
km                                2
potencia                          1
fecha_registro                 2423
tipo_gasolina                     5
color                           445
tipo_coche                     1460
volante_regulable                 4
aire_acondicionado              486
camara_trasera                    2
asientos_traseros_plegables    3391
elevalunas_electrico              2
bluetooth                       728
gps                               0
alerta_lim_velocidad            728
precio                            6
fecha_venta                       1
dtype: int64

- 3.1- MARCA

In [16]:
bmw.marca.unique()

array([nan, 'BMW'], dtype=object)

In [18]:
round(bmw.marca.value_counts(dropna=False, normalize=True) * 100, 2)

marca
BMW    79.97
NaN    20.03
Name: proportion, dtype: float64

In [19]:
# Copia de seguridad
bmw2 = bmw.copy()

Esta columna no aporta información y contiene muchos nulos. Se elimina

In [20]:
# Eliminamos la columna
del(bmw2['marca'])

In [21]:
bmw2.head()

Unnamed: 0,modelo,km,potencia,fecha_registro,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,asientos_traseros_plegables,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
0,118,140411.0,100.0,2012-02-01,diesel,black,,True,True,False,,True,,True,,11300.0,2018-01-01
1,M4,13929.0,317.0,,petrol,grey,convertible,True,True,False,,False,True,True,True,69700.0,2018-02-01
2,320,183297.0,120.0,2012-04-01,diesel,white,,False,False,False,,True,False,True,False,10200.0,2018-02-01
3,420,128035.0,135.0,,diesel,red,convertible,True,True,False,,True,True,True,,25100.0,2018-02-01
4,425,97097.0,160.0,,diesel,silver,,True,True,False,False,False,True,True,True,33400.0,2018-04-01


- 3.2- FECHA_REGISTRO

In [22]:
round(bmw2.fecha_registro.value_counts(dropna=False, normalize=True) * 100, 2)

fecha_registro
NaN           50.03
2013-07-01     1.92
2014-03-01     1.71
2014-05-01     1.67
2013-01-01     1.61
2013-10-01     1.59
2014-02-01     1.53
2013-06-01     1.38
2014-01-01     1.38
2013-02-01     1.38
2013-11-01     1.26
2012-10-01     1.26
2013-04-01     1.22
2014-04-01     1.20
2013-09-01     1.20
2013-03-01     1.20
2013-08-01     1.12
2012-06-01     1.12
2014-07-01     1.12
2014-09-01     1.01
2013-05-01     0.95
2014-08-01     0.93
2012-11-01     0.89
2012-03-01     0.87
2014-06-01     0.85
2013-12-01     0.83
2012-01-01     0.72
2014-10-01     0.72
2014-11-01     0.70
2012-04-01     0.70
2012-07-01     0.68
2012-09-01     0.66
2012-08-01     0.60
2015-03-01     0.58
2012-05-01     0.56
2012-12-01     0.54
2012-02-01     0.39
2015-06-01     0.39
2015-10-01     0.39
2015-01-01     0.37
2015-05-01     0.37
2014-12-01     0.29
2015-04-01     0.29
2011-10-01     0.29
2011-06-01     0.29
2011-05-01     0.25
2015-07-01     0.25
2011-12-01     0.25
2011-09-01     0.23
2011-

La columna contiene demasiados nulos. Se elimina

In [23]:
bmw3 = bmw2.copy()

In [24]:
del(bmw3['fecha_registro'])

In [25]:
bmw3.head()

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,asientos_traseros_plegables,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
0,118,140411.0,100.0,diesel,black,,True,True,False,,True,,True,,11300.0,2018-01-01
1,M4,13929.0,317.0,petrol,grey,convertible,True,True,False,,False,True,True,True,69700.0,2018-02-01
2,320,183297.0,120.0,diesel,white,,False,False,False,,True,False,True,False,10200.0,2018-02-01
3,420,128035.0,135.0,diesel,red,convertible,True,True,False,,True,True,True,,25100.0,2018-02-01
4,425,97097.0,160.0,diesel,silver,,True,True,False,False,False,True,True,True,33400.0,2018-04-01


In [26]:
bmw3.isnull().sum()

modelo                            3
km                                2
potencia                          1
tipo_gasolina                     5
color                           445
tipo_coche                     1460
volante_regulable                 4
aire_acondicionado              486
camara_trasera                    2
asientos_traseros_plegables    3391
elevalunas_electrico              2
bluetooth                       728
gps                               0
alerta_lim_velocidad            728
precio                            6
fecha_venta                       1
dtype: int64

- 3.3- COLOR

In [27]:
round(bmw3.color.value_counts(dropna=False, normalize=True) * 100, 2)

color
black     30.95
grey      22.09
blue      13.36
white      9.99
NaN        9.19
brown      6.24
silver     6.03
red        0.97
beige      0.76
green      0.29
orange     0.12
Name: proportion, dtype: float64

9,19% de nulos de la muestra total. No se eliminan, sino que se imputa el valor 'otros'

In [28]:
bmw4 = bmw3.copy()

In [29]:
# Se imputa a los nulos el valor 'otros'
bmw4['color'].fillna('otros', inplace=True)

In [30]:
round(bmw4['color'].value_counts(dropna=False, normalize=True) * 100, 2)

color
black     30.95
grey      22.09
blue      13.36
white      9.99
otros      9.19
brown      6.24
silver     6.03
red        0.97
beige      0.76
green      0.29
orange     0.12
Name: proportion, dtype: float64

In [31]:
bmw4.isnull().sum()

modelo                            3
km                                2
potencia                          1
tipo_gasolina                     5
color                             0
tipo_coche                     1460
volante_regulable                 4
aire_acondicionado              486
camara_trasera                    2
asientos_traseros_plegables    3391
elevalunas_electrico              2
bluetooth                       728
gps                               0
alerta_lim_velocidad            728
precio                            6
fecha_venta                       1
dtype: int64

- 3.4- TIPO_COCHE

In [32]:
round(bmw4.tipo_coche.value_counts(dropna=False, normalize=True) * 100, 2)

tipo_coche
NaN            30.15
estate         22.86
sedan          16.95
suv            15.59
hatchback      10.08
subcompact      1.59
coupe           1.57
convertible     0.62
van             0.60
Name: proportion, dtype: float64

Hay un 30,15% de nulos, pero la columna es significativa. Se intentará imputar valores a los registros nulos

In [33]:
bmw4.tipo_coche.value_counts()

tipo_coche
estate         1107
sedan           821
suv             755
hatchback       488
subcompact       77
coupe            76
convertible      30
van              29
Name: count, dtype: int64

In [50]:
bmw4.groupby(['modelo', 'potencia', 'tipo_coche'], dropna=False)[['modelo']].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,modelo
modelo,potencia,tipo_coche,Unnamed: 3_level_1
Active Tourer,100.0,van,1
114,70.0,hatchback,3
114,70.0,subcompact,4
114,70.0,,3
114,75.0,hatchback,3
114,75.0,,2
116,80.0,estate,1
116,80.0,hatchback,2
116,80.0,subcompact,1
116,85.0,estate,1


Hay demasiada variabilidad para imputar valores manualmente. Se le imputa el valor 'otros'

In [51]:
bmw5 = bmw4.copy()

In [52]:
bmw5.tipo_coche.fillna('otros', inplace=True)

In [53]:
round(bmw5.tipo_coche.value_counts(dropna=False, normalize=True) * 100, 2)

tipo_coche
otros          30.15
estate         22.86
sedan          16.95
suv            15.59
hatchback      10.08
subcompact      1.59
coupe           1.57
convertible     0.62
van             0.60
Name: proportion, dtype: float64

In [54]:
bmw5.isnull().sum()

modelo                            3
km                                2
potencia                          1
tipo_gasolina                     5
color                             0
tipo_coche                        0
volante_regulable                 4
aire_acondicionado              486
camara_trasera                    2
asientos_traseros_plegables    3391
elevalunas_electrico              2
bluetooth                       728
gps                               0
alerta_lim_velocidad            728
precio                            6
fecha_venta                       1
dtype: int64

- 3.5- AIRE ACONDICIONADO

In [55]:
round(bmw5.aire_acondicionado.value_counts(dropna=False, normalize=True) * 100, 2)

aire_acondicionado
True     71.55
False    18.42
NaN      10.04
Name: proportion, dtype: float64

Hay un 10% de nulos. Se imputa el valor 'sin_info'

In [56]:
bmw6 = bmw5.copy()

In [57]:
bmw6.aire_acondicionado.fillna('sin_info', inplace=True)

In [58]:
round(bmw6.aire_acondicionado.value_counts(dropna=False,normalize=True)*100, 2)

aire_acondicionado
True        71.55
False       18.42
sin_info    10.04
Name: proportion, dtype: float64

In [59]:
bmw6.isnull().sum()

modelo                            3
km                                2
potencia                          1
tipo_gasolina                     5
color                             0
tipo_coche                        0
volante_regulable                 4
aire_acondicionado                0
camara_trasera                    2
asientos_traseros_plegables    3391
elevalunas_electrico              2
bluetooth                       728
gps                               0
alerta_lim_velocidad            728
precio                            6
fecha_venta                       1
dtype: int64

- 3.6- ASIENTOS_TRASEROS_PLEGABLES

In [60]:
round(bmw6.asientos_traseros_plegables.value_counts(dropna=False,normalize=True)*100, 2)

asientos_traseros_plegables
NaN      70.02
False    23.75
True      6.24
Name: proportion, dtype: float64

Hay demasiados nulos. Se elimina la columna

In [61]:
bmw7 = bmw6.copy()

In [62]:
del(bmw7['asientos_traseros_plegables'])

In [63]:
bmw7.head()

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
0,118,140411.0,100.0,diesel,black,otros,True,True,False,True,,True,,11300.0,2018-01-01
1,M4,13929.0,317.0,petrol,grey,convertible,True,True,False,False,True,True,True,69700.0,2018-02-01
2,320,183297.0,120.0,diesel,white,otros,False,False,False,True,False,True,False,10200.0,2018-02-01
3,420,128035.0,135.0,diesel,red,convertible,True,True,False,True,True,True,,25100.0,2018-02-01
4,425,97097.0,160.0,diesel,silver,otros,True,True,False,False,True,True,True,33400.0,2018-04-01


In [64]:
bmw7.isnull().sum()

modelo                    3
km                        2
potencia                  1
tipo_gasolina             5
color                     0
tipo_coche                0
volante_regulable         4
aire_acondicionado        0
camara_trasera            2
elevalunas_electrico      2
bluetooth               728
gps                       0
alerta_lim_velocidad    728
precio                    6
fecha_venta               1
dtype: int64

- 3.7- BLUETOOTH

In [65]:
round(bmw7.bluetooth.value_counts(dropna=False,normalize=True)*100, 2)

bluetooth
False    64.40
True     20.57
NaN      15.03
Name: proportion, dtype: float64

Hay un 15% de nulos. Se imputa el valor 'sin_info'

In [68]:
bmw8 = bmw7.copy()

In [69]:
bmw8.bluetooth.fillna('sin_info', inplace=True)

In [70]:
round(bmw8.bluetooth.value_counts(dropna=False, normalize=True) * 100, 2)

bluetooth
False       64.40
True        20.57
sin_info    15.03
Name: proportion, dtype: float64

In [71]:
bmw8.isnull().sum()

modelo                    3
km                        2
potencia                  1
tipo_gasolina             5
color                     0
tipo_coche                0
volante_regulable         4
aire_acondicionado        0
camara_trasera            2
elevalunas_electrico      2
bluetooth                 0
gps                       0
alerta_lim_velocidad    728
precio                    6
fecha_venta               1
dtype: int64

- 3.8- ALERTA_LIM_VELOCIDAD

In [72]:
round(bmw8.alerta_lim_velocidad.value_counts(dropna=False,normalize=True)*100, 2)

alerta_lim_velocidad
True     46.25
False    38.72
NaN      15.03
Name: proportion, dtype: float64

Hay un 15% de nulos. Se imputa el valor 'sin_info'

In [73]:
bmw9 = bmw8.copy()

In [74]:
bmw9.alerta_lim_velocidad.fillna('sin_info', inplace=True)

In [75]:
round(bmw9.alerta_lim_velocidad.value_counts(dropna=False, normalize=True) * 100, 2)

alerta_lim_velocidad
True        46.25
False       38.72
sin_info    15.03
Name: proportion, dtype: float64

In [76]:
bmw9.isnull().sum()

modelo                  3
km                      2
potencia                1
tipo_gasolina           5
color                   0
tipo_coche              0
volante_regulable       4
aire_acondicionado      0
camara_trasera          2
elevalunas_electrico    2
bluetooth               0
gps                     0
alerta_lim_velocidad    0
precio                  6
fecha_venta             1
dtype: int64

3.9- Categorías con pocos nulos

- 3.9.1- MODELO

In [77]:
bmw9[bmw9.modelo.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
173,,146338.0,105.0,diesel,black,otros,False,True,False,False,sin_info,True,sin_info,13300.0,2018-08-01
4766,,115566.0,105.0,diesel,silver,suv,False,True,False,True,False,True,False,14900.0,2018-09-01
4802,,118640.0,110.0,diesel,white,otros,False,False,False,False,False,False,False,800.0,2018-03-01


Se evalúan los 3 registros nulos de forma individual

In [78]:
# Vehículo índice 173
round(bmw9[(bmw9['potencia']==105) & (bmw9['tipo_gasolina']=='diesel')&(bmw9['aire_acondicionado']==True)&(bmw9['camara_trasera']==False)&(bmw9['elevalunas_electrico']==False)&(bmw9['volante_regulable']==False)&(bmw9['gps']==True)]['modelo'].value_counts(normalize=True)*100, 2)

modelo
318                 63.11
X1                  11.65
118                 10.68
318 Gran Turismo     9.71
X3                   3.88
525                  0.97
Name: proportion, dtype: float64

In [79]:
# Se imputa el modelo 318 por probabilidad
bmw9.loc[173, 'modelo'] = '318'

In [81]:
# Comprobación
bmw9.loc[[173]]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
173,318,146338.0,105.0,diesel,black,otros,False,True,False,False,sin_info,True,sin_info,13300.0,2018-08-01


In [82]:
bmw9[bmw9.modelo.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
4766,,115566.0,105.0,diesel,silver,suv,False,True,False,True,False,True,False,14900.0,2018-09-01
4802,,118640.0,110.0,diesel,white,otros,False,False,False,False,False,False,False,800.0,2018-03-01


In [None]:
#Vehículo indice 4766
bmw9[(bmw9['potencia']==105) & (bmw9['tipo_gasolina']=='diesel')&(bmw9['aire_acondicionado']==True)&(bmw9['camara_trasera']==False)&(bmw9['elevalunas_electrico']==True)&(bmw9['volante_regulable']==False)&(bmw9['gps']==True)&(bmw9['tipo_coche']=='suv')&(bmw9['bluetooth']==False)]['modelo'].value_counts(normalize=True)*100

modelo
X1    62.5
X3    37.5
Name: proportion, dtype: float64

In [83]:
# Se imputa el modelo X1 por probabilidad
bmw9.loc[4766, 'modelo'] = 'X1'

In [84]:
# Comprobación
bmw9.loc[[4766]]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
4766,X1,115566.0,105.0,diesel,silver,suv,False,True,False,True,False,True,False,14900.0,2018-09-01


In [85]:
bmw9[bmw9.modelo.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
4802,,118640.0,110.0,diesel,white,otros,False,False,False,False,False,False,False,800.0,2018-03-01


In [86]:
# Vehículo índice 4802
round(bmw9[(bmw9['potencia']==110) & (bmw9['tipo_gasolina']=='diesel')&(bmw9['aire_acondicionado']==False)&(bmw9['camara_trasera']==False)&(bmw9['elevalunas_electrico']==False)&(bmw9['volante_regulable']==False)&(bmw9['gps']==False)&(bmw9['bluetooth']==False)]['modelo'].value_counts(normalize=True)*100, 2)

modelo
X3     33.33
218    33.33
318    16.67
X1     16.67
Name: proportion, dtype: float64

Dado que no hay un modelo con mayor probabilidad, se elimina el registro

In [87]:
bmw9.drop(index=4802, inplace=True)

In [88]:
bmw9[bmw9.modelo.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta


In [89]:
bmw9.isnull().sum()

modelo                  0
km                      2
potencia                1
tipo_gasolina           5
color                   0
tipo_coche              0
volante_regulable       4
aire_acondicionado      0
camara_trasera          2
elevalunas_electrico    2
bluetooth               0
gps                     0
alerta_lim_velocidad    0
precio                  6
fecha_venta             1
dtype: int64

- 3.9.2- KM

In [90]:
bmw9[bmw9.km.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
459,520,,135.0,diesel,black,otros,True,True,True,True,True,True,True,20300.0,2018-02-01
4811,X3,,190.0,diesel,blue,van,True,True,True,True,False,True,True,19500.0,2018-07-01


No hay manera de deducir unos valores fiables para imputar a los registros nulos. Por lo tanto, se eliminan

In [91]:
bmw9.dropna(subset='km', inplace=True)

In [92]:
bmw9[bmw9.km.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta


In [93]:
bmw9.isnull().sum()

modelo                  0
km                      0
potencia                1
tipo_gasolina           5
color                   0
tipo_coche              0
volante_regulable       4
aire_acondicionado      0
camara_trasera          2
elevalunas_electrico    2
bluetooth               0
gps                     0
alerta_lim_velocidad    0
precio                  6
fecha_venta             1
dtype: int64

- 3.9.3- POTENCIA

In [94]:
bmw9[bmw9.potencia.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
181,525,106054.0,,diesel,black,estate,False,True,False,False,False,True,True,18700.0,2018-03-01


In [108]:
#Podemos deducir la potencia segun modelo y otras variables?
modelo_181 = '525'
tipo_gasolina_181 = 'diesel'
tipo_coche_181 = 'estate'
volante_regulable_181 = False
aire_acondicionado_181 = True
elevalunas_electrico_181 = False
filtro = (bmw9.modelo == modelo_181) & (bmw9.tipo_gasolina == tipo_gasolina_181) & (bmw9.tipo_coche == tipo_coche_181) & (bmw9.volante_regulable == volante_regulable_181) & (bmw9.aire_acondicionado == aire_acondicionado_181) & (bmw9.elevalunas_electrico == elevalunas_electrico_181)
bmw9[['potencia', 'modelo', 'tipo_gasolina', 'tipo_coche', 'volante_regulable', 'aire_acondicionado', 'elevalunas_electrico']][filtro].value_counts().reset_index()

Unnamed: 0,potencia,modelo,tipo_gasolina,tipo_coche,volante_regulable,aire_acondicionado,elevalunas_electrico,count
0,160.0,525,diesel,estate,False,True,False,4


In [109]:
# Se imputa el valor
bmw9.loc[181, 'potencia'] = 160

In [110]:
# Comprobación
bmw9.loc[[181]]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
181,525,106054.0,160.0,diesel,black,estate,False,True,False,False,False,True,True,18700.0,2018-03-01


In [111]:
bmw9[bmw9.potencia.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta


In [5]:
bmw9.isnull().sum()

modelo                  0
km                      0
potencia                0
tipo_gasolina           5
color                   0
tipo_coche              0
volante_regulable       4
aire_acondicionado      0
camara_trasera          2
elevalunas_electrico    2
bluetooth               0
gps                     0
alerta_lim_velocidad    0
precio                  6
fecha_venta             1
dtype: int64

- 3.9.4- TIPO_GASOLINA

In [13]:
bmw9[bmw9.tipo_gasolina.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
82,420,54993.0,135.0,,black,otros,False,False,False,False,False,False,False,18400.0,2018-03-01
185,320,186697.0,135.0,,white,estate,False,False,False,False,False,False,True,2400.0,2018-04-01
444,318,111622.0,100.0,,black,estate,True,True,False,False,False,True,True,15400.0,2018-02-01
479,318,170350.0,105.0,,white,otros,False,True,False,False,False,True,False,10200.0,2018-02-01
629,318,147558.0,105.0,,white,estate,False,sin_info,False,False,False,False,True,100.0,2018-03-01


In [20]:
#Evaluamos el modelo 420 (indice 82) para ver si podemos imputar el tipo_gasolina
bmw9[['modelo','potencia','tipo_gasolina']][(bmw9['modelo']=='420')&(bmw9['potencia']==135.0)].value_counts().reset_index()

Unnamed: 0,modelo,potencia,tipo_gasolina,count
0,420,135.0,diesel,26
1,420,135.0,petrol,2


In [21]:
# Imputamos el valor 'diesel'
bmw9.loc[[82],['tipo_gasolina']]='diesel'
# Comprobación
bmw9.loc[[82],['tipo_gasolina']]

Unnamed: 0,tipo_gasolina
82,diesel


In [22]:
bmw9[bmw9.tipo_gasolina.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
185,320,186697.0,135.0,,white,estate,False,False,False,False,False,False,True,2400.0,2018-04-01
444,318,111622.0,100.0,,black,estate,True,True,False,False,False,True,True,15400.0,2018-02-01
479,318,170350.0,105.0,,white,otros,False,True,False,False,False,True,False,10200.0,2018-02-01
629,318,147558.0,105.0,,white,estate,False,sin_info,False,False,False,False,True,100.0,2018-03-01


In [23]:
#Evaluamos el modelo 320 (indice 185) para ver si podemos imputar el tipo_gasolina
bmw9[['modelo','potencia','tipo_gasolina']][(bmw9['modelo']=='320')&(bmw9['potencia']==135.0)].value_counts().reset_index()

Unnamed: 0,modelo,potencia,tipo_gasolina,count
0,320,135.0,diesel,297
1,320,135.0,petrol,13


In [24]:
# Imputamos el valor 'diesel'
bmw9.loc[[185],['tipo_gasolina']]='diesel'
# Comprobación
bmw9.loc[[185],['tipo_gasolina']]

Unnamed: 0,tipo_gasolina
185,diesel


In [25]:
bmw9[bmw9.tipo_gasolina.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
444,318,111622.0,100.0,,black,estate,True,True,False,False,False,True,True,15400.0,2018-02-01
479,318,170350.0,105.0,,white,otros,False,True,False,False,False,True,False,10200.0,2018-02-01
629,318,147558.0,105.0,,white,estate,False,sin_info,False,False,False,False,True,100.0,2018-03-01


In [26]:
#Evaluamos el modelo 318  con potencia 100 (indice 444) para ver si podemos imputar el tipo_gasolina
bmw9[['modelo','potencia','tipo_gasolina']][(bmw9['modelo']=='318')&(bmw9['potencia']==100.0)].value_counts().reset_index()

Unnamed: 0,modelo,potencia,tipo_gasolina,count
0,318,100.0,diesel,305
1,318,100.0,petrol,3


In [27]:
# Imputamos el valor 'diesel'
bmw9.loc[[444],['tipo_gasolina']]='diesel'
# Comprobación
bmw9.loc[[444],['tipo_gasolina']]

Unnamed: 0,tipo_gasolina
444,diesel


In [28]:
bmw9[bmw9.tipo_gasolina.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
479,318,170350.0,105.0,,white,otros,False,True,False,False,False,True,False,10200.0,2018-02-01
629,318,147558.0,105.0,,white,estate,False,sin_info,False,False,False,False,True,100.0,2018-03-01


In [29]:
#Evaluamos los modelos 318 con potencia 105 (indices 479 y 629) para ver si podemos imputar el tipo_gasolina
bmw9[['modelo','potencia','tipo_gasolina']][(bmw9['modelo']=='318')&(bmw9['potencia']==105.0)].value_counts().reset_index()

Unnamed: 0,modelo,potencia,tipo_gasolina,count
0,318,105.0,diesel,209
1,318,105.0,petrol,3
2,318,105.0,Diesel,1


In [30]:
# Imputamos el valor 'diesel'
bmw9.loc[[479, 629],['tipo_gasolina']]='diesel'
# Comprobación
bmw9.loc[[479, 629],['tipo_gasolina']]

Unnamed: 0,tipo_gasolina
479,diesel
629,diesel


In [31]:
bmw9[bmw9.tipo_gasolina.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta


In [32]:
bmw9.isnull().sum()

modelo                  0
km                      0
potencia                0
tipo_gasolina           0
color                   0
tipo_coche              0
volante_regulable       4
aire_acondicionado      0
camara_trasera          2
elevalunas_electrico    2
bluetooth               0
gps                     0
alerta_lim_velocidad    0
precio                  6
fecha_venta             1
dtype: int64

- 3.9.5- VOLANTE_REGULABLE

In [33]:
bmw9[bmw9['volante_regulable'].isna()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
66,320,93066.0,135.0,diesel,black,coupe,,False,False,True,False,True,sin_info,11900.0,2018-06-01
273,318,195032.0,100.0,diesel,grey,otros,,sin_info,False,False,False,True,False,4900.0,2018-01-01
488,320,227691.0,135.0,diesel,black,otros,,True,False,False,True,True,False,10500.0,2018-02-01
613,318,201626.0,105.0,diesel,black,otros,,sin_info,False,True,False,True,True,11700.0,2018-03-01


In [34]:
#Evaluamos el modelo 320 (indice 66) para ver si podemos imputar el volante_regulable
bmw9[['volante_regulable','tipo_gasolina','modelo','potencia','tipo_coche','camara_trasera']][(bmw9['modelo']=='320')&(bmw9['potencia']==135)&(bmw9['tipo_gasolina']=='diesel')&(bmw9['tipo_coche']=='coupe')&(bmw9['camara_trasera']==False)].value_counts(normalize=True).reset_index()

Unnamed: 0,volante_regulable,tipo_gasolina,modelo,potencia,tipo_coche,camara_trasera,proportion
0,False,diesel,320,135.0,coupe,False,0.5
1,True,diesel,320,135.0,coupe,False,0.5


Ya que esta variable no se relaciona con las demás características del vehículo, no se puede imputar un valor fiable. Se eliminan los registros nulos.

In [35]:
bmw9.dropna(subset='volante_regulable', inplace=True)

In [36]:
bmw9[bmw9.volante_regulable.isna()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta


In [38]:
bmw9.isnull().sum()

modelo                  0
km                      0
potencia                0
tipo_gasolina           0
color                   0
tipo_coche              0
volante_regulable       0
aire_acondicionado      0
camara_trasera          2
elevalunas_electrico    2
bluetooth               0
gps                     0
alerta_lim_velocidad    0
precio                  6
fecha_venta             1
dtype: int64

- 3.9.6- CAMARA_TRASERA

In [39]:
bmw9[bmw9.camara_trasera.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
291,520,163675.0,135.0,diesel,otros,estate,True,True,,True,sin_info,True,True,14900.0,2018-01-01
409,316,160619.0,85.0,diesel,black,estate,False,True,,True,sin_info,True,sin_info,11700.0,2018-04-01


In [40]:
#Evaluamos el modelo 520 (indice 291) para ver si podemos imputar la camara_trasera
bmw9[['camara_trasera','modelo', 'potencia','tipo_gasolina','tipo_coche']][(bmw9['modelo']=='520')&(bmw9['potencia']==135)&(bmw9['tipo_gasolina']=='diesel')&(bmw9['tipo_coche']=='estate')].value_counts(normalize=True).reset_index()

Unnamed: 0,camara_trasera,modelo,potencia,tipo_gasolina,tipo_coche,proportion
0,False,520,135.0,diesel,estate,0.709677
1,True,520,135.0,diesel,estate,0.290323


In [41]:
# Imputamos el valor False
bmw9.loc[[291],['camara_trasera']]=False
# Comprobación
bmw9.loc[291]['camara_trasera']

False

In [42]:
bmw9[bmw9.camara_trasera.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
409,316,160619.0,85.0,diesel,black,estate,False,True,,True,sin_info,True,sin_info,11700.0,2018-04-01


In [43]:
#Evaluamos el modelo 316 (indice 409) para ver si podemos imputar la camara_trasera
bmw9[['camara_trasera','modelo', 'potencia','tipo_gasolina','tipo_coche']][(bmw9['modelo']=='316')&(bmw9['potencia']==85)&(bmw9['tipo_gasolina']=='diesel')&(bmw9['tipo_coche']=='estate')].value_counts(normalize=True).reset_index()

Unnamed: 0,camara_trasera,modelo,potencia,tipo_gasolina,tipo_coche,proportion
0,False,316,85.0,diesel,estate,0.948718
1,True,316,85.0,diesel,estate,0.051282


In [44]:
# Imputamos el valor False
bmw9.loc[[409],['camara_trasera']]=False
# Comprobación
bmw9.loc[409]['camara_trasera']

False

In [45]:
bmw9[bmw9.camara_trasera.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta


In [46]:
bmw9.isnull().sum()

modelo                  0
km                      0
potencia                0
tipo_gasolina           0
color                   0
tipo_coche              0
volante_regulable       0
aire_acondicionado      0
camara_trasera          0
elevalunas_electrico    2
bluetooth               0
gps                     0
alerta_lim_velocidad    0
precio                  6
fecha_venta             1
dtype: int64

- 3.9.7- ELEVALUNAS_ELECTRICO

In [47]:
bmw9[bmw9.elevalunas_electrico.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
63,640,69695.0,230.0,diesel,otros,coupe,True,True,False,,True,True,True,36300.0,2018-02-01
305,535,148738.0,230.0,diesel,grey,estate,True,True,True,,False,True,True,28800.0,2018-01-01


In [48]:
# Evaluamos el modelo 640 (indice 63) para ver si podemos imputar los elevalunas_electricos
bmw9[['elevalunas_electrico','modelo','potencia','tipo_gasolina','tipo_coche']][(bmw9['modelo']=='640')&(bmw9['potencia']==230)&(bmw9['tipo_gasolina']=='diesel')&(bmw9['tipo_coche']=='coupe')].value_counts(normalize=True).reset_index()

Unnamed: 0,elevalunas_electrico,modelo,potencia,tipo_gasolina,tipo_coche,proportion
0,True,640,230.0,diesel,coupe,1.0


In [53]:
# Imputamos el valor True
bmw9.loc[[63],['elevalunas_electrico']]=True
# Comprobación
bmw9.loc[63,'elevalunas_electrico']

True

In [50]:
bmw9[bmw9.elevalunas_electrico.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
305,535,148738.0,230.0,diesel,grey,estate,True,True,True,,False,True,True,28800.0,2018-01-01


In [51]:
# Evaluamos el modelo 535 (indice 305) para ver si podemos imputar los elevalunas_electricos
bmw9[['elevalunas_electrico','modelo','potencia','tipo_gasolina','tipo_coche']][(bmw9['modelo']=='535')&(bmw9['potencia']==230)&(bmw9['tipo_gasolina']=='diesel')&(bmw9['tipo_coche']=='estate')].value_counts(normalize=True).reset_index()

Unnamed: 0,elevalunas_electrico,modelo,potencia,tipo_gasolina,tipo_coche,proportion
0,True,535,230.0,diesel,estate,0.9
1,False,535,230.0,diesel,estate,0.1


In [54]:
# Imputamos el valor True
bmw9.loc[[305],['elevalunas_electrico']]=True
# Comprobación
bmw9.loc[305,'elevalunas_electrico']

True

In [55]:
bmw9[bmw9.elevalunas_electrico.isnull()]

Unnamed: 0,modelo,km,potencia,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta


In [56]:
bmw9.isnull().sum()

modelo                  0
km                      0
potencia                0
tipo_gasolina           0
color                   0
tipo_coche              0
volante_regulable       0
aire_acondicionado      0
camara_trasera          0
elevalunas_electrico    0
bluetooth               0
gps                     0
alerta_lim_velocidad    0
precio                  6
fecha_venta             1
dtype: int64

- 3.9.8- PRECIO

Ya que es la variable que queremos predecir (Target), eliminamos directamente los registros nulos.

- 3.9.9- FECHA_VENTA

### 4. Análisis Univariable

4.1- Evaluamos si hay variables que se puedan convertir a booleanas

4.2- Listamos las variables según si son numéricas, booleanas o categóricas

4.3- Variables numéricas

- 4.3.1- KM

- 4.3.2- POTENCIA

4.4- Variables booleanas

Al ser booleanas, no hay que hacerles ningún otro tratamiento ni evaluación

4.5- Variables categóricas

- 4.5.1- MODELO

- 4.5.2- TIPO_GASOLINA

- 4.5.3- COLOR

- 4.5.4- TIPO_COCHE

- 4.5.5- AIRE_ACONDICIONADO

- 4.5.6- BLUETOOTH

- 4.5.7- ALERTA_LIM_VELOCIDAD

- 4.5.8- FECHA_VENTA

4.6- Target

- 4.6.1- PRECIO

### 5. Análisis de correlación inicial

### 6. Análisis Variable vs Target

- 6.1- Categóricas

- 6.2- Numéricas

- 6.3- Booleanas

### 7. Transformación de variables categóricas. OHE (One-Hot Encoding)

### 8. Normalización de variables numéricas. MinMaxScaler

### 9. Análisis de correlación final