<h3>1.- Importación de librerías</h3>

In [2]:
# Importamos las librerías necesarias

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

<h3>2.- Importación del Dataset</h3>

In [3]:
# Importamos el Dataset leyendo el archivo csv en un DataFrame

df_bmw0 = pd.read_csv("dataset/bmw_pricing_v3.csv")

<h3>3.- Exploración Inicial del Dataset</h3>

Ejemplo de columnas

In [4]:
df_bmw0.sample(10)

Unnamed: 0,marca,modelo,km,potencia,fecha_registro,tipo_gasolina,color,tipo_coche,volante_regulable,aire_acondicionado,camara_trasera,asientos_traseros_plegables,elevalunas_electrico,bluetooth,gps,alerta_lim_velocidad,precio,fecha_venta
4032,BMW,X3,119034.0,135.0,,diesel,silver,suv,False,False,False,,False,False,True,False,14400.0,2018-06-01
2918,BMW,520,125783.0,135.0,2012-12-01,diesel,grey,sedan,True,True,True,,False,False,True,,14900.0,2018-03-01
4253,,X3,117115.0,135.0,2013-10-01,diesel,black,,True,True,False,,True,True,True,True,22300.0,2018-05-01
1343,BMW,320,274948.0,135.0,,diesel,grey,,True,True,False,,False,False,True,True,10700.0,2018-06-01
941,BMW,318,125677.0,100.0,,diesel,blue,,True,True,False,False,False,False,True,False,10900.0,2018-04-01
2406,BMW,420 Gran Coupé,65403.0,120.0,,diesel,black,hatchback,True,True,True,,True,,True,True,24400.0,2018-08-01
2857,BMW,530,125738.0,190.0,,diesel,white,sedan,False,True,False,,True,,True,True,28000.0,2018-03-01
4404,BMW,X5,181159.0,225.0,,diesel,brown,suv,True,True,False,True,True,False,True,True,16800.0,2018-06-01
2193,BMW,116,127577.0,85.0,,diesel,white,,False,,False,,False,False,True,False,8900.0,2018-08-01
3641,BMW,116,103856.0,85.0,2011-03-01,diesel,black,,False,,False,,False,False,True,False,3600.0,2018-03-01


Número de filas y columnas

In [5]:
df_bmw0.shape

(4843, 18)

Columnas y tipo de Datos

In [6]:
df_bmw0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4843 entries, 0 to 4842
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   marca                        3873 non-null   object 
 1   modelo                       4840 non-null   object 
 2   km                           4841 non-null   float64
 3   potencia                     4842 non-null   float64
 4   fecha_registro               2420 non-null   object 
 5   tipo_gasolina                4838 non-null   object 
 6   color                        4398 non-null   object 
 7   tipo_coche                   3383 non-null   object 
 8   volante_regulable            4839 non-null   object 
 9   aire_acondicionado           4357 non-null   object 
 10  camara_trasera               4841 non-null   object 
 11  asientos_traseros_plegables  1452 non-null   object 
 12  elevalunas_electrico         4841 non-null   object 
 13  bluetooth         

Número de nulos

In [7]:
df_bmw0.isnull().sum()

marca                           970
modelo                            3
km                                2
potencia                          1
fecha_registro                 2423
tipo_gasolina                     5
color                           445
tipo_coche                     1460
volante_regulable                 4
aire_acondicionado              486
camara_trasera                    2
asientos_traseros_plegables    3391
elevalunas_electrico              2
bluetooth                       728
gps                               0
alerta_lim_velocidad            728
precio                            6
fecha_venta                       1
dtype: int64

### Comentarios

 - El Dataset tiene 4843 registros

 - Todas las columnas (excepto la de gps) tienen algún nulo, aunque hay 9 de ellas que tienen solo algunos valores nulos sueltos que podrán imputarse fácilmente.

 - Hay 3 columnas (color, bluetooth y alerta_lim_velocidad) que tienen un número moderado de nulos (entre el 10% y el 20% del total de registros)

 - La columna tipo_coche tiene un 33% de valores nulos

 - La columna fecha_registro tiene un 50% de valores nulos

 - La columna asientos_traseros_plegables tiene un 70% de valores nulos

 - Tenemos 3 columnas numéricas (km, potencia y precio), 1 columna booleana (gps), y el resto de las columnas son objects (strings)

 - A la vista de los datos, fecha_registro y fecha_venta podrían transformarse a tipo Date

 - A la vista de los datos, las columnas volante_regulable, aire-acondicionado, camara_trasera, asientos_traseros_plegables, 
elevalunas_electrico, bluetooh, alerta_lim_velocidad podrían transformarse a tipo Booleano.

<h3>4.- Comprobación de registros duplicados</h3>

In [8]:
df_bmw0[df_bmw0.duplicated()].shape

(0, 18)

No hay 2 registros completamente idénticos, aunque eso no descartaría por completo los duplicados (podría haber registros iguales donde se haya modificado solamente el valor de alguna de las columnas). Como comprobación rápida, vamos a ver si hay coches de la misma marca y modelo, con el mismo kilometraje, y que tengan la misma fecha de registro y de venta (si los hay, podría ser que se hubiera introdcido el mismo registro por duplicado, aunque no todos los datos sean idénticos).

In [14]:
df_bmw0[df_bmw0[['marca','modelo','km','fecha_registro', 'fecha_venta']].duplicated(keep=False)].shape

(0, 18)

A la vista de los resultados, podemos deducir que no hay registros duplicados.

<h3>5.- Análisis de nulos</h3>

In [95]:
# Como vamos a empezar a realizar cambios, hacemos una copia del DataFrame y empezamos a hacer un análisis de los nulos

df_bmw1 = df_bmw0.copy()
df_bmw1.isnull().sum()

marca                           970
modelo                            3
km                                2
potencia                          1
fecha_registro                 2423
tipo_gasolina                     5
color                           445
tipo_coche                     1460
volante_regulable                 4
aire_acondicionado              486
camara_trasera                    2
asientos_traseros_plegables    3391
elevalunas_electrico              2
bluetooth                       728
gps                               0
alerta_lim_velocidad            728
precio                            6
fecha_venta                       1
dtype: int64

Analizamos cada columna independientemente

### 5.1 Columna Marca

In [96]:
# La columna 'marca' es de tipo object (string). Hacemos un value_counts() de esa columna para ver la distribución de valores, y cuáto representan los nulos

df_bmw1['marca'].value_counts(dropna=False, normalize=True)*100

marca
BMW    79.971092
NaN    20.028908
Name: proportion, dtype: float64

El 80% de los registros son de la marca BMW, y tenemos un 20% de nulos. A priori, esta columna no agrega información (ya que se supone que todos los coches son BMW). Vamos a hacer una comprobación, obteniendo una lista de modelos con la marca BMW, y viendo si los modelos donde la marca es null se encuentran en esa lista.

In [105]:
#Creamos una lista con los modelos que sí tienen Marca (BMW)

lista_modelos_con_marca = df_bmw1[df_bmw1['marca'].notnull()]['modelo'].unique().tolist()
lista_modelos_con_marca

['M4',
 '320',
 '420',
 '425',
 '335',
 '325',
 '118',
 '120',
 '220',
 '650',
 'Z4',
 '135',
 '318',
 '430',
 '218',
 'M3',
 '330',
 '225',
 '316',
 '435',
 '640',
 '640 Gran Coupé',
 '435 Gran Coupé',
 'i8',
 '430 Gran Coupé',
 '635',
 '520',
 nan,
 '525',
 '530',
 '535',
 '320 Gran Turismo',
 '116',
 '518',
 '328',
 '523',
 'X3',
 'M550',
 '325 Gran Turismo',
 '318 Gran Turismo',
 '125',
 'i3',
 '520 Gran Turismo',
 '420 Gran Coupé',
 '530 Gran Turismo',
 '114',
 'M135',
 '330 Gran Turismo',
 '418 Gran Coupé',
 '335 Gran Turismo',
 '730',
 '123',
 '535 Gran Turismo',
 '740',
 '750',
 '528',
 'ActiveHybrid 5',
 '735',
 'M5',
 'X5',
 'X1',
 'X4',
 'X6',
 'X6 M',
 'X5 M',
 'X5 M50',
 '218 Active Tourer',
 '218 Gran Tourer',
 '216',
 '216 Gran Tourer',
 '216 Active Tourer',
 ' Active Tourer',
 '214 Gran Tourer']

In [119]:
#Creamos otra lista, con los modelos que no tienen marca 

lista_modelos_sin_marca = df_bmw1[df_bmw1['marca'].isnull()]['modelo'].unique().tolist()
lista_modelos_sin_marca

['118',
 'Z4',
 '325',
 '218',
 '120',
 'M235',
 '425',
 '435',
 '640',
 '420',
 '220',
 'M4',
 '320',
 '630',
 '318',
 '520',
 '316',
 '535',
 '525',
 '518',
 '530',
 'M550',
 '330',
 '116',
 '528',
 '328',
 '125',
 '420 Gran Coupé',
 '114',
 '320 Gran Turismo',
 '318 Gran Turismo',
 '530 Gran Turismo',
 '418 Gran Coupé',
 '520 Gran Turismo',
 '135',
 '435 Gran Coupé',
 '640 Gran Coupé',
 '740',
 '730',
 'X1',
 'X3',
 'X5',
 'X6',
 'X4',
 'X6 M',
 'X5 M',
 'X5 M50',
 '220 Active Tourer',
 '218 Active Tourer',
 '225 Active Tourer',
 '218 Gran Tourer']