# VENTAS DE VEHÍCULOS USADOS EN EBAY ALEMANIA

Vamos a estudiar un dataset de ventas de vehículos usados, obtenido de *eBay Kleinanzeigen*, una sección de clasificados de eBay Alemania.

El dataset fue obtenido originalmente mediante web scraping, y está totalmente en bruto. Limpiaremos el dataset y lo prepararemos para poder trabajar con él.

Queremos saber qué marcas y qué modelos son más populares en el mercado alemán, sus precios, y además saber cuánto se devalúan los coches de media para poder saber qué momento es bueno para comprar.

Vamos a leer el dataset, y utilizaremos pandas para convertirlo en un DataFrame.

In [1]:
import numpy as np
import pandas as pd

autos = pd.read_csv("E:/COSAS/Python/DataQuest_io/Datasets/Ebay Autos/autosmod.csv")

## 1. UN PRIMER VISTAZO AL DATASET

Vamos a ver una muestra del DataFrame que acabamos de crear:

In [2]:
autos

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,odometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_T�V_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49995,2016-03-27 14:38:19,Audi_Q5_3.0_TDI_qu._S_tr.__Navi__Panorama__Xenon,privat,Angebot,"$24,900",control,limousine,2011,automatik,239,q5,"100,000km",1,diesel,audi,nein,2016-03-27 00:00:00,0,82131,2016-04-01 13:47:40
49996,2016-03-28 10:50:25,Opel_Astra_F_Cabrio_Bertone_Edition___T�V_neu+...,privat,Angebot,"$1,980",control,cabrio,1996,manuell,75,astra,"150,000km",5,benzin,opel,nein,2016-03-28 00:00:00,0,44807,2016-04-02 14:18:02
49997,2016-04-02 14:44:48,Fiat_500_C_1.2_Dualogic_Lounge,privat,Angebot,"$13,200",test,cabrio,2014,automatik,69,500,"5,000km",11,benzin,fiat,nein,2016-04-02 00:00:00,0,73430,2016-04-04 11:47:27
49998,2016-03-08 19:25:42,Audi_A3_2.0_TDI_Sportback_Ambition,privat,Angebot,"$22,900",control,kombi,2013,manuell,150,a3,"40,000km",11,diesel,audi,nein,2016-03-08 00:00:00,0,35683,2016-04-05 16:45:07


El dataset tiene 50.000 registros y 20 columnas.

Vamos a ver más información:

In [3]:
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   dateCrawled          50000 non-null  object
 1   name                 50000 non-null  object
 2   seller               50000 non-null  object
 3   offerType            50000 non-null  object
 4   price                50000 non-null  object
 5   abtest               50000 non-null  object
 6   vehicleType          44905 non-null  object
 7   yearOfRegistration   50000 non-null  int64 
 8   gearbox              47320 non-null  object
 9   powerPS              50000 non-null  int64 
 10  model                47242 non-null  object
 11  odometer             50000 non-null  object
 12  monthOfRegistration  50000 non-null  int64 
 13  fuelType             45518 non-null  object
 14  brand                50000 non-null  object
 15  notRepairedDamage    40171 non-null  object
 16  date

Estas son las columnas del dataset. Vamos a mostrar una breve descripción de las mismas, que hemos obtenido en la documentación del dataset.

https://data.world/data-society/used-cars-data

- **dateCrawled** - Cuándo se rastreó este anuncio por primera vez. Todos los valores se toman a partir de esta fecha
- **name** - Nombre del vehículo
- **seller** - Vendedor privado o profesional
- **offerType** - El tipo de listado
- **price** - El precio del vehículo en el anuncio
- **abtest** - Si el listado está incluido en una prueba A / B.
- **vehicleType** - Tipo de vehículo
- **yearOfRegistration** - Año de matriculación del vehículo
- **gearbox** - Tipo de transmisión del vehículo
- **powerPS** - Potencia en ps
- **model** - Modelo del vehículo
- **odometer** - Kilómetros del vehículo
- **monthOfRegistration** - Mes de matriculación del vehículo
- **fuelType** - Tipo de combustible
- **brand** - Marca
- **notRepairedDamage** - Si el vehículo tiene daños que necesitan reparación
- **dateCreated** - Fecha en la que se creó el anuncio de eBay.
- **nrOfPictures** - Número de fotos en el anuncio
- **postalCode** - Código postal donde se encuentra el vehículo
- **lastSeen** - Cuando el rastreador vio este anuncio por última vez en línea

## 2. DATA CLEANING 

Vemos que los nombres de las columnas están en formato camelcase:

In [4]:
autos.columns

Index(['dateCrawled', 'name', 'seller', 'offerType', 'price', 'abtest',
       'vehicleType', 'yearOfRegistration', 'gearbox', 'powerPS', 'model',
       'odometer', 'monthOfRegistration', 'fuelType', 'brand',
       'notRepairedDamage', 'dateCreated', 'nrOfPictures', 'postalCode',
       'lastSeen'],
      dtype='object')

Vamos a cambiar los nombres de algunas columnas, y cambiaremos el formato de camelcase a snakecase (más común en Python y más legible para trabajar con datos).

En concreto vamos a cambiar lo siguiente:

- yearOfRegistration -->  registration_year
- monthOfRegistration  -->  registration_month
- notRepairedDamage  -->  unrepaired_damage
- odometer  -->  kilometer
- Los demás registros camelcase --> snakecase

In [5]:
# cambiamos directamente el nombre de las columnas
autos.columns = ['date_crawled', 'name', 'seller', 'offer_type', 'price', 'abtest',
       'vehicle_type', 'registration_year', 'gearbox', 'power_ps', 'model',
       'kilometer', 'registration_month', 'fuel_type', 'brand',
       'unrepaired_damage', 'date_created', 'nr_of_pictures', 'postal_code',
       'last_seen']

In [6]:
autos.columns

Index(['date_crawled', 'name', 'seller', 'offer_type', 'price', 'abtest',
       'vehicle_type', 'registration_year', 'gearbox', 'power_ps', 'model',
       'kilometer', 'registration_month', 'fuel_type', 'brand',
       'unrepaired_damage', 'date_created', 'nr_of_pictures', 'postal_code',
       'last_seen'],
      dtype='object')

Mostramos la cabecera para corroborar que los nombres han sido modificados:

In [7]:
autos.head()

Unnamed: 0,date_crawled,name,seller,offer_type,price,abtest,vehicle_type,registration_year,gearbox,power_ps,model,kilometer,registration_month,fuel_type,brand,unrepaired_damage,date_created,nr_of_pictures,postal_code,last_seen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_T�V_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50


### 2.1. EXPLORACIÓN BÁSICA DEL DATAFRAME

Ya tenemos las columnas modificadas. Vamos a realizar ahora una exploración básica para determinar qué otras tareas de Data Cleaning es necesario realizar. De momento vamos a buscar:

- Columnas de texto donde todos o casi todos los valores son iguales
- Ejemplos de datos numéricos almacenados que podrían ser limpiados o convertidos

In [8]:
autos.describe(include="all")

Unnamed: 0,date_crawled,name,seller,offer_type,price,abtest,vehicle_type,registration_year,gearbox,power_ps,model,kilometer,registration_month,fuel_type,brand,unrepaired_damage,date_created,nr_of_pictures,postal_code,last_seen
count,50000,50000,50000,50000,50000,50000,44905,50000.0,47320,50000.0,47242,50000,50000.0,45518,50000,40171,50000,50000.0,50000.0,50000
unique,48213,38754,2,2,2357,2,8,,2,,245,13,,7,40,2,76,,,39481
top,2016-03-10 15:36:24,Ford_Fiesta,privat,Angebot,$0,test,limousine,,manuell,,golf,"150,000km",,benzin,volkswagen,nein,2016-04-03 00:00:00,,,2016-04-07 06:17:27
freq,3,78,49999,49999,1421,25756,12859,,36993,,4024,32424,,30107,10687,35232,1946,,,8
mean,,,,,,,,2005.07328,,116.35592,,,5.72336,,,,,0.0,50813.6273,
std,,,,,,,,105.712813,,209.216627,,,3.711984,,,,,0.0,25779.747957,
min,,,,,,,,1000.0,,0.0,,,0.0,,,,,0.0,1067.0,
25%,,,,,,,,1999.0,,70.0,,,3.0,,,,,0.0,30451.0,
50%,,,,,,,,2003.0,,105.0,,,6.0,,,,,0.0,49577.0,
75%,,,,,,,,2008.0,,150.0,,,9.0,,,,,0.0,71540.0,


**1 ) Hay ciertos datos que necesitan ser modificados para trabajar con ellos, como por ejemplo:**

- **name:** hay vehículos que están escritos en camelcase, podríamos escribirlos con un espacio
- **offer_type:** está en alemán, podríamos traducirlo al inglés
- **price:** están indicados con moneda, y no solamente el número
- **gearbox, fueltype:** en alemán
- **model,brand:** en minúsculas; podríamos capitalizar los nombres que no lo estén
- **kilometer:** vienen con el nº seguido de "km", podríamos eliminar el string "km"

**2 ) Podemos ver que existen ciertas anomalías:**

- Existen precios de 0€
- Existen años de registro no válidos, como el año 1000 o el 9999
- Hay coches con potencias de 17.000cv

**3 ) Columnas que podríamos descartar:**

- nr_of_pictures, parece que no existen los números de fotos en el dataset. De existir, podría servirnos para determinar, por ejemplo, si a más fotos antes se vende el vehículo, pero si no existen, no tiene sentido trabajar con la columna.

### 2.2. REESCRIBIENDO VALORES NUMÉRICOS

Vamos a realizar las primeras modificaciones en los datos del DataFrame. 

Lo primero que vamos a hacer será reescribir los valores numéricos que no vienen por defecto como tal, como los km y el precio.

#### 2.2.1. MODIFICANDO LA COLUMNA "KILOMETER"

Vamos a ver en detalle la columna "kilometer":

In [9]:
kilom = autos["kilometer"]

In [10]:
kilom.describe()

count         50000
unique           13
top       150,000km
freq          32424
Name: kilometer, dtype: object

In [11]:
kilom.unique()

array(['150,000km', '70,000km', '50,000km', '80,000km', '10,000km',
       '30,000km', '125,000km', '90,000km', '20,000km', '60,000km',
       '5,000km', '100,000km', '40,000km'], dtype=object)

Vamos a modificar los strings de la columna "kilometer" y los vamos a convertir a enteros.

In [12]:
# creamos una lista vacía que almacenará los km como enteros
clean_km = []
# iteramos sobre la columna "kilometer"
for km in kilom:
    # y realizamos las operaciones de limpieza para cada valor
    km = km.replace(",","")
    km = km.replace("km","")
    km = int(km)
    # finalmente, agregamos los elementos limpios a la lista
    clean_km.append(km)
# y reemplazamos los valores en el DataFrame    
autos["kilometer"] = clean_km

In [13]:
kilom = autos["kilometer"]
kilom

0        150000
1        150000
2         70000
3         70000
4        150000
          ...  
49995    100000
49996    150000
49997      5000
49998     40000
49999    150000
Name: kilometer, Length: 50000, dtype: int64

Hemos convertido los valores a enteros, y el *dtype* de "kilometer" es ahora *int64*, que es lo que queríamos.

#### 2.2.2. MODIFICANDO LA COLUMNA "PRICE"

Vamos a observar la columna "price":

In [14]:
precios = autos["price"]

In [15]:
precios.describe()

count     50000
unique     2357
top          $0
freq       1421
Name: price, dtype: object

In [16]:
precios.unique()

array(['$5,000', '$8,500', '$8,990', ..., '$385', '$22,200', '$16,995'],
      dtype=object)

Debemos convertir los valores a enteros, ya que en principio no parece haber números decimales.
En caso de haberlos, no cambiaría nada la finalidad de nuestro análisis, ya que la modificación del precio sería muy pequeña.

In [17]:
# Repetimos el procedimiento anterior: lista vacía, iteración, reemplazo de datos.
precios_limpios =  []

for precio in precios:
    precio = precio.replace("$","")
    precio = precio.replace(",","")
    precio = int(precio)
    
    precios_limpios.append(precio)
    
autos["price"] = precios_limpios
precios = autos["price"]

In [18]:
precios

0         5000
1         8500
2         8990
3         4350
4         1350
         ...  
49995    24900
49996     1980
49997    13200
49998    22900
49999     1250
Name: price, Length: 50000, dtype: int64

In [19]:
precios.dtype

dtype('int64')

Ya tenemos la columna "price" con datatype *int64* ,y los valores convertidos a enteros.

Ahora vamos a buscar valores extraños:

In [20]:
precios.describe()

count    5.000000e+04
mean     9.840044e+03
std      4.811044e+05
min      0.000000e+00
25%      1.100000e+03
50%      2.950000e+03
75%      7.200000e+03
max      1.000000e+08
Name: price, dtype: float64

In [21]:
precios.sort_values(ascending=False)

39705    99999999
42221    27322222
27371    12345678
39377    12345678
47598    12345678
           ...   
43510           0
33620           0
39231           0
48060           0
38354           0
Name: price, Length: 50000, dtype: int64

Vemos que existen precios que no son reales, como 99.999.9999 o 12.345.678

Vamos a ver cuantos precios hay por encima de 300.000 dólares, que parece un precio bastante alto, pero aún así, posible:

In [22]:
# creamos un array booleano
more300k = autos.loc[(autos["price"] > 300000)]
more300k

Unnamed: 0,date_crawled,name,seller,offer_type,price,abtest,vehicle_type,registration_year,gearbox,power_ps,model,kilometer,registration_month,fuel_type,brand,unrepaired_damage,date_created,nr_of_pictures,postal_code,last_seen
514,2016-03-17 09:53:08,Ford_Focus_Turnier_1.6_16V_Style,privat,Angebot,999999,test,kombi,2009,manuell,101,focus,125000,4,benzin,ford,nein,2016-03-17 00:00:00,0,12205,2016-04-06 07:17:35
2897,2016-03-12 21:50:57,Escort_MK_1_Hundeknochen_zum_umbauen_auf_RS_2000,privat,Angebot,11111111,test,limousine,1973,manuell,48,escort,50000,3,benzin,ford,nein,2016-03-12 00:00:00,0,94469,2016-03-12 22:45:27
7814,2016-04-04 11:53:31,Ferrari_F40,privat,Angebot,1300000,control,coupe,1992,,0,,50000,12,,sonstige_autos,nein,2016-04-04 00:00:00,0,60598,2016-04-05 11:34:11
11137,2016-03-29 23:52:57,suche_maserati_3200_gt_Zustand_unwichtig_laufe...,privat,Angebot,10000000,control,coupe,1960,manuell,368,,100000,1,benzin,sonstige_autos,nein,2016-03-29 00:00:00,0,73033,2016-04-06 21:18:11
14715,2016-03-30 08:37:24,Rolls_Royce_Phantom_Drophead_Coupe,privat,Angebot,345000,control,cabrio,2012,automatik,460,,20000,8,benzin,sonstige_autos,nein,2016-03-30 00:00:00,0,73525,2016-04-07 00:16:26
22947,2016-03-22 12:54:19,Bmw_530d_zum_ausschlachten,privat,Angebot,1234566,control,kombi,1999,automatik,190,,150000,2,diesel,bmw,,2016-03-22 00:00:00,0,17454,2016-04-02 03:17:32
24384,2016-03-21 13:57:51,Schlachte_Golf_3_gt_tdi,privat,Angebot,11111111,test,,1995,,0,,150000,0,,volkswagen,,2016-03-21 00:00:00,0,18519,2016-03-21 14:40:18
27371,2016-03-09 15:45:47,Fiat_Punto,privat,Angebot,12345678,control,,2017,,95,punto,150000,0,,fiat,,2016-03-09 00:00:00,0,96110,2016-03-09 15:45:47
36818,2016-03-27 18:37:37,Porsche_991,privat,Angebot,350000,control,coupe,2016,manuell,500,911,5000,3,benzin,porsche,nein,2016-03-27 00:00:00,0,70499,2016-03-27 18:37:37
37585,2016-03-29 11:38:54,Volkswagen_Jetta_GT,privat,Angebot,999990,test,limousine,1985,manuell,111,jetta,150000,12,benzin,volkswagen,ja,2016-03-29 00:00:00,0,50997,2016-03-29 11:38:54


Aquí están todos los coches con precio superior a 300.000 dólares.

Vemos que algunos tienen sentido, como por ejemplo un Ferrari F40 por 1.300.000 , o un Porsche 991 por 350.000. Sin embargo, la mayoría de ellos no tienen sentido y vamos a eliminarlos definitivamente. 

En concreto, vamos a eliminar las filas:

- 514
- 2897
- 11137
- 22947
- 24384
- 27371
- 37585
- 39377
- 39705
- 42221
- 43049
- 47598

In [23]:
autos = autos.drop([514,2897,11137,22947,24384,27371,37585,39377,39705,42221,43049,47598])

Una vez eliminadas las filas que no nos interesan, volvemos a buscar los coches con precios superiores a 300.000 dólares: 

In [24]:
more300k = autos.loc[(autos["price"] > 300000)]
more300k

Unnamed: 0,date_crawled,name,seller,offer_type,price,abtest,vehicle_type,registration_year,gearbox,power_ps,model,kilometer,registration_month,fuel_type,brand,unrepaired_damage,date_created,nr_of_pictures,postal_code,last_seen
7814,2016-04-04 11:53:31,Ferrari_F40,privat,Angebot,1300000,control,coupe,1992,,0,,50000,12,,sonstige_autos,nein,2016-04-04 00:00:00,0,60598,2016-04-05 11:34:11
14715,2016-03-30 08:37:24,Rolls_Royce_Phantom_Drophead_Coupe,privat,Angebot,345000,control,cabrio,2012,automatik,460,,20000,8,benzin,sonstige_autos,nein,2016-03-30 00:00:00,0,73525,2016-04-07 00:16:26
36818,2016-03-27 18:37:37,Porsche_991,privat,Angebot,350000,control,coupe,2016,manuell,500,911.0,5000,3,benzin,porsche,nein,2016-03-27 00:00:00,0,70499,2016-03-27 18:37:37
47634,2016-04-04 21:25:21,Ferrari_FXX,privat,Angebot,3890000,test,coupe,2006,,799,,5000,7,,sonstige_autos,nein,2016-04-04 00:00:00,0,60313,2016-04-05 12:07:37


Vemos que en este caso sí tiene sentido, son coches muy exclusivos que pueden llegar a costar el precio que se pide por ellos, por lo que los mantenemos en el DataFrame.

### 2.3 FECHAS Y HORAS

Queremos conocer qué periodo de tiempo cubre el dataset.


Por el momento, vamos a ver cuántas columnas del dataset contienen fechas/horas :

In [25]:
autos.head()

Unnamed: 0,date_crawled,name,seller,offer_type,price,abtest,vehicle_type,registration_year,gearbox,power_ps,model,kilometer,registration_month,fuel_type,brand,unrepaired_damage,date_created,nr_of_pictures,postal_code,last_seen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,5000,control,bus,2004,manuell,158,andere,150000,3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,8500,control,limousine,1997,automatik,286,7er,150000,6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,8990,test,limousine,2009,manuell,102,golf,70000,7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,4350,control,kleinwagen,2007,automatik,71,fortwo,70000,6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_T�V_neu_ist_sehr_gepfleg...,privat,Angebot,1350,test,kombi,2003,manuell,0,focus,150000,7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50


Las siguientes columnas contienen fechas:

- date_crawled
- registration_year
- registration_month
- date_created
- last_seen

Vemos que date_crawled, date_created y last_seen son fechas creadas por el rastreador, mientras que registration_year y registration_month son fechas ingresadas manualmente por las personas que publicaron el anuncio.

In [26]:
autos[["date_crawled","date_created","last_seen"]].head()

Unnamed: 0,date_crawled,date_created,last_seen
0,2016-03-26 17:47:46,2016-03-26 00:00:00,2016-04-06 06:45:54
1,2016-04-04 13:38:56,2016-04-04 00:00:00,2016-04-06 14:45:08
2,2016-03-26 18:57:24,2016-03-26 00:00:00,2016-04-06 20:15:37
3,2016-03-12 16:58:10,2016-03-12 00:00:00,2016-03-15 03:16:28
4,2016-04-01 14:38:50,2016-04-01 00:00:00,2016-04-01 14:38:50


In [27]:
autos[["registration_year","registration_month"]].head()

Unnamed: 0,registration_year,registration_month
0,2004,3
1,1997,6
2,2009,7
3,2007,6
4,2003,7


En el caso de las fechas creadas por el rastreador, no nos interesan las horas, por lo que nos quedaremos únicamente con la fecha AAAA-MM-DD .

Como estos datos están en el DataFrame como tipo string, podemos eliminar fácilmente las horas, y quedarnos con los datos en un formato que nos interese más.

#### 2.3.1. COLUMNA "date_crawled"

In [28]:
print(autos["date_crawled"].str[0:10])

0        2016-03-26
1        2016-04-04
2        2016-03-26
3        2016-03-12
4        2016-04-01
            ...    
49995    2016-03-27
49996    2016-03-28
49997    2016-04-02
49998    2016-03-08
49999    2016-03-14
Name: date_crawled, Length: 49988, dtype: object


Directamente eliminamos las horas que no nos interesan para cada una de las tres filas:

In [29]:
autos["date_crawled"] = autos["date_crawled"].str[0:10]
autos["date_created"] = autos["date_created"].str[0:10]
autos["last_seen"] = autos["last_seen"].str[0:10] 

In [30]:
autos[["date_crawled","date_created","last_seen"]].head()

Unnamed: 0,date_crawled,date_created,last_seen
0,2016-03-26,2016-03-26,2016-04-06
1,2016-04-04,2016-04-04,2016-04-06
2,2016-03-26,2016-03-26,2016-04-06
3,2016-03-12,2016-03-12,2016-03-15
4,2016-04-01,2016-04-01,2016-04-01


Ahora tenemos las fechas en un formato más cómodo para trabajar con ellas.

Vamos a mostrar los anuncios como porcentajes diarios.

Asignamos los porcentajes de los valores a una variable que llamaremos *dt_cr_perc*

In [31]:
dt_cr_perc = autos["date_crawled"].value_counts(normalize=True, dropna=False)

In [32]:
dt_cr_perc = dt_cr_perc.sort_index() # lo ordenamos por ínidices y quedará ordenado por fecha
dt_cr_perc

2016-03-05    0.025386
2016-03-06    0.013943
2016-03-07    0.035969
2016-03-08    0.033268
2016-03-09    0.033208
2016-03-10    0.032128
2016-03-11    0.032488
2016-03-12    0.036769
2016-03-13    0.015564
2016-03-14    0.036629
2016-03-15    0.033988
2016-03-16    0.029507
2016-03-17    0.031508
2016-03-18    0.013063
2016-03-19    0.034908
2016-03-20    0.037829
2016-03-21    0.037489
2016-03-22    0.032908
2016-03-23    0.032388
2016-03-24    0.029107
2016-03-25    0.031748
2016-03-26    0.032488
2016-03-27    0.031047
2016-03-28    0.034848
2016-03-29    0.034148
2016-03-30    0.033628
2016-03-31    0.031908
2016-04-01    0.033808
2016-04-02    0.035408
2016-04-03    0.038689
2016-04-04    0.036529
2016-04-05    0.013103
2016-04-06    0.003181
2016-04-07    0.001420
Name: date_crawled, dtype: float64

In [33]:
dt_cr_perc.describe()

count    34.000000
mean      0.029412
std       0.009764
min       0.001420
25%       0.029892
50%       0.032698
75%       0.034893
max       0.038689
Name: date_crawled, dtype: float64

La columna date_crawled del dataset cubre 34 días, desde el 05-Marzo-2016 hasta el 07-Abril-2016.

La distribución de porcentajes diarias es la que acabamos de mostrar.

#### 2.3.2. COLUMNA "date_created"

Como ya hemos modificado los strings en el proceso de limpieza de la columna "date_crawled", directamente sacamos la tabla de porcentajes para la columna "date_created"

In [34]:
dt_creat_perc = autos["date_created"].value_counts(normalize=True, dropna=False)
dt_creat_perc = dt_creat_perc.sort_index()

In [35]:
dt_creat_perc

2015-06-11    0.000020
2015-08-10    0.000020
2015-09-09    0.000020
2015-11-10    0.000020
2015-12-05    0.000020
                ...   
2016-04-03    0.038929
2016-04-04    0.036889
2016-04-05    0.011843
2016-04-06    0.003261
2016-04-07    0.001280
Name: date_created, Length: 76, dtype: float64

In [36]:
dt_creat_perc.describe()

count    76.000000
mean      0.013158
std       0.015958
min       0.000020
25%       0.000020
50%       0.000140
75%       0.032283
max       0.038929
Name: date_created, dtype: float64

Vemos que hay anuncios sueltos que se crearon varios meses atrás, y ocupan porcentajes muy pequeños, pero están ahí. Estos coches por algún motivo no se llegaron a vender, o al menos no en un plazo razonable de tiempo.

#### 2.3.2. COLUMNA "last_seen"

Volvemos a hacer las mismas operaciones que hicimos con "date_crawled" y "date_created", esta vez para la columna "last_seen":

In [37]:
last_seen_perc = autos["last_seen"].value_counts(normalize=True, dropna=False)
last_seen_perc = last_seen_perc.sort_index()

In [38]:
last_seen_perc

2016-03-05    0.001080
2016-03-06    0.004421
2016-03-07    0.005361
2016-03-08    0.007582
2016-03-09    0.009842
2016-03-10    0.010763
2016-03-11    0.012523
2016-03-12    0.023806
2016-03-13    0.008982
2016-03-14    0.012803
2016-03-15    0.015884
2016-03-16    0.016444
2016-03-17    0.027927
2016-03-18    0.007422
2016-03-19    0.015744
2016-03-20    0.020705
2016-03-21    0.020725
2016-03-22    0.021585
2016-03-23    0.018584
2016-03-24    0.019565
2016-03-25    0.019205
2016-03-26    0.016964
2016-03-27    0.016024
2016-03-28    0.020845
2016-03-29    0.022325
2016-03-30    0.024846
2016-03-31    0.023826
2016-04-01    0.023106
2016-04-02    0.024886
2016-04-03    0.025366
2016-04-04    0.024626
2016-04-05    0.124310
2016-04-06    0.220973
2016-04-07    0.130951
Name: last_seen, dtype: float64

In [39]:
last_seen_perc.describe()

count    34.000000
mean      0.029412
std       0.043484
min       0.001080
25%       0.012593
50%       0.019385
75%       0.023821
max       0.220973
Name: last_seen, dtype: float64

Destacan los tres últimos días, 5,6 y 7 de Abril que acumulan casi el 50% de los anuncios.
Por otra parte tiene sentido, ya que la columna indica la fecha en que el rastreador vio el anuncio por última vez.

#### 2.3.3. COLUMNA "registration_month"

Esta columna no tiene interés alguno para nosotros, salvo quizás poder determinar en qué mes se matricularon más coches, o buscar datos erróneos, si los hubiese.

No obstante vamos a echarle un vistazo:

In [40]:
reg_month = autos["registration_month"]
reg_month.describe()

count    49988.000000
mean         5.723874
std          3.711875
min          0.000000
25%          3.000000
50%          6.000000
75%          9.000000
max         12.000000
Name: registration_month, dtype: float64

Vemos que el 25%,50%,75% y max coinciden bastante bien con la realidad de un año natural, y vamos a dejar intacta la columna, ya que no parece tener errores graves.

#### 2.3.4. COLUMNA "registration_year"

In [41]:
reg_year = autos["registration_year"]
reg_year.describe()

count    49988.000000
mean      2005.075478
std        105.725062
min       1000.000000
25%       1999.000000
50%       2003.000000
75%       2008.000000
max       9999.000000
Name: registration_year, dtype: float64

Aquí si que vemos errores significativos. Por ejemplo, el valor mínimo es el año 1000 y el máximo 9999.
Vamos a filtrar, acotando el periodo de matriculación de los vehículos entre 1950-2016.

En principio colocamos 1950 por si hubiese algún vehículo clásico muy antiguo a la venta, cosa que es perfectamente posible.

Ya de paso, veremos si los valores que eran cero en *registration_month* tienen algo que ver con valores incorrectos en *registration_year*:

In [42]:
out50_16 = autos.loc[(autos["registration_year"] > 2016) | (autos["registration_year"] < 1950)]

In [43]:
out50_16

Unnamed: 0,date_crawled,name,seller,offer_type,price,abtest,vehicle_type,registration_year,gearbox,power_ps,model,kilometer,registration_month,fuel_type,brand,unrepaired_damage,date_created,nr_of_pictures,postal_code,last_seen
10,2016-03-15,VW_Golf_Tuning_in_siber/grau,privat,Angebot,999,test,,2017,manuell,90,,150000,4,benzin,volkswagen,nein,2016-03-14,0,86157,2016-04-07
55,2016-03-07,Mercedes_E320_AMG_zu_Tauschen!,privat,Angebot,1,test,,2017,automatik,224,e_klasse,125000,7,benzin,mercedes_benz,nein,2016-03-06,0,22111,2016-03-08
65,2016-04-04,Ford_Fiesta_zum_ausschlachten,privat,Angebot,250,control,,2017,manuell,65,fiesta,125000,9,benzin,ford,,2016-04-04,0,65606,2016-04-05
68,2016-04-03,Mini_cooper_s_clubman_/vollausstattung_/_Navi/...,privat,Angebot,10990,test,,2017,manuell,174,clubman,100000,0,,mini,nein,2016-04-03,0,83135,2016-04-05
84,2016-03-27,Renault_twingo,privat,Angebot,900,control,,2018,,60,twingo,150000,0,,renault,,2016-03-27,0,40589,2016-04-05
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49796,2016-03-09,Opel_corsa_1.4_zu_verkaufen,privat,Angebot,4500,test,,2017,manuell,90,corsa,70000,7,benzin,opel,nein,2016-03-09,0,88433,2016-03-17
49841,2016-03-11,Passat_abzugeben.,privat,Angebot,600,test,,2017,manuell,101,passat,150000,7,,volkswagen,,2016-03-11,0,53804,2016-03-11
49880,2016-03-30,E39_528i_an_Bastler,privat,Angebot,0,control,,2017,manuell,193,5er,150000,4,,bmw,ja,2016-03-30,0,65468,2016-04-07
49910,2016-04-03,Schoener_fast_neuer_Opel_Mokka_in_Zell_Mosel_m...,privat,Angebot,22200,test,,9000,automatik,140,andere,10000,3,benzin,opel,,2016-04-03,0,56856,2016-04-05


Aquí vemos que tenemos 1994 coches cuyo año de matriculación no cumple los criterios que hemos establecido. Por lo tanto, vamos a eliminar todas estas filas.

In [44]:
index_to_remove = autos.loc[(autos["registration_year"] > 2016) | (autos["registration_year"] < 1950)].index

In [45]:
autos.drop(index_to_remove, inplace=True)

Podemos verificar que efectivamente se han eliminado las filas, volviendo a ejecutar la variable "out50_16" :

In [46]:
out50_16.describe()

Unnamed: 0,price,registration_year,power_ps,kilometer,registration_month,nr_of_pictures,postal_code
count,1994.0,1994.0,1994.0,1994.0,1994.0,1994.0,1994.0
mean,3606.090271,2058.788867,97.95988,129177.532598,4.622367,0.0,47867.57673
std,5008.905095,525.483161,424.436404,39628.550994,3.909452,0.0,25295.986962
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,900.0,2017.0,0.0,125000.0,1.0,0.0,27629.0
50%,1950.0,2017.0,75.0,150000.0,4.0,0.0,46046.0
75%,4500.0,2018.0,118.0,150000.0,8.0,0.0,66129.25
max,64900.0,9999.0,16011.0,150000.0,12.0,0.0,99974.0


Y corroboramos que se han eliminado las filas que queríamos.

Ahora que tenemos solo los años de matriculación reales, vamos a mostrar la distribución de los mismos normalizada:

In [47]:
autos["registration_year"].value_counts(normalize=True).head(8)

2000    0.069884
2005    0.062820
1999    0.062466
2004    0.057028
2003    0.056820
2006    0.056424
2001    0.056299
2002    0.052777
Name: registration_year, dtype: float64

Parece que la mayoría de los coches que se venden en eBay Alemania tienen al menos 10 años.

Vamos a mostrar los diez años de matriculación más frecuentes:

In [48]:
autos["registration_year"].value_counts(normalize=True).head(10)

2000    0.069884
2005    0.062820
1999    0.062466
2004    0.057028
2003    0.056820
2006    0.056424
2001    0.056299
2002    0.052777
1998    0.051111
2007    0.048006
Name: registration_year, dtype: float64

Casi el 60% de los vehículos a la venta tienen 10 años o más.

## 3. ESTADÍSTICAS DEL DATASET

En este apartado vamos a estudiar en profundidad los datos que nos puedan interesar, e intentaremos sacar conclusiones mediante estadísticas. 

En concreto nos interesará conocer:

- Las marcas de coches que más se anuncian
- Los modelos más anunciados de cada marca
- El precio medio por marca y modelo
- El valor dinerario que se pierde por año de antigüedad (de aquí podemos sacar la devaluación)

### 3.1. MARCAS MÁS POPULARES

Vamos a ver todas las marcas que hay presentes en el dataset:

In [49]:
autos["brand"].value_counts()

volkswagen        10184
bmw                5282
opel               5191
mercedes_benz      4577
audi               4149
ford               3347
renault            2273
peugeot            1418
fiat               1242
seat                873
skoda               770
mazda               727
nissan              725
smart               668
citroen             668
toyota              599
sonstige_autos      513
hyundai             473
volvo               444
mini                415
mitsubishi          391
honda               377
kia                 341
alfa_romeo          318
porsche             293
suzuki              284
chevrolet           274
chrysler            176
dacia               123
daihatsu            123
jeep                108
subaru              105
land_rover           98
saab                 77
jaguar               76
trabant              74
daewoo               72
rover                65
lancia               52
lada                 29
Name: brand, dtype: int64

Vamos a seleccionar solamente las 20 marcas más vendidas, ya que nos interesa conocer precisamente las marcas más populares:

In [50]:
top_brands = autos["brand"].value_counts().head(20)

Vamos a ver qué porcentaje del mercado ocupan las 20 marcas que hemos seleccionado:

In [51]:
# Aquí mostraremos el total de registros del dataset...
autos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 47994 entries, 0 to 49999
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   date_crawled        47994 non-null  object
 1   name                47994 non-null  object
 2   seller              47994 non-null  object
 3   offer_type          47994 non-null  object
 4   price               47994 non-null  int64 
 5   abtest              47994 non-null  object
 6   vehicle_type        44877 non-null  object
 7   registration_year   47994 non-null  int64 
 8   gearbox             45583 non-null  object
 9   power_ps            47994 non-null  int64 
 10  model               45543 non-null  object
 11  kilometer           47994 non-null  int64 
 12  registration_month  47994 non-null  int64 
 13  fuel_type           44278 non-null  object
 14  brand               47994 non-null  object
 15  unrepaired_damage   39023 non-null  object
 16  date_created        47

In [52]:
# ...y aquí el total de registros de las 20 marcas más populares
top_brands.sum()

44538

El dataset completo tiene ahora mismo 47994 registros, mientras que las marcas que hemos seleccionado tienen 44538.

In [53]:
print(f"Las 20 marcas más vendidas copan un {round(44538/47994,2)*100}" , "% del mercado")

Las 20 marcas más vendidas copan un 93.0 % del mercado


Por lo tanto, la cantidad de marcas que hemos seleccionado parece una muestra más que razonable teniendo en cuenta que ocupan casi la totalidad del mercado.

In [54]:
top_brands.head()

volkswagen       10184
bmw               5282
opel              5191
mercedes_benz     4577
audi              4149
Name: brand, dtype: int64

In [55]:
top_brands.head().sum()

29383

Las 5 marcas más anunciadas en Alemania son precisamente 5 marcas alemanas (Volkswagen, BMW, Opel, Mercedes-Benz y Audi).

In [56]:
# Porcentaje de vehículos anunciados entre el top 5 de nuestro top 20
round(((top_brands.head().sum()) / (top_brands.sum()))*100)

66

Dos tercios de los vehículos anunciados corresponden exclusivamente a marcas alemanas. El tercio restante se lo reparten entre todas las demás marcas.

Más concretamente, Volkswagen es la marca más anunciada con mucha diferencia:

In [57]:
# Porcentaje de mercado de VW
round((10184 / top_brands.sum())*100,2)

22.87

Volkswagen ocupa prácticamente el 23% del mercado de vehículos usados en Alemania.

**RESUMEN MARCAS:**

- Volkswagen es el rey indiscutible del mercado de coches usados en Alemania, con el 23% del mercado.
- El 66% del mercado alemán de coches usados son exclusivamente coches de marcas alemanas.
- Las cinco marcas más vendidas son:
    - Volkswagen
    - BMW
    - Opel
    - Mercedes-Benz
    - Audi

### 3.2. MODELOS MÁS POPULARES POR MARCAS

Vamos ahora a buscar los modelos de coches más ofertados en Alemania.

In [58]:
autos["model"].value_counts().head(10)

golf        3815
andere      3449
3er         2688
polo        1677
corsa       1644
passat      1388
astra       1388
a4          1265
5er         1163
c_klasse    1147
Name: model, dtype: int64

Estos son los modelos con más anuncios publicados. Vamos ahora a explorar cada marca de manera individual.

#### 3.2.1. VOLKSWAGEN

Empezaremos buscando los modelos más populares de Volkswagen, ya que es la marca que más vehículos tiene ofertados.

In [59]:
vw = autos.loc[autos["brand"] == "volkswagen","model"]

In [60]:
vw.value_counts()

golf           3815
polo           1677
passat         1388
transporter     688
touran          438
lupo            329
sharan          225
caddy           211
beetle          124
tiguan          118
bora            104
andere           97
touareg          95
scirocco         87
fox              85
eos              66
kaefer           60
up               51
jetta            38
phaeton          32
cc               18
amarok            6
Name: model, dtype: int64

In [61]:
# Porcentaje de mercado de los vehículos Volkswagen
round(vw.value_counts().sum()/top_brands.sum()*100)

22

In [62]:
# Total de Volkswagen
vw.value_counts().sum()

9752

In [63]:
vw_top5 = vw.value_counts().head()

In [64]:
vw_top5

golf           3815
polo           1677
passat         1388
transporter     688
touran          438
Name: model, dtype: int64

In [65]:
print(f"Los 5 coches más ofertados de VW ocupan el {round(vw_top5.sum()/top_brands.sum()*100)} % del total")

Los 5 coches más ofertados de VW ocupan el 18 % del total


In [66]:
print(f"El {round(3815/top_brands.sum()*100)} % de los coches a la venta son Volkswagen Golf")

El 9 % de los coches a la venta son Volkswagen Golf


In [67]:
print(f"El {round(3815/vw.value_counts().sum()*100)} % de los coches Volkswagen a la venta son Golf")

El 39 % de los coches Volkswagen a la venta son Golf


#### 3.2.1.1. VOLKSWAGEN : PRECIOS MEDIOS

In [68]:
vw_price = autos.loc[autos["brand"] == "volkswagen","price"]

In [69]:
# Precio medio de un Volkswagen
round(vw_price.mean())

5227

Un vehículo Volkswagen cuesta de media 5.227 dólares.

#### 3.2.1.2. VOLKSWAGEN GOLF : PRECIOS MEDIOS

Vamos a calcular el precio medio de un Volkswagen Golf:

In [70]:
golf_price = autos.loc[autos["model"] == "golf","price"]

In [71]:
round(golf_price.mean())

4938

- Los modelos de Volkswagen abarcan el 22% del mercado alemán de vehículos usados.
- Los 5 modelos más populares de Volkswagen son: Golf, Polo, Passat, Transporter y Touran, los cuales ocupan un 18% del mercado.
- El 9% de los vehículos a la venta son VW Golf, casi 1 de cada 10.
- De todos los Volkswagen a la venta, el 39% son Volkswagen Golf (casi 4 de cada 10).
- Un Volkswagen cuesta de media 5.227 dólares.
- Un Volkswagen Golf cuesta de media 4.938 dólares.

#### 3.2.2. BMW

BMW es una de las marcas más populares, de hecho es la segunda marca que más vehículos tiene ofertados en el dataset.

In [72]:
bmw = autos.loc[autos["brand"] == "bmw","model"]

In [73]:
bmw.value_counts()

3er        2688
5er        1163
1er         525
x_reihe     296
7er         131
z_reihe     119
m_reihe      46
andere       40
6er          31
i3            1
Name: model, dtype: int64

In [74]:
bmw.value_counts().sum()

5040

Hay que entender que los nombres están en alemán, y que por ejemplo 3er significa "BMW Serie 3", que es el nombre comercial que tienen en España.

In [75]:
# Porcentaje de BMW respecto del total
round(bmw.value_counts().sum()/top_brands.sum()*100)

11

El 11% de los vehículos anunciados son BMW, la mitad que Volkswagen (22%).

In [76]:
print(f"El BMW Serie 3 representa el {round(2688/bmw.value_counts().sum()*100, 2)} % de los BMW")

El BMW Serie 3 representa el 53.33 % de los BMW


#### 3.2.2.1. BMW : PRECIOS MEDIOS

In [77]:
bmw_price = autos.loc[autos["brand"] == "bmw","price"]

In [78]:
round(bmw_price.mean())

8102

Un BMW cuesta de media 8.102 dólares.

#### 3.2.2.1. BMW Serie 3 : PRECIOS MEDIOS

In [79]:
s3_price = autos.loc[autos["model"] == "3er","price"]

In [80]:
round(s3_price.mean())

5839

Un BMW Serie 3 cuesta de media 5.839 dólares.

- Hay 5.040 vehículos de la marca BMW a la venta en el dataset.
- Esos 5.040 vehículos, representan aproximadamente el 11% del total (~ 1 de cada 10).
- De todos los BMW, el Serie 3 es el más popular, ya que el 53% de los BMW a la venta son Serie 3.
- Un BMW cuesta de media 8.102 dólares.
- Un BMW Serie 3 cuesta de media 5.839 dólares.

#### 3.2.3. OPEL

Vamos a explorar la tercera marca más vendida, OPEL.

In [81]:
opel = autos.loc[autos["brand"] == "opel","model"]

In [82]:
opel.value_counts()

corsa       1644
astra       1388
vectra       558
zafira       399
omega        193
andere       154
meriva       139
tigra         93
insignia      86
signum        68
agila         58
vivaro        55
combo         53
kadett        51
calibra       22
antara        21
Name: model, dtype: int64

In [83]:
opel.value_counts().sum()

4982

Hay un total de 4.982 vehículos OPEL a la venta, de los cuales 1.644 son OPEL Corsa, y 1.388 OPEL Astra. A más distancia se encuentra el OPEL Vectra con 558 y el OPEL Zafira con 399.

Hay casi los mismos vehículos OPEL a la venta que BMW.

In [84]:
# Porcentaje de OPEL respecto del total
round(opel.value_counts().sum()/top_brands.sum()*100)

11

Por lo que acabamos de comentar, OPEL ocupa el mismo porcentaje de mercado que BMW, un 11%.

In [85]:
print(f"El OPEL Corsa representa el {round(1644/opel.value_counts().sum()*100, 2)} % de los OPEL")

El OPEL Corsa representa el 33.0 % de los OPEL


1 de cada 3 OPEL a la venta son OPEL Corsa.

#### 3.2.3.1. OPEL : PRECIOS MEDIOS

In [86]:
opel_price = autos.loc[autos["brand"] == "opel","price"]

In [87]:
# Precio medio de un OPEL
round(opel_price.mean())

2878

Un OPEL cuesta de media 2.878 dólares.

#### 3.2.3.1. OPEL Corsa : PRECIOS MEDIOS

In [88]:
corsa_price = autos.loc[autos["model"] == "corsa","price"]

In [89]:
# Precio medio de un OPEL Corsa
round(corsa_price.mean())

1817

Un OPEL Corsa cuesta de media 1.817 dólares.

- Hay 4.982 OPEL a la venta.
- Los vehículos OPEL representan el 11% del total, al igual que por ejemplo BMW.
- El OPEL más popular es el Corsa, que ocupa el 33% del mercado de OPEL.
- Un OPEL cuesta de media 2.878 dólares, aproximadamente un tercio que lo que cuesta un BMW.
- Un OPEL Corsa cuesta de media 1.817 dólares, aproximadamente un tercio del precio de un Serie 3.

#### 3.2.4. MERCEDES-BENZ

La marca de gama alta Mercedes-Benz es la cuarta que más coches tiene a la venta en el dataset.

In [90]:
mb = autos.loc[autos["brand"] == "mercedes_benz","model"]

In [91]:
mb.value_counts()

c_klasse    1147
e_klasse     981
a_klasse     543
andere       441
clk          251
slk          172
m_klasse     152
s_klasse     129
b_klasse     122
vito         121
sl           102
sprinter      94
viano         60
cl            39
glk           30
v_klasse      24
g_klasse      24
gl            10
Name: model, dtype: int64

In [92]:
mb.value_counts().sum()

4442

Tenemos 4.442 Mercedes-Benz a la venta en el dataset.

In [93]:
# Respecto a Volkswagen
round(4442/9752*100)

46

Hay algo más del doble de Volkswagen que Mercedes-Benz a la venta.

In [94]:
# Respecto a BMW
round(4442/5040*100)

88

Hay un 12% menos de vehículos Mercedes-Benz a la venta que BMW. En concreto:

In [95]:
# Respecto del total
round(4442/top_brands.sum()*100)

10

El 10% de los vehículos a la venta son Mercedes-Benz (1 de cada 10).

Esto prácticamente iguala a BMW (11%) y OPEL(11%).

Al igual que con BMW, los modelos de Mercedes-Benz vienen en alemán, donde "klasse" es en español "clase". El nombre comercial de los Mercedes-Benz en España es "Clase C", "Clase E", "Clase A".

Por lo tanto, el Mercedes-Benz Clase C es el más ofertado.

In [96]:
# Clase C respecto del total
round(1147/4442,2)*100

26.0

El 26% de los Mercedes-Benz a la venta son el modelo Clase C, prácticamente 1 de cada 4.

In [97]:
# Clase E respecto del total
round(981/4442,2)*100

22.0

El 22% de los Mercedes-Benz a la venta son el modelo Clase E.

#### 3.2.4.1. MERCEDES-BENZ : PRECIOS MEDIOS

In [98]:
mb_price = autos.loc[autos["brand"] == "mercedes_benz","price"]

In [99]:
round(mb_price.mean())

8482

Un Mercedes-Benz cuesta de media 8.482 dólares.

In [100]:
# Respecto de BMW
round(8482/8102,2)*100

105.0

Un Mercedes-Benz cuesta un 5% más que un BMW, de media.

#### 3.2.4.2. MERCEDES-BENZ Clase C : PRECIOS MEDIOS

In [101]:
c_price = autos.loc[autos["model"] == "c_klasse", "price"]

In [102]:
round(c_price.mean())

6979

Un Mercedes-Benz Clase C cuesta de media 6.979 dólares.

- Hay 4.442 Merdedes-Benz a la venta.
- Los vehículos Merdedes-Benz representan el 10% del total, un 1% menos que BMW o que OPEL.
- El Merdedes-Benz más popular es el Clase C, que ocupa el 26% del mercado de MB.
- Un Merdedes-Benz cuesta de media 8.482 dólares, un 5% más que un BMW.
- Un Merdedes-Benz Clase C cuesta de media 6.979 dólares, aproximadamente 3.000 dólares más que un Golf.

#### 3.2.5. AUDI

Audi cierra el TOP 5 de las marcas más ofertadas. Es una marca del grupo Volkswagen, que lidera el ránking de forma bastante clara.

In [103]:
audi = autos.loc[autos["brand"] == "audi","model"]

In [104]:
audi.value_counts()

a4        1265
a3         838
a6         814
andere     219
80         209
tt         147
a5         126
a1          82
a8          72
q5          62
100         59
a2          43
q7          40
q3          28
90           9
200          1
Name: model, dtype: int64

In [105]:
audi.value_counts().sum()

4014

Hay 4.014 Audi a la venta en el dataset, de los cuales 1.265 son Audi A4, 838 Audi A3 y 814 A6. "andere" en alemán significa "otros", y serán coches o bien de modelos muy antiguos, o bien de modelos desconocidos, o bien de modelos específicos de empresas preparadoras de coches, que son muy populares en Alemania. Hay 219 vehículos de este tipo a la venta.

In [106]:
# A4 respecto del total (%)
round(1265/4014*100)

32

El 32% de los Audi a la venta son A4 (casi 1 de cada 3)

In [107]:
# Audi en el mercado (%)
round(4014/top_brands.sum()*100)

9

Audi tiene el 9% del mercado de coches usados.

#### 3.2.5.1. AUDI : PRECIOS MEDIOS

In [108]:
audi_price = autos.loc[autos["brand"] == "audi", "price"]

In [109]:
round(audi_price.mean())

9094

Un Audi cuesta de media 9.094 dólares.

#### 3.2.5.2. AUDI A4 : PRECIOS MEDIOS

In [110]:
a4_price = autos.loc[autos["model"] == "a4", "price"]

In [111]:
round(a4_price.mean())

6860

Un Audi A4 cuesta de media 6.860 dólares, casi lo mismo que un Mercedes-Benz Clase C.

- Hay 4.014 Audi a la venta.
- Los vehículos Audi representan el 9% del total, un 1% menos Mercedes-Benz.
- El Audi más popular es el Audi A4, que ocupa el 32% del mercado de Audi.
- Un Audi cuesta de media 9.094 dólares, más que un Mercedes-Benz.
- Un Audi A4 cuesta de media 6.860 dólares, aproximadamente lo mismo que un Clase C.

## 3.3. DEVALUACIÓN DE LOS VEHÍCULOS

Otro aspecto que queríamos analizar en el dataset es el precio de los vehículos según la antigüedad. Sabemos que los vehículos pierden valor a lo largo del tiempo, pero queremos calcular exactamente cuanto.

Vamos a calcular la devaluación de los vehículos en un periodo de 10 años.

Para ello, vamos a utilizar varios modelos del dataset, que van a ser:

- Volkswagen Golf
- Mercedes-Benz Clase C
- Ford Focus
- Porsche 911

El procedimiento que vamos a seguir es el siguiente:

- Creamos un diccionario vacío que contendrá los años y los precios
- Iteramos en el rango de años deseado, por cada iteración:
    - Calculamos el precio medio del modelo concreto
    - Almacenamos el valor en el diccionario, siendo clave: año, valor: precio

### 3.3.1. DEVALUACIÓN DEL VOLKSWAGEN GOLF

In [112]:
golf_media = {}

for agno in range(2005,2016):
    precio_medio = autos.loc[(autos["model"] == "golf") & (autos["registration_year"] == agno)]
    media = round(precio_medio["price"].mean())
    golf_media[agno] = media    

In [113]:
golf_media

{2005: 5151,
 2006: 6284,
 2007: 6243,
 2008: 7129,
 2009: 8899,
 2010: 11225,
 2011: 12174,
 2012: 14856,
 2013: 17262,
 2014: 22009,
 2015: 21134}

Los dos primeros años el valor se mantiene (de hecho cuesta más el segundo año, lo achacaremos a falta de muestras suficientes en ese año concreto), y cae abruptamente el tercer año:

In [114]:
# porcentaje de caída del precio del VW Golf del segundo al tercer año
print(f"{100 - round(17262/22000*100)} %")

22 %


In [115]:
# porcentaje de caída en los cinco primeros años
print(f"{100 - round(11225/22000*100)} %")

49 %


In [116]:
# porcentaje de caída en los diez primeros años
print(f"{100 - round(5151/22000*100)} %")

77 %


El Volkswagen Golf, respecto al año siguiente a la matriculación:

- Pierde un 22% del valor en dos años
- Pierde un 49% del valor en cinco años
- Pierde un 77% del valor en diez años

### 3.3.2. DEVALUACIÓN DEL MERCEDES-BENZ CLASE C

In [117]:
clase_c_media = {}

for agno in range(2005,2016):
    precio_medio = autos.loc[(autos["model"] == "c_klasse") & (autos["registration_year"] == agno)]
    media = round(precio_medio["price"].mean())
    clase_c_media[agno] = media    

In [118]:
clase_c_media

{2005: 6178,
 2006: 7476,
 2007: 11460,
 2008: 11545,
 2009: 13719,
 2010: 15921,
 2011: 18549,
 2012: 21083,
 2013: 26967,
 2014: 27915,
 2015: 29950}

Mantiene bastante bien el valor los tres primeros años, y luego cae a un ritmo más o menos constante los tres siguientes. Se desploma a los nueve/diez años.

In [119]:
# porcentaje de caída del precio del MB Clase C del primer al tercer año
print(f"{100 - round(26967/29950*100)} %")

10 %


In [120]:
# porcentaje de caída del precio del MB Clase C en los cinco primeros años
print(f"{100 - round(15921/29950*100)} %")

47 %


In [121]:
# porcentaje de caída del precio del MB Clase C en los diez primeros años
print(f"{100 - round(6178/29950*100)} %")

79 %


El Mercedes-Benz Clase C, respecto al año siguiente a la matriculación:

- Pierde un 10% del valor en tres años
- Pierde un 47% del valor en cinco años
- Pierde un 79% del valor en diez años

### 3.3.3. DEVALUACIÓN DEL FORD FOCUS

In [122]:
focus_media = {}

for agno in range(2005,2016):
    precio_medio = autos.loc[(autos["model"] == "focus") & (autos["registration_year"] == agno)]
    media = round(precio_medio["price"].mean())
    focus_media[agno] = media

In [123]:
focus_media

{2005: 3250,
 2006: 4802,
 2007: 5517,
 2008: 6197,
 2009: 6664,
 2010: 9242,
 2011: 9891,
 2012: 12100,
 2013: 13855,
 2014: 16340,
 2015: 18508}

Pierde mucho valor ya al tercer año, aunque los tres siguientes lo mantiene bastante bien, al igual que los últimos. La bajada a partir del tercer año es bastante poco acusada.

In [124]:
# porcentaje de caída del precio del Ford Focus del primer al tercer año
print(f"{100 - round(13855/18508*100)} %")

25 %


In [125]:
# porcentaje de caída del precio del Ford Focus en los cinco primeros años
print(f"{100 - round(9242/18508*100)} %")

50 %


In [126]:
# porcentaje de caída del precio del Ford Focus en los diez primeros años
print(f"{100 - round(3250/18508*100)} %")

82 %


El Ford Focus, respecto al año siguiente a la matriculación:

- Pierde un 25% del valor en tres años
- Pierde un 50% del valor en cinco años
- Pierde un 82% del valor en diez años

### 3.3.4. DEVALUACIÓN DEL PORSCHE 911

In [127]:
p911_media = {}

for agno in range(2005,2016):
    precio_medio = autos.loc[(autos["model"] == "911") & (autos["registration_year"] == agno)]
    media = round(precio_medio["price"].mean())
    p911_media[agno] = media

In [128]:
p911_media

{2005: 46199,
 2006: 38800,
 2007: 59468,
 2008: 61494,
 2009: 73281,
 2010: 87868,
 2011: 87758,
 2012: 80020,
 2013: 130898,
 2014: 141946,
 2015: 218833}

La caída del primer al segundo año es espectacular, al igual que del tercero al cuarto. A partir de ahí mantiene muy bien el valor.

In [129]:
# porcentaje de caída del precio del Porsche 911 del primer al segundo año
print(f"{100 - round(141946/218833*100)} %")

35 %


In [130]:
# porcentaje de caída del precio del Porsche 911 del tercer al cuarto año
print(f"{100 - round(80020/130898*100)} %")

39 %


In [131]:
# porcentaje de caída del precio del Porsche 911 en los cinco primeros años
print(f"{100 - round(87758/218833*100)} %")

60 %


In [132]:
# porcentaje de caída del precio del Porsche 911 en los diez primeros años
print(f"{100 - round(46199/218833*100)} %")

79 %


El Porsche 911:

- Pierde un 35% del valor del primer al segundo año
- Pierde un 39% del valor del tercer al cuarto año
- Pierde un 60% del valor en cinco años (desde la fecha de matriculación)
- Pierde un 79% del valor en diez años (desde la fecha de matriculación)

### 3.3.4. DEVALUACIÓN : RESUMEN

En los modelos que hemos analizado, pierden:

- Entre el 10% y el 22% del valor los primeros tres años.
- En torno al 50% del valor en cinco años.
- El 80% del valor en diez años.

## 4. CONCLUSIONES FINALES

El mercado alemán está dominado por las marcas nacionales. Dos tercios del mercado son exclusivamente coches alemanes.

Volkswagen parece ser la marca preferida de los alemanes, con mucha diferencia sobre las demás. Las cinco marcas preferidas son: 

- Volkswagen
- BMW
- Opel
- Mercedes-Benz
- Audi

El Volkswagen Golf es el coche más ofertado en Alemania. De hecho, el Volskwagen Golf siempre está entre los coches nuevos más vendidos en Alemania, y muchas veces es el más vendido.

Los modelos más populares en Alemania son:

- Volkswagen Golf
- BMW Serie 3
- Volkswagen Polo
- Opel Corsa
- Opel Astra
- Volkswagen Passat
- Audi A4
- BMW Serie 5
- Mercedes-Benz Clase C

Los vehículos pierden la mayor parte del valor a partir del quinto año. Dependiendo de lo que queramos buscar, el quinto año es buen momento para encontrar un vehículo relativamente nuevo y a la mitad (o menos) de su precio original.

Si no nos importa adquirir coches aún más antiguos, a los 10 años han perdido prácticamente el 80% de su valor, lo que puede ser interesante.