# *Análisis Exploratorio de Datos - Broom Broom Cars S.L.* 
**by** *Carlos Cabruja*

![](https://challenges-asset-files.s3.us-east-2.amazonaws.com/JOBarcelona+2022/business.png)

Acabas de entrar en el departamento de Analytics y Business Intelligence de una cadena de concesionarios de coches de segunda mano que se llama Broom Broom Cars S.L. La empresa está situada en Gran Bretaña y tú eres responsable de maximizar la venta de coches a las afueras del sur de Londres.

Los cargos directivos de la empresa están muy emocionados con tu incorporación ya que, por fin, van a poder apoyar sus decisiones en datos. Por este motivo, se te ha concedido un una lista con todos los coches vendidos de los concesionarios de la zona durante el año 2020 y 2021. [Lista](https://challenges-asset-files.s3.us-east-2.amazonaws.com/JOBarcelona+2022/cars_bought_UK_2021.csv).

El objetivo del reto es generar un dashboard o presentación que permita al equipo directivo ver cuáles son los coches que han tenido más éxito durante 2020 y 2021, ver cuál es la tendencia y dar tu recomendación sobre los coches que Broom Broom Cars S.L. tiene que intentar obtener para sus concesionarios durante el año 2022.

Las variables del dataset son las siguientes:

*   *Model*: Modelo del coche
*   *Price*: Precio de venta
*   *Transmission*: Tipo de transmisión
*   *Mileage*: Millas que había recorrido el coche antes de la venta
*   *Fuel Type*: Tipo de combustible
*   *Tax*: Impuestos de venta
*   *Miles Per Gallon (mpg)*: Millas consumidas por cada galón de combustible
*   *Engine Size*: Tamaño del motor
*   *Maker*: Fabricante

Preguntas:

**¿Qué coches o tipo de coches tenemos que comprar en nuestro concesionario para así generar más ingresos durante el año 2022.?**

*   ¿Cuáles son las marcas de coches que generan más ingresos?
*   ¿Cuáles son los coches que generan más ingresos (tanto por coche como en conjunto)?
*   ¿Hay dependencias entre el tamaño del motor y el precio de venta?
*   ¿Es importante fijarse en los impuestos a pagar por el coche?
*   ¿Qué modelo es el que le gusta más a la gente? ¿Y el que ha generado más ingresos de manera global?
*   ¿Vale la pena targetear coches de transmisión híbrida? ¿Qué transmisión es la mejor? ¿Y los consumidores se fijan en el mpg?
*   ¿El milage hace bajar el precio de los coches exponencialmente, linialmente o logarítmicamente?

### 1. Cargado de datos

In [2]:
# Librerias necesarias para el procesamiento de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme(style='darkgrid', palette='deep')

In [3]:
# carga de datos
ruta = 'cars_bought_UK_2021.csv'
df = pd.read_csv(ruta, sep=';')
df

Unnamed: 0,model,price,transmission,mileage,fuelType,tax,mpg,engineSize,Make
0,5 Series,42995,Automatic,7500,Hybrid,135,1569,2,BMW
1,Q5,48990,Semi-Auto,5000,Hybrid,135,1177,2,audi
2,2 Series,34975,Semi-Auto,5,Diesel,145,487,2,BMW
3,Q5,35500,Semi-Auto,3500,Diesel,145,382,2,audi
4,TT,28800,Semi-Auto,241,Petrol,145,409,2,audi
...,...,...,...,...,...,...,...,...,...
3311,Kamiq,18991,Manual,986,Petrol,145,471,15,skoda
3312,X5,52990,Semi-Auto,5899,Diesel,145,377,3,BMW
3313,Up,10980,Manual,100,Petrol,145,543,1,vw
3314,X2,23450,Manual,15,Diesel,145,554,2,BMW


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3316 entries, 0 to 3315
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   model         3316 non-null   object
 1   price         3316 non-null   int64 
 2   transmission  3316 non-null   object
 3   mileage       3316 non-null   int64 
 4   fuelType      3316 non-null   object
 5   tax           3316 non-null   int64 
 6   mpg           3316 non-null   object
 7   engineSize    3316 non-null   object
 8   Make          3316 non-null   object
dtypes: int64(3), object(6)
memory usage: 233.3+ KB


El tamaño de nuestro dataset es de 3316 filas por 8 columnas, y parece que no hay valores nulos, pero las millas recorridas por galón y el tamaño del motos son variables procesadas como object debido al caracter "," y habrá que transformarlas a float.

### 2. Limpieza de datos

In [13]:
# ¿Hay valores duplicados?
print("Hay", df.duplicated().sum(), "valores duplicados")

Hay 118 valores duplicados


In [14]:
# Eliminación de valores duplicados
df.drop_duplicates(inplace=True)

In [20]:
 # Reemplazar en mpg los "," por "."
df.mpg = df.mpg.str.replace(',', '.')

# Transformar mpg a float  
df.mpg = df.mpg.astype(float)

In [21]:
# Reemplazar en engineSize los "," por "."
df.engineSize = df.engineSize.str.replace(',', '.')

# Transformar engineSize a float
df.engineSize = df.engineSize.astype(float)

En el caso del tamaño de motor lo mejor es convertirla realmente a una variable cátegorica de tipo object, estará distribuida de la siguente manera:

- Motor pequeño = 1 
- Motor mediano = 1 - 2
-  

In [31]:
df.engineSize.unique()

array([2. , 1.5, 1. , 3. , 1.4, 1.6, 1.2, 2.4, 5. , 2.5, 0. , 2.8, 1.8,
       2.2, 5.2, 2.9, 4. , 2.3, 1.1, 4.4])