<p align="center">
  <img src="./img/img_coche.png" alt="Imagenes coches" width="600">
</p>


# **Análisis del precio de coches de segunda mano en España**

## Índice
1. [Introducción](#Introducción)  
2. [Hipótesis principales](#Hipótesis-principales)  
3. [Adecuación del dataset](#adecuación-del-dataset)  
4. [Análisis](#análisis)  
5. [Resultados](#resultados)


## Introducción

El mercado de vehículos de ocasión en España representa una parte importante del sector automovilístico. Su comportamiento está condicionado por múltiples factores que lo convierten en un ámbito de gran interés. Antes de comenzar con el análisis, es necesario presentar el dataset que utilizaremos como base para este estudio:

* El dataset con el que trabajaremos será "dffinal.csv".Un dataset con un conjunto de vehículos en venta dentro del territorio español.


## Hipótesis principales

* Hipótesis 1: El precio de un coche de segunda mano disminuye a menida que aumenta su edad y  kilometraje.
* Hipótesis 2: Los coches de marcas premium (como BMW o Audi) tienen precios más altos que marcas generalistas (como Opel o Citroën).
* Hipótesis 3: Los coches con transimisión automática son más caros que los manuales
* Hipótesis 4: Los coches diésel son los más económicos
* Hipótesis 5: La ubicación del coche influye en su precio.

## Adecuación del dataset

1. Comprensión de los datos:

    Tener nociones de que es lo que tenemos, las variables que hay, los outliers que existen y los registros que tiene el dataset

| Columna/Variable       | Descripción                          | Tipo de Variable       | Importancia Inicial | Nota                       |
|-------------------------|--------------------------------------|-----------------------|---------------------|----------------------------|
| make                   | Marca del coche (ej. Opel, Citroën)  | Categórica Nominal          | 0                | Clave para hipótesis 2     |
| model                  | Modelo del coche (ej. Corsa, C3)     | Categórica Nominal           | 2               |      |
| version                | Versión específica del modelo        | Categórica Nominal            | 3                |  |
| year                   | Año de fabricación                   | Numérica Discreta     | 1                | Influye en precio y edad   |
| kms                    | Kilometraje del coche                | Numérica Continua   | 1                | Clave para durabilidad y precio     |
| power                  | Potencia en CV                       | Numérica Continua    | Media               | Puede afectar precio       |
| shift                  | Tipo de transmisión (manual, automático) | Categórica Nominal       | 1                | Clave para hipótesis 3     |
| price                  | Precio del coche                     | Numérica Continua    | 0            | Variable objetivo          |
| location               | Ubicación del coche (ciudad/provincia) | Categórica Nominal       | 2               |      |
| publish_date           | Fecha de publicación del anuncio     | Fecha                | 3                | |
| dealer_zip_code        | Código postal del vendedor           | Numérica Discreta     | 3                |  |
| long                   | Longitud geográfica                  | Numérica Continua    | 3                |     |
| state                  | Estado o región del coche            | Categórica Nominal            | 1               | Clave para hipótesis 4     |
| precio_categorias   | Categoría precisa del coche (SUV, etc.) | Categórica Ordinal      | 1               | Segmentación de precios     |
| kms_categorias         | Categorías de kilometraje            | Categórica Ordinal         | 1               | Segmentación de kms            |
| years_old              | Edad del coche                       | Numérica Discreta     | 1                |  |

2. Trabajamos con los datos

In [None]:
import pandas as pd

df = pd.read_csv("./src/dffinal.csv")

In [2]:
df.head(2)

Unnamed: 0,make,model,version,fuel,year,kms,power,shift,price,location,publish_date,dealer_address,dealer_zip_code,lat,long,state,Car and Model,precio_categorias,kms_categoria,years_old
0,Opel,Crossland,1.2 GAS 110 GS Line 5p S/S,Gasolina,2022,5.0,110.0,manual,22900,Pineda de Mar,2023-02-04,"2, Carrer de Jacint Benavente, Poblenou, Pined...",8397.0,41.627681,2.689871,Catalunya,Opel Crossland,Alto,Muy Poco,3
1,Opel,Crossland,1.2 81kW (110CV) GS Line,Gasolina,2022,24847.0,110.0,manual,19990,Coslada,2023-01-20,"Avenida de José Gárate, Coslada, Área metropol...",28823.0,40.423802,-3.555288,Comunidad de Madrid,Opel Crossland,Moderado,Moderado,3


Esta parte del proyecto la he trabajado en el fichero [eda_pruebas.ipynb]("./eda_pruebas.ipynb")

* He añadido las columnas kms_categoria, precio_categorias y years_old. Sin embargo ,eliminé algunas columnas que en este análisis no nos aportaban nada.
* Habían comunidades autónomas que no aparecían y estaban categorizadas como "Unknown", pero gracias a la API de openstreetmap pude averiguarlas gracias a la columna **location**. A parte , también me proporcionaba la latitud y longitud.
* He analizado los missings que habían, porque la API no me daba la información de todas las variables de "location". Habían alrededor de 1900 filas con missings, por ello sin complicarme mucho borré directamente todas esas filas.
* Habían anuncios con coches que estaban a la venta por valor de 0€ , 10€, 50€. Todos esos anuncios los borré,para que no me dieran problemas a la hora de analizar sus variables.


3. Presentación del dataset

In [3]:
df.head(5)

Unnamed: 0,make,model,version,fuel,year,kms,power,shift,price,location,publish_date,dealer_address,dealer_zip_code,lat,long,state,Car and Model,precio_categorias,kms_categoria,years_old
0,Opel,Crossland,1.2 GAS 110 GS Line 5p S/S,Gasolina,2022,5.0,110.0,manual,22900,Pineda de Mar,2023-02-04,"2, Carrer de Jacint Benavente, Poblenou, Pined...",8397.0,41.627681,2.689871,Catalunya,Opel Crossland,Alto,Muy Poco,3
1,Opel,Crossland,1.2 81kW (110CV) GS Line,Gasolina,2022,24847.0,110.0,manual,19990,Coslada,2023-01-20,"Avenida de José Gárate, Coslada, Área metropol...",28823.0,40.423802,-3.555288,Comunidad de Madrid,Opel Crossland,Moderado,Moderado,3
2,Opel,Crossland,1.5D 88kW (120CV) Business Elegance Auto,Diésel,2021,41356.0,120.0,automatic,18590,Madrid,2022-11-30,"San Cristóbal, Avenida de Andalucía, San Crist...",28021.0,40.416705,-3.703582,Comunidad de Madrid,Opel Crossland,Moderado,Moderado,4
3,Opel,Crossland,GS-Line 1.2 GAS MT6 S/S 110cv,Gasolina,2022,11.0,110.0,manual,22700,Sabadell,2022-11-29,"Parc de Bombers de Sabadell, 52, Carretera de ...",8200.0,41.542101,2.113898,Catalunya,Opel Crossland,Alto,Muy Poco,3
4,Opel,Crossland,GS-Line 1.2 GAS MT6 S/S 110cv,Gasolina,2022,11.0,110.0,manual,22700,Mollet del Vallès,2022-11-29,"27, Carrer de Fèlix Ferran, Mollet del Vallès,...",8100.0,41.539348,2.213093,Catalunya,Opel Crossland,Alto,Muy Poco,3


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38590 entries, 0 to 38589
Data columns (total 20 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   make               38590 non-null  object 
 1   model              38590 non-null  object 
 2   version            38590 non-null  object 
 3   fuel               38590 non-null  object 
 4   year               38590 non-null  int64  
 5   kms                38590 non-null  float64
 6   power              38590 non-null  float64
 7   shift              38590 non-null  object 
 8   price              38590 non-null  int64  
 9   location           38590 non-null  object 
 10  publish_date       38590 non-null  object 
 11  dealer_address     38590 non-null  object 
 12  dealer_zip_code    38590 non-null  float64
 13  lat                38590 non-null  float64
 14  long               38590 non-null  float64
 15  state              38590 non-null  object 
 16  Car and Model      385

In [5]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
year,38590.0,2016.644571,4.020681,1967.0,2015.0,2018.0,2019.0,2023.0
kms,38590.0,86388.228142,57074.615953,0.0,43000.0,79744.0,117618.0,1330000.0
power,38590.0,153.486162,1836.374632,0.0,102.0,128.0,150.0,360571.0
price,38590.0,19839.964887,15970.021815,501.0,12420.0,16490.0,22989.0,449000.0
dealer_zip_code,38590.0,24177.415626,14949.971546,1002.0,8600.0,28029.0,36211.0,50820.0
lat,38590.0,39.804459,1.988264,36.110921,37.992379,40.251857,41.396572,43.56887
long,38590.0,-2.451768,3.119292,-8.813138,-4.421637,-2.935004,-0.376335,3.238264
years_old,38590.0,8.355429,4.020681,2.0,6.0,7.0,10.0,58.0


## Análisis

* El análisis univariante lo he realizado en el archivo [análisis_univariante.ipynb]("./notebooks/análisis_univariante.ipynb")

* El análisis bivariante y multivariante lo he realizado en el archivo [análisis.ipynb]("./notebooks/análisis.ipynb")

## Resultados

**Hipótesis 1: El kilometraje reduce el precio de los coches.**

Los datos confirman esta hipótesis. Existe una relación clara: los coches con pocos kilómetros (menos de 50,000 km) pueden costar hasta 40,000 euros, pero los que tienen más de 200,000 km suelen valer menos de 10,000 euros. Esto demuestra que, en general, a más kilómetros recorridos, menor es el precio, porque los coches más usados tienen menos vida útil.

**Hipótesis 2: Las marcas premium tienen precios más altos.**

Esta hipótesis se confirma plenamente. Marcas premium como Tesla, Mercedes y Land Rover tienen precios mucho más altos, con un promedio entre 20,000 y 30,000 euros, mientras que marcas más comunes como Opel o Seat están entre 10,000 y 15,000 euros. Esto refleja que los coches de marcas reconocidas por su calidad o lujo mantienen un valor más alto en el mercado de segunda mano.

**Hipótesis 3: Los coches con transmisión automática son más caros que los manuales.**

Los resultados apoyan esta hipótesis. Los coches automáticos tienen un precio promedio más alto, entre 15,000 y 20,000 euros, en comparación con los manuales, que están entre 10,000 y 15,000 euros. Esto se explica porque los automáticos suelen estar en modelos más modernos o cómodos, lo que aumenta su valor en el mercado.

**Hipótesis 4: Los coches diésel son los más baratos porque suelen tener más kilometraje (duran más) que los de gasolina.**

Los coches diésel tienen más kilometraje (en promedio 150,000 km) que los de gasolina (50,000-100,000 km), lo que confirma que duran más. Sin embargo, no son los más baratos: su precio promedio está entre 10,000 y 20,000 euros, mientras que los de gasolina están entre 5,000 y 15,000 euros. Esto se debe a que los compradores valoran la durabilidad de los diésel y están dispuestos a pagar más, incluso con más kilómetros recorridos. Por lo tanto, la hipótesis no se cumple, ya que la durabilidad mantiene el precio de los diésel más alto.

**Hipótesis 5: La ubicación del coche influye en su precio (por ejemplo, coches en grandes ciudades como Madrid o Barcelona podrían ser más caros).**

Esta hipótesis también se confirma. En grandes ciudades como Madrid y Cataluña, los coches tienen precios más altos, con un promedio de 15,000 a 20,000 euros, mientras que en regiones más pequeñas como Extremadura o La Rioja los precios bajan a 10,000-12,000 euros. La mayor demanda y la presencia de coches más lujosos en las ciudades grandes explican esta diferencia.

