# Análisis EDA y Decisiones de Negocio en Ventas de Automóviles

Este notebook contiene 15 ejercicios que combinan análisis exploratorio de datos (EDA) y reflexiones críticas de negocio. Cada punto incluye instrucciones detalladas, paso a paso, para realizar agrupaciones y filtros, de modo que se guíe al estudiante en cada parte del proceso.

La estructura del dataset es la siguiente:

```
year, make, model, trim, body, transmission, vin, state, condition, odometer, color, interior, seller, mmr, sellingprice, saledate
```

¡Comienza el análisis y sigue cada paso para proponer estrategias de negocio basadas en los resultados!

In [1]:
# Descargar y descomprimir el dataset
!wget https://github.com/javierherrera1996/lecture_analytics/raw/main/cars_dataset.zip
!unzip -o cars_dataset.zip

--2025-03-13 20:27:42--  https://github.com/javierherrera1996/lecture_analytics/raw/main/cars_dataset.zip
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/cars_dataset.zip [following]
--2025-03-13 20:27:43--  https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/cars_dataset.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.109.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19753181 (19M) [application/zip]
Saving to: ‘cars_dataset.zip’


2025-03-13 20:27:45 (34.2 MB/s) - ‘cars_dataset.zip’ saved [19753181/19753181]

Archive:  cars_dataset.zip
  inflating: car_prices.csv          


## 1. Dimensiones y Representatividad del Dataset

a) Carga el dataset (desde un archivo CSV) y muestra sus dimensiones (número de filas y columnas).

b) Describe brevemente qué representa cada fila y reflexiona: ¿Crees que el dataset es representativo del mercado de ventas de automóviles? Justifica tu respuesta.

_Respuesta:_ Cada fila representa una caracteristica de venta de un vehículo. Sí, creo que es el dataset es representativo ya que este incluye información variable (marcas, modelos, kilometraje) y, considero que, tiene un buen número de registros.

In [2]:
import pandas as pd

data = pd.read_csv('car_prices.csv')


In [6]:
data.shape

(558837, 16)

## 2. Ventas Totales y Promedio

a) Calcula la suma total y el promedio de la columna `sellingprice`.

b) Caso de negocio: Si el precio promedio es bajo, ¿qué estrategias de precio o promociones sugerirías para aumentar la rentabilidad? Explica tu respuesta.

_Respuesta:_ Si el precio promedio es bajo, se recomendaria realizar un análisis del mercado para ajustar el precio  a uno diferenciado del mercado, ofrecer opciones de financiamiento con tasas de interés que tengan plazos flexibles o implementar descuentos en ciertos modelos por tiempo limitado.

In [8]:
data['sellingprice'].sum()

7606367587.0

In [9]:
data['sellingprice'].mean()

13611.358810003132

## 3. Distribución de Ventas por Marca

a) Utiliza `value_counts()` para determinar cuántas ventas se registraron por cada marca (`make`).

b) Caso de negocio: ¿Qué marcas parecen dominar el mercado? Basado en esta distribución, ¿en qué marcas invertirías en publicidad y por qué?

_Respuesta:_ Para publicidad invertiria en las marcas Ford, Chevrolet y Nissan. Ya que son las marcas que dominan en el mercado, por lo que significa que tienen mayor cantidad de ventas, tienen una base solida de clientes y una presencia en el mercado.

In [10]:
data["make"].value_counts()

Unnamed: 0_level_0,count
make,Unnamed: 1_level_1
Ford,93554
Chevrolet,60197
Nissan,53946
Toyota,39871
Dodge,30710
...,...
airstream,1
ford tk,1
chev truck,1
hyundai tk,1


## 4. Segmentación de Clientes por Kilometraje

a) Crea un DataFrame filtrado que incluya únicamente las ventas donde el `odometer` es menor a 20,000 millas. Cuantos Vehiculos tiene este dataset?

b) Caso de negocio: Este segmento de vehículos con bajo uso puede tener mayor valor percibido. ¿Cómo ajustarías la estrategia de marketing para este grupo?

_Respuesta:_ Para este segmento de vehículos con bajo uso, usaria una estrategia donde se resalte el atributo de bajo kilometraje en los medios publicitarios, además de establecer precios ligeramente más altos que los vehículos con mayor kilometraje.

In [17]:
Data_Filtrado = data[data['odometer'] < 20000]
Data_Filtrado.shape

(84206, 16)

## 5. Agrupación por Marca: Precio y Volumen

a) Agrupa el dataset por `make` y calcula:
   - El promedio de `sellingprice`.
   - La cantidad de ventas por marca (usa el conteo de registros como proxy).

b) Caso de negocio: Si una marca tiene alto volumen pero precios bajos, ¿qué medidas recomendarías para mejorar el margen?

_Respuesta:_ Recomendaria ajustar los precios en función al valor que ofrece la marca en comparación a la competencia. Tambien recomiendo, destacar los beneficios de la marca para justificar un precio alto.

**Paso a paso:**
1. Realiza la agrupación.
2. Renombra las columnas para que sean claras.
3. Interpreta el resultado antes de pasar al siguiente filtro o análisis.

In [25]:
data.groupby('make')['sellingprice'].mean().sort_values(ascending=False)
data.groupby("make").agg(PrecioPromedio=("sellingprice","mean"),VentasTotales=("make","count")).reset_index().sort_values(by="VentasTotales",ascending=False).head()

Unnamed: 0,make,PrecioPromedio,VentasTotales
14,Ford,14540.469648,93554
7,Chevrolet,11977.397528,60197
36,Nissan,11739.01596,53946
49,Toyota,12249.321813,39871
10,Dodge,11206.802592,30710


## 6. Análisis de Rentabilidad por Marca

a) Crea una nueva columna `profit` que sea la diferencia entre `mmr` y `sellingprice`.
b) Agrupa por `make` y calcula el beneficio promedio para cada marca.

c) Caso de negocio: Identifica las 5 marcas con mayor beneficio promedio y explica qué acciones estratégicas implementarías (por ejemplo, renegociar precios o invertir en calidad).

_Respuesta:_ Las 5 marcas con mayor beneficio promedio son:
- Fisker
- Ferrari
- Plymouth
- Bentley
- Porsche
Implementaria acciones estrategicas como seguir invirtiendo en la calidad de los materiales, introducir nuevos modelos y fortalecer la imagen de marca para comunicarles a los clientes el valor que tienen estas a comparación de otras.

In [27]:
profit=data['mmr']-data['sellingprice']
data['profit']=profit
data.groupby('make')['profit'].mean().sort_values(ascending=False).head()

Unnamed: 0_level_0,profit
make,Unnamed: 1_level_1
Fisker,2638.888889
Ferrari,2000.0
Plymouth,1577.5
Bentley,1560.775862
porsche,1419.736842


## 7. Análisis Temporal: Ventas del Año 2015

a) Filtra el dataset para obtener únicamente las ventas del año 2015 y muestra las primeras 10 filas. Cuantos Vehiculos tiene esta dataset


b) Caso de negocio: Si 2015 muestra comportamientos atípicos en comparación con otros años, ¿deberías ajustar la estrategia basándote en tendencias actuales? Explica tu criterio.

_Respuesta:_ Sí, es recomendable ajustar la estrategia para reflejar la dinámica actual del mercado, significa que se puede analizar cuidadosamente las causas de la desviación, evaluar las tendencias actuales y adaptar la estrategia de manera flexible para minimizar riesgos y maximizar oportunidades.

In [30]:
data_2015=data[data["year"]== 2015]
data_2015.head(10)

Unnamed: 0,year,make,model,trim,body,transmission,vin,state,condition,odometer,color,interior,seller,mmr,sellingprice,saledate,profit
0,2015,Kia,Sorento,LX,SUV,automatic,5xyktca69fg566472,ca,5.0,16639.0,white,black,kia motors america inc,20500.0,21500.0,Tue Dec 16 2014 12:30:00 GMT-0800 (PST),-1000.0
1,2015,Kia,Sorento,LX,SUV,automatic,5xyktca69fg561319,ca,5.0,9393.0,white,beige,kia motors america inc,20800.0,21500.0,Tue Dec 16 2014 12:30:00 GMT-0800 (PST),-700.0
3,2015,Volvo,S60,T5,Sedan,automatic,yv1612tb4f1310987,ca,41.0,14282.0,white,black,volvo na rep/world omni,27500.0,27750.0,Thu Jan 29 2015 04:30:00 GMT-0800 (PST),-250.0
5,2015,Nissan,Altima,2.5 S,Sedan,automatic,1n4al3ap1fn326013,ca,1.0,5554.0,gray,black,enterprise vehicle exchange / tra / rental / t...,15350.0,10900.0,Tue Dec 30 2014 12:00:00 GMT-0800 (PST),4450.0
11,2015,Kia,Optima,LX,Sedan,automatic,5xxgm4a73fg353538,ca,48.0,2034.0,red,tan,kia motors finance,15150.0,17700.0,Tue Dec 16 2014 12:00:00 GMT-0800 (PST),-2550.0
12,2015,Ford,Fusion,SE,Sedan,automatic,3fa6p0hdxfr145753,ca,2.0,5559.0,white,beige,enterprise vehicle exchange / tra / rental / t...,15350.0,12000.0,Tue Jan 13 2015 12:00:00 GMT-0800 (PST),3350.0
13,2015,Kia,Sorento,LX,SUV,automatic,5xyktca66fg561407,ca,5.0,14634.0,silver,black,kia motors america inc,20600.0,21500.0,Tue Dec 16 2014 12:30:00 GMT-0800 (PST),-900.0
15,2015,Nissan,Altima,2.5 S,Sedan,automatic,1n4al3ap5fc124223,ca,2.0,11398.0,black,black,enterprise vehicle exchange / tra / rental / t...,14750.0,14100.0,Tue Dec 23 2014 12:00:00 GMT-0800 (PST),650.0
16,2015,Hyundai,Sonata,SE,Sedan,automatic,5npe24af4fh001562,ca,,8311.0,red,—,avis tra,15200.0,4200.0,Tue Dec 16 2014 13:00:00 GMT-0800 (PST),11000.0
20,2015,Chevrolet,Impala,LTZ,Sedan,automatic,2g1165s30f9103921,ca,19.0,14538.0,silver,black,enterprise vehicle exchange / tra / rental / t...,24300.0,7200.0,Tue Jul 07 2015 09:30:00 GMT-0700 (PDT),17100.0


## 8. Comparación por Tipo de Carrocería

a) Agrupa por la columna `body` y calcula el promedio de `sellingprice` para cada tipo.

b) Caso de negocio: Determina qué tipo de carrocería tiene mayor precio promedio y argumenta cómo podrías aprovechar esta información para posicionar una línea premium o ajustar el inventario.

_Respuesta:_ La carroceria "Gran turismo convertible" es la que tiene mayor precio promedio. Esta información sirve para posicionar una línea premium al considerar aumentar ligeramente los precios a estos modelos para reflejar su valor premium percibido o al invertir en caracteristicas que le agreguen valor como asientos de cuero o sistemas de tecnologia avanzada.

In [28]:
data.groupby('body')['sellingprice'].mean().sort_values(ascending=False)

Unnamed: 0_level_0,sellingprice
body,Unnamed: 1_level_1
granturismo convertible,79041.666667
GranTurismo Convertible,74000.000000
CTS-V Wagon,50500.000000
cts-v coupe,39707.142857
CTS-V Coupe,38425.750000
...,...
Xtracab,5818.750000
xtracab,5250.000000
Club Cab,4650.064103
Cab Plus,2825.000000


## 9. Filtros Combinados para un Caso Específico

a) **Paso 1:** Agrupa los datos por `state`, `model` y calcula el promedio de `sellingprice` para ver cuál es el precio promedio por combinación.

b) **Paso 2:** Utiliza el resultado del agrupamiento para filtrar el dataset original. Por ejemplo, filtra los registros de un estado ('ca') y un modelo ('Sorento') cuyo `sellingprice` supere el precio promedio calculado.

c) Caso de negocio: Analiza este segmento y plantea qué acciones implementarías para potenciar las ventas en California, considerando el modelo y el segmento premium.

_Respuesta:_ Las campañas que implememtaria para potenciar las ventas en California, si nos enfocamos en un modelo premium, sería realizar campañas de marketing hacía un publico que busca exclusivamente vehículos premium, resaltando las caracteristicas y beneficos del Sorento.  

In [31]:
data.groupby(['state','model'])['sellingprice'].mean().sort_values(ascending=False)


Unnamed: 0_level_0,Unnamed: 1_level_0,sellingprice
state,model,Unnamed: 2_level_1
fl,458 Italia,183000.000000
fl,i8,162000.000000
fl,Ghost,160333.333333
fl,SLS AMG GT,156500.000000
ca,i8,154250.000000
...,...,...
mi,G20,200.000000
pr,Sable,150.000000
ca,Paseo,150.000000
hi,Freestar,100.000000


In [32]:
data.groupby("make").agg({"sellingprice": "mean", "make": "count"}).rename(columns={"sellingprice": "precio_promedio", "make": "cantidad_ventas"})

Unnamed: 0_level_0,precio_promedio,cantidad_ventas
make,Unnamed: 1_level_1,Unnamed: 2_level_1
Acura,14017.268260,5901
Aston Martin,54812.000000,25
Audi,19915.432782,5869
BMW,21441.895748,20719
Bentley,74367.672414,116
...,...,...
subaru,3710.416667,60
suzuki,4810.000000,5
toyota,7339.105263,95
volkswagen,6145.833333,24


## 10. Ventas Totales por Estado

a) Agrupa por `state` y calcula la suma de `sellingprice` para cada estado.

b) Caso de negocio: Identifica el estado con mayores ventas totales y discute cómo enfocar campañas de marketing o ampliar la red de distribución en ese estado.

_Respuesta:_ El estado con mayor ventas totales es Florida y para enfocar campañas de marketing en este estado utilizaria canales de marketing locales como patrocinios en eventos locales o colaboraciones con influencers locales.

In [34]:
data.groupby('state')['sellingprice'].sum().sort_values(ascending=False)

Unnamed: 0_level_0,sellingprice
state,Unnamed: 1_level_1
fl,1.151065e+09
ca,1.061078e+09
pa,8.612346e+08
tx,6.064954e+08
ga,4.489274e+08
...,...
3vwd17aj2fm258506,1.330000e+04
3vwd17aj4fm201708,1.320000e+04
3vwd17aj3fm276741,1.320000e+04
3vwd17aj5fm225953,1.320000e+04


## 11. Rentabilidad por Estado

a) Agrupa por `state` y calcula el promedio de eficiencia operativa. Como no contamos con 'Operating Margin', usa como proxy `profit/sellingprice`.

b) Caso de negocio: Identifica el estado con mayor eficiencia operativa y sugiere estrategias para replicar ese éxito en otros mercados.

_Respuesta:_ El estado con mayor eficiencia operativa es Nuevo Mexico y para replicar este éxito en otros estados recomiendo es analisar las practicas operativas que tenga el estado de Nuevo Mexico (como su gestion de logistica, atencion al cliente, etc.), considerar las particularidades de cada mercado (cultura, habitos, etc.) e implementar un programa piloto para cada estado.

In [38]:
data["profit/sellingprice"]=data["profit"]/data["sellingprice"]

In [44]:
data.groupby("state").agg({"profit/sellingprice":"mean"}).sort_values("profit/sellingprice",ascending=False)

Unnamed: 0_level_0,profit/sellingprice
state,Unnamed: 1_level_1
nm,1.178797
tx,0.565770
hi,0.429630
ny,0.320112
md,0.292650
...,...
3vwd17aj7fm326640,
3vwd17aj8fm239622,
3vwd17aj8fm298895,
3vwd17aj9fm219766,


## 12. Análisis por Tipo de Transmisión (en lugar de Sales Method)

a) Agrupa el dataset por `transmission` y calcula:
   - La suma de `sellingprice` para cada tipo.
   - El promedio de `sellingprice` para cada tipo.

b) Caso de negocio: ¿Qué tipo de transmisión (automática vs. manual) genera mayores ingresos y qué implicaciones tiene para la estrategia comercial?

_Respuesta:_ La transmisión automatica genera mayores ingresos y esta implica en la estrategia comercial al ajustar el stock suficiente de vehículos para satisfacer la demanda, en ofrecer promociones y descuentos, y dirigir campañas de marketing a un publico que busque un vehículo con esta caracteristica.

In [49]:
data.groupby("transmission").agg({"sellingprice":["sum","mean"]})

Unnamed: 0_level_0,sellingprice,sellingprice
Unnamed: 0_level_1,sum,mean
transmission,Unnamed: 1_level_2,Unnamed: 2_level_2
Sedan,150550.0,13686.363636
automatic,6443934000.0,13540.406866
manual,196693600.0,11211.448358
sedan,204750.0,13650.0


## 13. Segmentación por Producto Líder

a) Identifica el producto (utiliza la columna `model` como proxy) con mayor cantidad de unidades vendidas. Agrupa por `model` y usa el conteo de registros.

b) Caso de negocio: Si un producto lidera en ventas, ¿cómo ajustarías el inventario y las promociones para maximizar las ganancias?

_Respuesta:_ En este caso, Altima es el producto que lidera en ventas. Y ajustaria el inventario al aumentar la producción para satisfacer la cantidad de demanda, negociaria un mayor volumen con mi proveedores e implementaria estrategias logisticas eficientes, de modo que maximice ganancias.

In [50]:
data.groupby('model')['model'].count().sort_values(ascending=False)

Unnamed: 0_level_0,model
model,Unnamed: 1_level_1
Altima,19349
F-150,14479
Fusion,12946
Camry,12545
Escape,11861
...,...
Paseo,1
Q3,1
Ram Van,1
Regency,1


## 14. Comparación Crítica entre Retailers

a) Compara dos retailers usando la columna `seller` en cuanto a volumen de ventas y margen de beneficio (usa `profit` como proxy).

b) Caso de negocio: Si un retailer muestra mayores unidades vendidas pero un margen inferior, ¿qué estrategia recomendarías (por ejemplo, optimización de costos, cambio en política de descuentos, etc.)? Justifica tu propuesta.

_Respuesta:_ Recomendaria implementar estrategias como reducir los descuentos ofrecidos en los vehículos para buscar un equilibrio entre el volumen de ventas y rentabilidad. Finalmente, ofrecer programas de fidelizacion para premiar a los clientes recurrentes.

**Paso a paso:**
1. Agrupa por `seller` y calcula la suma de `sellingprice` y el promedio de `profit`.
2. Ordena los resultados para identificar los líderes en volumen y analiza el margen.
3. Propón una estrategia basada en los resultados.

In [51]:
data.groupby("seller").agg({"sellingprice":"sum","profit":"mean"}).sort_values(by="sellingprice",ascending=False)

Unnamed: 0_level_0,sellingprice,profit
seller,Unnamed: 1_level_1,Unnamed: 2_level_1
ford motor credit company llc,340960125.0,216.393122
nissan-infiniti lt,272104560.0,-70.225969
the hertz corporation,250863168.0,189.344063
nissan infiniti lt,216158321.0,92.654989
avis corporation,203432330.0,-20.590510
...,...,...
bell auto sales,200.0,250.000000
alberta truck & auto liquidators,200.0,150.000000
beaverton honda,200.0,1100.000000
bcaa/company cars,200.0,600.000000


## 15. Caso Integrador: Estrategia Comercial Global

a) **Paso 1:** Identifica cada criterio basado en los análisis anteriores:
   - **Retailer con mayores ventas totales:** Usa la columna `seller` del resumen de retailers.
   - **Estado con mayores ventas totales:** Del agrupamiento por `state`.
   - **Producto con mayor unidades vendidas:** Usa la columna `model`.
   - **Tipo de transmisión con mayores ventas totales:** Agrupa por `transmission`.

b) **Paso 2:** Filtra el dataset original usando cada uno de estos criterios, uno a uno, y luego combínalos en un filtro final.

c) Con base en el análisis combinado, redacta un breve informe (3-4 líneas) proponiendo una estrategia comercial integral para maximizar la rentabilidad, considerando inversión en canales, promociones específicas y optimización de inventario.

_Respuesta:_ El analisis revela que el retailer Nissan, en el estado de Florida, con el producto Altima y de transmisión automatica, representa el segmento de mayor potencial. Se recomienda enfocar la estrategia en este segmento, optimizando el inventario de Altima automaticos en Florida, e invirtiendo en canales de marketing dirigidos a este público. Promociones enfocadas para este modelo y con tipo de transmisión en Florida podrían impulsar aún más las ventas.



d) Caso de negocio: Utiliza la integración de estos criterios para definir en qué segmento enfocar la estrategia global.

_Respuesta:_ La estrategia global debe enfocarse en el segmento de mercado del Nissan Altima automático, vendido por nissan-infiniti lt en Florida, ya que el análisis ha revelado que este retailer, en este estado, con este modelo y tipo de transmisión, representa el segmento con mayor potencial de rentabilidad, combinando el retailer líder en ventas, el estado con mayor demanda, el producto estrella y la preferencia por la transmisión automática.

In [53]:
Retailer_mayores_ventas=data.groupby("seller").agg({"sellingprice":"sum","profit":"mean"}).sort_values(by="sellingprice",ascending=False)
Retailer_mayores_ventas

Unnamed: 0_level_0,sellingprice,profit
seller,Unnamed: 1_level_1,Unnamed: 2_level_1
ford motor credit company llc,340960125.0,216.393122
nissan-infiniti lt,272104560.0,-70.225969
the hertz corporation,250863168.0,189.344063
nissan infiniti lt,216158321.0,92.654989
avis corporation,203432330.0,-20.590510
...,...,...
bell auto sales,200.0,250.000000
alberta truck & auto liquidators,200.0,150.000000
beaverton honda,200.0,1100.000000
bcaa/company cars,200.0,600.000000


In [57]:
estado_mayor_ventas =data.groupby('state')['sellingprice'].sum().sort_values(ascending=False)
estado_mayor_ventas

Unnamed: 0_level_0,sellingprice
state,Unnamed: 1_level_1
fl,1.151065e+09
ca,1.061078e+09
pa,8.612346e+08
tx,6.064954e+08
ga,4.489274e+08
...,...
3vwd17aj2fm258506,1.330000e+04
3vwd17aj4fm201708,1.320000e+04
3vwd17aj3fm276741,1.320000e+04
3vwd17aj5fm225953,1.320000e+04


In [59]:
producto_mayor_ventas =data.groupby('model')['model'].count().sort_values(ascending=False)
producto_mayor_ventas

Unnamed: 0_level_0,model
model,Unnamed: 1_level_1
Altima,19349
F-150,14479
Fusion,12946
Camry,12545
Escape,11861
...,...
Paseo,1
Q3,1
Ram Van,1
Regency,1


In [61]:
transmision_mayor_ventas =data.groupby("transmission").agg({"sellingprice":["sum","mean"]})
transmision_mayor_ventas

Unnamed: 0_level_0,sellingprice,sellingprice
Unnamed: 0_level_1,sum,mean
transmission,Unnamed: 1_level_2,Unnamed: 2_level_2
Sedan,150550.0,13686.363636
automatic,6443934000.0,13540.406866
manual,196693600.0,11211.448358
sedan,204750.0,13650.0


In [66]:
transmision_mayor_ventas =data.groupby("transmission").agg({"sellingprice":["sum","mean"]})
final_filter = data[(data["Retailer_mayores_ventas"] == "ford motor credit company llc") & (data["estado_mayor_ventas"] == "fl") & (data["producto_mayor_ventas"] == "Altima") & (data[""] == "automatic")].reset_index(drop=True)

KeyError: 'Retailer_mayores_ventas'