# Análisis EDA y Decisiones de Negocio en Ventas de Automóviles

Este notebook contiene 15 ejercicios que combinan análisis exploratorio de datos (EDA) y reflexiones críticas de negocio. Cada punto incluye instrucciones detalladas, paso a paso, para realizar agrupaciones y filtros, de modo que se guíe al estudiante en cada parte del proceso.

La estructura del dataset es la siguiente:

```
year, make, model, trim, body, transmission, vin, state, condition, odometer, color, interior, seller, mmr, sellingprice, saledate
```

¡Comienza el análisis y sigue cada paso para proponer estrategias de negocio basadas en los resultados!

In [1]:
# Descargar y descomprimir el dataset
!wget https://github.com/javierherrera1996/lecture_analytics/raw/main/cars_dataset.zip
!unzip -o cars_dataset.zip

--2025-03-13 20:15:34--  https://github.com/javierherrera1996/lecture_analytics/raw/main/cars_dataset.zip
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/cars_dataset.zip [following]
--2025-03-13 20:15:35--  https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/cars_dataset.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19753181 (19M) [application/zip]
Saving to: ‘cars_dataset.zip’


2025-03-13 20:15:35 (66.0 MB/s) - ‘cars_dataset.zip’ saved [19753181/19753181]

Archive:  cars_dataset.zip
  inflating: car_prices.csv          


## 1. Dimensiones y Representatividad del Dataset

a) Carga el dataset (desde un archivo CSV) y muestra sus dimensiones (número de filas y columnas).

b) Describe brevemente qué representa cada fila y reflexiona: ¿Crees que el dataset es representativo del mercado de ventas de automóviles? Justifica tu respuesta.

In [2]:
import pandas as pd

data = pd.read_csv('car_prices.csv')


In [13]:
# Carga el dataset
data = pd.read_csv('car_prices.csv')

# Muestra las dimensiones
print(f"El dataset tiene {data.shape[0]} filas y {data.shape[1]} columnas.")

El dataset tiene 558837 filas y 16 columnas.


In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 558837 entries, 0 to 558836
Data columns (total 16 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   year          558837 non-null  int64  
 1   make          548536 non-null  object 
 2   model         548438 non-null  object 
 3   trim          548186 non-null  object 
 4   body          545642 non-null  object 
 5   transmission  493485 non-null  object 
 6   vin           558833 non-null  object 
 7   state         558837 non-null  object 
 8   condition     547017 non-null  float64
 9   odometer      558743 non-null  float64
 10  color         558088 non-null  object 
 11  interior      558088 non-null  object 
 12  seller        558837 non-null  object 
 13  mmr           558799 non-null  float64
 14  sellingprice  558825 non-null  float64
 15  saledate      558825 non-null  object 
dtypes: float64(4), int64(1), object(11)
memory usage: 68.2+ MB


**R=** Cada fila representa la información de un vehículo vendido. Contiene información como año, marca, modelo, entre otras características.En mi opinión tiene información que ayuda a entender el mercado de los automóviles, más no se puede aegurar que estadísticamente sea representativa ya que no se tiene información de qué tamaño es la población de automóviles y por ende que la muestra sea representativa.

In [9]:
data.describe()

Unnamed: 0,year,condition,odometer,mmr,sellingprice
count,558837.0,547017.0,558743.0,558799.0,558825.0
mean,2010.038927,30.672365,68320.017767,13769.377495,13611.35881
std,3.966864,13.402832,53398.542821,9679.967174,9749.501628
min,1982.0,1.0,1.0,25.0,1.0
25%,2007.0,23.0,28371.0,7100.0,6900.0
50%,2012.0,35.0,52254.0,12250.0,12100.0
75%,2013.0,42.0,99109.0,18300.0,18200.0
max,2015.0,49.0,999999.0,182000.0,230000.0


## 2. Ventas Totales y Promedio

a) Calcula la suma total y el promedio de la columna `sellingprice`.

b) Caso de negocio: Si el precio promedio es bajo, ¿qué estrategias de precio o promociones sugerirías para aumentar la rentabilidad? Explica tu respuesta.

In [3]:
import pandas as pd

# Assuming your data is in a pandas DataFrame called 'data'
total_selling_price = data['sellingprice'].sum()
average_selling_price = data['sellingprice'].mean()

print(f"Total Selling Price: {total_selling_price}")
print(f"Average Selling Price: {average_selling_price}")

Total Selling Price: 7606367587.0
Average Selling Price: 13611.358810003132


## 3. Distribución de Ventas por Marca

a) Utiliza `value_counts()` para determinar cuántas ventas se registraron por cada marca (`make`).

b) Caso de negocio: ¿Qué marcas parecen dominar el mercado? Basado en esta distribución, ¿en qué marcas invertirías en publicidad y por qué?

In [14]:
brand_sales_counts = data['make'].value_counts()
print(brand_sales_counts)

make
Ford          93554
Chevrolet     60197
Nissan        53946
Toyota        39871
Dodge         30710
              ...  
airstream         1
ford tk           1
chev truck        1
hyundai tk        1
Lotus             1
Name: count, Length: 96, dtype: int64


**R=**  Las marcas que parecen dominar el mercado son: Ford, Chevrolet, Nissan, Toyota y Dodge. Invertiría en publicidad en Chevrolet, Nissan o Toyota ya que tienen mayor potencial de que al invertir en publicidad crezcan las ventas y obtenga mayores ganancias.

## 4. Segmentación de Clientes por Kilometraje

a) Crea un DataFrame filtrado que incluya únicamente las ventas donde el `odometer` es menor a 20,000 millas. Cuantos Vehiculos tiene este dataset?

b) Caso de negocio: Este segmento de vehículos con bajo uso puede tener mayor valor percibido. ¿Cómo ajustarías la estrategia de marketing para este grupo?

In [17]:
# Filter the DataFrame
low_mileage_cars = data[data['odometer'] < 20000]

# Count the number of vehicles
num_low_mileage_cars = low_mileage_cars.shape[0]

# Display the result
print(f"El dataset filtrado tiene {num_low_mileage_cars} vehículos con menos de 20,000 millas.")

El dataset filtrado tiene 84206 vehículos con menos de 20,000 millas.


**R=** Para vehículos de menos de 20.000 millas de kilometraje, la estrategia sería priorizar el bajo kilometraje en la publicidad. Brindar precios exclusivos para quienes compren estos vehículos y extender garantías para estos vehículos.

## 5. Agrupación por Marca: Precio y Volumen

a) Agrupa el dataset por `make` y calcula:
   - El promedio de `sellingprice`.
   - La cantidad de ventas por marca (usa el conteo de registros como proxy).

b) Caso de negocio: Si una marca tiene alto volumen pero precios bajos, ¿qué medidas recomendarías para mejorar el margen?

**Paso a paso:**
1. Realiza la agrupación.
2. Renombra las columnas para que sean claras.
3. Interpreta el resultado antes de pasar al siguiente filtro o análisis.

In [18]:
# Group data by 'make' and calculate average selling price and sales count
make_stats = data.groupby('make').agg(
    average_selling_price=('sellingprice', 'mean'),
    sales_count=('sellingprice', 'count')  # Using count of sellingprice as proxy for sales count
)

# Display the results
print(make_stats)

              average_selling_price  sales_count
make                                            
Acura                  14017.268260         5901
Aston Martin           54812.000000           25
Audi                   19915.432782         5869
BMW                    21441.895748        20719
Bentley                74367.672414          116
...                             ...          ...
subaru                  3710.416667           60
suzuki                  4810.000000            5
toyota                  7339.105263           95
volkswagen              6145.833333           24
vw                     13672.916667           24

[96 rows x 2 columns]


**R=** Si hay marcas de vehículos con arto volumen y bajo precio, se debería ajustar primeramente el precio, abría que incrementarlo.

También serviría introducir opciones premium que permitan incrementar sus características.

## 6. Análisis de Rentabilidad por Marca

a) Crea una nueva columna `profit` que sea la diferencia entre `mmr` y `sellingprice`.
b) Agrupa por `make` y calcula el beneficio promedio para cada marca.

c) Caso de negocio: Identifica las 5 marcas con mayor beneficio promedio y explica qué acciones estratégicas implementarías (por ejemplo, renegociar precios o invertir en calidad).

In [19]:
# a) Create a new column 'profit'
data['profit'] = data['mmr'] - data['sellingprice']

# b) Group by 'make' and calculate average profit
profit_by_make = data.groupby('make')['profit'].mean()

# Display the results
print(profit_by_make)

make
Acura             59.544992
Aston Martin   -1252.000000
Audi             164.781053
BMW              133.652058
Bentley         1560.775862
                   ...     
subaru           201.250000
suzuki            -5.000000
toyota            28.526316
volkswagen      -161.458333
vw               175.000000
Name: profit, Length: 96, dtype: float64


In [21]:
top_5_brands = profit_by_make.sort_values(ascending=False).head(5)
print(top_5_brands)

make
Fisker      2638.888889
Ferrari     2000.000000
Plymouth    1577.500000
Bentley     1560.775862
porsche     1419.736842
Name: profit, dtype: float64


**R=**Las 5 marcas con mayor beneficio promedio son Fisker, Ferrari, Plymouth, Bentley y Porsche.

Algunas estrategias que se pueden implementar para estas marcas son: La renegociación de precios, inversión en calidad que le permitiría aumentar volumen de ventas, invertir en publicidad y promoción y por último, enfocarse en la experiencia del cliente ya que al tener con excelente atención al cliente, la gente preferirá la marca.

## 7. Análisis Temporal: Ventas del Año 2015

a) Filtra el dataset para obtener únicamente las ventas del año 2015 y muestra las primeras 10 filas. Cuantos Vehiculos tiene esta dataset


b) Caso de negocio: Si 2015 muestra comportamientos atípicos en comparación con otros años, ¿deberías ajustar la estrategia basándote en tendencias actuales? Explica tu criterio.

In [28]:
import pandas as pd

# Convert 'saledate' to datetime, handling errors
data['saledate'] = pd.to_datetime(data['saledate'], errors='coerce')

In [29]:
# Extract the year and assign it to the 'saleyear' column
data['saleyear'] = data['saledate'].dt.year

In [30]:
# Filter for sales in 2015, ignoring invalid dates
sales_2015 = data[data['saleyear'] == 2015]

In [31]:
print(sales_2015.head(10))

    year       make     model                       trim         body  \
2   2014        BMW  3 Series                 328i SULEV        Sedan   
3   2015      Volvo       S60                         T5        Sedan   
9   2014  Chevrolet    Camaro                         LT  Convertible   
12  2015       Ford    Fusion                         SE        Sedan   
21  2014        BMW  5 Series                       528i        Sedan   
24  2014        BMW  6 Series                       650i  Convertible   
26  2015      Volvo      XC70                         T6        Wagon   
27  2015      Volvo      XC70                         T6        Wagon   
31  2014       Audi       SQ5  3.0T Premium Plus quattro          SUV   
35  2014      Buick    Verano          Convenience Group        Sedan   

   transmission                vin state  condition  odometer  color interior  \
2     automatic  wba3c1c51ek116351    ca       45.0    1331.0   gray    black   
3     automatic  yv1612tb4f1310987

In [32]:
num_vehicles_2015 = sales_2015.shape[0]
print(f"El dataset filtrado tiene {num_vehicles_2015} vehículos del año 2015.")

El dataset filtrado tiene 341762 vehículos del año 2015.


**R=** Sí, si el año 2015 tiene muchos datos atípicos, se deberían tener en cuenta entonces datos de años más recientes ya que permitirían tener una percepción más cercana a la realidad más actual. A parte, muchos datos atípicos no servirían para entender lo que realmente pasa en la realidad.

## 8. Comparación por Tipo de Carrocería

a) Agrupa por la columna `body` y calcula el promedio de `sellingprice` para cada tipo.

b) Caso de negocio: Determina qué tipo de carrocería tiene mayor precio promedio y argumenta cómo podrías aprovechar esta información para posicionar una línea premium o ajustar el inventario.

In [33]:
# Group data by 'body' and calculate average selling price
body_avg_price = data.groupby('body')['sellingprice'].mean()

# Display the results
print(body_avg_price)

body
Access Cab            13262.500000
Beetle Convertible    18070.192308
CTS Coupe             22758.527132
CTS Wagon             17811.538462
CTS-V Coupe           38425.750000
                          ...     
transit van           22707.142857
tsx sport wagon       18118.750000
van                   15009.742105
wagon                 10551.605442
xtracab                5250.000000
Name: sellingprice, Length: 87, dtype: float64


**R=**Esta información de carrocería con mayor precio promedio serviría para análizar y crear estrategias de negocio como la creación de una línea premium con acabados de lujo, ofreciendo versiones especiales con acabados más sofisticados. Ajustar el inventario, en este sentido se buscaría reducir el inventario de las carrocerias con menor precio promedio y aumentar las de mayor precio promedio.

## 9. Filtros Combinados para un Caso Específico

a) **Paso 1:** Agrupa los datos por `state`, `model` y calcula el promedio de `sellingprice` para ver cuál es el precio promedio por combinación.

b) **Paso 2:** Utiliza el resultado del agrupamiento para filtrar el dataset original. Por ejemplo, filtra los registros de un estado ('ca') y un modelo ('Sorento') cuyo `sellingprice` supere el precio promedio calculado.

c) Caso de negocio: Analiza este segmento y plantea qué acciones implementarías para potenciar las ventas en California, considerando el modelo y el segmento premium.

In [34]:
# Agrupa los datos por 'state' y 'model' y calcula el precio promedio de venta
state_model_avg_price = data.groupby(['state', 'model'])['sellingprice'].mean()

# Imprime los resultados
print(state_model_avg_price)

state              model      
3vwd17aj0fm227318  Jetta          13700.0
3vwd17aj2fm258506  Jetta          13300.0
3vwd17aj2fm261566  Jetta          13400.0
3vwd17aj2fm285365  Jetta          14050.0
3vwd17aj3fm259017  Jetta          14250.0
                                   ...   
wi                 twn&country      325.0
                   windstar         525.0
                   wrangler        9300.0
                   xB              8200.0
                   xD              8850.0
Name: sellingprice, Length: 16144, dtype: float64


In [35]:
# Agrupa los datos por 'state' y 'model' y calcula el precio promedio de venta
state_model_avg_price = data.groupby(['state', 'model'])['sellingprice'].mean()

# Filtra los registros para California ('ca') y el modelo 'Sorento'
filtered_data = data[
    (data['state'] == 'ca') &
    (data['model'] == 'Sorento') &
    (data['sellingprice'] > state_model_avg_price.loc[('ca', 'Sorento')])
]

# Imprime los resultados
print(filtered_data)

        year make    model trim body transmission                vin state  \
0       2015  Kia  Sorento   LX  SUV    automatic  5xyktca69fg566472    ca   
1       2015  Kia  Sorento   LX  SUV    automatic  5xyktca69fg561319    ca   
13      2015  Kia  Sorento   LX  SUV    automatic  5xyktca66fg561407    ca   
32      2015  Kia  Sorento   LX  SUV    automatic  5xyktca60fg565226    ca   
34      2015  Kia  Sorento   LX  SUV    automatic  5xyktca68fg559481    ca   
...      ...  ...      ...  ...  ...          ...                ...   ...   
523501  2012  Kia  Sorento   LX  suv    automatic  5xykt4a2xcg275994    ca   
523504  2012  Kia  Sorento   SX  suv    automatic  5xykw4a24cg300606    ca   
532270  2014  Kia  Sorento   EX  suv    automatic  5xyku4a77eg525106    ca   
532276  2014  Kia  Sorento   LX  suv    automatic  5xykt4a66eg458136    ca   
535151  2013  Kia  Sorento   SX  suv    automatic  5xykwda25dg337584    ca   

        condition  odometer   color interior  \
0             5

**R=** Análisis del Segmento:

**Modelo 'Sorento' en California:** Este segmento representa a los compradores de California que están dispuestos a pagar un precio superior al promedio por un Kia Sorento. Esto podría indicar una mayor demanda o un interés particular por este modelo en esa región.

**Segmento Premium:** Al tener un precio de venta superior al promedio, este segmento se puede considerar como un segmento premium dentro del mercado de Kia Sorento en California. Los compradores de este segmento podrían estar buscando características, acabados o condiciones específicas que justifiquen el precio más alto.

**Acciones para potenciar ventas:**

Marketing Dirigido:
Crear campañas web con google Ads por ejemplo para llegar a nuestros clientes deseados.

Segmentación precisa: Definir un público objetivo específico basado en datos demográficos, intereses y comportamientos de compra para mostrar anuncios relevantes y personalizados.

Resaltar las características premium: En las campañas de marketing, destacar las características, acabados y condiciones que hacen que estos Sorento sean considerados premium y justifiquen su precio superior.


## 10. Ventas Totales por Estado

a) Agrupa por `state` y calcula la suma de `sellingprice` para cada estado.

b) Caso de negocio: Identifica el estado con mayores ventas totales y discute cómo enfocar campañas de marketing o ampliar la red de distribución en ese estado.

In [36]:
# Agrupa por 'state' y calcula la suma de 'sellingprice'
state_total_sales = data.groupby('state')['sellingprice'].sum()

# Imprime los resultados
print(state_total_sales)

state
3vwd17aj0fm227318        13700.0
3vwd17aj2fm258506        13300.0
3vwd17aj2fm261566        13400.0
3vwd17aj2fm285365        14050.0
3vwd17aj3fm259017        14250.0
                        ...     
tx                   606495361.0
ut                    22152489.0
va                   103111220.0
wa                   103419009.0
wi                   137948766.0
Name: sellingprice, Length: 64, dtype: float64


In [37]:
# Agrupa por 'state' y calcula la suma de 'sellingprice'
state_total_sales = data.groupby('state')['sellingprice'].sum()

# Encuentra el estado con las mayores ventas totales
highest_sales_state = state_total_sales.idxmax()

# Imprime el resultado
print(f"El estado con mayores ventas totales es: {highest_sales_state}")

El estado con mayores ventas totales es: fl


**R=** Estrategias de negocio para Florida que es el mayor estado con ventas totales serían: El incremento de la inversión en publicidad para incrementar ventas, realización de una segmentación geográfica para enviar la publicidad a áreas específicas dentro del estado con mayor potencial de crecimiento y la realización de eventos especiales para aumentar la visibilidad de la marca.

## 11. Rentabilidad por Estado

a) Agrupa por `state` y calcula el promedio de eficiencia operativa. Como no contamos con 'Operating Margin', usa como proxy `profit/sellingprice`.

b) Caso de negocio: Identifica el estado con mayor eficiencia operativa y sugiere estrategias para replicar ese éxito en otros mercados.

In [38]:
# Calcula la eficiencia operativa (profit/sellingprice)
data['operating_efficiency'] = data['profit'] / data['sellingprice']

# Agrupa por 'state' y calcula el promedio de eficiencia operativa
state_avg_efficiency = data.groupby('state')['operating_efficiency'].mean()

# Imprime los resultados
print(state_avg_efficiency)

state
3vwd17aj0fm227318         NaN
3vwd17aj2fm258506         NaN
3vwd17aj2fm261566         NaN
3vwd17aj2fm285365         NaN
3vwd17aj3fm259017         NaN
                       ...   
tx                   0.565770
ut                   0.284350
va                   0.202064
wa                   0.042004
wi                   0.150673
Name: operating_efficiency, Length: 64, dtype: float64


In [39]:
# ... (código para calcular state_avg_efficiency) ...

# Encuentra el estado con la mayor eficiencia operativa
highest_efficiency_state = state_avg_efficiency.idxmax()

# Imprime el resultado
print(f"El estado con mayor eficiencia operativa es: {highest_efficiency_state}")


El estado con mayor eficiencia operativa es: nm


**R=** El mayor estado con eficiencia operativa es Nuevo México. Para replicar este éxito en otros estados se debe analizar el cómo se fijan los precios, cómo gestionan el inventario e identificar cuáles son sus principales costos operativos. Una vez identificada esta información se debe adaptar a la realidad de los otros estados para tener buenos resultados.

## 12. Análisis por Tipo de Transmisión (en lugar de Sales Method)

a) Agrupa el dataset por `transmission` y calcula:
   - La suma de `sellingprice` para cada tipo.
   - El promedio de `sellingprice` para cada tipo.

b) Caso de negocio: ¿Qué tipo de transmisión (automática vs. manual) genera mayores ingresos y qué implicaciones tiene para la estrategia comercial?

In [40]:
# Agrupa por 'transmission' y calcula la suma y el promedio de 'sellingprice'
transmission_stats = data.groupby('transmission').agg(
    total_selling_price=('sellingprice', 'sum'),
    average_selling_price=('sellingprice', 'mean')
)

# Imprime los resultados
print(transmission_stats)

              total_selling_price  average_selling_price
transmission                                            
Sedan                1.505500e+05           13686.363636
automatic            6.443934e+09           13540.406866
manual               1.966936e+08           11211.448358
sedan                2.047500e+05           13650.000000


**R=** Como vemos, la transmisión automática genera mayores ventas totales y mayor promedio de venta en comparación con la manual.
 Por tanto, se debe priorizar la adquisición y venta de vehículos con transmisión automática, destacar las ventajas de la transmisión automática en el marketing y por último, ofrecer incentivos para la compra de vehículos con transmisión automática

## 13. Segmentación por Producto Líder

a) Identifica el producto (utiliza la columna `model` como proxy) con mayor cantidad de unidades vendidas. Agrupa por `model` y usa el conteo de registros.

b) Caso de negocio: Si un producto lidera en ventas, ¿cómo ajustarías el inventario y las promociones para maximizar las ganancias?

In [41]:
# Agrupa por 'model' y calcula el conteo de registros
model_sales_counts = data.groupby('model')['model'].count()

# Encuentra el modelo con la mayor cantidad de ventas
best_selling_model = model_sales_counts.idxmax()

# Imprime el resultado
print(f"El modelo con mayor cantidad de unidades vendidas es: {best_selling_model}")

El modelo con mayor cantidad de unidades vendidas es: Altima


**R=** Si un producto lidera ventas, se debería ajustar el inventario de tal manera que:


1.   Aumente el stock del producto líder
2.   Optimice la ubicación del producto
3.   Monitoree la demanda
4.   Diversifique el inventario

y las promociones para maximizar las ganancias:



1.   Reducir las promociones del producto líder
2.   Utilizar promociones estratégicas
3.   Personalizar las promociones
4.   Promover el producto líder en canales de alto impacto














## 14. Comparación Crítica entre Retailers

a) Compara dos retailers usando la columna `seller` en cuanto a volumen de ventas y margen de beneficio (usa `profit` como proxy).

b) Caso de negocio: Si un retailer muestra mayores unidades vendidas pero un margen inferior, ¿qué estrategia recomendarías (por ejemplo, optimización de costos, cambio en política de descuentos, etc.)? Justifica tu propuesta.

**Paso a paso:**
1. Agrupa por `seller` y calcula la suma de `sellingprice` y el promedio de `profit`.
2. Ordena los resultados para identificar los líderes en volumen y analiza el margen.
3. Propón una estrategia basada en los resultados.

In [42]:
retailer_stats = data.groupby('seller').agg(
    total_sales=('sellingprice', 'sum'),
    average_profit=('profit', 'mean')
)

print(retailer_stats)

                          total_sales  average_profit
seller                                               
1 cochran of monroeville    1594050.0       13.293651
1 for all auto sales           5600.0     -950.000000
101motors                      3750.0       50.000000
1360250 alberta ltd           24000.0    -6050.000000
1360250 alberta ltd.           3000.0     2750.000000
...                               ...             ...
zonemotors.com inc             5900.0      300.000000
zoom auto                      8000.0     -225.000000
zuma autoboat                 10000.0    -1325.000000
zumbrota ford sales llc       13800.0     2450.000000
zygi auto corp                 7750.0     5050.000000

[14263 rows x 2 columns]


In [43]:
# Sort by total sales in descending order
retailer_stats_sorted = retailer_stats.sort_values(by=['total_sales'], ascending=False)

print(retailer_stats_sorted)

                                  total_sales  average_profit
seller                                                       
ford motor credit company llc     340960125.0      216.393122
nissan-infiniti lt                272104560.0      -70.225969
the hertz corporation             250863168.0      189.344063
nissan infiniti lt                216158321.0       92.654989
avis corporation                  203432330.0      -20.590510
...                                       ...             ...
bell auto sales                         200.0      250.000000
alberta truck & auto liquidators        200.0      150.000000
beaverton honda                         200.0     1100.000000
bcaa/company cars                       200.0      600.000000
kfl llc                                   0.0             NaN

[14263 rows x 2 columns]


In [44]:
# Get the stats for the top two retailers
top_retailers = retailer_stats_sorted.head(2)

print(top_retailers)

                               total_sales  average_profit
seller                                                    
ford motor credit company llc  340960125.0      216.393122
nissan-infiniti lt             272104560.0      -70.225969


**R=**Si un retailer muestra mayores unidades vendidas pero un margen inferior, las estrategias que recomendaría serían:


1.   Optimización de costos.
2.   Revisión de políticas de descuentos.
3.   Mezcla de optimización de productos, teniendo en cuenta qué es lo que más vende para gestionar su inventario.



## 15. Caso Integrador: Estrategia Comercial Global

a) **Paso 1:** Identifica cada criterio basado en los análisis anteriores:
   - **Retailer con mayores ventas totales:** Usa la columna `seller` del resumen de retailers.
   - **Estado con mayores ventas totales:** Del agrupamiento por `state`.
   - **Producto con mayor unidades vendidas:** Usa la columna `model`.
   - **Tipo de transmisión con mayores ventas totales:** Agrupa por `transmission`.

b) **Paso 2:** Filtra el dataset original usando cada uno de estos criterios, uno a uno, y luego combínalos en un filtro final.

c) Con base en el análisis combinado, redacta un breve informe (3-4 líneas) proponiendo una estrategia comercial integral para maximizar la rentabilidad, considerando inversión en canales, promociones específicas y optimización de inventario.

d) Caso de negocio: Utiliza la integración de estos criterios para definir en qué segmento enfocar la estrategia global.

In [45]:
# ... (código previo para calcular retailer_stats) ...

# Ordenar por ventas totales en orden descendente
retailer_stats_sorted = retailer_stats.sort_values(by=['total_sales'], ascending=False)

# Obtener el retailer con mayores ventas totales
top_retailer = retailer_stats_sorted.index[0]

print(f"El retailer con mayores ventas totales es: {top_retailer}")

El retailer con mayores ventas totales es: ford motor credit company llc


In [46]:
# ... (código previo para calcular state_total_sales) ...

# Encontrar el estado con las mayores ventas totales
highest_sales_state = state_total_sales.idxmax()

print(f"El estado con mayores ventas totales es: {highest_sales_state}")

El estado con mayores ventas totales es: fl


In [47]:
# ... (código previo para calcular model_sales_counts) ...

# Encontrar el modelo con la mayor cantidad de ventas
best_selling_model = model_sales_counts.idxmax()

print(f"El producto con mayor unidades vendidas es: {best_selling_model}")

El producto con mayor unidades vendidas es: Altima


In [48]:
# Agrupa por 'transmission' y calcula la suma de 'sellingprice'
transmission_total_sales = data.groupby('transmission')['sellingprice'].sum()

# Encuentra la transmisión con las mayores ventas totales
highest_sales_transmission = transmission_total_sales.idxmax()

print(f"El tipo de transmisión con mayores ventas totales es: {highest_sales_transmission}")

El tipo de transmisión con mayores ventas totales es: automatic


In [49]:
# Filtro por retailer
filtered_by_retailer = data[data['seller'] == top_retailer]

# Filtro por estado
filtered_by_state = data[data['state'] == highest_sales_state]

# Filtro por producto (modelo)
filtered_by_model = data[data['model'] == best_selling_model]

# Filtro por tipo de transmisión
filtered_by_transmission = data[data['transmission'] == highest_sales_transmission]

In [50]:
# Combinar los filtros usando operadores lógicos
final_filtered_data = data[
    (data['seller'] == top_retailer) &
    (data['state'] == highest_sales_state) &
    (data['model'] == best_selling_model) &
    (data['transmission'] == highest_sales_transmission)
]

**C)** **R=**
Para maximizar la rentabilidad, se recomienda:
**Inversión en canales:** Concentrar la inversión en marketing y distribución en el estado de Florida.
**Promociones específicas:** Impulsar la venta del modelo Altima (con transmisión automática).
**Optimización de inventario:** Asegurar un stock adecuado de Altima con transmisión automática en Florida, gestionado por el retailer líder, para satisfacer la demanda y minimizar costos de inventario.

**d) R=**
**Segmento objetivo:**

La estrategia global debe centrarse principalmente en el segmento representado por el modelo Altima con transmisión automática, vendido en Florida por el minorista líder (el minorista con mayores ingresos totales).