In [14]:
import pandas as pd
#Importamos el dataframe para su analisis estadistico.
df= pd.read_csv('ventas_autos_test.csv')
df

Unnamed: 0,año,mes,ventas,marca,modelo,tipo,segmento,origen,pais_origen
0,2023,Enero,,Honda,CR-V,Camiones ligeros,SUV's,Nacional,México
1,2023,Enero,418.0,Honda,HR-V,Camiones ligeros,SUV's,Nacional,México
2,2023,Febrero,,Honda,CR-V,Camiones ligeros,SUV's,Nacional,México
3,2023,Febrero,679.0,Honda,HR-V,Camiones ligeros,SUV's,Nacional,México
4,2023,Marzo,,Honda,CR-V,Camiones ligeros,SUV's,Nacional,México
...,...,...,...,...,...,...,...,...,...
50071,2025,Diciembre,,Volvo,Xc90,Camiones ligeros,SUV's,Importado,Suecia
50072,2025,Diciembre,,Volvo,XC90 II,Camiones ligeros,SUV's,Importado,Suecia
50073,2025,Diciembre,,Volvo,Xc90 T6,Camiones ligeros,SUV's,Importado,Suecia
50074,2025,Diciembre,,Volvo,XC90 V8,Camiones ligeros,SUV's,Importado,Suecia


In [36]:
##Corregir apostrofes
df = pd.DataFrame(df)
df["segmento"] = df["segmento"].str.replace("’", "'")
df["marca"] = df["marca"].str.strip().str.capitalize()

In [37]:
#Diccionario de meses
meses = {
    "Enero": 1, "Febrero": 2, "Marzo": 3, "Abril": 4, "Mayo": 5, "Junio": 6,
    "Julio": 7, "Agosto": 8, "Septiembre": 9, "Octubre": 10, "Noviembre": 11, "Diciembre": 12}

df["fecha"] = pd.to_datetime(df["año"].astype(str) + "-" + df["mes"].map(meses).astype(str) + "-01")

In [39]:
#Le damos valor 0 a los NaN, para que a la hora de filtrar no haya problemas al estudiar el comportamiento de las ventas con respecto a los modelos o fechas.
df["ventas"] = df.groupby("modelo")["ventas"].transform(lambda x: x.fillna(x.mean()))
df["ventas"] = df["ventas"].fillna(0)

In [40]:
#Hacemos un analisis sobre las diferentes columnas como lo son (marca, origen, año) con respecto a las ventas.
ventas_marca = df.groupby("marca")["ventas"].sum()
ventas_origen = df.groupby("origen")["ventas"].sum()
ventas_año = df.groupby("año")["ventas"].sum()
#Haciendo un analisis sobre los modelos frecuentes.
modelos_frecuentes = df["modelo"].value_counts()
ventas_desc = df["ventas"].describe()

In [27]:
print("Ventas por marca:")
print(ventas_marca)
print("\nVentas por origen:")
print(ventas_origen)
print("\nVentas por año:")
print(ventas_año)
print("\nModelos frecuentes:")
print(modelos_frecuentes)

Ventas por marca:
marca
Acura                        3752.689655
Alfa romeo                   1239.537704
Audi                        41512.492574
Auteco                        216.000000
Bentley                       129.389610
Bmw                         50115.438072
Bmw group                    3754.588235
Changan                     49125.600000
Chirey                      73555.176366
Chrysler                   289460.573702
Fiat                        31407.795756
Ford motor                 211248.731660
Foton                        7675.857692
General motors             607777.957401
Great wall motor            38251.231579
Honda                      157371.694581
Hyundai                    153907.111494
Infiniti                     3143.172414
Isuzu                        6719.586207
Jac                         87685.169601
Jaguar                        286.371041
Jetour                       8518.285714
Kia                        541265.958429
Land rover                   9248

In [43]:
#Definimos un funcion que da estadisticas por grupo
def group_stats(df, group_field):
    return df.groupby(group_field)["ventas"].agg(["count", "mean", "median", "std", "min", "max", "sum"]).sort_values(by="sum", ascending=False)


print("\n Estadísticas por modelo:\n", group_stats(df, "modelo"))
print("\n Estadísticas por marca:\n", group_stats(df, "marca"))
print("\n Estadísticas por país de origen:\n", group_stats(df, "pais_origen"))
print("\n Estadísticas por tipo de vehículo:\n", group_stats(df, "tipo"))
print("\n Estadísticas por segmento:\n", group_stats(df, "segmento"))


 Estadísticas por modelo:
               count         mean       median          std     min     max  \
modelo                                                                       
Versa            36  7138.000000  7138.000000  1186.729624  3404.0  9727.0   
NP300            36  4993.413793  4993.413793   566.237987  3600.0  6865.0   
Aveo             72  2338.310345  2338.310345  2193.040832     0.0  6301.0   
Virtus           72  2035.931034  2035.931034   456.929061   787.0  3685.0   
KIA K3 Sedán     36  3318.750000  3318.750000   449.677464  1083.0  4016.0   
...             ...          ...          ...          ...     ...     ...   
Clk 320 C        36     0.000000     0.000000     0.000000     0.0     0.0   
Clk 320          36     0.000000     0.000000     0.000000     0.0     0.0   
Clk 280 C        36     0.000000     0.000000     0.000000     0.0     0.0   
Mega Cab         36     0.000000     0.000000     0.000000     0.0     0.0   
MKZ             108     0.000000    

In [44]:
#Calculo de las ventas de acuerdo a la fecha, esto para no usar la columna de meses y que se combinen los diferentes modelos.
#Tambien siendo que se puede hacer un filtro mas grande al ver las ventas de acuerdo a las fechas de cada modelo.
ventas_por_fecha = df.groupby("fecha")["ventas"].sum()
print("\n Ventas por fecha:\n", ventas_por_fecha)


 Ventas por fecha:
 fecha
2023-01-01    139349.364398
2023-02-01    145581.786783
2023-03-01    162106.672358
2023-04-01    137446.505541
2023-05-01    145987.727152
2023-06-01    155167.186941
2023-07-01    152734.280489
2023-08-01    152796.774770
2023-09-01    156833.669413
2023-10-01    148085.805957
2023-11-01    163494.828114
2023-12-01    177321.266632
2024-01-01    145875.762918
2024-02-01    147277.410521
2024-03-01    157285.519612
2024-04-01    145832.921468
2024-05-01    150236.339555
2024-06-01    153204.209093
2024-07-01    155198.244551
2024-08-01    155679.422871
2024-09-01    144923.890424
2024-10-01    150545.664278
2024-11-01    175724.014700
2024-12-01    174743.353113
2025-01-01    147225.904713
2025-02-01    139176.740402
2025-03-01    153447.640717
2025-04-01    137510.685438
2025-05-01    149396.277495
2025-06-01    152420.340359
2025-07-01    152420.340359
2025-08-01    152420.340359
2025-09-01    152420.340359
2025-10-01    152420.340359
2025-11-01    152420.

In [45]:
#Calculo del porcentaje de participacion de las marcas segun sus ventas.
participacion_marca = (df.groupby("marca")["ventas"].sum() / df["ventas"].sum()) * 100
print(participacion_marca)

marca
Acura                       0.068391
Alfa romeo                  0.022590
Audi                        0.756543
Auteco                      0.003936
Bentley                     0.002358
Bmw                         0.913327
Bmw group                   0.068425
Changan                     0.895287
Chirey                      1.340503
Chrysler                    5.275261
Fiat                        0.572390
Ford motor                  3.849893
Foton                       0.139888
General motors             11.076423
Great wall motor            0.697108
Honda                       2.868014
Hyundai                     2.804873
Infiniti                    0.057283
Isuzu                       0.122461
Jac                         1.598015
Jaguar                      0.005219
Jetour                      0.155241
Kia                         9.864278
Land rover                  0.168545
Lexus                       0.168642
Lincoln                     0.091738
Mazda                       6.42

In [35]:
#particionamos de los datos de las ventas en quartiles, con la finalidad de hacer un modelo de pastilla, haciendo un filtro de outliers.
q1 = df["ventas"].quantile(0.25)
q3 = df["ventas"].quantile(0.75)
iqr = q3 - q1
outliers = df[(df["ventas"] < (q1 - 1.5 * iqr)) | (df["ventas"] > (q3 + 1.5 * iqr))]
print(outliers)
print("\n Outliers detectados:\n", outliers[["fecha", "modelo", "ventas"]])

#Calculo de la desviacion estandar y el coeficiente de variacion de las ventas.
std_global = df["ventas"].std()
cv = std_global / df["ventas"].mean()

print(std_global)
print(cv)

        año        mes       ventas       marca            modelo  \
0      2023      Enero   993.689655       Honda              CR-V   
1      2023      Enero   418.000000       Honda              HR-V   
2      2023    Febrero   993.689655       Honda              CR-V   
3      2023    Febrero   679.000000       Honda              HR-V   
4      2023      Marzo   993.689655       Honda              CR-V   
...     ...        ...          ...         ...               ...   
50031  2025  Diciembre  2035.931034  Volkswagen            Virtus   
50032  2025  Diciembre    90.000000  Volkswagen  Volkswagen Caddy   
50039  2025  Diciembre   382.000000       Volvo              EX30   
50067  2025  Diciembre   150.827586       Volvo              XC40   
50069  2025  Diciembre    91.931034       Volvo           XC60 II   

                   tipo      segmento     origen pais_origen      fecha  
0      Camiones ligeros         SUV's   Nacional      México 2023-01-01  
1      Camiones ligeros