In [27]:
import pandas as pd

# Cargar el archivo CSV con los nombres de columnas especificados
data = pd.read_csv(r'C:\Users\DELL\ventas_vehiculo.csv')

# Revisar las primeras filas
print(data.head())


   id_venta  id_cliente  id_sucursal  id_vehiculo  id_fecha  id_metodopago  \
0         1        98.0         60.0          3.0       1.0           36.0   
1         2        87.0          NaN          7.0      71.0           77.0   
2         3         NaN         41.0         14.0      92.0           34.0   
3         4        17.0         87.0          NaN      32.0           37.0   
4         5        13.0         58.0         19.0      59.0            NaN   

   id_empleado  monto_aquiler  cantidad_alquiler  
0         27.0       61514.14                 42  
1          6.0      152787.22                 14  
2         52.0      190180.27                 43  
3         17.0       13614.96                  1  
4          NaN      178962.38                 22  


In [28]:
# Contar duplicados
duplicados = data.duplicated().sum()
print(f"Duplicados antes de la limpieza: {duplicados}")

# Eliminar duplicados
data_sin_duplicados = data.drop_duplicates()

# Contar duplicados después de la limpieza
duplicados = data_sin_duplicados.duplicated().sum()
print(f"Duplicados después de la limpieza: {duplicados}")


Duplicados antes de la limpieza: 0
Duplicados después de la limpieza: 0


In [29]:
# Verificar valores faltantes
valores_faltantes = data_sin_duplicados.isnull().sum()
print(f"Valores faltantes:\n{valores_faltantes}")

# Reemplazar valores faltantes de monto_alquiler y cantidad_alquiler con 0, y otros con 'Desconocido'
data_imputada = data_sin_duplicados.fillna({
    'monto_alquiler': 0,
    'cantidad_alquiler': 0,
    'id_cliente': 'Desconocido',
    'id_sucursal': 'Desconocido',
    'id_vehiculo': 'Desconocido',
    'id_metodopago': 'Desconocido',
    'id_empleado': 'Desconocido',
    'id_fecha': 'Desconocido'
})

print(data_imputada.isnull().sum())  # Verificar si aún hay valores faltantes


Valores faltantes:
id_venta               0
id_cliente           105
id_sucursal          126
id_vehiculo          121
id_fecha             111
id_metodopago        115
id_empleado          101
monto_aquiler          0
cantidad_alquiler      0
dtype: int64
id_venta             0
id_cliente           0
id_sucursal          0
id_vehiculo          0
id_fecha             0
id_metodopago        0
id_empleado          0
monto_aquiler        0
cantidad_alquiler    0
dtype: int64


In [32]:
# Convertir 'monto_aquiler' y 'cantidad_alquiler' a valores numéricos
data_imputada['monto_aquiler'] = pd.to_numeric(data_imputada['monto_aquiler'], errors='coerce')
data_imputada['cantidad_alquiler'] = pd.to_numeric(data_imputada['cantidad_alquiler'], errors='coerce')

# Validar que los valores no sean negativos
data_validada = data_imputada[(data_imputada['monto_aquiler'] >= 0) & (data_imputada['cantidad_alquiler'] >= 0)]

print(f"Registros después de la validación: {len(data_validada)}")


Registros después de la validación: 1000


In [36]:
# Filtrar filas donde 'id_vehiculo' no sea "Desconocido"
data_validada_filtrada = data_validada[data_validada['id_vehiculo'] != 'Desconocido']

# Agrupar por vehículo y sumar el monto total de alquiler y cantidad total alquilada
ventas_por_vehiculo = data_validada_filtrada.groupby('id_vehiculo').agg({
    'monto_aquiler': 'sum',
    'cantidad_alquiler': 'sum'
}).reset_index()

# Ordenar por el monto total de alquiler de mayor a menor
ventas_por_vehiculo = ventas_por_vehiculo.sort_values(by='monto_aquiler', ascending=False)

# Guardar el resultado en un archivo CSV
ventas_por_vehiculo.to_csv('ventas_por_vehiculo.csv', index=False)

print("Datos de ventas por vehículo guardados en 'ventas_por_vehiculo.csv'")



Datos de ventas por vehículo guardados en 'ventas_por_vehiculo.csv'
