In [1]:
import pandas as pd

# Cargar el archivo CSV con los nombres de columnas especificados
data = pd.read_csv(r'C:\Users\52441\ventas_cliente.csv')

# Revisar las primeras filas
print(data.head())


   ID_venta  ID_cliente  ID_sucursal  ID_vehiculo  ID_fecha  ID_metodopago  \
0         1        73.0          NaN        714.0     387.0          844.0   
1         2        17.0         29.0        472.0     572.0           58.0   
2         3        69.0         14.0        879.0     150.0          840.0   
3         4        94.0          0.0        371.0     889.0          331.0   
4         5        92.0          7.0        939.0     599.0          991.0   

   ID_empleado  monto_alquiler  cantidad_alquiler  
0        237.0         12798.0               14.0  
1        988.0         19787.0               60.0  
2        994.0         19038.0               29.0  
3        510.0         10718.0               96.0  
4        951.0             NaN               51.0  


In [2]:
# Contar duplicados
duplicados = data.duplicated().sum()
print(f"Duplicados antes de la limpieza: {duplicados}")

# Eliminar duplicados
data_sin_duplicados = data.drop_duplicates()

# Contar duplicados después de la limpieza
duplicados = data_sin_duplicados.duplicated().sum()
print(f"Duplicados después de la limpieza: {duplicados}")


Duplicados antes de la limpieza: 0
Duplicados después de la limpieza: 0


In [3]:
# Verificar valores faltantes
valores_faltantes = data_sin_duplicados.isnull().sum()
print(f"Valores faltantes:\n{valores_faltantes}")

# Reemplazar valores faltantes de monto_alquiler y cantidad_alquiler con 0, y otros con 'Desconocido'
data_imputada = data_sin_duplicados.fillna({
    'monto_alquiler': 0,
    'cantidad_alquiler': 0,
    'ID_cliente': 'Desconocido',
    'ID_sucursal': 'Desconocido',
    'ID_vehiculo': 'Desconocido',
    'ID_metodopago': 'Desconocido',
    'ID_empleado': 'Desconocido',
    'ID_fecha': 'Desconocido'
})

print(data_imputada.isnull().sum())  # Verificar si aún hay valores faltantes


Valores faltantes:
ID_venta               0
ID_cliente           116
ID_sucursal           99
ID_vehiculo          108
ID_fecha             109
ID_metodopago        109
ID_empleado          105
monto_alquiler       103
cantidad_alquiler     96
dtype: int64
ID_venta             0
ID_cliente           0
ID_sucursal          0
ID_vehiculo          0
ID_fecha             0
ID_metodopago        0
ID_empleado          0
monto_alquiler       0
cantidad_alquiler    0
dtype: int64


In [4]:
# Convertir 'monto_aquiler' y 'cantidad_alquiler' a valores numéricos
data_imputada['monto_alquiler'] = pd.to_numeric(data_imputada['monto_alquiler'], errors='coerce')
data_imputada['cantidad_alquiler'] = pd.to_numeric(data_imputada['cantidad_alquiler'], errors='coerce')

# Validar que los valores no sean negativos
data_validada = data_imputada[(data_imputada['monto_alquiler'] >= 0) & (data_imputada['cantidad_alquiler'] >= 0)]

print(f"Registros después de la validación: {len(data_validada)}")


Registros después de la validación: 1000


In [None]:
# Filtrar filas donde 'ID_cliente' no sea "Desconocido"
data_validada_filtrada = data_validada[data_validada['ID_cliente'] != 'Desconocido']

# Agrupar por vehículo y sumar el monto total de alquiler y cantidad total alquilada
ventas_por_cliente = data_validada_filtrada.groupby('id_cliente').agg({
    'monto_aquiler': 'sum',
    'cantidad_alquiler': 'sum'
}).reset_index()

# Ordenar por el monto total de alquiler de mayor a menor
ventas_por_cliente = ventas_por_cliente.sort_values(by='monto_aquiler', ascending=False)

# Guardar el resultado en un archivo CSV
ventas_por_cliente.to_csv('ventas_por_cliente.csv', index=False)

print("Datos de ventas por clientes guardados en 'ventas_por_cliente.csv'")

