In [1]:
import pandas as pd

# Cargar el archivo CSV con los nombres de columnas especificados
data = pd.read_csv(r'C:\Users\sebas andoney\OneDrive\Escritorio\ventas_Sucursal.csv')

# Revisar las primeras filas
print(data.head())


   id_venta  id_cliente  id_sucursal  id_vehiculo  id_fecha  id_metodopago  \
0         1        48.0         23.0         65.0      48.0           95.0   
1         2        41.0          3.0         55.0      38.0           79.0   
2         3         NaN          NaN         37.0      17.0           85.0   
3         4        58.0          3.0          4.0      68.0            2.0   
4         5         1.0         24.0         13.0       NaN           91.0   

   id_empleado  monto_alquiler  cantidad_alquiler  
0         21.0            26.0                NaN  
1         63.0            17.0                5.0  
2          0.0             NaN               41.0  
3         86.0            20.0               26.0  
4          NaN            67.0               12.0  


In [2]:
# Contar duplicados
duplicados = data.duplicated().sum()
print(f"Duplicados antes de la limpieza: {duplicados}")

# Eliminar duplicados
data_sin_duplicados = data.drop_duplicates()

# Contar duplicados después de la limpieza
duplicados = data_sin_duplicados.duplicated().sum()
print(f"Duplicados después de la limpieza: {duplicados}")


Duplicados antes de la limpieza: 0
Duplicados después de la limpieza: 0


In [3]:
# Verificar valores faltantes
valores_faltantes = data_sin_duplicados.isnull().sum()
print(f"Valores faltantes:\n{valores_faltantes}")

# Reemplazar valores faltantes de monto_alquiler y cantidad_alquiler con 0, y otros con 'Desconocido'
data_imputada = data_sin_duplicados.fillna({
    'monto_alquiler': 0,
    'cantidad_alquiler': 0,
    'id_cliente': 'Desconocido',
    'id_sucursal': 'Desconocido',
    'id_vehiculo': 'Desconocido',
    'id_metodopago': 'Desconocido',
    'id_empleado': 'Desconocido',
    'id_fecha': 'Desconocido'
})

print(data_imputada.isnull().sum())  # Verificar si aún hay valores faltantes


Valores faltantes:
id_venta               0
id_cliente           104
id_sucursal          123
id_vehiculo          122
id_fecha             114
id_metodopago        115
id_empleado          118
monto_alquiler        84
cantidad_alquiler    112
dtype: int64
id_venta             0
id_cliente           0
id_sucursal          0
id_vehiculo          0
id_fecha             0
id_metodopago        0
id_empleado          0
monto_alquiler       0
cantidad_alquiler    0
dtype: int64


In [4]:
# Convertir 'monto_aquiler' y 'cantidad_alquiler' a valores numéricos
data_imputada['monto_alquiler'] = pd.to_numeric(data_imputada['monto_alquiler'], errors='coerce')
data_imputada['cantidad_alquiler'] = pd.to_numeric(data_imputada['cantidad_alquiler'], errors='coerce')

# Validar que los valores no sean negativos
data_validada = data_imputada[(data_imputada['monto_alquiler'] >= 0) & (data_imputada['cantidad_alquiler'] >= 0)]

print(f"Registros después de la validación: {len(data_validada)}")


Registros después de la validación: 1000


In [None]:
# Filtrar filas donde 'id_sucursal' no sea "Desconocido"
data_validada_filtrada = data_validada[data_validada['id_cliente'] != 'Desconocido']

# Agrupar por sucursal y sumar el monto total de alquiler y cantidad total alquilada
ventas_por_sucursal = data_validada_filtrada.groupby('id_cliente').agg({
    'monto_alquiler': 'sum',
    'cantidad_alquiler': 'sum'
}).reset_index()

# Ordenar por el monto total de alquiler de mayor a menor
ventas_por_sucursal = ventas_por_sucursal.sort_values(by='monto_alquiler', ascending=False)

# Guardar el resultado en un archivo CSV
ventas_por_sucursal.to_csv('ventas_por_sucursal.csv', index=False)

print("Datos de ventas por vehículo guardados en 'ventas_por_sucursal.csv'")

