In [1]:
import pandas as pd

# Cargar el archivo CSV con los nombres de columnas especificados
data = pd.read_csv(r'C:\Users\leolz\uteq\Scripts\ventas_metodopago.csv')

# Revisar las primeras filas
print(data.head())


   id_venta  id_cliente  id_sucursal  id_vehiculo  id_fecha  id_metodopago  \
0         1         NaN         30.0       854.99      65.0           16.0   
1         2         NaN          8.0       932.16      33.0           40.0   
2         3       349.0         25.0       673.08       6.0           54.0   
3         4       476.0         24.0       790.61      92.0           74.0   
4         5       343.0         29.0       964.56       1.0           27.0   

   id_empleado  monto_alquiler  cantidad_alquiler  
0         11.0        476729.0              957.0  
1        939.0        501181.0              958.0  
2        869.0        948858.0              720.0  
3        583.0        668794.0                NaN  
4         61.0        520203.0              424.0  


In [2]:
# Contar duplicados
duplicados = data.duplicated().sum()
print(f"Duplicados antes de la limpieza: {duplicados}")

# Eliminar duplicados
data_sin_duplicados = data.drop_duplicates()

# Contar duplicados después de la limpieza
duplicados = data_sin_duplicados.duplicated().sum()
print(f"Duplicados después de la limpieza: {duplicados}")


Duplicados antes de la limpieza: 0
Duplicados después de la limpieza: 0


In [3]:
# Verificar valores faltantes
valores_faltantes = data_sin_duplicados.isnull().sum()
print(f"Valores faltantes:\n{valores_faltantes}")

# Reemplazar valores faltantes de monto_alquiler y cantidad_alquiler con 0, y otros con 'Desconocido'
data_imputada = data_sin_duplicados.fillna({
    'monto_alquiler': 0,
    'cantidad_alquiler': 0,
    'id_cliente': 'Desconocido',
    'id_sucursal': 'Desconocido',
    'id_vehiculo': 'Desconocido',
    'id_metodopago': 'Desconocido',
    'id_empleado': 'Desconocido',
    'id_fecha': 'Desconocido'
})

print(data_imputada.isnull().sum())  # Verificar si aún hay valores faltantes


Valores faltantes:
id_venta               0
id_cliente           111
id_sucursal           96
id_vehiculo          109
id_fecha             102
id_metodopago        114
id_empleado          113
monto_alquiler        83
cantidad_alquiler    103
dtype: int64
id_venta             0
id_cliente           0
id_sucursal          0
id_vehiculo          0
id_fecha             0
id_metodopago        0
id_empleado          0
monto_alquiler       0
cantidad_alquiler    0
dtype: int64


In [4]:
# Convertir 'monto_aquiler' y 'cantidad_alquiler' a valores numéricos
data_imputada['monto_alquiler'] = pd.to_numeric(data_imputada['monto_alquiler'], errors='coerce')
data_imputada['cantidad_alquiler'] = pd.to_numeric(data_imputada['cantidad_alquiler'], errors='coerce')

# Validar que los valores no sean negativos
data_validada = data_imputada[(data_imputada['monto_alquiler'] >= 0) & (data_imputada['cantidad_alquiler'] >= 0)]

print(f"Registros después de la validación: {len(data_validada)}")


Registros después de la validación: 1000


In [5]:
# Filtrar filas donde 'id_metodopago' no sea "Desconocido"
data_validada_filtrada = data_validada[data_validada['id_metodopago'] != 'Desconocido']

# Agrupar por metodopago y sumar el monto total de alquiler y cantidad total alquilada
ventas_por_metodo = data_validada_filtrada.groupby('id_metodopago').agg({
    'monto_alquiler': 'sum',
    'cantidad_alquiler': 'sum'
}).reset_index()

# Ordenar por el monto total de alquiler de mayor a menor
ventas_por_metodo = ventas_por_metodo.sort_values(by='monto_alquiler', ascending=False)

# Guardar el resultado en un archivo CSV
ventas_por_metodo.to_csv('ventas_por_metodo.csv', index=False)

print("Datos de ventas por metodopago guardados en 'ventas_por_metodo.csv'")



Datos de ventas por metodopago guardados en 'ventas_por_metodo.csv'
