In [1]:
import pandas as pd

In [2]:
columnas = [
    "venta_id",
    "fecha_alquiler",
    "cliente_id",
    "vehiculo_id",
    "sucursal_id",
    "costo_alquiler",
    "gasto_operativo",
    "metodo_pago",
    "descuento",
    "kilometros_recorridos"
]

In [3]:
df = pd.read_csv(r"C:\Users\miral\Downloads\rent4you.csv", header=None, names=columnas)

In [4]:
df.head()

Unnamed: 0,venta_id,fecha_alquiler,cliente_id,vehiculo_id,sucursal_id,costo_alquiler,gasto_operativo,metodo_pago,descuento,kilometros_recorridos
0,venta_id,fecha_alquiler,cliente_id,vehiculo_id,sucursal_id,costo_alquiler,gasto_operativo,metodo_pago,descuento,kilometros_recorridos
1,1,2024-03-29,1849,505,7,1757.88,568.68,cash,85.23,552
2,2,2024-12-26,3905,526,4,801.13,58.71,cash,36.19,691
3,3,2024-03-18,5721,430,3,869.62,261.37,Bitcoin,90.87,652
4,4,2023-11-16,1667,578,9,1360.7,128.88,cash,130.23,198


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   venta_id               1001 non-null   object
 1   fecha_alquiler         1001 non-null   object
 2   cliente_id             1001 non-null   object
 3   vehiculo_id            1001 non-null   object
 4   sucursal_id            1001 non-null   object
 5   costo_alquiler         1001 non-null   object
 6   gasto_operativo        1001 non-null   object
 7   metodo_pago            1001 non-null   object
 8   descuento              1001 non-null   object
 9   kilometros_recorridos  1001 non-null   object
dtypes: object(10)
memory usage: 78.3+ KB


In [6]:
df.describe()

Unnamed: 0,venta_id,fecha_alquiler,cliente_id,vehiculo_id,sucursal_id,costo_alquiler,gasto_operativo,metodo_pago,descuento,kilometros_recorridos
count,1001,1001,1001,1001,1001,1001.0,1001.0,1001,1001.0,1001
unique,1001,557,949,564,11,999.0,995.0,11,969.0,577
top,venta_id,2024-03-18,7560,878,5,373.57,653.14,cash,2.91,274
freq,1,7,3,6,119,2.0,2.0,115,2.0,5


In [7]:
# Revisar si hay valores nulos
print("Valores nulos por columna:")
print(df.isnull().sum())

Valores nulos por columna:
venta_id                 0
fecha_alquiler           0
cliente_id               0
vehiculo_id              0
sucursal_id              0
costo_alquiler           0
gasto_operativo          0
metodo_pago              0
descuento                0
kilometros_recorridos    0
dtype: int64


In [8]:
# Revisar si hay valores nulos
print("\nDuplicados:")
print(df.duplicated().sum())


Duplicados:
0


In [9]:
# Asegurar que la fecha esté en formato datetime
df["fecha_alquiler"] = pd.to_datetime(df["fecha_alquiler"], format="%Y-%m-%d", errors="coerce")

In [10]:
# Convertir campos monetarios a float
df["costo_alquiler"] = pd.to_numeric(df["costo_alquiler"], errors="coerce")
df["gasto_operativo"] = pd.to_numeric(df["gasto_operativo"], errors="coerce")
df["descuento"] = pd.to_numeric(df["descuento"], errors="coerce")
df["kilometros_recorridos"] = pd.to_numeric(df["kilometros_recorridos"], errors="coerce")

In [11]:
# Convertir IDs a enteros
df["venta_id"] = pd.to_numeric(df["venta_id"], errors="coerce").astype("Int64")
df["cliente_id"] = pd.to_numeric(df["cliente_id"], errors="coerce").astype("Int64")
df["vehiculo_id"] = pd.to_numeric(df["vehiculo_id"], errors="coerce").astype("Int64")
df["sucursal_id"] = pd.to_numeric(df["sucursal_id"], errors="coerce").astype("Int64")

In [12]:
# Convertir metodo_pago a categoría (para ahorro de memoria y análisis eficiente)
df["metodo_pago"] = df["metodo_pago"].astype("category")

In [13]:
# Detectar alquileres con valores fuera de lo esperado
df[df["costo_alquiler"] > 5000]

Unnamed: 0,venta_id,fecha_alquiler,cliente_id,vehiculo_id,sucursal_id,costo_alquiler,gasto_operativo,metodo_pago,descuento,kilometros_recorridos


In [14]:
# Eliminar registros con km recorridos negativos o exagerados
df = df[(df["kilometros_recorridos"] >= 0) & (df["kilometros_recorridos"] <= 1000)]

In [15]:
# Precio neto luego del descuento
df["total_neto"] = df["costo_alquiler"] - df["descuento"]

In [16]:
# Margen de ganancia bruta (estimación)
df["margen_bruto"] = df["total_neto"] - df["gasto_operativo"]

In [17]:
# Estandarizar errores tipográficos
df["metodo_pago"] = df["metodo_pago"].replace({
    "tarjeeta": "tarjeta",
    "efectivoo": "efectivo"
})

In [18]:
# si descuento > costo_alquiler, eso no tiene sentido:
df = df[df["descuento"] <= df["costo_alquiler"]]

In [19]:
df["costo_alquiler"] = df["costo_alquiler"].round(2)
df["descuento"] = df["descuento"].round(2)

In [20]:
df = df.sort_values(by=["fecha_alquiler", "sucursal_id"])

In [21]:
# Eliminar filas con valores nulos
df.dropna(inplace=True)

# Eliminar filas duplicadas
df.drop_duplicates(inplace=True)


In [47]:
# Verificar que todo esté limpio
df.info()
df.isnull().sum()
df.duplicated().sum()


<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, 952 to 73
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   venta_id               1000 non-null   Int64         
 1   fecha_alquiler         1000 non-null   datetime64[ns]
 2   cliente_id             1000 non-null   Int64         
 3   vehiculo_id            1000 non-null   Int64         
 4   sucursal_id            1000 non-null   Int64         
 5   costo_alquiler         1000 non-null   float64       
 6   gasto_operativo        1000 non-null   float64       
 7   metodo_pago            1000 non-null   category      
 8   descuento              1000 non-null   float64       
 9   kilometros_recorridos  1000 non-null   float64       
 10  total_neto             1000 non-null   float64       
 11  margen_bruto           1000 non-null   float64       
dtypes: Int64(4), category(1), datetime64[ns](1), float64(6)
memory usag

np.int64(0)

In [48]:
df.duplicated().sum()

np.int64(0)

In [49]:
df.dtypes

venta_id                          Int64
fecha_alquiler           datetime64[ns]
cliente_id                        Int64
vehiculo_id                       Int64
sucursal_id                       Int64
costo_alquiler                  float64
gasto_operativo                 float64
metodo_pago                    category
descuento                       float64
kilometros_recorridos           float64
total_neto                      float64
margen_bruto                    float64
dtype: object

In [50]:
df.to_csv("rent4you_cl.csv", index=False)