In [2]:
# Importar las herramientas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
# Cargar el archivo de datos
df = pd.read_csv('../datos/df_oasis_clean.csv')

print("Datos cargados correctamente")
print(f"\nTotal de transacciones: {len(df):,}")
print(f"Total de columnas: {df.shape[1]}")

Datos cargados correctamente

Total de transacciones: 8,739
Total de columnas: 19


In [4]:
# Ver las primeras 5 transacciones
df.head()

Unnamed: 0,id,start_date_time,end_date_time,energy_kwh,potency_kw,connector_id,evse_uid,duration,status,amount_transaction,amount_third,status_transaction,coupon_code,pocket_amount,rented_kWh,rented_time_minutes,journal_code,invoice_code,user_id
0,3128,2025-01-04 15:54:27,2025-01-04 18:01:43,14.98,6.85,1,EXITOFLORA_T101,02:07:16,COMPLETED,2640000,1540000.0,APPROVED,,0.0,22.0,,CC-1-229,FV-2-211,0
1,16856,2025-08-01 02:09:26,2025-08-01 03:09:27,6.33,6.8,1,ExitoColina_T1,01:00:01,COMPLETED,1120000,595000.0,APPROVED,,0.0,,60.0,CC-1-6812,FV-2-6755,1
2,7181,2025-04-09 02:03:08,2025-04-09 03:07:42,7.43,3.55,1,ExitoColina_T2,01:04:34,COMPLETED,980000,560000.0,APPROVED,,0.0,,60.0,CC-1-1903,FV-2-1875,1
3,7115,2025-04-08 11:50:45,2025-04-08 12:51:44,6.87,3.55,1,ExitoColina_T2,01:00:59,COMPLETED,980000,560000.0,APPROVED,,0.0,,60.0,CC-1-1880,FV-2-1854,1
4,7102,2025-04-08 01:52:31,2025-04-08 09:55:26,58.55,3.56,1,ExitoColina_T2,08:02:55,COMPLETED,7840000,4480000.0,APPROVED,,0.0,,480.0,CC-1-1877,FV-2-1851,1


In [5]:
# Ver todas las columnas disponibles
print("Columnas en el dataset:")
print("-" * 50)
for i, col in enumerate(df.columns, 1):
    print(f"{i}. {col}")

Columnas en el dataset:
--------------------------------------------------
1. id
2. start_date_time
3. end_date_time
4. energy_kwh
5. potency_kw
6. connector_id
7. evse_uid
8. duration
9. status
10. amount_transaction
11. amount_third
12. status_transaction
13. coupon_code
14. pocket_amount
15. rented_kWh
16. rented_time_minutes
17. journal_code
18. invoice_code
19. user_id


In [6]:
# Ver información detallada de cada columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8739 entries, 0 to 8738
Data columns (total 19 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   8739 non-null   int64  
 1   start_date_time      8739 non-null   object 
 2   end_date_time        8737 non-null   object 
 3   energy_kwh           8739 non-null   float64
 4   potency_kw           8739 non-null   float64
 5   connector_id         8739 non-null   int64  
 6   evse_uid             8739 non-null   object 
 7   duration             8739 non-null   object 
 8   status               8739 non-null   object 
 9   amount_transaction   8739 non-null   int64  
 10  amount_third         7850 non-null   float64
 11  status_transaction   8067 non-null   object 
 12  coupon_code          54 non-null     object 
 13  pocket_amount        8739 non-null   float64
 14  rented_kWh           1385 non-null   float64
 15  rented_time_minutes  7289 non-null   f

In [7]:
# Ver cuántos datos vacíos hay
print("Valores nulos por columna:")
print("-" * 50)
nulos = df.isnull().sum()
nulos_con_datos = nulos[nulos > 0].sort_values(ascending=False)
print(nulos_con_datos)

Valores nulos por columna:
--------------------------------------------------
coupon_code            8685
rented_kWh             7354
rented_time_minutes    1450
journal_code            920
invoice_code            918
amount_third            889
status_transaction      672
end_date_time             2
dtype: int64


In [8]:
# Estadísticas de las variables numéricas
df.describe()

Unnamed: 0,id,energy_kwh,potency_kw,connector_id,amount_transaction,amount_third,pocket_amount,rented_kWh,rented_time_minutes,user_id
count,8739.0,8739.0,8739.0,8739.0,8739.0,7850.0,8739.0,1385.0,7289.0,8739.0
mean,13776.291109,12.541466,6.015426,1.025403,1904008.0,1413188.0,63.567342,17.098903,125.506242,1026.553725
std,6085.228548,11.006087,3.616597,0.157356,1807815.0,25389310.0,1374.634399,14.512066,97.55133,613.161679
min,3062.0,0.5,0.0,1.0,0.0,52200.0,0.0,1.0,0.0,-1.0
25%,8603.5,4.83,3.57,1.0,653400.0,490000.0,0.0,7.0,60.0,506.0
50%,13490.0,9.13,6.49,1.0,1306700.0,880000.0,0.0,13.0,100.0,1008.0
75%,19052.5,16.905,6.83,1.0,2520000.0,1487500.0,0.0,24.0,180.0,1573.0
max,24764.0,110.11,30.07,2.0,16121000.0,2249100000.0,56000.0,200.0,480.0,2110.0


In [9]:
# Top 10 puertos más utilizados
print("Top 10 Puertos de Carga más utilizados:")
print("-" * 50)
print(df['evse_uid'].value_counts().head(10))

Top 10 Puertos de Carga más utilizados:
--------------------------------------------------
evse_uid
ExitoColina_T2           984
ExitoColina_T1           799
Exito170_T2              576
EXITOSANFERNANDO_T201    567
Exito170_T1              554
EXITOFLORA_T202          451
ExitoOccidente_T2        445
ExitoPepeSierra_T2       432
ExitoPepeSierra_T1       326
ExitoChapinero_T2        326
Name: count, dtype: int64


In [11]:
# Ver cuántos datos vacíos hay en cada columna
print("Valores nulos por columna:")
print("=" * 50)

nulos = df.isnull().sum()
porcentaje = (nulos / len(df) * 100).round(2)

# Crear tabla de nulos
tabla_nulos = pd.DataFrame({
    'Columna': nulos.index,
    'Valores Nulos': nulos.values,
    'Porcentaje (%)': porcentaje.values
})

# Mostrar solo columnas con nulos
tabla_nulos[tabla_nulos['Valores Nulos'] > 0].sort_values('Valores Nulos', ascending=False)

Valores nulos por columna:


Unnamed: 0,Columna,Valores Nulos,Porcentaje (%)
12,coupon_code,8685,99.38
14,rented_kWh,7354,84.15
15,rented_time_minutes,1450,16.59
16,journal_code,920,10.53
17,invoice_code,918,10.5
10,amount_third,889,10.17
11,status_transaction,672,7.69
2,end_date_time,2,0.02


In [12]:
# Estadísticas de las variables numéricas
df.describe().round(2)

Unnamed: 0,id,energy_kwh,potency_kw,connector_id,amount_transaction,amount_third,pocket_amount,rented_kWh,rented_time_minutes,user_id
count,8739.0,8739.0,8739.0,8739.0,8739.0,7850.0,8739.0,1385.0,7289.0,8739.0
mean,13776.29,12.54,6.02,1.03,1904008.01,1413188.0,63.57,17.1,125.51,1026.55
std,6085.23,11.01,3.62,0.16,1807814.67,25389310.0,1374.63,14.51,97.55,613.16
min,3062.0,0.5,0.0,1.0,0.0,52200.0,0.0,1.0,0.0,-1.0
25%,8603.5,4.83,3.57,1.0,653400.0,490000.0,0.0,7.0,60.0,506.0
50%,13490.0,9.13,6.49,1.0,1306700.0,880000.0,0.0,13.0,100.0,1008.0
75%,19052.5,16.9,6.83,1.0,2520000.0,1487500.0,0.0,24.0,180.0,1573.0
max,24764.0,110.11,30.07,2.0,16121000.0,2249100000.0,56000.0,200.0,480.0,2110.0


In [13]:
# Análisis de energía consumida
print("Análisis de Energía Consumida (kWh):")
print("=" * 50)
print(f"Promedio: {df['energy_kwh'].mean():.2f} kWh")
print(f"Mínimo: {df['energy_kwh'].min():.2f} kWh")
print(f"Máximo: {df['energy_kwh'].max():.2f} kWh")
print(f"Total consumido: {df['energy_kwh'].sum():,.2f} kWh")

Análisis de Energía Consumida (kWh):
Promedio: 12.54 kWh
Mínimo: 0.50 kWh
Máximo: 110.11 kWh
Total consumido: 109,599.87 kWh


In [14]:
# Análisis de costos
print("Análisis de Costos de Transacciones:")
print("=" * 50)
print(f"Costo promedio: ${df['amount_transaction'].mean():,.0f}")
print(f"Costo mínimo: ${df['amount_transaction'].min():,.0f}")
print(f"Costo máximo: ${df['amount_transaction'].max():,.0f}")
print(f"Ingresos totales: ${df['amount_transaction'].sum():,.0f}")

Análisis de Costos de Transacciones:
Costo promedio: $1,904,008
Costo mínimo: $0
Costo máximo: $16,121,000
Ingresos totales: $16,639,126,000


In [16]:
# Eliminar coupon_code porque está 99% vacío
df_limpio = df.drop('coupon_code', axis=1)

print("Columna 'coupon_code' eliminada")
print(f"Columnas restantes: {df_limpio.shape[1]}")

Columna 'coupon_code' eliminada
Columnas restantes: 18


In [17]:
# Eliminar las 2 filas sin fecha de fin
df_limpio = df_limpio.dropna(subset=['end_date_time'])

print(f"Eliminadas 2 filas sin fecha de finalización")
print(f"Total de filas ahora: {len(df_limpio):,}")

Eliminadas 2 filas sin fecha de finalización
Total de filas ahora: 8,737


In [19]:
# Convertir las columnas de fecha a tipo datetime (con manejo de errores)
df_limpio['start_date_time'] = pd.to_datetime(df_limpio['start_date_time'], errors='coerce')
df_limpio['end_date_time'] = pd.to_datetime(df_limpio['end_date_time'], errors='coerce')

print("Fechas convertidas correctamente")
print(f"Periodo de datos: {df_limpio['start_date_time'].min().date()} a {df_limpio['start_date_time'].max().date()}")

Fechas convertidas correctamente
Periodo de datos: 2025-01-01 a 2025-10-01


In [21]:
# Extraer información útil de las fechas
df_limpio['año'] = df_limpio['start_date_time'].dt.year
df_limpio['mes'] = df_limpio['start_date_time'].dt.month
df_limpio['dia'] = df_limpio['start_date_time'].dt.day
df_limpio['hora'] = df_limpio['start_date_time'].dt.hour
df_limpio['dia_semana'] = df_limpio['start_date_time'].dt.day_name()

# Nombres de mes en español
meses_esp = {
    1: 'Enero', 2: 'Febrero', 3: 'Marzo', 4: 'Abril',
    5: 'Mayo', 6: 'Junio', 7: 'Julio', 8: 'Agosto',
    9: 'Septiembre', 10: 'Octubre', 11: 'Noviembre', 12: 'Diciembre'
}
df_limpio['mes_nombre'] = df_limpio['mes'].map(meses_esp)

# Días de la semana en español
dias_esp = {
    'Monday': 'Lunes', 'Tuesday': 'Martes', 'Wednesday': 'Miércoles',
    'Thursday': 'Jueves', 'Friday': 'Viernes', 'Saturday': 'Sábado', 'Sunday': 'Domingo'
}
df_limpio['dia_semana_esp'] = df_limpio['dia_semana'].map(dias_esp)

print("Nuevas columnas creadas:")
print("  - año, mes, dia, hora")
print("  - mes_nombre (en español)")
print("  - dia_semana_esp (en español)")

Nuevas columnas creadas:
  - año, mes, dia, hora
  - mes_nombre (en español)
  - dia_semana_esp (en español)


In [22]:
# Categorizar las horas en periodos del día
def periodo_del_dia(hora):
    if 6 <= hora < 12:
        return 'Mañana'
    elif 12 <= hora < 18:
        return 'Tarde'
    elif 18 <= hora < 24:
        return 'Noche'
    else:
        return 'Madrugada'

df_limpio['periodo_dia'] = df_limpio['hora'].apply(periodo_del_dia)

print("Columna 'periodo_dia' creada")
print("\nDistribución por periodo del día:")
print(df_limpio['periodo_dia'].value_counts())

Columna 'periodo_dia' creada

Distribución por periodo del día:
periodo_dia
Noche        3636
Tarde        3296
Madrugada    1289
Mañana        516
Name: count, dtype: int64


In [23]:
# Identificar si es fin de semana
df_limpio['es_fin_de_semana'] = df_limpio['dia_semana'].isin(['Saturday', 'Sunday'])

print("Columna 'es_fin_de_semana' creada")
print(f"\nTransacciones en días laborales: {(~df_limpio['es_fin_de_semana']).sum():,}")
print(f"Transacciones en fin de semana: {df_limpio['es_fin_de_semana'].sum():,}")

Columna 'es_fin_de_semana' creada

Transacciones en días laborales: 5,981
Transacciones en fin de semana: 2,756


In [24]:
# Ver las primeras filas con las nuevas columnas
print(f"Dataset limpio:")
print(f"Total de filas: {len(df_limpio):,}")
print(f"Total de columnas: {df_limpio.shape[1]}")
print("\nPrimeras 3 filas:")
df_limpio.head(3)

Dataset limpio:
Total de filas: 8,737
Total de columnas: 27

Primeras 3 filas:


Unnamed: 0,id,start_date_time,end_date_time,energy_kwh,potency_kw,connector_id,evse_uid,duration,status,amount_transaction,...,user_id,año,mes,dia,hora,dia_semana,mes_nombre,dia_semana_esp,periodo_dia,es_fin_de_semana
0,3128,2025-01-04 15:54:27,2025-01-04 18:01:43,14.98,6.85,1,EXITOFLORA_T101,02:07:16,COMPLETED,2640000,...,0,2025.0,1.0,4.0,15.0,Saturday,Enero,Sábado,Tarde,True
1,16856,2025-08-01 02:09:26,2025-08-01 03:09:27,6.33,6.8,1,ExitoColina_T1,01:00:01,COMPLETED,1120000,...,1,2025.0,8.0,1.0,2.0,Friday,Agosto,Viernes,Madrugada,False
2,7181,2025-04-09 02:03:08,2025-04-09 03:07:42,7.43,3.55,1,ExitoColina_T2,01:04:34,COMPLETED,980000,...,1,2025.0,4.0,9.0,2.0,Wednesday,Abril,Miércoles,Madrugada,False


In [25]:
# Guardar el dataset limpio
df_limpio.to_csv('../datos/datos_limpios.csv', index=False)

print("¡DATOS LIMPIOS GUARDADOS!")
print("Archivo guardado en: datos/datos_limpios.csv")
print(f"\nResumen final:")
print(f"  - Filas: {len(df_limpio):,}")
print(f"  - Columnas: {df_limpio.shape[1]}")

¡DATOS LIMPIOS GUARDADOS!
Archivo guardado en: datos/datos_limpios.csv

Resumen final:
  - Filas: 8,737
  - Columnas: 27
