Maximizar ganancias en un servicio de transporte compartido: Un análisis paso a paso
Objetivo: Desarrollar una estrategia para maximizar las ganancias de un servicio de transporte compartido durante 12 meses, considerando la adquisición de pasajeros, pagos a conductores y datos históricos de aceptación de viajes.

Pasos:

1. Definir métricas:

Ingresos: Total de dinero recibido por viajes completados (30$ por viaje).
Costos: Dinero pagado a conductores por viajes completados.
Ganancia: Ingresos - Costos.
Tasa de aceptación: Porcentaje de viajes solicitados que son aceptados por conductores.
Clientes adquiridos: Número de pasajeros que descargan la aplicación y pueden solicitar viajes.
Clientes activos: Número de pasajeros que solicitan al menos un viaje en un mes.
Retención de clientes: Porcentaje de clientes activos en un mes que permanecen activos en el mes siguiente.
2. Análisis de datos históricos:

Importar y limpiar datos: Cargar el dataset con información de viajes (Id de usuario, Pago, Aceptado) en Python. Limpiar y preprocesar los datos para eliminar valores perdidos o inconsistentes.
Visualizar datos: Crear gráficos para comprender la distribución de pagos, aceptación de viajes y características de los conductores (por ejemplo, pagos promedio, tasa de aceptación por conductor).
Identificar patrones: Analizar la relación entre pagos, aceptación de viajes y características de los conductores para identificar patrones que puedan influir en la rentabilidad del servicio.
3. Modelado matemático:

Función de ganancias: Desarrollar una función matemática que represente las ganancias del servicio en función de la tasa de aceptación, el número de viajes completados, los pagos a conductores y el costo de adquisición de clientes.
Simulación: Implementar simulaciones en Python para evaluar diferentes estrategias de pago a conductores, considerando su impacto en la tasa de aceptación, el número de viajes completados y las ganancias totales.
Optimización: Utilizar técnicas de optimización en Python (por ejemplo, programación lineal o algoritmos genéticos) para encontrar la estrategia de pago a conductores que maximice las ganancias totales durante los 12 meses.
4. Simulación del modelo:

Adquisición de clientes: Simular la adquisición de clientes durante 12 meses, considerando el costo de adquisición ($30 por pasajero) y el límite mensual (1,000 pasajeros).
Demanda de viajes: Simular la demanda de viajes de pasajeros cada mes, utilizando una distribución de Poisson con lambda basado en el número de viajes completados en el mes anterior.
Asignación de conductores: Implementar un algoritmo de asignación de conductores a viajes, considerando la tasa de aceptación histórica de cada conductor y la distancia entre el conductor y el pasajero.
Simulación de viajes: Simular la aceptación o rechazo de viajes por parte de los conductores, basándose en la estrategia de pago y la distancia al pasajero.
Cálculo de ganancias: Calcular las ganancias para cada mes, considerando los ingresos por viajes completados y los pagos a conductores.
5. Evaluación de resultados:

Análisis de métricas: Evaluar el impacto de la estrategia en métricas clave como la tasa de aceptación, el número de viajes completados, la retención de clientes y las ganancias totales.
Análisis de sensibilidad: Realizar un análisis de sensibilidad para evaluar cómo los cambios en los parámetros del modelo (por ejemplo, costo de adquisición de clientes, tasa de aceptación base) afectan las ganancias totales.
Visualización de resultados: Crear gráficos y tablas para comunicar los resultados de la simulación y la evaluación de la estrategia.
Herramientas y lenguajes de programación:

Python: Para análisis de datos, visualización, modelado matemático, simulación y optimización.
Pandas: Para manipulación y análisis de datos.
Matplotlib: Para crear gráficos y visualizaciones.
NumPy: Para cálculos matemáticos y científicos.
SciPy: Para optimización y análisis estadístico.
Consideraciones adicionales:

Restricciones legales y éticas: Asegurarse de cumplir con todas las leyes y regulaciones aplicables al servicio de transporte compartido.
Satisfacción del cliente: Monitorear la satisfacción del cliente con el servicio y realizar ajustes en la estrategia según sea necesario.
Competencia: Analizar la competencia en el mercado y adaptar la estrategia en consecuencia.
Conclusión:

Siguiendo estos pasos y utilizando las herramientas y técnicas descritas, se puede desarrollar una estrategia eficaz para maximizar las ganancias de un servicio de transporte compartido durante 12 meses.

# 2 VERSION DE NEGOCIO

 Entender el problema de Negocio: ?Qué quiere negocio?
- Maximizar la ganancia durante los 12 meses que va a estar el servicio funcionando. -> Ganancia se mide dólares
	Ganancia = Sumatorio de las ganancias mensuales
	Ganancia_Mensual = Ingresos_mensuales - Coste_adquirir_los_Raiders - Coste_pagar_los_drivers  (Empezamos con cero riders,
		
	Ingresos_Mensuales = 30 * num_viajes_aceptados -> num_viajes_aceptados = num_viajes_pedidos (disitribución Poisson) * prob_acepten (porcentaje aceptado) = f(que_quiero_pagar) (DATA)
	Coste_adquirir_los_Riders  = 30 * num_riders_que_quiero_adquirir -> Esto lo elegimos nosotros
	Coste_pagar_los_drivers = num_viajes_aceptados * que_quiero_pagar -> Esto lo elegimos nosotros
	Ganancia_mensual = 30 * num_viajes_aceptados - num_viajes_aceptados * que_quiero_pagar - 30 * num_riders_que_quiero_adquirir
- Estrategia de precios -> num_riders_que_quiero_adquirir (por mes) y el precio que_quiero_pagar
- precio_que_quiero_pagar < 30
- Simulación para parejas de (num_riders_que_quiero_adquirir, precio_que_quiero_pagar)
- ganancia_total = 0
- for num_simulaciones in range(10000)
- for i in range(12):
	num_Viaje_de_ese_mes  -> Poisson -> np.random.poisson (wikipedia) -> numero_riders, tasa + numero_riders_ese_mes, tasa = 1
	num_viajes_aceptados = probabilidad_acepten * num_Viajes_de_ese_mes
	modelo regresión logística -> datos tengo -> acepten o no = f(voy a pagar)
	prob_acepten = model.predict_proba(precio_que_quiero_pagar)
	ganancia_mensual = ...
	ganancia_total += ganancia_mensual
 ganancia_total_media











In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.optimize import minimize


In [3]:
# Cargar el dataset con información de viajes
data = pd.read_csv('data.csv')

# Separar las variables
pagos = data['PAY']
aceptado = data['ACCEPTED']


In [4]:
data

Unnamed: 0,ID,PAY,ACCEPTED
0,786,27.352507,0
1,868,51.939040,1
2,846,24.451818,1
3,249,29.353959,1
4,434,20.568923,1
...,...,...,...
1295,579,25.306900,0
1296,871,36.827302,1
1297,209,20.824530,0
1298,165,26.291693,1


In [5]:
aceptan = data.loc[data['ACCEPTED'] == 1, 'PAY']
no_aceptan=data.loc[data['ACCEPTED'] == 0, "PAY"]

In [5]:
aceptan.shape, no_aceptan.shape

((827,), (473,))

In [6]:

Id_coincidentes=data.loc[data['ACCEPTED'] == 1, 'ID']
Id_no_coincidentes=data.loc[data['ACCEPTED'] == 0, 'ID']


In [107]:
Id_coincidentes.shape, Id_no_coincidentes.shape

((827,), (473,))

In [7]:
#hacemeos un nuevo df agrupando por ID coincidentes con las filas de accepted y pay, creando una nueva coluna dode se vayan sumando las repeticiones de los ID
df_coinc_A = pd.DataFrame({'ID_C':Id_coincidentes, 'PAY_A':aceptan,  'ACCEPTED_A': 1})
df_coinc_A['REPTICIONES'] = df_coinc_A.groupby('ID_C')['ID_C'].transform('count')#creamos una nueva columna con el numero de repeticiones de cada ID y el trasnform para que no se repita el valor en cada fila
df_coinc_A = df_coinc_A.reset_index(drop=True)#
df_coinc_A

Unnamed: 0,ID_C,PAY_A,ACCEPTED_A,REPTICIONES
0,868,51.939040,1,2
1,846,24.451818,1,2
2,249,29.353959,1,2
3,434,20.568923,1,2
4,145,31.595508,1,2
...,...,...,...,...
822,745,29.251370,1,2
823,33,25.841441,1,1
824,871,36.827302,1,1
825,165,26.291693,1,2


In [8]:
df_grouped = df_coinc_A.groupby(["PAY_A", "REPTICIONES"])['ID_C'].apply(list).reset_index(name='ID_C')#agrupamos por pay y repeticiones y creamos una lista con los ID


In [10]:
#si ordenamos la lista de mayoer a menor para ver los usuarios que mas repiten el servicio y los pagan mas caro
ord_C=df_grouped.sort_values(by=['REPTICIONES', 'PAY_A'], ascending=False)
ord_C

Unnamed: 0,PAY_A,REPTICIONES,ID_C
770,41.210127,5,[160]
647,36.737670,5,[583]
623,36.039840,5,[160]
547,34.132019,5,[160]
529,33.742149,5,[116]
...,...,...,...
7,15.927683,1,[369]
5,14.648218,1,[798]
4,12.643292,1,[41]
2,11.591274,1,[952]


In [41]:
#SOLO LOS USUARIOS QUE LA MENOS HAYAN REPEIDO EL SERVICIO UNA VEZ
df_grouped_2 = ord_C.loc[ord_C['REPTICIONES'] >= 1]
df_grouped_2

Unnamed: 0,PAY_A,REPTICIONES,ID_C
770,41.210127,5,[160]
647,36.737670,5,[583]
623,36.039840,5,[160]
547,34.132019,5,[160]
529,33.742149,5,[116]
...,...,...,...
7,15.927683,1,[369]
5,14.648218,1,[798]
4,12.643292,1,[41]
2,11.591274,1,[952]


# LOS CONDUCTORES ACEPTARON UN MEDIA ENTRE 5.40 Y 41,41 EN 827 VIAJES

In [34]:
#CONDUCTORES QUE NO ACPETARON EL SERVICIO
df_no_coinc_N = pd.DataFrame({'ID_NC':Id_no_coincidentes, 'PAY_NC':no_aceptan,  'ACCEPTED_NC': 0})
df_no_coinc_N['REPTICIONES'] = df_no_coinc_N.groupby('ID_NC')['ID_NC'].transform('count')
df_no_coinc_N = df_no_coinc_N.reset_index(drop=True)
df_no_coinc_N

Unnamed: 0,ID_NC,PAY_NC,ACCEPTED_NC,REPTICIONES
0,786,27.352507,0,1
1,108,37.420631,0,1
2,320,43.154819,0,1
3,398,21.387327,0,1
4,102,25.722482,0,1
...,...,...,...,...
468,596,31.099901,0,1
469,947,0.424916,0,1
470,292,23.493058,0,1
471,579,25.306900,0,1


In [38]:
df_grouped_N = df_no_coinc_N.groupby(["PAY_NC", "REPTICIONES"])['ID_NC'].apply(list).reset_index(name='ID_NC')#agrupamos por pay y repeticiones y creamos una lista con los ID
#si ordenamos la lista de mayoer a menor para ver los usuarios que mas repiten el servicio y los pagan mas caro
ord_N=df_grouped_N.sort_values(by=['REPTICIONES', 'PAY_NC'], ascending=False)
ord_N

Unnamed: 0,PAY_NC,REPTICIONES,ID_NC
467,43.154819,1,[320]
466,40.487089,1,[576]
465,38.357892,1,[862]
464,37.764042,1,[233]
463,37.420631,1,[108]
...,...,...,...
4,1.483113,1,[649]
3,0.712649,1,[698]
2,0.424916,1,[947]
1,0.054366,1,[873]


In [39]:
#SOLO LOS USUARIOS QUE LA MENOS HAYAN REPEIDO EL SERVICIO UNA VEZ
df_grouped_N = ord_N.loc[ord_C['REPTICIONES'] > 1]
df_grouped_N

Unnamed: 0,PAY_NC,REPTICIONES,ID_NC
466,40.487089,1,[576]
465,38.357892,1,[862]
464,37.764042,1,[233]
463,37.420631,1,[108]
462,37.204308,1,[969]
...,...,...,...
10,4.744407,1,[932]
8,4.155668,1,[811]
6,3.606459,1,[462]
3,0.712649,1,[698]


# LOS QUE NO ACPTARON EL SERVICIO NO REPITIERON Y COBRARON UNA MEDIA DE 0 A 40.48 UN TOTAL DE 473 CONDUCTORES

In [12]:
# número total de clientes que aceptaron el servicio:
clientes_que_viajaron = df_coinc_A[df_coinc_A['REPTICIONES'] >= 1]['ID_C'].unique()

#  número total de clientes que aceptaron el servicio:
total_aceptacion = len(clientes_que_viajaron)

# 3. Calcula la tasa de aceptación:
tasa_aceptacion = (total_aceptacion / data.shape[0]) * 100

print(f"La tasa de aceptacion es :{round(tasa_aceptacion,2)} %")


La tasa de aceptacion es :40.54 %


In [40]:
#hallar la variable pago_conductores sustrayendo el pago mensual de los clientes que aceptan el servicio menos el pago mensual de los clientes que no aceptan el servicio 
#y dividiendo entre el total de clientes
pagos_MEDIO_conductores = round((aceptan.sum() - no_aceptan.sum())/len(data.ID),2)
print(f"la media del pago a conductores fue:{pagos_MEDIO_conductores}$")


la media del pago a conductores fue:13.07$


In [46]:
numero_viajes_TOTAL=data.shape[0]#827 SI MAS 473 no aceptaron el servicio
numero_viajes_TOTAL
numero_viajes_ACEPTADOS=827
numero_viajes_NO_ACEPTADOS=473


In [49]:
#clacular numero de conductores
numero_conductores = round(numero_viajes_TOTAL/30)
nuemero_conductores_aceptados = round(numero_viajes_ACEPTADOS/30)
nuemero_viajes_NO_ACEPTADOS = round(numero_viajes_NO_ACEPTADOS/30)
print(f"el numero de conductores totales fue:{numero_conductores}")
print(f"el numero de conductores que aceptaron el servicio fue:{nuemero_conductores_aceptados}")
print(f"el numero de conductores que no aceptaron el servicio fue:{nuemero_viajes_NO_ACEPTADOS}")

el numero de conductores totales fue:43
el numero de conductores que aceptaron el servicio fue:28
el numero de conductores que no aceptaron el servicio fue:16


# CALCULOS

In [26]:
def ganancias(pagos_conductores, numero_viajes):
    """
    Calcula las ganancias totales del servicio en 12 meses.

    Args:
        pagos_conductores (list): Lista de pagos a conductores por viaje.
        numero_viajes (int): Número de viajes completados.

    Returns:
        float: Ganancias totales.
    """
  
    ingresos = numero_viajes * 30  # Tasa de pago anual de 30 euros
    costos = np.sum(pagos_MEDIO_conductores) * numero_viajes  # Costos por viaje
    return ingresos - costos


In [50]:
Ganancias = round(ganancias(pagos_MEDIO_conductores, numero_viajes_TOTAL),2)
print(f"las ganacias MEDIAS totales en un perido de 12 meses se estima en : {Ganancias}$")

las ganacias MEDIAS totales en un perido de 12 meses se estima en : 22009.0$
