In [205]:
import pandas as pd
import numpy as np
from itertools import product

In [206]:
# Carga de los CSVs


df_restaurantes = pd.read_csv("C:/Users/jesus/Prueba_tecnica_Deloitte/restaurantes.csv", sep=";")
df_publicidad = pd.read_csv('C:/Users/jesus/Prueba_tecnica_Deloitte/publicidad.csv', delimiter=";", header=None, names=["timestamp_publicidad", "lat2", "long2", "panfletos"])
df_ventas = pd.read_csv('C:/Users/jesus/Prueba_tecnica_Deloitte/ventas.csv', delimiter=";", header=None, names=["timestamp_venta", "id", "ingresos"])

df_restaurantes = df_restaurantes.rename(columns={"lat": "lat1", "long": "long1"})



In [207]:
# Eliminar la columna 'punto' si existe en df_restaurantes
if 'punto' in df_restaurantes.columns:
    df_restaurantes = df_restaurantes.drop(columns=['punto'])

# Eliminar las filas con id=0 en df_ventas
df_ventas = df_ventas[df_ventas['id'] != 0]

In [208]:
# Definir los valores máximos (estos valores deben ser definidos previamente)
distancia_max = 5  # 5 km, según el enunciado
tiempo_max = 168  # 168 horas, según el enunciado

In [209]:
# Función para calcular la distancia Haversine
def haversine(lat1, long1, lat2, long2):
    R = 6371  # Radio de la Tierra en kilómetros
    lat1 = np.radians(lat1)
    lon1 = np.radians(long1)
    lat2 = np.radians(lat2)
    lon2 = np.radians(long2)
    
    dlat = lat2 - lat1
    dlon = long2 - long1
    
    a = np.sin(dlat / 2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon / 2)**2
    c = 2 * np.arcsin(np.sqrt(a))
    
    return R * c

In [210]:
# Crear todas las combinaciones de restaurantes y acciones publicitarias
combinaciones = pd.DataFrame(list(product(df_restaurantes.index, df_publicidad.index)), columns=['restaurante_idx', 'publicidad_idx'])

In [211]:
combinaciones.head()

Unnamed: 0,restaurante_idx,publicidad_idx
0,0,0
1,0,1
2,0,2
3,0,3
4,0,4


In [212]:
# Unir datos de restaurantes y publicidad a las combinaciones
combinaciones = combinaciones.merge(df_restaurantes, left_on='restaurante_idx', right_index=True)
combinaciones = combinaciones.merge(df_publicidad, left_on='publicidad_idx', right_index=True, suffixes=('_restaurante', '_publicidad'))


In [213]:
combinaciones.head()

Unnamed: 0,restaurante_idx,publicidad_idx,id,lat1,long1,timestamp_publicidad,lat2,long2,panfletos
0,0,0,1,41.335773,2.140166,1420099740000,42.898177,-8.512549,2116
1,0,1,1,41.335773,2.140166,1420099800000,37.359507,-5.937782,253
2,0,2,1,41.335773,2.140166,1420099920000,41.41448,2.149441,1018
3,0,3,1,41.335773,2.140166,1420099980000,40.404021,-3.680018,16
4,0,4,1,41.335773,2.140166,1420100280000,41.308698,2.149767,1264


In [214]:
# Calcular la distancia entre cada restaurante y cada acción publicitaria
combinaciones['distancia'] = combinaciones.apply(lambda row: haversine(row['lat1'], row['long1'], row['lat2'], row['long2']), axis=1)

In [215]:
combinaciones.head()

Unnamed: 0,restaurante_idx,publicidad_idx,id,lat1,long1,timestamp_publicidad,lat2,long2,panfletos,distancia
0,0,0,1,41.335773,2.140166,1420099740000,42.898177,-8.512549,2116,8301.026632
1,0,1,1,41.335773,2.140166,1420099800000,37.359507,-5.937782,253,8277.451223
2,0,2,1,41.335773,2.140166,1420099920000,41.41448,2.149441,1018,45.193805
3,0,3,1,41.335773,2.140166,1420099980000,40.404021,-3.680018,16,2224.320705
4,0,4,1,41.335773,2.140166,1420100280000,41.308698,2.149767,1264,46.03595


In [216]:
# Filtrar combinaciones donde la distancia es menor o igual a 5 km
combinaciones_filtradas = combinaciones[combinaciones['distancia'] <= distancia_max]

In [217]:
combinaciones_filtradas.head()

Unnamed: 0,restaurante_idx,publicidad_idx,id,lat1,long1,timestamp_publicidad,lat2,long2,panfletos,distancia
280,0,280,1,41.335773,2.140166,1422087300000,41.346657,2.139955,134,1.577656
1143,0,1143,1,41.335773,2.140166,1428304440000,41.333432,2.139745,2138,2.033184
2039,0,2039,1,41.335773,2.140166,1434699900000,41.37846,2.14046,1868,4.950201
3287,1,1115,2,41.425378,2.113144,1428046020000,41.437017,2.11413,319,4.88448
3936,1,1764,2,41.425378,2.113144,1432797060000,41.415925,2.112343,1283,3.968365


In [218]:
# Unir ventas con combinaciones filtradas (basado en la cercanía de las acciones publicitarias a los restaurantes)
resultados = df_ventas.merge(combinaciones_filtradas, how='inner', left_on='id', right_on='id')

In [219]:
resultados.head()

Unnamed: 0,timestamp_venta,id,ingresos,restaurante_idx,publicidad_idx,lat1,long1,timestamp_publicidad,lat2,long2,panfletos,distancia
0,1420066893000,57,160.9,56,15,37.383858,-6.017803,1420186440000,37.377626,-6.017725,1534,0.795388
1,1420066893000,57,160.9,56,194,37.383858,-6.017803,1421482500000,37.408705,-6.018578,1241,4.798575
2,1420066893000,57,160.9,56,268,37.383858,-6.017803,1422000900000,37.407743,-6.018545,980,4.600904
3,1420066893000,57,160.9,56,306,37.383858,-6.017803,1422260460000,37.362042,-6.018434,2585,4.011711
4,1420066893000,57,160.9,56,383,37.383858,-6.017803,1422779220000,37.39122,-6.017101,719,3.645791


In [220]:
# Asegurarse de que los timestamps estén en formato datetime
resultados['timestamp_venta'] = pd.to_datetime(resultados['timestamp_venta'], unit="ms")
resultados['timestamp_publicidad'] = pd.to_datetime(resultados['timestamp_publicidad'], unit="ms")

In [221]:
resultados.head()

Unnamed: 0,timestamp_venta,id,ingresos,restaurante_idx,publicidad_idx,lat1,long1,timestamp_publicidad,lat2,long2,panfletos,distancia
0,2014-12-31 23:01:33,57,160.9,56,15,37.383858,-6.017803,2015-01-02 08:14:00,37.377626,-6.017725,1534,0.795388
1,2014-12-31 23:01:33,57,160.9,56,194,37.383858,-6.017803,2015-01-17 08:15:00,37.408705,-6.018578,1241,4.798575
2,2014-12-31 23:01:33,57,160.9,56,268,37.383858,-6.017803,2015-01-23 08:15:00,37.407743,-6.018545,980,4.600904
3,2014-12-31 23:01:33,57,160.9,56,306,37.383858,-6.017803,2015-01-26 08:21:00,37.362042,-6.018434,2585,4.011711
4,2014-12-31 23:01:33,57,160.9,56,383,37.383858,-6.017803,2015-02-01 08:27:00,37.39122,-6.017101,719,3.645791


In [222]:
# Calcular el tiempo en horas entre la acción publicitaria y la venta
resultados['tiempo'] = (resultados['timestamp_venta'] - resultados['timestamp_publicidad']).dt.total_seconds() / 3600.0  # Convertir segundos a horas

In [223]:
# Filtrar combinaciones donde el tiempo es menor o igual a 168 horas
resultados_filtrados = resultados[resultados['tiempo'] <= tiempo_max]

In [224]:
# Normalizar distancia y tiempo
resultados_filtrados['distancia_normalizada'] = resultados_filtrados['distancia'] / distancia_max
resultados_filtrados['tiempo_normalizada'] = resultados_filtrados['tiempo'] / tiempo_max

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  resultados_filtrados['distancia_normalizada'] = resultados_filtrados['distancia'] / distancia_max
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  resultados_filtrados['tiempo_normalizada'] = resultados_filtrados['tiempo'] / tiempo_max


In [225]:
# Calcular eficiencia para cada venta filtrada
resultados_filtrados['eficiencia'] = resultados_filtrados['panfletos'] / ((resultados_filtrados['distancia_normalizada']**2 + resultados_filtrados['tiempo_normalizada']**2))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  resultados_filtrados['eficiencia'] = resultados_filtrados['panfletos'] / ((resultados_filtrados['distancia_normalizada']**2 + resultados_filtrados['tiempo_normalizada']**2))


In [226]:
# Calcular el sumatorio de la eficiencia
sumatorio_eficiencia = resultados_filtrados['eficiencia'].sum()

In [227]:
# Normalizar la eficiencia y multiplicar por los ingresos
resultados_filtrados['ingresos_ajustados'] = (resultados_filtrados['eficiencia'] / sumatorio_eficiencia) * resultados_filtrados['ingresos']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  resultados_filtrados['ingresos_ajustados'] = (resultados_filtrados['eficiencia'] / sumatorio_eficiencia) * resultados_filtrados['ingresos']


In [228]:
# Seleccionar las columnas requeridas para el DataFrame final
resultados_finales = resultados_filtrados[['lat2', 'long2', 'timestamp_publicidad', 'ingresos_ajustados']]

In [229]:
# Renombrar columnas para mayor claridad
resultados_finales.columns = ['lat', 'lon', 'timestamp', 'eficiencia']

In [230]:
resultados_finales.head()

Unnamed: 0,lat,lon,timestamp,eficiencia
0,37.377626,-6.017725,2015-01-02 08:14:00,0.001863
1,37.408705,-6.018578,2015-01-17 08:15:00,1.5e-05
2,37.407743,-6.018545,2015-01-23 08:15:00,7e-06
3,37.362042,-6.018434,2015-01-26 08:21:00,1.5e-05
4,37.39122,-6.017101,2015-02-01 08:27:00,3e-06


In [231]:
# Guardar el DataFrame final como un archivo CSV
resultados_finales.to_csv("C:/Users/jesus/Prueba_tecnica_Deloitte/resultados_finales.csv", index=False)

PermissionError: [Errno 13] Permission denied