In [72]:
import pandas as pd
import pickle

In [129]:
# Configurar pandas para mostrar todas las columnas sin truncar
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 20)

# Cálculo distancia entre dos geolocalizaciones

In [73]:
import math

def haversine_distance(lat1, lon1, lat2, lon2):
    r = 6371  # Radio medio de la Tierra en kilómetros

    # Convertir las latitudes y longitudes de grados a radianes
    lat1_rad = math.radians(lat1)
    lon1_rad = math.radians(lon1)
    lat2_rad = math.radians(lat2)
    lon2_rad = math.radians(lon2)

    # Calcular las diferencias de latitud y longitud
    d_lat = lat2_rad - lat1_rad
    d_lon = lon2_rad - lon1_rad

    # Aplicar la fórmula de Haversine
    a = math.sin(d_lat/2) ** 2 + math.cos(lat1_rad) * math.cos(lat2_rad) * math.sin(d_lon/2) ** 2
    c = 2 * math.atan2(math.sqrt(a), math.sqrt(1-a))
    distance = r * c

    return distance

# Ejemplo de uso
lat1 = 40.427243
lon1 = -3.708600
lat2 = 40.428724	
lon2 = -3.710101

distance_km = haversine_distance(lat1, lon1, lat2, lon2)
print(f"La distancia entre los puntos es de aproximadamente {distance_km:.2f} kilómetros.")


La distancia entre los puntos es de aproximadamente 0.21 kilómetros.


# Propuestas ChatGPT

Si buscas un enfoque sencillo para comenzar con tu recomendador de deportes, te sugiero seguir estos pasos:

1. **Agrupación por Cercanía:** En lugar de utilizar técnicas de clustering, puedes comenzar con un enfoque más simple basado en la cercanía geográfica del usuario a las instalaciones deportivas y las condiciones climáticas.

2. **Filtrado Basado en Contenido:** Utiliza un enfoque de filtrado basado en contenido, donde recomendaremos deportes en función de las características y preferencias del usuario, así como de las condiciones climáticas actuales y la disponibilidad de infraestructuras deportivas cercanas.

A continuación, te detallo cómo podrías implementar este enfoque más sencillo:

**Paso 1: Preparación de los Datos**

1. Prepara tus datos de usuarios: Asegúrate de tener un conjunto de datos limpio y estructurado con información relevante sobre los usuarios, como altura, peso, estado de forma, propósito y cualquier otra característica que desees utilizar en el modelo.

2. Recolecta datos de instalaciones deportivas y ubicaciones geográficas cercanas a los usuarios. Puedes obtener esta información de fuentes públicas o bases de datos de infraestructuras deportivas y zonas verdes.

3. Recopila datos meteorológicos actuales (temperatura, humedad, etc.) de servicios meteorológicos en línea.

**Paso 2: Recomendación Basada en Contenido**

1. Para cada usuario, calcula la distancia geográfica entre su ubicación y las instalaciones deportivas cercanas. Puedes utilizar la fórmula de Haversine que mencionamos anteriormente para calcular la distancia entre dos puntos geográficos dados sus valores de latitud y longitud.

2. Utiliza los datos meteorológicos actuales para filtrar los deportes que son más adecuados para las condiciones climáticas actuales. Por ejemplo, si la temperatura es alta debido a una ola de calor, puedes recomendar deportes acuáticos o deportes en lugares sombreados.

3. Utiliza las características del usuario, como la altura, el peso y el estado de forma, para recomendar deportes que sean apropiados para su condición física y objetivos.

4. Combina la información de cercanía geográfica, condiciones climáticas y preferencias del usuario para ofrecer una lista de deportes recomendados que se ajusten a sus características y preferencias actuales.

**Paso 3: Evaluación y Mejora**

1. Evalúa el rendimiento del modelo de recomendación solicitando feedback a los usuarios y recopilando datos sobre las recomendaciones que se están siguiendo y las que no.

2. Utiliza la retroalimentación de los usuarios para mejorar el modelo con el tiempo. Puedes ajustar los criterios de recomendación, agregar o modificar características, y afinar los parámetros para lograr recomendaciones más precisas y útiles.

Este enfoque más sencillo te permitirá tener un modelo básico de recomendación de deportes que puede ser más fácil de implementar y ajustar en comparación con enfoques más complejos como el clustering. A medida que el sistema se vaya desplegando y recopilando datos, podrás iterar y mejorar el modelo para proporcionar recomendaciones más personalizadas y precisas.

In [74]:
# Datos simulados para usuarios
usuarios = [
    {"nombre": "Usuario1", "altura": 170, "peso": 70, "estado_forma": "medio", "proposito": "acondicionamiento"},
    {"nombre": "Usuario2", "altura": 160, "peso": 65, "estado_forma": "bajo", "proposito": "diversión"},
    {"nombre": "Usuario3", "altura": 180, "peso": 85, "estado_forma": "alto", "proposito": "competición"},
]

# Datos simulados para algunas instalaciones deportivas cercanas
instalaciones_deportivas = [
    {"nombre": "Pista de Atletismo", "latitud": 40.7128, "longitud": -74.0060},
    {"nombre": "Piscina Municipal", "latitud": 40.7505, "longitud": -73.9934},
    {"nombre": "Cancha de Tenis", "latitud": 40.7488, "longitud": -73.9857},
]

# Datos simulados de condiciones climáticas
datos_clima = {
    "temperatura": 30,
    "humedad": 60,
    "condiciones": "soleado"
}

# Deportes predefinidos para recomendar
deportes_disponibles = [
    "Running",
    "Natación",
    "Tenis",
    "Ciclismo",
    "Fútbol",
    "Baloncesto"
]


In [75]:
from math import radians, sin, cos, sqrt, atan2

def haversine_distance(lat1, lon1, lat2, lon2):
    # Radio medio de la Tierra en kilómetros
    r = 6371.0

    # Convertir latitudes y longitudes de grados a radianes
    lat1_rad = radians(lat1)
    lon1_rad = radians(lon1)
    lat2_rad = radians(lat2)
    lon2_rad = radians(lon2)

    # Diferencias de latitud y longitud
    dlat = lat2_rad - lat1_rad
    dlon = lon2_rad - lon1_rad

    # Aplicar fórmula de Haversine
    a = sin(dlat / 2)**2 + cos(lat1_rad) * cos(lat2_rad) * sin(dlon / 2)**2
    c = 2 * atan2(sqrt(a), sqrt(1 - a))
    distance = r * c

    return distance

def recomendar_deportes(usuario, condiciones_clima, instalaciones_deportivas, deportes_disponibles):
    recomendaciones = []
    
    # Filtrar instalaciones deportivas cercanas al usuario
    instalaciones_cercanas = []
    for instalacion in instalaciones_deportivas:
        distancia = haversine_distance(usuario["latitud"], usuario["longitud"], instalacion["latitud"], instalacion["longitud"])
        if distancia < 10:  # Consideramos instalaciones a menos de 10 km
            instalaciones_cercanas.append(instalacion)
    
    # Filtrar deportes según condiciones climáticas y preferencias del usuario
    for deporte in deportes_disponibles:
        if (condiciones_clima["temperatura"] > 25 and condiciones_clima["condiciones"] == "soleado") or \
           (deporte == "Natación" and condiciones_clima["temperatura"] > 20):
            recomendaciones.append(deporte)
    
    return recomendaciones

# Ejemplo de uso
usuario_actual = usuarios[0]
usuario_actual["latitud"] = 40.7128
usuario_actual["longitud"] = -74.0060

recomendaciones = recomendar_deportes(usuario_actual, datos_clima, instalaciones_deportivas, deportes_disponibles)
print("Deportes recomendados para", usuario_actual["nombre"], ":", recomendaciones)


Deportes recomendados para Usuario1 : ['Running', 'Natación', 'Tenis', 'Ciclismo', 'Fútbol', 'Baloncesto']


Incluyendo ML

In [76]:
from math import radians, sin, cos, sqrt, atan2
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder

def haversine_distance(lat1, lon1, lat2, lon2):
    # Radio medio de la Tierra en kilómetros
    r = 6371.0

    # Convertir latitudes y longitudes de grados a radianes
    lat1_rad = radians(lat1)
    lon1_rad = radians(lon1)
    lat2_rad = radians(lat2)
    lon2_rad = radians(lon2)

    # Diferencias de latitud y longitud
    dlat = lat2_rad - lat1_rad
    dlon = lon2_rad - lon1_rad

    # Aplicar fórmula de Haversine
    a = sin(dlat / 2)**2 + cos(lat1_rad) * cos(lat2_rad) * sin(dlon / 2)**2
    c = 2 * atan2(sqrt(a), sqrt(1 - a))
    distance = r * c

    return distance

def train_sport_models(usuarios, deportes_disponibles):
    sport_models = {}
    label_encoder = LabelEncoder()

    for deporte in deportes_disponibles:
        y = [1 if deporte in usuario["deportes_preferidos"] else 0 for usuario in usuarios]
        X = [[usuario["altura"], usuario["peso"]] for usuario in usuarios]

        # Entrenar el modelo de Regresión Logística
        model = LogisticRegression()
        model.fit(X, y)

        # Guardar el modelo entrenado
        sport_models[deporte] = model

    return sport_models

def recomendar_deportes_ml(usuario, condiciones_clima, instalaciones_deportivas, deportes_disponibles, sport_models):
    recomendaciones = []

    # Filtrar instalaciones deportivas cercanas al usuario
    instalaciones_cercanas = []
    for instalacion in instalaciones_deportivas:
        distancia = haversine_distance(usuario["latitud"], usuario["longitud"], instalacion["latitud"], instalacion["longitud"])
        if distancia < 10:  # Consideramos instalaciones a menos de 10 km
            instalaciones_cercanas.append(instalacion)

    # Predecir probabilidad de ser adecuado para cada deporte
    for deporte in deportes_disponibles:
        if (condiciones_clima["temperatura"] > 25 and condiciones_clima["condiciones"] == "soleado") or \
           (deporte == "Natación" and condiciones_clima["temperatura"] > 20):
            model = sport_models[deporte]
            X_pred = [[usuario["altura"], usuario["peso"]]]
            probabilidad = model.predict_proba(X_pred)[0][1]
            if probabilidad > 0.5:
                recomendaciones.append(deporte)

    return recomendaciones

# Datos simulados para usuarios
usuarios = [
    {"nombre": "Usuario1", "altura": 170, "peso": 70, "estado_forma": "medio", "proposito": "acondicionamiento"},
    {"nombre": "Usuario2", "altura": 160, "peso": 65, "estado_forma": "bajo", "proposito": "diversión"},
    {"nombre": "Usuario3", "altura": 180, "peso": 85, "estado_forma": "alto", "proposito": "competición"},
]

# Datos simulados para algunas instalaciones deportivas cercanas
instalaciones_deportivas = [
    {"nombre": "Pista de Atletismo", "latitud": 40.7128, "longitud": -74.0060},
    {"nombre": "Piscina Municipal", "latitud": 40.7505, "longitud": -73.9934},
    {"nombre": "Cancha de Tenis", "latitud": 40.7488, "longitud": -73.9857},
]

# Datos simulados de condiciones climáticas
datos_clima = {
    "temperatura": 30,
    "humedad": 60,
    "condiciones": "soleado"
}

# Deportes predefinidos para recomendar
deportes_disponibles = [
    "Running",
    "Natación",
    "Tenis",
    "Ciclismo",
    "Fútbol",
    "Baloncesto"
]

# Datos simulados para deportes preferidos por usuarios
usuarios[0]["deportes_preferidos"] = ["Running", "Natación"]
usuarios[1]["deportes_preferidos"] = ["Ciclismo"]
usuarios[2]["deportes_preferidos"] = ["Tenis", "Fútbol"]

# Entrenar modelos para deportes
sport_models = train_sport_models(usuarios, deportes_disponibles)

# Ejemplo de uso
usuario_actual = usuarios[0]
usuario_actual["latitud"] = 40.7128
usuario_actual["longitud"] = -74.0060

recomendaciones_ml = recomendar_deportes_ml(usuario_actual, datos_clima, instalaciones_deportivas, deportes_disponibles, sport_models)
print("Deportes recomendados para", usuario_actual["nombre"], "utilizando ML:", recomendaciones_ml)


ValueError: This solver needs samples of at least 2 classes in the data, but the data contains only one class: 0

# Recomendación basada en contenido

Genial, enfoquémonos en desarrollar un sistema de recomendación basado en contenido para tu proyecto. Como mencionamos anteriormente, este enfoque se centra en las características de los deportes, las instalaciones y los datos climáticos para hacer recomendaciones. Aquí hay un paso a paso para implementar este enfoque:

Recopilación de datos:

Obtén información detallada sobre los diferentes deportes, incluyendo el consumo calórico estimado, si se necesita algún equipo especial, si es deporte individual o en equipo, etc.
Reúne datos sobre las instalaciones deportivas disponibles, sus ubicaciones (latitud y longitud) y los deportes que ofrecen.
Obtén datos climáticos, como la temperatura, la humedad y el estado del tiempo (soleado, nublado, lluvioso, etc.) para la ubicación del usuario.
Creación de perfiles de deportes e instalaciones:

Crea perfiles detallados para cada deporte, incluyendo todas las características relevantes.
Haz lo mismo para las instalaciones deportivas, teniendo en cuenta los deportes que ofrecen y su ubicación geográfica.
Cálculo de similitud:

Define una métrica de similitud para medir qué tan parecidos son los deportes e instalaciones entre sí. Puedes usar métricas como la distancia euclidiana o la similitud del coseno, dependiendo de cómo hayas representado las características.
Calcula la similitud entre los deportes e instalaciones en función de sus perfiles. Cuanto mayor sea la similitud, más parecidos serán en términos de características.
Recomendaciones para el usuario:

Cuando un usuario ingrese su ubicación y los datos climáticos actuales, identifica las instalaciones deportivas cercanas a su ubicación.
Luego, para cada instalación cercana, busca los deportes que ofrece y compáralos con las preferencias deportivas del usuario (que también deben representarse como un perfil de deporte).
Utiliza la métrica de similitud para determinar qué tan bien se ajusta cada deporte ofrecido a las preferencias del usuario y a las condiciones climáticas actuales.
Ordena las recomendaciones en función del nivel de similitud y ofrece al usuario una lista de deportes recomendados, comenzando con los más similares.
Actualización y mejora del sistema:

A medida que recopiles más datos o recibas retroalimentación de los usuarios, puedes mejorar el sistema de recomendación ajustando las características relevantes y la métrica de similitud.
Si tienes acceso a datos reales de usuarios en el futuro, puedes incorporarlos para personalizar aún más las recomendaciones y hacerlas más precisas.
Recuerda que en este enfoque, los usuarios no serán entidades reales, sino perfiles de preferencias deportivas que representan a grupos o segmentos ficticios de usuarios. Aunque no será una recomendación personalizada para usuarios individuales, el sistema se centrará en adaptar las recomendaciones a las condiciones climáticas y a las preferencias generales que hayas definido para cada perfil de deporte.

Este enfoque basado en contenido te permite tener un sistema de recomendación funcional incluso sin datos reales de usuarios, y te brinda la oportunidad de experimentar con diferentes características y métricas de similitud para evaluar su efectividad en hacer recomendaciones relevantes. ¡Espero que este enfoque te sea útil para tu proyecto de fin de curso! Si necesitas más ayuda o tienes más preguntas, no dudes en preguntar. ¡Buena suerte!

## Deportes

In [273]:
deportes = pd.read_csv('../Raw_Datasets/items_Giacomo/deportes_final.csv', index_col=0)
deportes

Unnamed: 0,Actividad,Intesidad,Cal/Kg/h,Equipo,Equipamiento,Contacto,Pelota,Raqueta,Aire libre
0,BMX,,8504,0,1,0,0,0,1
1,Ciclismo,1.0,3999,0,1,0,0,0,1
2,Ciclismo,2.0,5998,0,1,0,0,0,1
3,Ciclismo,3.0,8004,0,1,0,0,0,1
4,Ciclismo,4.0,10004,0,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...
71,Waterpolo,,10004,1,0,0,1,0,0
72,Voleibol acuático,,2999,1,0,0,1,0,0
73,Patinaje sobre hielo,,12003,0,0,0,0,0,0
74,Frontenis,,7503,0,1,0,1,1,0


In [274]:
deportes[deportes['Intesidad'].notna()][['Actividad', 'Intesidad']]

Unnamed: 0,Actividad,Intesidad
1,Ciclismo,1.0
2,Ciclismo,2.0
3,Ciclismo,3.0
4,Ciclismo,4.0
5,Ciclismo,5.0
...,...,...
65,Caminar,2.0
66,Caminar,3.0
67,Natación,1.0
68,Natación,2.0


In [275]:
deportes.loc[deportes['Intesidad'].notna(), 'Actividad'] = deportes[deportes['Intesidad'].notna()].apply(lambda row: row['Actividad'] + '_' + str(row['Intesidad']), axis=1)
deportes

Unnamed: 0,Actividad,Intesidad,Cal/Kg/h,Equipo,Equipamiento,Contacto,Pelota,Raqueta,Aire libre
0,BMX,,8504,0,1,0,0,0,1
1,Ciclismo_1.0,1.0,3999,0,1,0,0,0,1
2,Ciclismo_2.0,2.0,5998,0,1,0,0,0,1
3,Ciclismo_3.0,3.0,8004,0,1,0,0,0,1
4,Ciclismo_4.0,4.0,10004,0,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...
71,Waterpolo,,10004,1,0,0,1,0,0
72,Voleibol acuático,,2999,1,0,0,1,0,0
73,Patinaje sobre hielo,,12003,0,0,0,0,0,0
74,Frontenis,,7503,0,1,0,1,1,0


In [276]:
deportes['Cal/Kg/h'] = deportes['Cal/Kg/h'].str.replace(',', '.').astype(float)

In [277]:
deportes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 76 entries, 0 to 75
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Actividad     76 non-null     object 
 1   Intesidad     29 non-null     float64
 2   Cal/Kg/h      76 non-null     float64
 3   Equipo        76 non-null     int64  
 4   Equipamiento  76 non-null     int64  
 5   Contacto      76 non-null     int64  
 6   Pelota        76 non-null     int64  
 7   Raqueta       76 non-null     int64  
 8   Aire libre    76 non-null     int64  
dtypes: float64(2), int64(6), object(1)
memory usage: 5.9+ KB


In [278]:
deportes.describe()

Unnamed: 0,Intesidad,Cal/Kg/h,Equipo,Equipamiento,Contacto,Pelota,Raqueta,Aire libre
count,29.0,76.0,76.0,76.0,76.0,76.0,76.0,76.0
mean,2.275862,6.648118,0.276316,0.315789,0.039474,0.263158,0.092105,0.263158
std,1.192133,2.709166,0.450146,0.467918,0.196013,0.443273,0.291096,0.443273
min,1.0,2.503,0.0,0.0,0.0,0.0,0.0,0.0
25%,1.0,3.999,0.0,0.0,0.0,0.0,0.0,0.0
50%,2.0,6.7515,0.0,0.0,0.0,0.0,0.0,0.0
75%,3.0,8.004,1.0,1.0,0.0,1.0,0.0,1.0
max,5.0,12.507,1.0,1.0,1.0,1.0,1.0,1.0


In [279]:
deportes['Intesidad'].fillna(0, inplace=True)

In [280]:
deportes['Actividad'] = deportes['Actividad'].replace('Pádel', 'Padel')
deportes['Actividad'] = deportes['Actividad'].replace('Tenis de mesa / ping pong', 'Tenis de mesa')

In [281]:
deportes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 76 entries, 0 to 75
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Actividad     76 non-null     object 
 1   Intesidad     76 non-null     float64
 2   Cal/Kg/h      76 non-null     float64
 3   Equipo        76 non-null     int64  
 4   Equipamiento  76 non-null     int64  
 5   Contacto      76 non-null     int64  
 6   Pelota        76 non-null     int64  
 7   Raqueta       76 non-null     int64  
 8   Aire libre    76 non-null     int64  
dtypes: float64(2), int64(6), object(1)
memory usage: 5.9+ KB


In [282]:
len(deportes['Actividad'].unique())

76

In [283]:
sorted(deportes['Actividad'].unique())

['Aeróbicos acuáticos',
 'Aeróbicos_1.0',
 'Aeróbicos_2.0',
 'Aeróbicos_3.0',
 'Artes marciales',
 'Atletismo_1.0',
 'Atletismo_2.0',
 'Atletismo_3.0',
 'BMX',
 'Baloncesto',
 'Balonmano',
 'Billar',
 'Bolos',
 'Boxeo',
 'Bádminton',
 'Béisbol',
 'Calistenia_1.0',
 'Calistenia_2.0',
 'Calva',
 'Caminar_1.0',
 'Caminar_2.0',
 'Caminar_3.0',
 'Chito',
 'Ciclismo estacionario_1.0',
 'Ciclismo estacionario_2.0',
 'Ciclismo estacionario_3.0',
 'Ciclismo estacionario_4.0',
 'Ciclismo estacionario_5.0',
 'Ciclismo_1.0',
 'Ciclismo_2.0',
 'Ciclismo_3.0',
 'Ciclismo_4.0',
 'Ciclismo_5.0',
 'Correr',
 'Dardos',
 'Entrenamiento en circuito',
 'Escalada',
 'Frisbee',
 'Frontenis',
 'Fútbol',
 'Fútbol sala',
 'Gimnasia',
 'Golf',
 'Hockey',
 'Kickball',
 'Kickboxing',
 'Levantamiento de peso_1.0',
 'Levantamiento de peso_2.0',
 'Marcha rápida',
 'Minigolf',
 'Montañismo',
 'Máquina escaladora',
 'Nado sincronizado',
 'Natación_1.0',
 'Natación_2.0',
 'Natación_3.0',
 'Padel',
 'Patinaje',
 'Patinaj

In [284]:
deportes.drop(columns='Intesidad', inplace=True)

In [285]:
deportes

Unnamed: 0,Actividad,Cal/Kg/h,Equipo,Equipamiento,Contacto,Pelota,Raqueta,Aire libre
0,BMX,8.504,0,1,0,0,0,1
1,Ciclismo_1.0,3.999,0,1,0,0,0,1
2,Ciclismo_2.0,5.998,0,1,0,0,0,1
3,Ciclismo_3.0,8.004,0,1,0,0,0,1
4,Ciclismo_4.0,10.004,0,1,0,0,0,1
...,...,...,...,...,...,...,...,...
71,Waterpolo,10.004,1,0,0,1,0,0
72,Voleibol acuático,2.999,1,0,0,1,0,0
73,Patinaje sobre hielo,12.003,0,0,0,0,0,0
74,Frontenis,7.503,0,1,0,1,1,0


In [265]:
deportes.to_csv(r'..\app\data\deportes.csv')

## Matriz de similitud

In [266]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics.pairwise import cosine_similarity

# Normalizar los datos
scaler = MinMaxScaler()
deportes_normalized = pd.DataFrame(scaler.fit_transform(deportes.iloc[:, 1:]), columns=deportes.columns[1:])

# Calcular la similitud del coseno entre todos los deportes
similarity_matrix = cosine_similarity(deportes_normalized)

# Crear un DataFrame de similitud
df_similarity = pd.DataFrame(similarity_matrix, index=deportes['Actividad'], columns=deportes['Actividad'])

# Eliminar el subíndice
df_similarity.reset_index(drop=True, inplace=True)

df_similarity

Actividad,BMX,Ciclismo_1.0,Ciclismo_2.0,Ciclismo_3.0,Ciclismo_4.0,Ciclismo_5.0,Ciclismo estacionario_1.0,Ciclismo estacionario_2.0,Ciclismo estacionario_3.0,Ciclismo estacionario_4.0,...,Caminar_3.0,Natación_1.0,Natación_2.0,Natación_3.0,Nado sincronizado,Waterpolo,Voleibol acuático,Patinaje sobre hielo,Frontenis,Senderismo
0,1.000000,0.956565,0.987390,0.999540,0.996275,0.981973,0.390490,0.390490,0.390490,0.390490,...,0.747182,0.390490,0.390490,0.390490,0.188153,0.182915,0.013682,0.390490,0.469365,0.743332
1,0.956565,1.000000,0.990652,0.964965,0.927863,0.884218,0.105155,0.105155,0.105155,0.105155,...,0.694727,0.105155,0.105155,0.105155,0.050668,0.049257,0.003684,0.105155,0.419224,0.698522
2,0.987390,0.990652,1.000000,0.991736,0.970060,0.939666,0.239826,0.239826,0.239826,0.239826,...,0.726898,0.239826,0.239826,0.239826,0.115557,0.112340,0.008403,0.239826,0.447288,0.727158
3,0.999540,0.964965,0.991736,1.000000,0.993202,0.975789,0.362394,0.362394,0.362394,0.362394,...,0.744757,0.362394,0.362394,0.362394,0.174615,0.169754,0.012697,0.362394,0.466054,0.741688
4,0.996275,0.927863,0.970060,0.993202,1.000000,0.994615,0.468424,0.468424,0.468424,0.468424,...,0.750315,0.468424,0.468424,0.468424,0.225704,0.219421,0.016412,0.468424,0.476419,0.744268
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
71,0.182915,0.049257,0.112340,0.169754,0.219421,0.261130,0.468424,0.468424,0.468424,0.468424,...,0.166258,0.468424,0.468424,0.468424,0.773132,1.000000,0.899374,0.468424,0.476419,0.154492
72,0.013682,0.003684,0.008403,0.012697,0.016412,0.019532,0.035037,0.035037,0.035037,0.035037,...,0.012436,0.035037,0.035037,0.035037,0.636111,0.899374,1.000000,0.035037,0.401717,0.011556
73,0.390490,0.105155,0.239826,0.362394,0.468424,0.557465,1.000000,1.000000,1.000000,1.000000,...,0.354930,1.000000,1.000000,1.000000,0.481838,0.468424,0.035037,1.000000,0.277248,0.329812
74,0.469365,0.419224,0.447288,0.466054,0.476419,0.480197,0.277248,0.277248,0.277248,0.277248,...,0.098404,0.277248,0.277248,0.277248,0.133589,0.476419,0.401717,0.277248,1.000000,0.091440


In [267]:
# Guardar el DataFrame deportes_normalized utilizando pickle
with open(r'..\app\models\deportes_normalized.pkl', 'wb') as f:
    pickle.dump(deportes_normalized, f)

In [268]:
df_similarity.to_csv(r'..\app\data\similarity.csv')

## Items

In [140]:
items = pd.read_csv('../Raw_Datasets/items_Giacomo/items.csv', index_col=0)
items

Unnamed: 0,DISTRITO,DIRECCION,LONGITUD,LATITUD,TIPO,NOMBRE,ACCESIBILIDAD,CONTENT-URL,BARRIO,EMAIL,INICIO,FINAL,DISTANCIA KM,lat_lon_list
0,CENTRO,PLAZA COMENDADORAS,-3.708600,40.427243,FUENTE,,,,,,,,,
1,CENTRO,JARDINES CONDE DUQUE,-3.710101,40.428724,FUENTE,,,,,,,,,
2,CENTRO,PLAZA DE LAS SALESAS,-3.694603,40.424246,FUENTE,,,,,,,,,
3,CENTRO,PLAZA VILLA DE PARIS,-3.692202,40.425298,FUENTE,,,,,,,,,
4,CENTRO,PLAZA VILLA DE PARIS,-3.693176,40.425562,FUENTE,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4652,,,,,CARRIL BICI,,,,,,,,0.89,"[[40.4543440946557, -3.6900073211386233], [40...."
4653,,,,,PASO DE BICI,,,,,,,,0.08,"[[40.461999281165845, -3.6892227744472814], [4..."
4654,,,,,PASO DE BICI,,,,,,,,0.07,"[[40.459524523185635, -3.68951529029489], [40...."
4655,,,,,PASO DE BICI,,,,,,,,0.05,"[[40.45269012534688, -3.6909787030371084], [40..."


In [141]:
items.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4657 entries, 0 to 4656
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   DISTRITO       2919 non-null   object 
 1   DIRECCION      4281 non-null   object 
 2   LONGITUD       3409 non-null   float64
 3   LATITUD        3409 non-null   float64
 4   TIPO           4657 non-null   object 
 5   NOMBRE         1260 non-null   object 
 6   ACCESIBILIDAD  770 non-null    object 
 7   CONTENT-URL    770 non-null    object 
 8   BARRIO         259 non-null    object 
 9   EMAIL          59 non-null     object 
 10  INICIO         224 non-null    object 
 11  FINAL          221 non-null    object 
 12  DISTANCIA KM   1472 non-null   float64
 13  lat_lon_list   1472 non-null   object 
dtypes: float64(3), object(11)
memory usage: 545.7+ KB


In [142]:
items['TIPO'].unique()

array(['FUENTE', 'INSTALACIÓN DEPORTIVA', 'PISCINA', 'ZONA VERDE',
       'SENDA', 'CENTRO DE SALUD', 'CICLOCARRIL', 'PASO DE BICI',
       'CARRIL BICI', 'VÍA MIXTA', 'SENDA CICLABLE', 'PISTA BICI',
       'ARCEN BICI', 'ACERA BICI', 'ENCAMINAMIENTO', 'CIRCUITO DE OCIO',
       'BANDA RECOMENDADA', 'GIRO PERMITIDO', 'SENTIDO PERMITIDO'],
      dtype=object)

In [143]:
items['TIPO'] = items['TIPO'].replace(['CICLOCARRIL', 'PASO DE BICI',
       'CARRIL BICI', 'VÍA MIXTA', 'SENDA CICLABLE', 'PISTA BICI',
       'ARCEN BICI', 'ACERA BICI', 'ENCAMINAMIENTO', 'CIRCUITO DE OCIO',
       'BANDA RECOMENDADA', 'GIRO PERMITIDO', 'SENTIDO PERMITIDO'], 'INFRAESTRUCTURA CICLISTA')

In [144]:
items['TIPO'].unique()

array(['FUENTE', 'INSTALACIÓN DEPORTIVA', 'PISCINA', 'ZONA VERDE',
       'SENDA', 'CENTRO DE SALUD', 'INFRAESTRUCTURA CICLISTA'],
      dtype=object)

In [145]:
items.to_csv('../Raw_Datasets/items_Giacomo/items_final.csv')

## Instalaciones

In [146]:
instalaciones = pd.read_csv('../Raw_Datasets/items_Giacomo/polideportivos.csv')

In [147]:
instalaciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 507 entries, 0 to 506
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   NOMBRE         507 non-null    object 
 1   EQUIPAMIENTO   506 non-null    object 
 2   ACCESIBILIDAD  507 non-null    int64  
 3   CONTENT-URL    507 non-null    object 
 4   NOMBRE-VIA     507 non-null    object 
 5   CLASE-VIAL     507 non-null    object 
 6   NUM            458 non-null    object 
 7   DISTRITO       507 non-null    object 
 8   LATITUD        507 non-null    float64
 9   LONGITUD       507 non-null    float64
dtypes: float64(2), int64(1), object(7)
memory usage: 39.7+ KB


In [148]:
instalaciones.dropna(subset=['EQUIPAMIENTO'], inplace=True)

In [149]:
# Crear un diccionario para mapear las tuplas (LATITUD, LONGITUD) a sus índices en 'items'
item_indices = {tuple(row[['LATITUD', 'LONGITUD']]): index for index, row in items.iterrows()}

# Utilizar apply para buscar los índices correspondientes en 'items' para cada fila en 'instalaciones'
instalaciones['ID'] = instalaciones.apply(lambda row: item_indices.get((row['LATITUD'], row['LONGITUD'])), axis=1)

In [150]:
instalaciones.head(1)

Unnamed: 0,NOMBRE,EQUIPAMIENTO,ACCESIBILIDAD,CONTENT-URL,NOMBRE-VIA,CLASE-VIAL,NUM,DISTRITO,LATITUD,LONGITUD,ID
0,Instalación Deportiva Básica Embalse de San Juan,Pista de baloncesto. Pista de fútbol sala.,2,http://www.madrid.es/sites/v/index.jsp?vgnextc...,EMBALSE DE SAN JUAN,CALLE,1,VILLA DE VALLECAS,40.362643,-3.598148,2149


In [151]:
items.iloc[2328]

DISTRITO                                                    LATINA
DIRECCION                                 CALLE CUART DE POBLET, 6
LONGITUD                                                  -3.75184
LATITUD                                                  40.397186
TIPO                                         INSTALACIÓN DEPORTIVA
NOMBRE           Instalación deportiva municipal básica Campo d...
ACCESIBILIDAD                                                  0.0
CONTENT-URL      http://www.madrid.es/sites/v/index.jsp?vgnextc...
BARRIO                                                         NaN
EMAIL                                                          NaN
INICIO                                                         NaN
FINAL                                                          NaN
DISTANCIA KM                                                   NaN
lat_lon_list                                                   NaN
Name: 2328, dtype: object

In [152]:
instalaciones = instalaciones[['ID', 'LATITUD', 'LONGITUD', 'EQUIPAMIENTO']]
instalaciones

Unnamed: 0,ID,LATITUD,LONGITUD,EQUIPAMIENTO
0,2149,40.362643,-3.598148,Pista de baloncesto. Pista de fútbol sala.
1,2150,40.367515,-3.588265,Pista polideportiva (marcajes de fútbol sala y...
2,2151,40.368619,-3.618357,Pista de minibaloncesto. Pista de minifútbol
3,2201,40.370297,-3.612067,Pista de baloncesto. Pista polideportiva (marc...
4,2201,40.370297,-3.612067,Pista de minibaloncesto. Pista de minifútbol. ...
...,...,...,...,...
501,2653,40.422170,-3.724405,6 Pistas de Padel
502,2654,40.399273,-3.718824,Escuela de escalada deportiva.
504,2655,40.487147,-3.732863,Pista de baloncesto.
505,2200,40.385278,-3.764155,Pista de patinaje.


In [153]:
# Lista de deportes
lista_deportes = ['Aeróbicos', 'Aeróbicos acuáticos', 'Artes marciales', 'Atletismo', 'BMX', 'Baloncesto', 'Balonmano',
                  'Billar', 'Bolos', 'Boxeo', 'Bádminton', 'Béisbol', 'Calistenia', 'Calva', 'Caminar', 'Chito',
                  'Ciclismo', 'Ciclismo estacionario', 'Correr', 'Dardos', 'Entrenamiento en circuito', 'Escalada',
                  'Frisbee', 'Frontenis', 'Fútbol', 'Fútbol sala', 'Gimnasia', 'Golf', 'Hockey', 'Kickball', 'Kickboxing',
                  'Levantamiento de peso', 'Marcha rápida', 'Minigolf', 'Montañismo', 'Máquina escaladora',
                  'Nado sincronizado', 'Natación', 'Patinaje', 'Patinaje sobre hielo', 'Petanca', 'Padel', 'Raquetbol',
                  'Salto a la comba', 'Senderismo', 'Skateboard', 'Sóftbol', 'Tai chi', 'Tenis',
                  'Tenis de mesa', 'Tenis en pareja', 'Ultimate frisbee', 'Voleibol', 'Voleibol acuático',
                  'Waterpolo', 'Yoga']

# Función para encontrar los deportes en el texto y devolverlos como una lista
def encontrar_deportes(texto):
    deportes_encontrados = [deporte for deporte in lista_deportes if deporte.lower() in texto.lower()]
    return deportes_encontrados

# Aplicar la función a la columna 'EQUIPAMIENTO' y guardar los deportes encontrados
instalaciones['EQUIPAMIENTO'] = instalaciones['EQUIPAMIENTO'].apply(encontrar_deportes)

# Mostrar el DataFrame actualizado
instalaciones

Unnamed: 0,ID,LATITUD,LONGITUD,EQUIPAMIENTO
0,2149,40.362643,-3.598148,"[Baloncesto, Fútbol, Fútbol sala]"
1,2150,40.367515,-3.588265,"[Baloncesto, Balonmano, Fútbol, Fútbol sala]"
2,2151,40.368619,-3.618357,"[Baloncesto, Fútbol]"
3,2201,40.370297,-3.612067,"[Baloncesto, Fútbol, Fútbol sala, Voleibol]"
4,2201,40.370297,-3.612067,"[Baloncesto, Fútbol]"
...,...,...,...,...
501,2653,40.422170,-3.724405,[Padel]
502,2654,40.399273,-3.718824,[Escalada]
504,2655,40.487147,-3.732863,[Baloncesto]
505,2200,40.385278,-3.764155,[Patinaje]


In [154]:
instalaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 506 entries, 0 to 506
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ID            506 non-null    int64  
 1   LATITUD       506 non-null    float64
 2   LONGITUD      506 non-null    float64
 3   EQUIPAMIENTO  506 non-null    object 
dtypes: float64(2), int64(1), object(1)
memory usage: 19.8+ KB


## Piscinas

In [155]:
piscinas = pd.read_csv('../Raw_Datasets/Trabajado/Piscinas_publicas.csv')
piscinas.head(1)

Unnamed: 0,PK,NOMBRE,HORARIO,EQUIPAMIENTO,TRANSPORTE,ACCESIBILIDAD,CONTENT-URL,NOMBRE-VIA,CLASE-VIAL,TIPO-NUM,...,CODIGO-POSTAL,BARRIO,DISTRITO,COORDENADA-X,COORDENADA-Y,LATITUD,LONGITUD,TELEFONO,EMAIL,TIPO
0,4707,Centro Deportivo Municipal María Jesús Rosa (...,Horario de uso de las instalaciones deportivas...,Clases deportivas Pre-infantiles (0 a 5 añ...,"Metro: Barrio del Pilar , Peñagrande. Bus: 4...",1,http://www.madrid.es/sites/v/index.jsp?vgnextc...,MONFORTE DE LEMOS,AVENIDA,S/N,...,28029,EL PILAR,FUENCARRAL-EL PARDO,439931,4481139,40.478768,-3.708699,914 800 476 - idmlavaguada@madrid.es,idmlavaguada@madrid.es,/contenido/entidadesYorganismos/CentrosEspacio...


In [156]:
# Crear un diccionario para mapear las tuplas (LATITUD, LONGITUD) a sus índices en 'items'
item_indices = {tuple(row[['LATITUD', 'LONGITUD']]): index for index, row in items.iterrows()}

# Utilizar apply para buscar los índices correspondientes en 'items' para cada fila en 'instalaciones'
piscinas['ID'] = piscinas.apply(lambda row: item_indices.get((row['LATITUD'], row['LONGITUD'])), axis=1)

In [157]:
piscinas = piscinas[['ID', 'LATITUD', 'LONGITUD', 'EQUIPAMIENTO']]
piscinas.head(1)

Unnamed: 0,ID,LATITUD,LONGITUD,EQUIPAMIENTO
0,2656,40.478768,-3.708699,Clases deportivas Pre-infantiles (0 a 5 añ...


In [158]:
# Aplicar la función a la columna 'EQUIPAMIENTO' y guardar los deportes encontrados
piscinas['EQUIPAMIENTO'] = piscinas['EQUIPAMIENTO'].apply(encontrar_deportes)


In [159]:
piscinas

Unnamed: 0,ID,LATITUD,LONGITUD,EQUIPAMIENTO
0,2656,40.478768,-3.708699,"[Gimnasia, Natación]"
1,2657,40.428103,-3.673732,[Natación]
2,2658,40.452121,-3.783283,"[Gimnasia, Natación, Tenis, Yoga]"
3,2659,40.382721,-3.773654,"[Artes marciales, Atletismo, Baloncesto, Camin..."
4,2660,40.391462,-3.659864,"[Baloncesto, Gimnasia, Natación]"
...,...,...,...,...
54,2710,40.390369,-3.657214,[]
55,2711,40.440648,-3.709053,"[Baloncesto, Boxeo, Bádminton, Fútbol, Fútbol ..."
56,2712,40.478914,-3.693541,"[Artes marciales, Baloncesto, Fútbol, Gimnasia..."
57,2713,40.372421,-3.657452,"[Baloncesto, Fútbol, Fútbol sala, Gimnasia, Ho..."


## Jardines

In [160]:
jardines = pd.read_csv('../Raw_Datasets/Trabajado/Parques_jardines.csv')
jardines.head(1)

Unnamed: 0,PK,NOMBRE,HORARIO,EQUIPAMIENTO,TRANSPORTE,ACCESIBILIDAD,CONTENT-URL,NOMBRE-VIA,CLASE-VIAL,TIPO-NUM,NUM,LOCALIDAD,PROVINCIA,CODIGO-POSTAL,BARRIO,DISTRITO,COORDENADA-X,COORDENADA-Y,LATITUD,LONGITUD
0,6070995,Jardines Gregorio Ordóñez,,Zonas infantiles,"Metro: Núñez de Balboa (líneas 5 y 9) Bus: 1, ...",2,http://www.madrid.es/sites/v/index.jsp?vgnextc...,PRINCIPE DE VERGARA,CALLE,V,68.0,MADRID,MADRID,28006.0,LISTA,SALAMANCA,442443.0,4476090.0,40.433462,-3.678595


In [161]:
# Utilizar apply para buscar los índices correspondientes en 'items' para cada fila en 'instalaciones'
jardines['ID'] = jardines.apply(lambda row: item_indices.get((row['LATITUD'], row['LONGITUD'])), axis=1)

In [162]:
jardines.head(1)

Unnamed: 0,PK,NOMBRE,HORARIO,EQUIPAMIENTO,TRANSPORTE,ACCESIBILIDAD,CONTENT-URL,NOMBRE-VIA,CLASE-VIAL,TIPO-NUM,...,LOCALIDAD,PROVINCIA,CODIGO-POSTAL,BARRIO,DISTRITO,COORDENADA-X,COORDENADA-Y,LATITUD,LONGITUD,ID
0,6070995,Jardines Gregorio Ordóñez,,Zonas infantiles,"Metro: Núñez de Balboa (líneas 5 y 9) Bus: 1, ...",2,http://www.madrid.es/sites/v/index.jsp?vgnextc...,PRINCIPE DE VERGARA,CALLE,V,...,MADRID,MADRID,28006.0,LISTA,SALAMANCA,442443.0,4476090.0,40.433462,-3.678595,2715


In [163]:
jardines = jardines[['ID', 'LATITUD', 'LONGITUD', 'EQUIPAMIENTO']]
jardines

Unnamed: 0,ID,LATITUD,LONGITUD,EQUIPAMIENTO
0,2715,40.433462,-3.678595,Zonas infantiles
1,2716,40.410022,-3.714420,No especificado
2,2717,40.446133,-3.698970,Zonas infantiles Zonas de mayores Circuito Bio...
3,2718,40.419641,-3.687934,Zonas infantiles: Zona del Pinar (Puerta del ...
4,2719,40.461518,-3.675118,Zona infantil
...,...,...,...,...
199,2914,40.409899,-3.682331,No especificado
200,2915,40.419842,-3.728697,No especificado
201,2916,40.445356,-3.739974,No especificado
202,2917,40.477264,-3.743003,Zona de juegos infantiles Área de juegos para ...


In [164]:
# Aplicar la función a la columna 'EQUIPAMIENTO' y guardar los deportes encontrados
jardines['EQUIPAMIENTO'] = jardines['EQUIPAMIENTO'].apply(encontrar_deportes)
jardines

Unnamed: 0,ID,LATITUD,LONGITUD,EQUIPAMIENTO
0,2715,40.433462,-3.678595,[]
1,2716,40.410022,-3.714420,[]
2,2717,40.446133,-3.698970,[]
3,2718,40.419641,-3.687934,[]
4,2719,40.461518,-3.675118,[]
...,...,...,...,...
199,2914,40.409899,-3.682331,[]
200,2915,40.419842,-3.728697,[]
201,2916,40.445356,-3.739974,[]
202,2917,40.477264,-3.743003,[]


In [165]:
# deportes_jardines = ['Aeróbicos','Caminar', 'Correr', 'Frisbee','Salto a la comba', 'Tai chi', 'Yoga']

In [166]:
# jardines['EQUIPAMIENTO'] = [deportes_jardines] * len(jardines)
# jardines

## Bicis

In [167]:
import ast 

bicis = pd.read_csv('../Raw_Datasets/items_Giacomo/bici.csv', converters={'lat_lon_list' : ast.literal_eval})

In [168]:
bicis.head(1)

Unnamed: 0,TIPO_VIA,ID_VIA,TIPOLOGÍA,DIRECCIÓN,SENTIDO,PENDIENTE,PENDIENTE_,COD_TIPOLO,COD_TIPO_V,Shape_STLe,d_COD_TIPO,d_COD_TI_1,geometry,lat_lon_list
0,CICLOCARRIL,0.0,VÍA USO COMPARTIDO,Avenida de Valladolid,,,0.0,5,19,1102.49849,VÍA USO COMPARTIDO,"VÍA USO COMPARTIDO, CICLOCARRIL","LINESTRING (437719.5965 4476171.279200001, 437...","[[40.43385272452108, -3.734288063266149], [40...."


In [169]:
bicis[['LATITUD', 'LONGITUD']] = pd.DataFrame(bicis['lat_lon_list'].apply(lambda x: x[0]).tolist(), index=bicis.index)

In [170]:
bicis.head(1)

Unnamed: 0,TIPO_VIA,ID_VIA,TIPOLOGÍA,DIRECCIÓN,SENTIDO,PENDIENTE,PENDIENTE_,COD_TIPOLO,COD_TIPO_V,Shape_STLe,d_COD_TIPO,d_COD_TI_1,geometry,lat_lon_list,LATITUD,LONGITUD
0,CICLOCARRIL,0.0,VÍA USO COMPARTIDO,Avenida de Valladolid,,,0.0,5,19,1102.49849,VÍA USO COMPARTIDO,"VÍA USO COMPARTIDO, CICLOCARRIL","LINESTRING (437719.5965 4476171.279200001, 437...","[[40.43385272452108, -3.734288063266149], [40....",40.433853,-3.734288


In [171]:
bicis['lat_lon_list'][0]

[[40.43385272452108, -3.734288063266149],
 [40.43380868780268, -3.7342250528348764],
 [40.433370523457356, -3.7337709310195164],
 [40.43310179931874, -3.733528298528621],
 [40.432941601111274, -3.7334036304825684],
 [40.43236273640849, -3.732900300627874],
 [40.43172050848967, -3.7322689247048073],
 [40.43162013218736, -3.732176281837704],
 [40.43136473823774, -3.731960066534849],
 [40.431146924244025, -3.731818115291097],
 [40.43098309137946, -3.7317245255296094],
 [40.43059451574127, -3.7314794983360686],
 [40.43031795844652, -3.7312369039936875],
 [40.42965077543443, -3.730587667184729],
 [40.42861960197704, -3.729558635098838],
 [40.427790644752776, -3.7286922396721387],
 [40.42655626279796, -3.7275120312006624],
 [40.42584409805832, -3.726658970100565]]

In [172]:
bicis['LATITUD'][0]

40.43385272452108

In [173]:
# Crear un diccionario para mapear las coordenadas a los índices de 'items'
item_indices = {}
for index, coord in enumerate(items['lat_lon_list']):
    if isinstance(coord, list):
        item_indices[tuple(coord[0])] = index

# Definir una función para buscar el índice en 'item_indices' y asignarlo a 'bicis['ID']'
def find_item_index(row):
    lat_lon = (row['LATITUD'], row['LONGITUD'])
    return item_indices.get(lat_lon)

# Aplicar la función a cada fila de 'bicis' y asignar los resultados a la columna 'ID'
bicis['ID'] = bicis.apply(find_item_index, axis=1)

In [174]:
bicis['ID'].isna().sum()

1248

In [175]:
################## SIN TERMINAR ####################

## Items App

In [182]:
items_app = pd.concat([instalaciones,piscinas, jardines], ignore_index=True)
items_app

Unnamed: 0,ID,LATITUD,LONGITUD,EQUIPAMIENTO
0,2149,40.362643,-3.598148,"[Baloncesto, Fútbol, Fútbol sala]"
1,2150,40.367515,-3.588265,"[Baloncesto, Balonmano, Fútbol, Fútbol sala]"
2,2151,40.368619,-3.618357,"[Baloncesto, Fútbol]"
3,2201,40.370297,-3.612067,"[Baloncesto, Fútbol, Fútbol sala, Voleibol]"
4,2201,40.370297,-3.612067,"[Baloncesto, Fútbol]"
...,...,...,...,...
764,2914,40.409899,-3.682331,[]
765,2915,40.419842,-3.728697,[]
766,2916,40.445356,-3.739974,[]
767,2917,40.477264,-3.743003,[]


In [183]:
items_app.to_csv(r'..\app\data\items.csv')

## Modelo

In [269]:
sinteticos = pd.read_csv('../Raw_Datasets/datos_historicos_deportes.csv')

In [271]:
sinteticos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 73 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Temperatura (°C)           1000 non-null   int64  
 1   Humedad                    1000 non-null   int64  
 2   Edad                       1000 non-null   int64  
 3   Peso (Kg)                  1000 non-null   float64
 4   Distancia (Km)             1000 non-null   float64
 5   Deporte                    1000 non-null   int64  
 6   Clima_Lluvioso             1000 non-null   int64  
 7   Clima_Nublado              1000 non-null   int64  
 8   Clima_Soleado              1000 non-null   int64  
 9   Genero_Hombre              1000 non-null   int64  
 10  Genero_Mujer               1000 non-null   int64  
 11  Condicion_0                1000 non-null   int64  
 12  Condicion_1                1000 non-null   int64  
 13  Condicion_2                1000 non-null   int64 

In [270]:
sinteticos.iloc[0]

Temperatura (°C)      12.0000
Humedad               59.0000
Edad                  58.0000
Peso (Kg)             50.8000
Distancia (Km)        16.1600
                       ...   
Ultimate frisbee     406.6032
Voleibol               0.0000
Voleibol acuático    152.3492
Waterpolo              0.0000
Yoga                 203.1492
Name: 0, Length: 73, dtype: float64

In [179]:
print(pd.get_option('display.max_columns'))
print(pd.get_option('display.max_rows'))

20
20


In [180]:
peticion = {'Fecha':'',
            'Hora': '',
            'Distancia': '',
            'clima': '',
            'Temperatura (°C)': '',
            'Sexo':'',
            'Edad': '',
            'Peso': '',
            'Preferencias': [],
            'Objetivo': '',
            }