In [4]:
import pandas as pd

In [5]:
f = pd.read_csv('../Raw_Datasets/items_Giacomo/items.csv',sep=',')
f['TIPO'].unique()

array(['FUENTE', 'INSTALACIÓN DEPORTIVA', 'PISCINA', 'ZONA VERDE',
       'SENDA', 'CENTRO DE SALUD', 'CICLOCARRIL', 'PASO DE BICI',
       'CARRIL BICI', 'VÍA MIXTA', 'SENDA CICLABLE', 'PISTA BICI',
       'ARCEN BICI', 'ACERA BICI', 'ENCAMINAMIENTO', 'CIRCUITO DE OCIO',
       'BANDA RECOMENDADA', 'GIRO PERMITIDO', 'SENTIDO PERMITIDO'],
      dtype=object)

In [6]:
import json
import csv

# Función para leer datos meteorológicos desde un archivo JSON
def leer_datos_meteorologicos(nombre_archivo):
    with open(nombre_archivo, 'r') as archivo:
        datos = json.load(archivo)
    return datos

# Función para etiquetar la presencia de una ola de calor basada en datos climáticos
def etiquetar_ola_de_calor(datos_clima, umbral_temperatura):
    etiquetas = []
    for registro in datos_clima['data']['list']:
        temperatura = registro['main']['temp']
        if temperatura > umbral_temperatura:
            etiquetas.append(1)  # Hay ola de calor
        else:
            etiquetas.append(0)  # No hay ola de calor
    return etiquetas

# Función para cargar datos de instalaciones desde un archivo CSV y filtrar por tipo de instalación
def cargar_datos_instalaciones(nombre_archivo_csv, tipo_instalacion):
    csv.field_size_limit(500 * 1024)
    datos_instalaciones = []
    with open(nombre_archivo_csv, 'r', encoding='utf-8',newline='') as archivo_csv:
        lector_csv = csv.DictReader(archivo_csv)
        for fila in lector_csv:
            if fila['TIPO'] == tipo_instalacion:
                datos_instalaciones.append(fila)
    return datos_instalaciones

def obtener_recomendaciones(datos_clima, etiquetas_ola_calor, datos_instalaciones, tiene_problemas_salud):
    # Implementa la lógica para generar las recomendaciones de deportes
    # basadas en las condiciones climáticas, la ubicación del usuario y los datos
    # de instalaciones deportivas disponibles.

    recomendaciones = []

    # Implementa la lógica para recomendar deportes seguros según si hay ola de calor o no.
    if etiquetas_ola_calor[0] == 1:  # Primer registro en los datos de etiquetas corresponde a la predicción actual
        # Recomendar actividades en centros de salud si tiene problemas de salud
        if tiene_problemas_salud:
            recomendaciones.extend(obtener_recomendaciones_centros_salud(datos_instalaciones))
    else:
        # Recomendar actividades al aire libre en parques y jardines
        recomendaciones.extend(obtener_recomendaciones_parques(datos_instalaciones))

    return recomendaciones

# Función para obtener recomendaciones específicas para parques y jardines
def obtener_recomendaciones_parques(instalaciones):
    recomendaciones_parques = []
    for instalacion in instalaciones:
        if instalacion['TIPO'] == 'parque':
            recomendaciones_parques.append(f"Hacer ejercicio en el parque: {instalacion['NOMBRE']} ({instalacion['DIRECCION']})")
    return recomendaciones_parques

# Función para obtener recomendaciones específicas para centros de salud
def obtener_recomendaciones_centros_salud(instalaciones):
    recomendaciones_centros_salud = []
    for instalacion in instalaciones:
        if instalacion['TIPO'].lower() == 'centro_salud' and tiene_problemas_salud == True:
            recomendaciones_centros_salud.append(f"Realizar actividad en centro de salud: {instalacion['NOMBRE']} ({instalacion['DIRECCION']})")
    return recomendaciones_centros_salud

if __name__ == "__main__":
    nombre_archivo_json = "../Raw_Datasets/Trabajado/tiempo.json"  # Reemplaza con el nombre de tu archivo JSON
    nombre_archivo_sitios = "../Raw_Datasets/items_Giacomo/items.csv"  # Reemplaza con el nombre de tu archivo CSV de sitios (piscinas, parques y polideportivos)

    umbral_temperatura_ola_calor = 30.0  # Reemplaza con el umbral de temperatura para definir una ola de calor
    tiene_problemas_salud = True  # Reemplaza con True si el usuario tiene problemas de salud, False si no

    datos_clima = leer_datos_meteorologicos(nombre_archivo_json)
    etiquetas_ola_calor = etiquetar_ola_de_calor(datos_clima, umbral_temperatura_ola_calor)

    tipos_instalaciones_deportivas = {'PISCINA', 'ZONA VERDE', 'SENDA', 'CENTRO DE SALUD'}

    datos_instalaciones = []
    for tipo in tipos_instalaciones_deportivas:
        datos_instalaciones.extend(cargar_datos_instalaciones(nombre_archivo_sitios, tipo))

    recomendaciones_deportes = obtener_recomendaciones(
        datos_clima, etiquetas_ola_calor, datos_instalaciones, tiene_problemas_salud
    )

    # Imprime las recomendaciones
    print("Recomendaciones de deportes:")
    for deporte in recomendaciones_deportes:
        print(deporte)


Recomendaciones de deportes:


In [11]:
X = pd.read_csv('../Raw_Datasets/items_Giacomo/deportes_final.csv',sep=',')
X['Actividad'].unique()

array(['BMX', 'Ciclismo', 'Ciclismo estacionario', 'Calistenia',
       'Entrenamiento en circuito', 'Levantamiento de peso',
       'Máquina escaladora', 'Aeróbicos', 'Yoga', 'Aeróbicos acuáticos',
       'Correr', 'Atletismo', 'Bádminton', 'Baloncesto', 'Bolos',
       'Billar', 'Boxeo', 'Dardos', 'Frisbee', 'Ultimate frisbee', 'Golf',
       'Minigolf', 'Gimnasia', 'Balonmano', 'Hockey', 'Petanca', 'Calva',
       'Artes marciales', 'Kickboxing', 'Kickball', 'Pádel', 'Raquetbol',
       'Escalada', 'Salto a la comba', 'Chito', 'Skateboard', 'Patinaje',
       'Fútbol', 'Fútbol sala', 'Sóftbol', 'Béisbol',
       'Tenis de mesa / ping pong', 'Tai chi', 'Tenis', 'Tenis en pareja',
       'Voleibol', 'Marcha rápida', 'Montañismo', 'Caminar', 'Natación',
       'Nado sincronizado', 'Waterpolo', 'Voleibol acuático',
       'Patinaje sobre hielo', 'Frontenis', 'Senderismo'], dtype=object)

In [74]:
import pandas as pd
import numpy as np
import random
import string
from datetime import datetime, timedelta

# Lista de deportes
deportes = np.array(['BMX', 'Ciclismo', 'Ciclismo estacionario', 'Calistenia', 'Entrenamiento en circuito',
                     'Levantamiento de peso', 'Máquina escaladora', 'Aeróbicos', 'Yoga', 'Aeróbicos acuáticos',
                     'Correr', 'Atletismo', 'Bádminton', 'Baloncesto', 'Bolos', 'Billar', 'Boxeo', 'Dardos',
                     'Frisbee', 'Ultimate frisbee', 'Golf', 'Minigolf', 'Gimnasia', 'Balonmano', 'Hockey',
                     'Petanca', 'Calva', 'Artes marciales', 'Kickboxing', 'Kickball', 'Padel', 'Raquetbol',
                     'Escalada', 'Salto a la comba', 'Chito', 'Skateboard', 'Patinaje', 'Fútbol', 'Fútbol sala',
                     'Sóftbol', 'Béisbol', 'Tenis de mesa','Tai chi', 'Tenis', 'Tenis en pareja',
                     'Voleibol', 'Marcha rápida', 'Montañismo', 'Caminar', 'Natación', 'Nado sincronizado',
                     'Waterpolo', 'Voleibol acuático', 'Patinaje sobre hielo', 'Frontenis', 'Senderismo'])

# Generar un DataFrame sintético con datos históricos de recomendaciones de deportes
np.random.seed(42)
num_datos = 1000

# Simular datos de Fecha y Hora
fechas = [datetime.now() - timedelta(days=i) for i in range(num_datos)]
horas = [random.randint(6, 23) for _ in range(num_datos)]

# Simular datos de Clima
clima = np.random.choice([0, 1], num_datos)

# Simular datos de Temperatura en el rango de 10 a 35 grados Celsius
temperatura = np.random.uniform(10, 35, num_datos)

# Simular datos de Humedad en el rango de 30 a 80 por ciento
humedad = np.random.randint(30, 81, num_datos)

# Simular datos de Edad en el rango de 18 a 65 años
edad = np.random.randint(18, 66, num_datos)

# Simular deportes que ha hecho antes
deportes_practicados = [np.random.choice(deportes, random.randint(2, 5)) for _ in range(num_datos)]

# Simular datos de distancia en el rango de 0.5 a 20 kilómetros
distancia = np.random.uniform(0.5, 20, num_datos)

# Simular datos de peso en el rango de 50 a 100 kilogramos
peso = np.random.uniform(50, 100, num_datos)

# Simular objetivos calóricos
objetivos_caloricos = np.random.choice([0, 1, 2], num_datos)

calorias_gastadas = (distancia * 0.5 * peso).round(2)

# Simular condición física
condicion_fisica = np.random.choice([0, 1, 2], num_datos)


Genero = np.random.choice(['Mujer', 'Hombre'])

# Crear el DataFrame
df_historico = pd.DataFrame({
    'Fecha': [fecha.date() for fecha in fechas],
    'Hora': horas,
    'Genero': Genero,
    'Clima': clima,
    'Temperatura (°C)': temperatura.round().astype(int),
    'Humedad': humedad,
    'Edad': edad,
    'DeportesPracticados': deportes_practicados,
    'Distancia (Km)': distancia.round(2),
    'Peso (Kg)': peso.round(2),
    'ObjetivosCaloricos': objetivos_caloricos,
    'CaloriasGastadas': calorias_gastadas,
    'CondicionFisica': condicion_fisica,
})

# Convertir columna de deportes practicados en variables dummy y multiplicar por las calorías gastadas en cada deporte
for deporte in deportes:
    df_historico['Deporte_' + deporte] = 0

for i, deportes_persona in enumerate(df_historico['DeportesPracticados']):
    for deporte in deportes_persona:
        df_historico.loc[i, 'Deporte_' + deporte] = (df_historico.loc[i, 'CaloriasGastadas'] * df_historico.loc[i, 'Peso (Kg)']).astype(int)

# Seleccionar solo las columnas numéricas para aplicar el redondeo
columnas_numericas = df_historico.select_dtypes(include=[np.number]).columns

# Redondear solo las columnas numéricas a los primeros 6 dígitos
df_historico[columnas_numericas] = df_historico[columnas_numericas].round(0)
df_historico


Unnamed: 0,Fecha,Hora,Genero,Clima,Temperatura (°C),Humedad,Edad,DeportesPracticados,Distancia (Km),Peso (Kg),...,Deporte_Marcha rápida,Deporte_Montañismo,Deporte_Caminar,Deporte_Natación,Deporte_Nado sincronizado,Deporte_Waterpolo,Deporte_Voleibol acuático,Deporte_Patinaje sobre hielo,Deporte_Frontenis,Deporte_Senderismo
0,2023-07-29,15,0,0,27,77,47,"[Calistenia, Chito, Montañismo, Senderismo, Pe...",18.0,91.0,...,0,75134,0,0,0,0,0,0,0,75134
1,2023-07-28,9,0,1,23,31,30,"[Atletismo, Correr, Patinaje]",10.0,100.0,...,0,0,0,0,0,0,0,0,0,0
2,2023-07-27,16,0,0,18,35,51,"[Hockey, Dardos, Frisbee, Gimnasia, Frontenis]",7.0,61.0,...,0,0,0,0,0,0,0,0,12726,0
3,2023-07-26,15,0,0,30,57,21,"[Fútbol, Patinaje sobre hielo, Dardos, Petanca...",3.0,63.0,...,0,0,0,0,0,0,0,5167,0,0
4,2023-07-25,22,0,0,27,58,45,"[Calistenia, Tenis, Nado sincronizado, Kickbox...",19.0,83.0,...,0,0,0,0,65984,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,2020-11-06,21,0,0,27,75,45,"[Fútbol, Aeróbicos]",12.0,75.0,...,0,0,0,0,0,0,0,0,0,0
996,2020-11-05,16,0,0,25,45,61,"[BMX, Patinaje sobre hielo, Caminar]",3.0,66.0,...,0,0,5618,0,0,0,0,5618,0,0
997,2020-11-04,11,0,1,22,30,23,"[Caminar, Balonmano, Marcha rápida]",1.0,86.0,...,3101,0,3101,0,0,0,0,0,0,0
998,2020-11-03,13,0,1,19,74,58,"[Máquina escaladora, Frisbee, Minigolf, Fronte...",18.0,94.0,...,0,0,0,0,0,0,0,0,80121,0


# Tablas de test

In [5]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# Lista de deportes
deportes = np.array(['BMX', 'Ciclismo', 'Ciclismo estacionario', 'Calistenia', 'Entrenamiento en circuito',
                     'Levantamiento de peso', 'Máquina escaladora', 'Aeróbicos', 'Yoga', 'Aeróbicos acuáticos',
                     'Correr', 'Atletismo', 'Bádminton', 'Baloncesto', 'Bolos', 'Billar', 'Boxeo', 'Dardos',
                     'Frisbee', 'Ultimate frisbee', 'Golf', 'Minigolf', 'Gimnasia', 'Balonmano', 'Hockey',
                     'Petanca', 'Calva', 'Artes marciales', 'Kickboxing', 'Kickball', 'Padel', 'Raquetbol',
                     'Escalada', 'Salto a la comba', 'Chito', 'Skateboard', 'Patinaje', 'Fútbol', 'Fútbol sala',
                     'Sóftbol', 'Béisbol', 'Tenis de mesa', 'Tai chi', 'Tenis', 'Tenis en pareja',
                     'Voleibol', 'Marcha rápida', 'Montañismo', 'Caminar', 'Natación', 'Nado sincronizado',
                     'Waterpolo', 'Voleibol acuático', 'Patinaje sobre hielo', 'Frontenis', 'Senderismo'])

# Generar un DataFrame sintético con datos históricos de recomendaciones de deportes
np.random.seed(42)
num_datos = 1000

# Simular datos de Fecha y Hora
# horas = [random.randint(6, 23) for _ in range(num_datos)]

# Simular datos de Clima
clima = np.random.choice(['Soleado',  'Nublado','Lluvioso'], num_datos)

# Simular datos de Temperatura en el rango de 10 a 35 grados Celsius
temperatura = np.random.uniform(10, 40, num_datos)

# Simular datos de Humedad en el rango de 30 a 80 por ciento
humedad = np.random.randint(30, 81, num_datos)

# Simular datos de Edad en el rango de 18 a 65 años
edad = np.random.randint(18, 66, num_datos)

# Simular datos de peso en el rango de 50 a 100 kilogramos
peso = np.random.uniform(50, 100, num_datos)

# Simular objetivos calóricos
objetivos_caloricos = np.random.choice([0, 1, 2], num_datos)

# Simular datos de distancia en el rango de 0.5 a 20 kilómetros
distancia = np.random.uniform(0.5, 20, num_datos)

# Simular condición física
condicion_fisica = np.random.choice([0, 1, 2], num_datos)

# Simular deportes que ha hecho antes
deporte = np.random.choice([0, 1,], num_datos)
deporte_practicado = [random.sample(list(deportes), random.randint(3, len(deportes))) for _ in range(num_datos)]

genero = np.random.choice(['Mujer','Hombre'], num_datos)

# Crear el DataFrame
df_historico = pd.DataFrame({
    # 'Hora': horas,
    'Clima': clima,
    'Temperatura (°C)': temperatura.round().astype(int),
    'Humedad': humedad,
    'Edad': edad,
    'Genero': genero,
    'Peso (Kg)': peso.round(2),
    'ObjetivoCalorico': objetivos_caloricos,
    'Distancia (Km)': distancia.round(2),
    'CondicionFisica': condicion_fisica,
    'DeportePracticado': deporte_practicado,
    'Deporte':deporte
})

# Convertir columna de clima en variables dummy
clima_dummies = pd.get_dummies(df_historico['Clima'], prefix='Clima')
df_historico = pd.concat([df_historico, clima_dummies], axis=1)

genero_dummies = pd.get_dummies(df_historico['Genero'], prefix='Genero')
df_historico = pd.concat([df_historico, genero_dummies], axis=1)

# Convertir columna de condición física en variables dummy
condicion_fisica_dummies = pd.get_dummies(df_historico['CondicionFisica'], prefix='Condicion')
df_historico = pd.concat([df_historico, condicion_fisica_dummies], axis=1)

# Convertir columna de objetivo calórico en variables dummy
objetivos_caloricos_dummies = pd.get_dummies(df_historico['ObjetivoCalorico'], prefix='Objetivo')
df_historico = pd.concat([df_historico, objetivos_caloricos_dummies], axis=1)


# deporte_practicado_dummies = pd.get_dummies(df_historico['DeportePracticado'])

# # Agregar las variables dummy al DataFrame original
# df_historico = pd.concat([df_historico, deporte_practicado_dummies], axis=1)

# Convertir columna de deportes practicados en variables dummy
deporte_practicado_dummies = df_historico['DeportePracticado'].apply(lambda x: '|'.join(x)).str.get_dummies()
df_historico = pd.concat([df_historico, deporte_practicado_dummies], axis=1)

# Eliminar columnas originales que ya no son necesarias
df_historico.drop(['Clima', 'CondicionFisica', 'ObjetivoCalorico','Genero','DeportePracticado'], axis=1, inplace=True)

df_historico.to_csv('../Raw_Datasets/datos_historicos_deportes.csv', index=False)
# Mostrar el DataFrame resultan
df_historico


Unnamed: 0,Temperatura (°C),Humedad,Edad,Peso (Kg),Distancia (Km),Deporte,Clima_Lluvioso,Clima_Nublado,Clima_Soleado,Genero_Hombre,...,Sóftbol,Tai chi,Tenis,Tenis de mesa,Tenis en pareja,Ultimate frisbee,Voleibol,Voleibol acuático,Waterpolo,Yoga
0,12,59,58,50.80,16.16,1,1,0,0,0,...,1,0,1,1,0,1,0,1,0,1
1,26,43,56,89.11,19.74,1,0,0,1,0,...,1,1,0,1,1,1,1,1,1,1
2,22,35,30,56.22,12.16,1,1,0,0,0,...,1,1,1,1,1,1,0,1,1,0
3,39,32,28,89.88,2.10,1,1,0,0,1,...,0,1,0,0,1,0,0,0,0,0
4,13,45,63,80.80,13.11,0,0,0,1,0,...,1,0,0,0,0,1,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,38,46,53,78.31,2.93,1,0,1,0,0,...,1,1,1,1,1,1,1,0,1,1
996,13,53,49,50.31,10.75,0,0,1,0,0,...,1,1,1,1,1,1,1,1,1,0
997,35,50,49,53.09,2.64,0,1,0,0,0,...,1,0,1,1,1,1,0,0,0,1
998,21,80,21,76.77,4.46,1,1,0,0,1,...,1,1,1,1,1,1,1,1,1,1


In [45]:
df_historico = pd.read_csv('../Raw_Datasets/datos_historicos_deportes.csv',sep=',') 
df_historico.columns

Index(['Temperatura (°C)', 'Humedad', 'Edad', 'Peso (Kg)', 'Distancia (Km)',
       'Deporte', 'Clima_Lluvioso', 'Clima_Nublado', 'Clima_Soleado',
       'Genero_Hombre', 'Genero_Mujer', 'Condicion_0', 'Condicion_1',
       'Condicion_2', 'Objetivo_0', 'Objetivo_1', 'Objetivo_2', 'Aeróbicos',
       'Aeróbicos acuáticos', 'Artes marciales', 'Atletismo', 'BMX',
       'Baloncesto', 'Balonmano', 'Billar', 'Bolos', 'Boxeo', 'Bádminton',
       'Béisbol', 'Calistenia', 'Calva', 'Caminar', 'Chito', 'Ciclismo',
       'Ciclismo estacionario', 'Correr', 'Dardos',
       'Entrenamiento en circuito', 'Escalada', 'Frisbee', 'Frontenis',
       'Fútbol', 'Fútbol sala', 'Gimnasia', 'Golf', 'Hockey', 'Kickball',
       'Kickboxing', 'Levantamiento de peso', 'Marcha rápida', 'Minigolf',
       'Montañismo', 'Máquina escaladora', 'Nado sincronizado', 'Natación',
       'Padel', 'Patinaje', 'Patinaje sobre hielo', 'Petanca', 'Raquetbol',
       'Salto a la comba', 'Senderismo', 'Skateboard', 'Sóftbol'

In [25]:
print("Forma de X:", X.shape)
print("Forma de y:", y.shape)

Forma de X: (1000, 72)
Forma de y: (1000,)


In [56]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_auc_score, recall_score, precision_score
from sklearn.preprocessing import LabelEncoder

# Leer el DataFrame desde un archivo CSV
df_historico = pd.read_csv('../Raw_Datasets/datos_historicos_deportes.csv')

# Características (features) del modelo
X = df_historico.drop('Deporte', axis=1)
# Etiqueta del modelo: Deporte practicado
y = df_historico['Deporte']

# Codificar las etiquetas como números enteros
# label_encoder = LabelEncoder()
# y_encoded = label_encoder.fit_transform(y)

# Dividir los datos en un conjunto de entrenamiento (80%) y un conjunto de prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

# Entrenar el modelo Random Forest
modelo = RandomForestClassifier(random_state=42)
modelo.fit(X_train, y_train)

# Realizar la predicción del modelo con los datos de prueba
predicciones = modelo.predict(X_test)

# Decodificar las etiquetas de las predicciones a sus valores originales
predicciones_decoded = label_encoder.inverse_transform(predicciones)

# Calcular y mostrar las métricas de evaluación
precision = accuracy_score(y_test, predicciones)
print("Precisión del modelo:", precision)

print("Matriz de confusión:")
print(confusion_matrix(y_test, predicciones))

# print("Reporte de clasificación:")
# print(classification_report(label_encoder.inverse_transform(y_test), predicciones_decoded))


print("Recall promedio (macro):", recall_score(y_test, predicciones, average='macro'))
print("Precision promedio (macro):", precision_score(y_test, predicciones, average='macro'))


Precisión del modelo: 0.01
Matriz de confusión:
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [1 0 0 ... 0 1 1]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
Recall promedio (macro): 0.022321428571428572
Precision promedio (macro): 0.005208333333333333


  _warn_prf(average, modifier, msg_start, len(result))
