# Descripción del Dataset
El dataset contiene 500 registros y 5 variables que representan aspectos clave del rendimiento deportivo:

Edad: Edad del deportista (en años)

HorasEntrenamiento: Horas de entrenamiento semanales

Experiencia: Años de experiencia en el deporte

Lesiones: Número de lesiones sufridas durante la temporada

Rendimiento: Índice de rendimiento deportivo (valor numérico), calculado como función de las otras variables

La variable Rendimiento se simuló considerando que un mayor número de horas de entrenamiento y experiencia contribuye positivamente, mientras que un mayor número de lesiones y una edad elevada pueden afectar negativamente el rendimiento



In [None]:
import pandas as pd
import numpy as np


In [None]:
# Fijar semilla para reproducibilidad
np.random.seed(42)
n = 500



In [None]:
# Generación de variables
edad = np.random.randint(18, 35, size=n)
horas_entrenamiento = np.random.uniform(5, 20, size=n).round(1)
experiencia = np.random.randint(1, 15, size=n)
lesiones = np.random.poisson(lam=1, size=n)


In [None]:

# Simulación del rendimiento: mejora con horas y experiencia; se reduce con lesiones y edad
rendimiento = (0.3 * horas_entrenamiento + 0.5 * experiencia - 0.2 * lesiones - 0.1 * edad + np.random.normal(0, 1, n)).round(2)



In [None]:
# Creación del DataFrame
df = pd.DataFrame({
    'Edad': edad,
    'HorasEntrenamiento': horas_entrenamiento,
    'Experiencia': experiencia,
    'Lesiones': lesiones,
    'Rendimiento': rendimiento
})

# Exportar el dataset a CSV
df.to_csv('dataset_deportivo.csv', index=False)