# Notebook de Machine Learning - linear_regression

**Autor:** Generado por Plataforma ML
**Fecha:** 17/9/2025, 21:16:08

Este notebook contiene el código completo para reproducir el análisis de machine learning realizado en la plataforma.


## 1. Configuración del Entorno


In [5]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import confusion_matrix, classification_report
import warnings
warnings.filterwarnings('ignore')

# Configuración de visualización
plt.style.use('seaborn-v0_8')
%matplotlib inline
plt.rcParams['figure.figsize'] = (12, 8)
sns.set_palette("husl")


## 2. Carga y Exploración de Datos


In [6]:
# Cargar el dataset
try:
  df = pd.read_csv('DatosDeJugadores.csv')
except FileNotFoundError:
  print("DatosDeJugadores.csv not found. Loading sample data instead.")
  df = pd.read_csv('DatosDeJugadores.csv')


# Mostrar información básica del dataset
print("Información del Dataset:")
print(f"Total de filas: {df.shape[0]}")
print(f"Total de columnas: {df.shape[1]}")
print("\nPrimeras 5 filas:")
print(df.head())

Información del Dataset:
Total de filas: 20
Total de columnas: 13

Primeras 5 filas:
             Nombre  Edad       País  Altura_cm  Peso_kg        Posición  \
0        Juan Pérez    19   Colombia        178       70       Delantero   
1      Carlos Gómez    21  Argentina        185       82         Defensa   
2    Luis Fernández    20    Ecuador        175       68  Centrocampista   
3    Miguel Ramírez    22   Colombia        180       75       Delantero   
4  Alejandro Torres    23  Argentina        188       85         Defensa   

   Habilidad_Goles  Habilidad_Defensa  Habilidad_Pases  Velocidad  \
0               85                 40               75         90   
1               50                 92               65         70   
2               70                 70               88         85   
3               90                 35               70         95   
4               45                 95               60         65   

   Resistencia  Fuerza  Lesiones_historicas

## 3. Preprocesamiento de Datos


In [13]:
# Verificar valores nulos
print("Valores nulos por columna:")
print(df.isnull().sum())

# Manejar valores nulos
df = df.dropna()

# Separar features y target
X = df.drop('Lesiones_historicas', axis=1)
y = df['Lesiones_historicas']

# Identify non-numeric columns
non_numeric_cols = X.select_dtypes(exclude=[np.number]).columns
print(f"\nNon-numeric columns to be removed: {list(non_numeric_cols)}")

# Drop non-numeric columns
X = X.drop(non_numeric_cols, axis=1)


# Dividir dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\nData preprocessed successfully.")

Valores nulos por columna:
Nombre                 0
Edad                   0
País                   0
Altura_cm              0
Peso_kg                0
Posición               0
Habilidad_Goles        0
Habilidad_Defensa      0
Habilidad_Pases        0
Velocidad              0
Resistencia            0
Fuerza                 0
Lesiones_historicas    0
dtype: int64

Non-numeric columns to be removed: ['Nombre', 'País', 'Posición']

Data preprocessed successfully.


## 4. Entrenamiento del Modelo


In [16]:
from sklearn.linear_model import LinearRegression

# Configurar hiperparámetros
fit_intercept = True

# Crear y entrenar el modelo
model = LinearRegression(fit_intercept=fit_intercept)

print("Entrenando el modelo...")

model.fit(X_train_scaled, y_train)

print("Modelo entrenado exitosamente")

Entrenando el modelo...
Modelo entrenado exitosamente


## 5. Evaluación del Modelo


In [18]:
# Realizar predicciones
y_pred = model.predict(X_test_scaled)

# Calcular métricas de regresión
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)


print("Métricas de Evaluación de Regresión:")
print(f"Mean Absolute Error (MAE): {mae:.4f}")
print(f"Mean Squared Error (MSE): {mse:.4f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.4f}")
print(f"R-squared (R2): {r2:.4f}")

Métricas de Evaluación de Regresión:
Mean Absolute Error (MAE): 0.6945
Mean Squared Error (MSE): 0.8824
Root Mean Squared Error (RMSE): 0.9393
R-squared (R2): 0.2941


Modelo en HTML para visual de EDA y ETL

In [21]:
!pip install ydata-profiling



In [22]:
from ydata_profiling import ProfileReport

# Generate the profile report
profile = ProfileReport(df, title="Pandas Profiling Report")

# Display the report in the notebook
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]


  0%|          | 0/13 [00:00<?, ?it/s][A
 23%|██▎       | 3/13 [00:00<00:00, 25.95it/s][A
100%|██████████| 13/13 [00:00<00:00, 58.81it/s]


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

## 7. Realizar Predicciones con Nuevos Datos

In [24]:
# Datos de ejemplo para un nuevo jugador (reemplázalos con los datos reales de tu jugador)
# El orden de las características debe coincidir con los datos de entrenamiento después de eliminar las columnas no numéricas:
# Edad, Altura_cm, Peso_kg, Habilidad_Goles, Habilidad_Defensa, Habilidad_Pases, Velocidad, Resistencia, Fuerza
new_player_data = np.array([[25, 180, 78, 80, 50, 70, 85, 80, 75]]) # Datos de ejemplo

# Asegúrate de que los nuevos datos tengan los mismos nombres de características que los datos de entrenamiento (opcional pero buena práctica)
# Basado en las columnas no numéricas eliminadas en el paso de preprocesamiento: 'Nombre', 'País', 'Posición'
feature_names = X.columns # Obtiene los nombres de las características de los datos de entrenamiento preprocesados
new_player_df = pd.DataFrame(new_player_data, columns=feature_names) # Crea un DataFrame con los datos del nuevo jugador y los nombres de las características


# Escalar los nuevos datos usando el *mismo* escalador entrenado en los datos de entrenamiento
# Es crucial usar el mismo escalador para asegurar que los nuevos datos se transformen de la misma manera que los datos de entrenamiento.
new_player_scaled = scaler.transform(new_player_df) # Aplica la transformación de escala a los datos del nuevo jugador.

# Realizar la predicción
# Usa el modelo entrenado para predecir el número de lesiones históricas basado en los datos escalados del nuevo jugador.
predicted_injuries = model.predict(new_player_scaled)

# Imprimir la predicción
# Muestra el resultado de la predicción. predicted_injuries es un array, por eso accedemos al primer elemento [0].
print(f"Número predicho de lesiones históricas para el nuevo jugador: {predicted_injuries[0]:.4f}")

Número predicho de lesiones históricas para el nuevo jugador: 0.6773


## 6. Conclusiones


### Resumen del Experimento

- **Modelo utilizado**: linear_regression
- **Tipo de aprendizaje**: Supervisado
- **Dataset**: DatosDeJugadores.csv (N/A filas, N/A columnas)
- **Tiempo de entrenamiento**: 120 segundos

---

*Este notebook fue generado automáticamente por la Plataforma de Machine Learning*
*Fecha de generación: 17/9/2025, 21:16:08*
