In [None]:
# 1. Carga y unión de datos
import pandas as pd
import os

# Definir ruta base
base_path = r"D:\HP\Downloads\Ganancias de los eSports"

# Cargar archivos CSV
df_players = pd.read_csv(os.path.join(base_path, "highest_earning_players.csv"))
df_teams = pd.read_csv(os.path.join(base_path, "highest_earning_teams.csv"))
df_country_codes = pd.read_csv(os.path.join(base_path, "country-and-continent-codes-list.csv"))

# Explorar brevemente
print(df_players.head())
print(df_teams.head())
print(df_country_codes.head())


In [None]:
# 2. Análisis Exploratorio de Datos (EDA)

# Información general y tipos de datos
print(df_players.info())

# Estadísticas descriptivas de variables numéricas
print(df_players.describe())

# Revisión de valores faltantes
print(df_players.isnull().sum())

import matplotlib.pyplot as plt
import seaborn as sns

# Distribución de la variable objetivo
sns.histplot(df_players['TotalUSDPrize'], bins=50, kde=True)
plt.title("Distribución de Ganancias Totales")
plt.xlabel("Ganancias Totales (USD)")
plt.ylabel("Frecuencia")
plt.show()

# Análisis de variables categóricas: actualizar nombres de columnas según tu dataset
categorical_cols = ['Game', 'Genre', 'CountryCode']

for col in categorical_cols:
    print(f"Valores únicos en {col}: {df_players[col].nunique()}")
    plt.figure(figsize=(8,6))
    sns.countplot(y=df_players[col], order=df_players[col].value_counts().index)
    plt.title(f"Distribución de {col}")
    plt.xlabel("Cantidad de jugadores")
    plt.ylabel(col)
    plt.show()


In [None]:
#3. Feature Engineering y Selección

# Selección de las características (features) y la variable objetivo (target)
features = ['Game', 'Genre', 'CountryCode']
target = 'TotalUSDPrize'

# Aplicar One-Hot Encoding a las variables categóricas.
# Esto convierte las categorías en columnas numéricas (0s y 1s) que el modelo puede procesar.
# 'drop_first=True' se utiliza para evitar la multicolinealidad, eliminando una categoría por cada característica.
df_encoded = pd.get_dummies(df_players[features], drop_first=True)

# Combinar las nuevas características codificadas con la variable objetivo.
# Ahora df_model contiene todos los datos listos para el entrenamiento.
df_model = pd.concat([df_encoded, df_players[target]], axis=1)

# Visualizar las primeras filas del nuevo DataFrame para verificar el resultado.
print("DataFrame listo para el modelo:")
print(df_model.head())