In [3]:
#librerias
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [4]:
%load_ext kedro.ipython


In [5]:
data_r2s_0 = catalog.load('data_r2s-0')
data_r2s_1 = catalog.load('data_r2s-1')
data_r2s_2 = catalog.load('data_r2s-2')


In [13]:
combined_data = pd.concat([data_r2s_0, data_r2s_1, data_r2s_2], ignore_index=True)

# Selección datos relevantes

In [6]:
def preparar_datos_basico(df: pd.DataFrame, label_encoders=None):
    cols_relevantes = [
        "mapname", "role", "team", "operator",
        "nbkills", "isdead", "haswon", "skillrank",
        "primaryweapon", "secondaryweapon"
    ]

    # Evita copia pesada → selecciona solo las columnas necesarias
    df_pre = pd.DataFrame({col: df[col] for col in cols_relevantes})

    # Columnas categóricas
    categoricas = ["mapname", "role", "team", "operator",
                   "primaryweapon", "secondaryweapon"]

    if label_encoders is None:
        label_encoders = {}

    for col in categoricas:
        if col not in label_encoders:
            le = LabelEncoder()
            df_pre[col] = le.fit_transform(df_pre[col].astype(str))
            label_encoders[col] = le
            print(f"Codificación de {col}: {len(le.classes_)} categorías → numéricas")
        else:
            # Usa el encoder existente (asegura misma codificación entre datasets)
            le = label_encoders[col]
            df_pre[col] = le.transform(df_pre[col].astype(str))

    # Codificación ordinal de skillrank
    rank_order = {
        "Copper": 0,
        "Bronze": 1,
        "Silver": 2,
        "Gold": 3,
        "Platinum": 4,
        "Diamond": 5,
        "Champion": 6
    }
    df_pre["skillrank"] = df_pre["skillrank"].map(rank_order)

    return df_pre, label_encoders


# 🔹 Procesar los tres datasets
df0, encoders = preparar_datos_basico(data_r2s_0)
df1, encoders = preparar_datos_basico(data_r2s_1, encoders)
df2, encoders = preparar_datos_basico(data_r2s_2, encoders)

# 🔹 Unir en un solo DataFrame final
df_final = pd.concat([df0, df1, df2], ignore_index=True)

# 🔹 Vista previa
print("\nPreview de los datos preparados (unidos):")
print(df_final.head())
print(f"\nTotal de filas: {len(df_final)}")



Codificación de mapname: 16 categorías → numéricas
Codificación de role: 2 categorías → numéricas
Codificación de team: 2 categorías → numéricas
Codificación de operator: 35 categorías → numéricas
Codificación de primaryweapon: 46 categorías → numéricas
Codificación de secondaryweapon: 16 categorías → numéricas

Preview de los datos preparados (unidos):
   mapname  role  team  operator  nbkills  isdead  haswon  skillrank  \
0        4     1     1        31        0       0       1        3.0   
1        4     1     0        12        0       1       1        3.0   
2        4     1     1        15        0       0       1        3.0   
3        4     1     0         1        3       0       1        3.0   
4        4     1     0        12        0       1       0        3.0   

   primaryweapon  secondaryweapon  
0             44                0  
1              0                8  
2              4                7  
3             20               13  
4              0               

# Limpieza de datos 

In [None]:
def limpiar_datos(combined_data: pd.DataFrame) -> pd.DataFrame:
    """Elimina nulos y duplicados, muestra resumen de limpieza."""
    filas_iniciales = combined_data.shape[0]
    combined_data = combined_data.dropna()
    filas_sin_nulos = combined_data.shape[0]
    combined_data = combined_data.drop_duplicates()
    filas_finales = combined_data.shape[0]
    print(f"Filas iniciales: {filas_iniciales}")
    print(f"Filas tras eliminar nulos: {filas_sin_nulos} (eliminadas: {filas_iniciales - filas_sin_nulos})")
    print(f"Filas tras eliminar duplicados: {filas_finales} (eliminadas: {filas_sin_nulos - filas_finales})")
    return combined_data

In [9]:
import pandas as pd

# 🔹 Unir tus datasets en uno solo (asegúrate de que data_r2s_0,1,2 existan antes)
combined_data = pd.concat([data_r2s_0, data_r2s_1, data_r2s_2], ignore_index=True)

def eliminar_atipicos(df: pd.DataFrame, columnas: list) -> pd.DataFrame:
    """Detecta y elimina atípicos usando IQR (acumula filtros para optimizar memoria)."""
    filas_iniciales = len(df)
    total_eliminados = 0
    
    filtro_global = pd.Series(True, index=df.index)  # todos válidos al inicio

    for columna in columnas:
        Q1 = df[columna].quantile(0.25)
        Q3 = df[columna].quantile(0.75)
        IQR = Q3 - Q1
        filtro = (df[columna] >= (Q1 - 1.5 * IQR)) & (df[columna] <= (Q3 + 1.5 * IQR))

        eliminados = (~filtro).sum()
        total_eliminados += eliminados
        filtro_global &= filtro  # acumulamos

        print(f"Columna: {columna} → {eliminados} atípicos detectados")

    df_filtrado = df[filtro_global]
    filas_finales = len(df_filtrado)

    print(f"\n✅ Total de atípicos eliminados: {total_eliminados}")
    print(f"📊 Filas iniciales: {filas_iniciales} → Filas finales: {filas_finales}")

    return df_filtrado


# 🔹 Seleccionar columnas numéricas
columnas_numericas = combined_data.select_dtypes(include=["int64", "float64"]).columns.tolist()

# 🔹 Aplicar la eliminación de atípicos y guardar el nuevo dataset
combined_data = eliminar_atipicos(combined_data, columnas_numericas)

# 🔹 Verificar el resultado
print("\nPreview de datos filtrados:")
print(combined_data.head())
print(combined_data.shape)


Columna: dateid → 1439558 atípicos detectados
Columna: matchid → 0 atípicos detectados
Columna: roundnumber → 0 atípicos detectados
Columna: roundduration → 34641 atípicos detectados
Columna: clearancelevel → 102164 atípicos detectados
Columna: team → 0 atípicos detectados
Columna: haswon → 0 atípicos detectados
Columna: nbkills → 638169 atípicos detectados
Columna: isdead → 0 atípicos detectados

✅ Total de atípicos eliminados: 2214532
📊 Filas iniciales: 12000000 → Filas finales: 9891965

Preview de datos filtrados:
     dateid platform gamemode     mapname     matchid  roundnumber  \
0  20170212       PC  HOSTAGE  CLUB_HOUSE  1522380841            1   
1  20170212       PC  HOSTAGE  CLUB_HOUSE  1522380841            4   
2  20170212       PC  HOSTAGE  CLUB_HOUSE  1522380841            3   
4  20170212       PC  HOSTAGE  CLUB_HOUSE  1522380841            6   
5  20170212       PC  HOSTAGE  CLUB_HOUSE  1522380841            2   

  objectivelocation   winrole          endroundreason  r

# Integración de datasets 

In [10]:
# Integrar los datasets seleccionados en uno solo
datasets = [data_r2s_0, data_r2s_1, data_r2s_2]
combined = pd.concat(datasets, ignore_index=True)

print(f"✅ Datos integrados: {combined.shape[0]} filas, {combined.shape[1]} columnas")


✅ Datos integrados: 12000000 filas, 31 columnas


# Feature Engineering

In [17]:
# Funciones de feature engineering
def crear_kill_death_ratio(df: pd.DataFrame) -> pd.DataFrame:
    df["kill_death_ratio"] = df["nbkills"] / (df["isdead"] + 1)  # evita división por 0
    print("✅ Feature creada: kill_death_ratio")
    return df

def crear_impact_score(df: pd.DataFrame) -> pd.DataFrame:
    df["impact_score"] = df["nbkills"] * df["haswon"]
    print("✅ Feature creada: impact_score")
    return df

# Aplicar funciones al dataset combinado
combined_data = crear_kill_death_ratio(combined_data)
combined_data = crear_impact_score(combined_data)

# Verificar resultado
print(combined_data[["nbkills", "isdead", "haswon", "kill_death_ratio", "impact_score"]].head())


✅ Feature creada: kill_death_ratio
✅ Feature creada: impact_score
   nbkills  isdead  haswon  kill_death_ratio  impact_score
0        0       0       1               0.0             0
1        0       1       1               0.0             0
2        0       0       1               0.0             0
3        3       0       1               3.0             3
4        0       1       0               0.0             0
