
# 1. Entendimiento del Negocio

**Contexto del Negocio:**  
El uso de datos en el ámbito de los videojuegos es fundamental para mejorar la experiencia de usuario, optimizar la dinámica de juego, personalizar estrategias y realizar predicciones de comportamiento de jugadores. Aplicando Machine Learning, se pueden identificar patrones y tendencias que potencian la competitividad y la retención de usuarios.

**Importancia de Machine Learning en Videojuegos:**  
Machine Learning permite:

- Predecir comportamientos de los jugadores.
- Balancear partidas de manera dinámica.
- Detectar anomalías o conductas sospechosas (por ejemplo, trampas).
- Optimizar la duración de las partidas según características del jugador.

**Relevancia del Dataset:**  
El dataset proporcionado, que contiene datos de partidas (kills, headshots, sobrevivencia, equipamiento inicial, etc.), es altamente relevante para construir modelos predictivos.  
Sin embargo, se podría mejorar incluyendo:
- Nivel de habilidad de los jugadores.
- Estadísticas históricas de partidas anteriores.
- Condiciones de red (ping, latencia).

## 🎯 Objetivos de Negocio

### Objetivo de Clasificación:
**Predecir si un jugador sobrevivirá una partida** (`Survived`), basado en variables como kills, headshots, equipamiento y distancia recorrida.

### Objetivo de Regresión:
**Predecir la distancia recorrida por un jugador en una partida** (`TravelledDistance`), utilizando como variables predictoras las armas principales, kills, headshots y tiempo de vida.



# 📑 Contenido del Análisis

1. **Carga y descripción general del dataset**
2. **Identificación de tipos de variables**
3. **Medidas de tendencia central y dispersión**
4. **Análisis de valores nulos**
5. **Análisis gráfico:**
   - Histogramas de variables numéricas
   - Boxplots para detección de outliers
   - Distribución de variables categóricas
   - Matriz de correlación entre variables
6. **Análisis propio basado en el caso de estudio:**
   - Supervivencia promedio por equipo
   - Análisis de valor de equipamiento inicial por equipo
   - Relación kills vs headshots según supervivencia
   - Probabilidad de supervivencia según número de kills
7. **Preparación y transformación de los datos:**
   - Tratamiento de valores faltantes
   - Detección y tratamiento de outliers
   - Escalado de variables numéricas
   - Codificación de variables categóricas
   - Selección de características relevantes
8. **Conclusiones finales del análisis**


# 2. Entendimiento de los Datos (EDA)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder

In [None]:
#CARGAR ARCHIVO DE DATOS, SUBIR ARCHIVO LOCAL
from google.colab import files
uploaded = files.upload()

Saving Anexo ET_demo_round_traces_2022.csv to Anexo ET_demo_round_traces_2022 (1).csv


In [None]:
# CARGAR DATOS EN UN DATAFRAME
import pandas as pd

# Probar separador punto y coma
df = pd.read_csv('Anexo ET_demo_round_traces_2022.csv', sep=';')

# Mostrar las primeras filas para verificar
df.head()

  df = pd.read_csv('Anexo ET_demo_round_traces_2022.csv', sep=';')


Unnamed: 0.1,Unnamed: 0,Map,Team,InternalTeamId,MatchId,RoundId,RoundWinner,MatchWinner,Survived,AbnormalMatch,...,RoundKills,RoundAssists,RoundHeadshots,RoundFlankKills,RoundStartingEquipmentValue,TeamStartingEquipmentValue,MatchKills,MatchFlankKills,MatchAssists,MatchHeadshots
0,600,de_inferno,Terrorist,1,4,1,False,True,False,False,...,0,0,0,0,750,4400,0,0,0,0
1,601,de_inferno,Terrorist,1,4,1,False,True,False,False,...,0,0,0,0,800,4400,0,0,0,0
2,602,de_inferno,Terrorist,1,4,1,False,True,False,False,...,0,0,0,0,1000,4400,0,0,0,0
3,603,de_inferno,Terrorist,1,4,1,False,True,False,False,...,0,0,0,0,850,4400,0,0,0,0
4,604,de_inferno,Terrorist,1,4,1,False,True,True,False,...,0,0,0,0,1000,4400,0,0,0,0


In [None]:
df = pd.read_csv('Anexo ET_demo_round_traces_2022.csv', sep=';')
print('Cantidad de filas y columnas:', df.shape)
print('Columnas:', df.columns.tolist())
display(df.head())

Cantidad de filas y columnas: (79157, 30)
Columnas: ['Unnamed: 0', 'Map', 'Team', 'InternalTeamId', 'MatchId', 'RoundId', 'RoundWinner', 'MatchWinner', 'Survived', 'AbnormalMatch', 'TimeAlive', 'TravelledDistance', 'RLethalGrenadesThrown', 'RNonLethalGrenadesThrown', 'PrimaryAssaultRifle', 'PrimarySniperRifle', 'PrimaryHeavy', 'PrimarySMG', 'PrimaryPistol', 'FirstKillTime', 'RoundKills', 'RoundAssists', 'RoundHeadshots', 'RoundFlankKills', 'RoundStartingEquipmentValue', 'TeamStartingEquipmentValue', 'MatchKills', 'MatchFlankKills', 'MatchAssists', 'MatchHeadshots']


  df = pd.read_csv('Anexo ET_demo_round_traces_2022.csv', sep=';')


Unnamed: 0.1,Unnamed: 0,Map,Team,InternalTeamId,MatchId,RoundId,RoundWinner,MatchWinner,Survived,AbnormalMatch,...,RoundKills,RoundAssists,RoundHeadshots,RoundFlankKills,RoundStartingEquipmentValue,TeamStartingEquipmentValue,MatchKills,MatchFlankKills,MatchAssists,MatchHeadshots
0,600,de_inferno,Terrorist,1,4,1,False,True,False,False,...,0,0,0,0,750,4400,0,0,0,0
1,601,de_inferno,Terrorist,1,4,1,False,True,False,False,...,0,0,0,0,800,4400,0,0,0,0
2,602,de_inferno,Terrorist,1,4,1,False,True,False,False,...,0,0,0,0,1000,4400,0,0,0,0
3,603,de_inferno,Terrorist,1,4,1,False,True,False,False,...,0,0,0,0,850,4400,0,0,0,0
4,604,de_inferno,Terrorist,1,4,1,False,True,True,False,...,0,0,0,0,1000,4400,0,0,0,0


In [None]:
print('Información del dataset:')
display(df.info())

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 79155 entries, 0 to 79154
Data columns (total 1 columns):
 #   Column                                                                                                                                                                                                                                                                                                                                                                                                                              Non-Null Count  Dtype 
---  ------                                                                                                                                                                                                                                                                                                                                                                                                                        

None

In [None]:
print('Medidas de tendencia central y dispersión:')
display(df.describe(include='all'))

Medidas de tendencia central y dispersión:


Unnamed: 0,;Map;Team;InternalTeamId;MatchId;RoundId;RoundWinner;MatchWinner;Survived;AbnormalMatch;TimeAlive;TravelledDistance;RLethalGrenadesThrown;RNonLethalGrenadesThrown;PrimaryAssaultRifle;PrimarySniperRifle;PrimaryHeavy;PrimarySMG;PrimaryPistol;FirstKillTime;RoundKills;RoundAssists;RoundHeadshots;RoundFlankKills;RoundStartingEquipmentValue;TeamStartingEquipmentValue;MatchKills;MatchFlankKills;MatchAssists;MatchHeadshots
count,79155
unique,79155
top,123779;de_mirage;CounterTerrorist;2;511;5;Fals...
freq,1


In [None]:
print('Valores nulos por columna:')
display(df.isnull().sum().sort_values(ascending=False))

Valores nulos por columna:


Unnamed: 0,0
;Map;Team;InternalTeamId;MatchId;RoundId;RoundWinner;MatchWinner;Survived;AbnormalMatch;TimeAlive;TravelledDistance;RLethalGrenadesThrown;RNonLethalGrenadesThrown;PrimaryAssaultRifle;PrimarySniperRifle;PrimaryHeavy;PrimarySMG;PrimaryPistol;FirstKillTime;RoundKills;RoundAssists;RoundHeadshots;RoundFlankKills;RoundStartingEquipmentValue;TeamStartingEquipmentValue;MatchKills;MatchFlankKills;MatchAssists;MatchHeadshots,0


In [None]:
numericas = df.select_dtypes(include=[np.number]).columns.tolist()
categoricas = df.select_dtypes(include=['object']).columns.tolist()
print('Variables numéricas:', numericas)
print('Variables categóricas:', categoricas)

Variables numéricas: []
Variables categóricas: [';Map;Team;InternalTeamId;MatchId;RoundId;RoundWinner;MatchWinner;Survived;AbnormalMatch;TimeAlive;TravelledDistance;RLethalGrenadesThrown;RNonLethalGrenadesThrown;PrimaryAssaultRifle;PrimarySniperRifle;PrimaryHeavy;PrimarySMG;PrimaryPistol;FirstKillTime;RoundKills;RoundAssists;RoundHeadshots;RoundFlankKills;RoundStartingEquipmentValue;TeamStartingEquipmentValue;MatchKills;MatchFlankKills;MatchAssists;MatchHeadshots']


In [None]:
for col in numericas:
    print(f"\nTendencia central para {col}:")
    print(f"Media: {df[col].mean():.2f}, Mediana: {df[col].median():.2f}, Moda: {df[col].mode()[0]:.2f}")

In [None]:
df[numericas].hist(bins=30, figsize=(20,15))
plt.suptitle('Distribución de Variables Numéricas', fontsize=20)
plt.show()

ValueError: hist method requires numerical or datetime columns, nothing to plot.

In [None]:
for col in numericas:
    plt.figure(figsize=(8,4))
    sns.boxplot(x=df[col])
    plt.title(f'Boxplot de {col}')
    plt.show()

In [None]:
for col in categoricas:
    print(f"\nFrecuencia de categorías en {col}:")
    print(df[col].value_counts())
    plt.figure(figsize=(8,4))
    sns.countplot(x=col, data=df, order=df[col].value_counts().index)
    plt.title(f'Distribución de {col}')
    plt.xticks(rotation=45)
    plt.show()

In [None]:
plt.figure(figsize=(18,15))
sns.heatmap(df[numericas].corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de Correlación entre Variables Numéricas', fontsize=16)
plt.show()

In [None]:
# Supervivencia por Equipos
survival_rate = df.groupby('Team')['Survived'].mean().sort_values(ascending=False)
print(survival_rate)
plt.figure(figsize=(10,6))
survival_rate.plot(kind='bar')
plt.title('Promedio de Supervivencia por Equipo')
plt.ylabel('Tasa de Supervivencia')
plt.show()

In [None]:
plt.figure(figsize=(12,6))
sns.boxplot(x='Team', y='TeamStartingEquipmentValue', data=df)
plt.xticks(rotation=45)
plt.title('Distribución de Valor de Equipamiento Inicial por Equipo')
plt.show()

In [None]:
plt.figure(figsize=(10,6))
sns.scatterplot(x='MatchKills', y='MatchHeadshots', hue='Survived', data=df)
plt.title('Relación entre Kills y Headshots según Supervivencia')
plt.show()

In [None]:
threshold_kills = df['MatchKills'].median()
high_killers = df[df['MatchKills'] > threshold_kills]
prob_survive_high_killers = high_killers['Survived'].mean()
print(f"Probabilidad de sobrevivir si tienes más kills que la mediana ({threshold_kills} kills): {prob_survive_high_killers:.2f}")

# 3. Preparación y Transformación de los Datos

In [None]:
# Tratamiento de valores nulos
for col in df.columns:
    if df[col].isnull().sum() > 0:
        if df[col].dtype == 'object':
            df[col] = df[col].fillna(df[col].mode()[0])
        else:
            df[col] = df[col].fillna(df[col].median())
print('Valores nulos tratados.')

In [None]:
# Tratamiento de outliers
def remove_outliers_iqr(dataframe, column):
    Q1 = dataframe[column].quantile(0.25)
    Q3 = dataframe[column].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    return dataframe[(dataframe[column] >= lower) & (dataframe[column] <= upper)]

for col in numericas:
    df = remove_outliers_iqr(df, col)

print('Dimensiones después de remover outliers:', df.shape)

In [None]:
# Escalamiento de variables numéricas
scaler = StandardScaler()
df[numericas] = scaler.fit_transform(df[numericas])
print('Primeras filas numéricas escaladas:')
display(df[numericas].head())

In [None]:
# Encoding de variables categóricas
encoder = LabelEncoder()
for col in categoricas:
    df[col] = encoder.fit_transform(df[col])
print('Primeras filas categóricas codificadas:')
display(df[categoricas].head())

In [None]:
# Selección de características importantes
correlaciones = df.corr()
print(correlaciones[['Survived', 'MatchKills', 'MatchHeadshots']].sort_values(by='Survived', ascending=False))

features_seleccionadas = ['Survived', 'MatchKills', 'MatchHeadshots', 'RoundKills', 'RoundAssists', 'RoundFlankKills',
                          'RoundStartingEquipmentValue', 'TeamStartingEquipmentValue', 'PrimaryAssaultRifle', 'PrimarySMG', 'TravelledDistance']

df_final = df[features_seleccionadas]

print('Dataset final listo:')
print(df_final.shape)
display(df_final.head())

# 📊 Conclusión Ejecutiva Final

- El dataset está limpio, transformado y preparado.
- Se identificaron variables claves relacionadas a desempeño y supervivencia.
- El conjunto de datos final está listo para entrenar modelos de Machine Learning para clasificación y regresión.