# ‚öΩ An√°lisis de Estad√≠sticas de Partidos de F√∫tbol con PySpark

Este notebook aplica t√©cnicas de PySpark (DataFrames, Agregaciones, UDFs y Funciones de Ventana) para el an√°lisis de datos de f√∫tbol.

**Instalaciones previas, si fuesen necesarias.**

In [None]:
# Instalar Java si no est√° instalado
!apt install -y openjdk-21-jdk

In [None]:
# Definir la variable de entorno JAVA_HOME si fuese necesario

# En nuestro ordenador personal, si no esta definida la variable JAVA_HOME, deberemos indicarla
# Para sistemas basados en Debian/Ubuntu, si tenemos instalada la version 21 de Java, seria:
# os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-21-openjdk-amd64"
# En Windows, la ruta puede ser algo como: "C:\\Program Files\\Java\\jdk-21"
# os.environ["JAVA_HOME"] = "C:\\Program Files\\Java\\jdk-21"
# Si ya esta definida, no es necesario hacer nada
# os.environ["JAVA_HOME"]

# En Google Colab no es necesario hacer nada

In [None]:
# Instalar PySpark si no est√° instalado
!pip install pyspark

Comenzamos importando las librer√≠as necesarias y creando una sesi√≥n de Spark.

In [None]:
import os
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import *
from pyspark.sql.functions import *
from pyspark.sql import Window
from math import radians, cos, sin, asin, sqrt

# Creaci√≥n de la sesi√≥n de Spark
spark = (SparkSession.builder
    .appName("Soccer Analytics")
    .getOrCreate())

Seleccionamos la carpeta de datos

**Si estamos trabajando en local** con Jupyter Notebook/Lab, accedemos directamente utilizando la carpeta `data/`

In [None]:
DATA_BASE_PATH = 'data/soccer-data/'

**Si estamos trabajando en Google Colab**, montamos una carpeta de Google Drive que contenga nuestros datos.

In [None]:
# Montamos la carpeta (nos pedir√° permisos)
from google.colab import drive
drive.mount('/content/drive')
# Crea un atajo llamado 'workspace' en la carpeta /content (dar√° un peque√±o error si ya existe)
!ln -s "/content/drive/MyDrive/Colab Notebooks" "/content/workspace" >/dev/null 2>&1
# Ya podemos acceder a los ficheros, por ejemplo:
DATA_BASE_PATH = '/content/drive/MyDrive/Colab Notebooks/soccer-data/'

---

## üèÜ Dataset 1: Resultados de Partidos (`results.csv`)

### Carga y Exploraci√≥n Inicial

In [9]:
# Definici√≥n del esquema para resultados de partidos (para evitar inferencia lenta/err√≥nea)
resultsSchema = StructType([
    StructField("date", DateType(), False),
    StructField("home_team", StringType(), False),
    StructField("away_team", StringType(), False),
    StructField("home_score", IntegerType(), False),
    StructField("away_score", IntegerType(), False),
    StructField("tournament", StringType(), False),
    StructField("city", StringType(), False),
    StructField("country", StringType(), False),
    StructField("neutral", StringType(), False)
])

# Carga del DataFrame de Resultados
results_df = (spark.read.option("header", "true")
              .option("dateFormat", "yyyy-MM-dd")
              .csv(DATA_BASE_PATH + "results.csv", schema=resultsSchema)
             )

results_df.printSchema()
results_df.show(5)
print(f"N√∫mero total de partidos: {results_df.count()}")

root
 |-- date: date (nullable = true)
 |-- home_team: string (nullable = true)
 |-- away_team: string (nullable = true)
 |-- home_score: integer (nullable = true)
 |-- away_score: integer (nullable = true)
 |-- tournament: string (nullable = true)
 |-- city: string (nullable = true)
 |-- country: string (nullable = true)
 |-- neutral: string (nullable = true)

+----------+---------------+-----------------+----------+----------+--------------+----------+-------+-------+
|      date|      home_team|        away_team|home_score|away_score|    tournament|      city|country|neutral|
+----------+---------------+-----------------+----------+----------+--------------+----------+-------+-------+
|2023-08-12| Manchester Utd|           Wolves|         1|         0|Premier League|Manchester|England|  FALSE|
|2023-08-12|        Arsenal|Nottingham Forest|         2|         1|Premier League|    London|England|  FALSE|
|2023-08-12|        Chelsea|        Liverpool|         1|         1|Premier Leagu

### Ejercicio 1: Resumen por Torneo

Calcule para cada **Torneo** la fecha del primer partido (`start_date`), la fecha del √∫ltimo partido (`last_date`) y el **n√∫mero total de goles** marcados (`total_goals`) en dicho torneo.

In [10]:
tournament_summary = (
    results_df
    .withColumn("total_match_goals", col("home_score") + col("away_score"))
    .groupBy("tournament")
    .agg(
        min("date").alias("start_date"),
        max("date").alias("last_date"),
        sum("total_match_goals").alias("total_goals")
    )
)

(tournament_summary
 .orderBy(col("total_goals").desc())
 .show(5, truncate=False)
)

+-----------------------+----------+----------+-----------+
|tournament             |start_date|last_date |total_goals|
+-----------------------+----------+----------+-----------+
|Premier League         |2023-08-12|2023-09-03|63         |
|UEFA Euro qualification|2023-03-23|2023-11-20|59         |
|La Liga                |2023-09-16|2023-10-08|55         |
|Friendly               |2023-06-15|2023-11-18|41         |
|Bundesliga             |2023-08-18|2023-09-16|37         |
+-----------------------+----------+----------+-----------+
only showing top 5 rows



---

## ü•Ö Dataset 2: Goleadores por Partido (`goalscorers.csv`)

### Carga y Exploraci√≥n Inicial

In [11]:
# Definici√≥n del esquema para goleadores
scorersSchema = StructType([
    StructField("date", DateType(), False),
    StructField("home_team", StringType(), False),
    StructField("away_team", StringType(), False),
    StructField("team", StringType(), False),
    StructField("scorer", StringType(), False),
    StructField("minute", IntegerType(), True),
    StructField("own_goal", StringType(), True),
    StructField("penalty", StringType(), True)
])

# Carga del DataFrame de Goleadores
scorers_df = (spark.read.option("header", "true")
              .option("dateFormat", "yyyy-MM-dd")
              .csv(DATA_BASE_PATH + "goalscorers.csv", schema=scorersSchema)
             )

scorers_df.printSchema()
scorers_df.show(5, truncate=False)
print(f"N√∫mero total de goles registrados: {scorers_df.count()}")

root
 |-- date: date (nullable = true)
 |-- home_team: string (nullable = true)
 |-- away_team: string (nullable = true)
 |-- team: string (nullable = true)
 |-- scorer: string (nullable = true)
 |-- minute: integer (nullable = true)
 |-- own_goal: string (nullable = true)
 |-- penalty: string (nullable = true)

+----------+--------------+-----------------+-----------------+-----------+------+--------+-------+
|date      |home_team     |away_team        |team             |scorer     |minute|own_goal|penalty|
+----------+--------------+-----------------+-----------------+-----------+------+--------+-------+
|2023-08-12|Manchester Utd|Wolves           |Manchester Utd   |Rashford M.|15    |NULL    |NULL   |
|2023-08-12|Arsenal       |Nottingham Forest|Arsenal          |Saka B.    |8     |NULL    |NULL   |
|2023-08-12|Arsenal       |Nottingham Forest|Nottingham Forest|Awoniyi T. |42    |NULL    |NULL   |
|2023-08-12|Arsenal       |Nottingham Forest|Arsenal          |Odegaard M.|78    |NULL

### Ejercicio 2: Ranking de Goleadores (Agregaci√≥n)

Calcule el **n√∫mero total de goles** y la **media de minuto** en el que marca el gol para cada jugador (`scorer`). Muestre el ranking de los 5 mejores goleadores.

In [12]:
scorer_ranking = (
    scorers_df
    .filter(col("own_goal").isNull()) # Excluimos goles en propia puerta
    .groupBy("scorer")
    .agg(
        count("scorer").alias("total_goals"),
        round(avg("minute"), 2).alias("avg_minute_of_goal")
    )
)

(scorer_ranking
 .orderBy(col("total_goals").desc())
 .show(5)
)

+------------+-----------+------------------+
|      scorer|total_goals|avg_minute_of_goal|
+------------+-----------+------------------+
|   Mbappe K.|         14|             28.21|
|  Ronaldo C.|         11|             37.55|
|     Kane H.|          8|             41.13|
|  Joao Felix|          7|             66.43|
|Griezmann A.|          7|             42.29|
+------------+-----------+------------------+
only showing top 5 rows



---

### Ejercicio 3: C√°lculo de Valor de Gol con UDF

Cree una funci√≥n de usuario (UDF) llamada `goal_value` que asigne un **valor** a cada gol en funci√≥n del minuto:

- Gol en el minuto 90 o posterior: **Valor 3** (Gol tard√≠o/decisivo)
- Gol entre el minuto 76 y 89: **Valor 2**
- Gol antes del minuto 76: **Valor 1**

Calcule el valor total de los goles para cada jugador.

#### üí° ¬øQu√© es una UDF (User Defined Function)?

Una **UDF** (Funci√≥n Definida por el Usuario) es una funci√≥n personalizada que permite extender las capacidades de PySpark aplicando l√≥gica personalizada a los datos.

**Caracter√≠sticas principales:**
- ‚úÖ Permite aplicar funciones Python personalizadas sobre columnas de DataFrames
- ‚úÖ √ötil cuando las funciones nativas de Spark no cubren una necesidad espec√≠fica
- ‚úÖ Se puede aplicar usando `.withColumn()` o `.select()`
- ‚ö†Ô∏è **Nota de rendimiento:** Las UDF son m√°s lentas que las funciones nativas de Spark porque requieren serializaci√≥n/deserializaci√≥n de datos entre la JVM y Python

**Sintaxis b√°sica:**
```python
from pyspark.sql.functions import udf
from pyspark.sql.types import TipoRetorno

# 1. Definir funci√≥n Python
def mi_funcion(valor):
    return resultado

# 2. Convertir a UDF de Spark
mi_udf = udf(mi_funcion, TipoRetorno())

# 3. Aplicar la UDF
df = df.withColumn("nueva_columna", mi_udf(col("columna_existente")))
```

In [13]:
# 1. Definici√≥n de la funci√≥n Python
def goal_value_function(minute):
    if minute is None:
        return 0
    elif minute >= 90:
        return 3
    elif minute >= 76:
        return 2
    else:
        return 1

# 2. Conversi√≥n a UDF de Spark
goal_value_udf = udf(goal_value_function, IntegerType())

# 3. Aplicaci√≥n y Agregaci√≥n
scorer_value = (
    scorers_df
    .filter(col("own_goal").isNull())
    .withColumn("goal_value", goal_value_udf(col("minute")))
    .groupBy("scorer")
    .agg(
        sum("goal_value").alias("total_goal_value"),
        count("scorer").alias("total_goals")
    )
)

(scorer_value
 .orderBy(col("total_goal_value").desc())
 .show(5)
)

+----------------+----------------+-----------+
|          scorer|total_goal_value|total_goals|
+----------------+----------------+-----------+
|       Mbappe K.|              15|         14|
|      Ronaldo C.|              13|         11|
|      Joao Felix|              12|          7|
|Lautaro Martinez|              12|          6|
|    Vinicius Jr.|              11|          6|
+----------------+----------------+-----------+
only showing top 5 rows



---

### Ejercicio 4: Goles Acumulados por Equipo (Funciones de Ventana)

Utilizando las **Funciones de Ventana** (`Window`), calcule el **n√∫mero acumulado de goles** para cada equipo (`team`), ordenados por la fecha (`date`) y el minuto (`minute`) del gol. Esto simula el *running total* de la evoluci√≥n goleadora.

#### üí° ¬øQu√© son las Funciones de Ventana (Window Functions)?

Las **Funciones de Ventana** permiten realizar c√°lculos sobre un conjunto de filas relacionadas con la fila actual, sin colapsar los resultados en una sola fila (como lo har√≠a `groupBy`).

**Caracter√≠sticas principales:**
- ‚úÖ Mantienen todas las filas originales en el resultado
- ‚úÖ Permiten realizar c√°lculos como **sumas acumuladas**, **rankings**, **promedios m√≥viles**, etc.
- ‚úÖ Se definen mediante **particiones** (grupos) y **ordenamiento**
- üéØ Muy √∫tiles para an√°lisis de series temporales y rankings

**Componentes de una ventana:**
1. **`partitionBy()`**: Divide los datos en grupos (similar a `groupBy`)
2. **`orderBy()`**: Define el orden dentro de cada partici√≥n
3. **`rowsBetween()` / `rangeBetween()`**: Define el rango de filas a considerar (opcional)

**Sintaxis b√°sica:**
```python
from pyspark.sql import Window
from pyspark.sql.functions import sum, rank, row_number

# Definir la ventana
window_spec = Window.partitionBy('columna_grupo').orderBy('columna_orden')

# Aplicar funci√≥n de ventana
df = df.withColumn('suma_acumulada', sum('columna').over(window_spec))
df = df.withColumn('ranking', rank().over(window_spec))
```

**Funciones de ventana comunes:**
- `sum()`, `avg()`, `min()`, `max()`: Agregaciones sobre la ventana
- `rank()`, `dense_rank()`, `row_number()`: Rankings
- `lag()`, `lead()`: Acceso a filas anteriores/siguientes

---

#### üîç Pistas para el Ejercicio 4:

1. **Crear un identificador √∫nico**: Usa `monotonically_increasing_id()` para crear un ID de secuencia √∫nico por cada gol. Esto garantiza un orden determinista cuando hay m√∫ltiples goles en el mismo minuto.
   ```python
   df = df.withColumn("goal_sequence_id", monotonically_increasing_id())
   ```

2. **Ordenamiento de la ventana**: Para una suma acumulada correcta, ordena por `date` y luego por el `goal_sequence_id`:
   ```python
   window_spec = Window.partitionBy('team').orderBy('date', 'goal_sequence_id')
   ```

3. **Contar goles con `lit(1)`**: Para contar un gol por cada fila, usa `lit(1)` en lugar de contar una columna espec√≠fica:
   ```python
   sum(lit(1)).over(window_spec)
   ```
   Esto suma el valor `1` por cada fila, generando as√≠ el conteo acumulado de goles.

In [14]:
# Creamos un identificador √∫nico para la secuencia de goles (monotonically_increasing_id)
goals_with_id_df = scorers_df.withColumn("goal_sequence_id", monotonically_increasing_id())

# 1. Definici√≥n de la Ventana:
#    - Partici√≥n: por equipo ('team').
#    - Orden: por fecha ('date') y luego por el ID de secuencia para un orden determinista.
window_spec = Window.partitionBy('team').orderBy('date', 'goal_sequence_id')

# 2. C√°lculo de la Suma Acumulada
acc_goals = (
    goals_with_id_df
    .filter(col("own_goal").isNull())
    .select(
        'date',
        'team',
        'scorer',
        'minute',
        # Calcula la suma acumulada de goles (contamos 1 por cada fila)
        sum(lit(1)).over(window_spec).alias('cumulative_goals')
    )
)

# 3. Muestra de los resultados (solo para el equipo de Real Madrid como ejemplo)
(acc_goals
 .filter(col("team") == "Real Madrid")
 .orderBy("date", "minute")
 .show(10)
)

+----------+-----------+-------------+------+----------------+
|      date|       team|       scorer|minute|cumulative_goals|
+----------+-----------+-------------+------+----------------+
|2023-09-16|Real Madrid|Bellingham J.|    18|               1|
|2023-09-16|Real Madrid| Vinicius Jr.|    92|               2|
|2023-09-23|Real Madrid|Bellingham J.|    72|               3|
|2023-09-30|Real Madrid|Bellingham J.|    17|               4|
|2023-09-30|Real Madrid| Vinicius Jr.|    55|               5|
|2023-09-30|Real Madrid|      Rodrygo|    88|               6|
|2023-10-08|Real Madrid|Bellingham J.|     8|               7|
|2023-10-08|Real Madrid| Vinicius Jr.|    18|               8|
|2023-10-08|Real Madrid|      Rodrygo|    45|               9|
|2023-10-08|Real Madrid|Bellingham J.|    77|              10|
+----------+-----------+-------------+------+----------------+

