# Encontrando insights de la UEFA Champions League

La Liga de Campeones de la UEFA, a menudo llamada Liga de Campeones, es una competencia anual de fútbol por excelencia que cautiva a los fanáticos de todo el mundo. Establecida en 1955 como la Copa de Clubes Campeones de Europa, evolucionó a la Liga de Campeones de la UEFA en 1992, ampliando su atractivo. El formato moderno cuenta con 32 equipos de clubes de primer nivel seleccionados en función de su desempeño en la liga nacional, lo que aumenta la intriga.  

Este evento electrizante trasciende los deportes y se convierte en una celebración de la unidad, la cultura y el orgullo nacional. Los fanáticos, vestidos con los colores de sus países, crean una atmósfera eléctrica, lo que hace que el torneo sea tanto sobre los espectadores como sobre los jugadores. Financieramente, la Liga de Campeones es un salvavidas para los clubes, ya que aumenta los ingresos y ofrece oportunidades transformadoras. Sin embargo, genera debates sobre las disparidades de riqueza en el fútbol europeo.  

La Liga de Campeones es sinónimo de rivalidades históricas, triunfos de los desvalidos y brillantez individual. Para los jugadores, representa la cima de su carrera, mientras que para los fanáticos, es un fenómeno cultural. El himno y los rituales icónicos enriquecen la experiencia futbolística. En 200 palabras, la UEFA Champions League es el epítome de la excelencia del fútbol europeo, que ofrece momentos inolvidables, recompensas económicas y un impacto cultural único, con 32 clubes de primer nivel que se suman a su atractivo.

**Nombres de las tablas o ficheros a utilizar**:  
[uefa_2020.csv](https://tajamar365.sharepoint.com/:x:/s/3405-MasterIA2024-2025/EQuW8d16tZJKpYZN6jR480sBgc1IYypAw9hGHKQARS560g?e=7TybBU)  
[uefa_2021.csv](https://tajamar365.sharepoint.com/:x:/s/3405-MasterIA2024-2025/ESG8YBrjD3tBky3aGT0MwIABNt_PQxFVVYVlWMnZYUmV8g?e=VrYHtX)  
[uefa_2022.csv](https://tajamar365.sharepoint.com/:x:/s/3405-MasterIA2024-2025/Ecf8O8U8sxJLoW9Bkd2ZVzgBb_gZc35mNcprnR9FMlzliQ?e=Vn3a6v)  
- Todas las tablas tienen las mismas columnas y data types

| Column | Definition | Data type |
|--------|------------|-----------|
| `STAGE`| Stage of the March | `VARCHAR(50)` |
| `DATE` | When the match occurred. | `DATE` |
| `PENS` | Did the match end with penalty | `VARCHAR(50)` |
| `PENS_HOME_SCORE` | In case of penalty, score by home team | `VARCHAR(50)` |
| `PENS_AWAY_SCORE` | In case of penalty, score by away team | `VARCHAR(50)` |
| `TEAM_NAME_HOME` | Team home name | `VARCHAR(50)` |
| `TEAM_NAME_AWAY`| Team away  name | `VARCHAR(50)` |
| `TEAM_HOME_SCORE` | Team home score | `NUMBER` |
| `TEAM_AWAY_SCORE` | Team away score | `NUMBER` |
| `POSSESSION_HOME` | Ball possession for the home team | `FLOAT` |
| `POSSESSION_AWAY` | Ball possession for the away team | `FLOAT` |
| `TOTAL_SHOTS_HOME` | Number of shots by the home team | `NUMBER` |
| `TOTAL_SHOTS_AWAY` | Number of shots by the away team | `NUMBER`
| `SHOTS_ON_TARGET_HOME` | Total shot for home team | `FLOAT` |
| `SHOTS_ON_TARGET_AWAY` | Total shot for away team | `FLOAT` |
| `DUELS_WON_HOME` | duel win possession of ball - for home team | `NUMBER` |
| `DUELS_WON_AWAY` | duel win possession of ball - for away team | `NUMBER` 
| `PREDICTION_TEAM_HOME_WIN` | Probability of home team to win | `FLOAT` |
| `PREDICTION_DRAW` | Probability of draw | `FLOAT` |
| `PREDICTION_TEAM_AWAY_WIN` | Probability of away team to win | `FLOAT` |
| `LOCATION` | Stadium where the match was held | `VARCHAR(50)` |

### Requerimientos:  
-Puedes utilizar SQL o PySpark

1. Encuentra los 3 equipos que anotaron más goles jugando en su estadio en la UEFA Champions League 2020-21. El resultado debe contener dos columnas: TEAM_NAME_HOME y TEAM_HOME_SCORE ordenadas en orden descendente de TEAM_HOME_SCORE. Guarda la consulta (o el notebook) como TEAM_HOME_WITH_MOST_GOALS.

In [0]:
# Cargar el archivo CSV
df_2020_21 = spark.read.option("header", "true").csv("/FileStore/Notebook Examen/Caso2/uefa_2020.csv")

# Verificar las primeras filas del DataFrame
df_2020_21.show(5 , truncate = False)

+------------------------+------------+-----+---------------+---------------+-----------------+-----------------+---------------+---------------+---------------+---------------+----------------+----------------+--------------------+--------------------+--------------+--------------+------------------------+---------------+------------------------+--------------------+
|STAGE                   |DATE        |PENS |PENS_HOME_SCORE|PENS_AWAY_SCORE|TEAM_NAME_HOME   |TEAM_NAME_AWAY   |TEAM_HOME_SCORE|TEAM_AWAY_SCORE|POSSESSION_HOME|POSSESSION_AWAY|TOTAL_SHOTS_HOME|TOTAL_SHOTS_AWAY|SHOTS_ON_TARGET_HOME|SHOTS_ON_TARGET_AWAY|DUELS_WON_HOME|DUELS_WON_AWAY|PREDICTION_TEAM_HOME_WIN|PREDICTION_DRAW|PREDICTION_TEAM_AWAY_WIN|LOCATION            |
+------------------------+------------+-----+---------------+---------------+-----------------+-----------------+---------------+---------------+---------------+---------------+----------------+----------------+--------------------+--------------------+-----

* Filtramos los partidos jugados en casa

In [0]:
# Filtrar los partidos jugados en casa, donde TEAM_NAME_HOME no está nulo ni vacío
df_2021_home = df_2020_21.filter((df_2020_21["TEAM_NAME_HOME"].isNotNull()) & (df_2020_21["TEAM_NAME_HOME"] != ""))

# Mostrar las primeras filas para verificar
df_2021_home.show(5)


+--------------------+------------+-----+---------------+---------------+-----------------+-----------------+---------------+---------------+---------------+---------------+----------------+----------------+--------------------+--------------------+--------------+--------------+------------------------+---------------+------------------------+--------------------+
|               STAGE|        DATE| PENS|PENS_HOME_SCORE|PENS_AWAY_SCORE|   TEAM_NAME_HOME|   TEAM_NAME_AWAY|TEAM_HOME_SCORE|TEAM_AWAY_SCORE|POSSESSION_HOME|POSSESSION_AWAY|TOTAL_SHOTS_HOME|TOTAL_SHOTS_AWAY|SHOTS_ON_TARGET_HOME|SHOTS_ON_TARGET_AWAY|DUELS_WON_HOME|DUELS_WON_AWAY|PREDICTION_TEAM_HOME_WIN|PREDICTION_DRAW|PREDICTION_TEAM_AWAY_WIN|            LOCATION|
+--------------------+------------+-----+---------------+---------------+-----------------+-----------------+---------------+---------------+---------------+---------------+----------------+----------------+--------------------+--------------------+--------------+--

* Agrupos por equipo local y sumamos los goles

In [0]:
# Convertir la columna TEAM_HOME_SCORE a tipo numérico
from pyspark.sql.functions import col

df_2020_21 = df_2020_21.withColumn("TEAM_HOME_SCORE", col("TEAM_HOME_SCORE").cast("int"))

# Agrupar por equipo de casa y sumar los goles anotados
result = df_2020_21.groupBy("TEAM_NAME_HOME").sum("TEAM_HOME_SCORE")

# Ordenar de forma descendente por el total de goles anotados
result = result.orderBy(col("sum(TEAM_HOME_SCORE)").desc())

# Seleccionar los 3 equipos con más goles
top_3_teams = result.limit(3)

top_3_teams.show()

top_3_teams.createOrReplaceTempView("TEAM_HOME_WITH_MOST_GOALS")


+-----------------+--------------------+
|   TEAM_NAME_HOME|sum(TEAM_HOME_SCORE)|
+-----------------+--------------------+
| Manchester City |                  15|
|     Real Madrid |                  14|
|   Bayern Munich |                  13|
+-----------------+--------------------+



2. Encuentra el equipo con posesión mayoritaria la mayor cantidad de veces durante la UEFA Champions League 2021-22. El resultado debe incluir dos columnas: TEAM_NAME y GAME_COUNT, que es la cantidad de veces que el equipo tuvo posesión mayoritaria durante un partido de fútbol. Guarda esta consulta (o el notebook) como TEAM_WITH_MAJORITY_POSSESSION

* Filtramos los partidos donde un equipo tuvo la posesión mayoritaria

In [0]:
from pyspark.sql.functions import col, when

# Cargar el archivo de la temporada 2021-22 (asumiendo que el nombre del archivo es uefa_2022.csv)
df_2021_22 = spark.read.option("header", "true").csv("/FileStore/Notebook Examen/Caso2/uefa_2021.csv")

# Filtrar los partidos donde un equipo tuvo posesión mayoritaria
df_2021_22_majority_possession = df_2021_22.filter(
    (col("POSSESSION_HOME") > col("POSSESSION_AWAY")) | 
    (col("POSSESSION_AWAY") > col("POSSESSION_HOME"))
)

# Mostrar las primeras filas para verificar
df_2021_22_majority_possession.show(5)

+--------------------+--------+-----+---------------+---------------+------------------+--------------+---------------+---------------+---------------+---------------+----------------+----------------+--------------------+--------------------+--------------+--------------+------------------------+---------------+------------------------+--------------------+
|               STAGE|    DATE| PENS|PENS_HOME_SCORE|PENS_AWAY_SCORE|    TEAM_NAME_HOME|TEAM_NAME_AWAY|TEAM_HOME_SCORE|TEAM_AWAY_SCORE|POSSESSION_HOME|POSSESSION_AWAY|TOTAL_SHOTS_HOME|TOTAL_SHOTS_AWAY|SHOTS_ON_TARGET_HOME|SHOTS_ON_TARGET_AWAY|DUELS_WON_HOME|DUELS_WON_AWAY|PREDICTION_TEAM_HOME_WIN|PREDICTION_DRAW|PREDICTION_TEAM_AWAY_WIN|            LOCATION|
+--------------------+--------+-----+---------------+---------------+------------------+--------------+---------------+---------------+---------------+---------------+----------------+----------------+--------------------+--------------------+--------------+--------------+-----

* Contar cuántas veces cada equipo tuvo posesión mayoritaria

In [0]:
# Crear una nueva columna que indique qué equipo tuvo la posesión mayoritaria en cada partido
df_2021_22 = df_2021_22.withColumn(
    "TEAM_WITH_MAJORITY_POSSESSION",
    when(col("POSSESSION_HOME") > col("POSSESSION_AWAY"), col("TEAM_NAME_HOME"))
    .when(col("POSSESSION_AWAY") > col("POSSESSION_HOME"), col("TEAM_NAME_AWAY"))
    .otherwise(None)  # Si tienen la misma posesión, no consideramos ninguno
)

# Contar cuántas veces cada equipo tuvo posesión mayoritaria
team_possession_count = df_2021_22.groupBy("TEAM_WITH_MAJORITY_POSSESSION").count()

# Renombrar la columna "count" a "GAME_COUNT" para que sea más claro
team_possession_count = team_possession_count.withColumnRenamed("count", "GAME_COUNT")


* Agrupar por equipo y contar las veces que tuvieron posesión mayoritaria

In [0]:
# Ordenar por el número de veces que el equipo tuvo posesión mayoritaria, de mayor a menor
team_possession_count = team_possession_count.orderBy(col("GAME_COUNT").desc())

# Filtrar los equipos que realmente tuvieron alguna posesión mayoritaria
team_possession_count = team_possession_count.filter(col("TEAM_WITH_MAJORITY_POSSESSION").isNotNull())

# Mostrar el resultado
team_possession_count.show()

# Guardar la consulta como una tabla temporal o permanente
team_possession_count.createOrReplaceTempView("TEAM_WITH_MAJORITY_POSSESSION")

+-----------------------------+----------+
|TEAM_WITH_MAJORITY_POSSESSION|GAME_COUNT|
+-----------------------------+----------+
|                    Liverpool|         9|
|                     Man City|         7|
|                       Bayern|         7|
|                         Ajax|         6|
|                      Chelsea|         6|
|                        Paris|         5|
|                   Man United|         5|
|                     Juventus|         5|
|                  Real Madrid|         4|
|                    Wolfsburg|         4|
|             Shakhtar Donetsk|         3|
|                   Villarreal|         3|
|                        Milan|         3|
|                        Zenit|         3|
|                     FC Porto|         3|
|                   Young Boys|         3|
|                     Atalanta|         3|
|                      Leipzig|         3|
|                     Besiktas|         2|
|                        Lille|         2|
+----------

3. Encuentra la lista de equipos de cada fase del juego que ganaron el duelo en un partido pero terminaron perdiendo el juego en el Campeonato de la UEFA 2022-23. El resultado debe contener dos columnas: STAGE y TEAM_LOST. Guarda la consulta (o el notebook) como TEAM_WON_DUEL_LOST_GAME_STAGE_WISE.

* Cargar los datos y verificación de las columnas

In [0]:
from pyspark.sql.functions import col, when

# Cargar el archivo de la temporada 2022-23 (asumiendo que el nombre del archivo es uefa_2023.csv)
df_2022_23 = spark.read.option("header", "true").csv("/FileStore/Notebook Examen/Caso2/uefa_2022.csv")

In [0]:
df_2022_23.show(truncate=False)

+-------------------------+---------+-----+---------------+---------------+-------------------+----------------+---------------+---------------+---------------+---------------+----------------+----------------+--------------------+--------------------+--------------+--------------+------------------------+---------------+------------------------+-------------------------+
|STAGE                    |DATE     |PENS |PENS_HOME_SCORE|PENS_AWAY_SCORE|TEAM_NAME_HOME     |TEAM_NAME_AWAY  |TEAM_HOME_SCORE|TEAM_AWAY_SCORE|POSSESSION_HOME|POSSESSION_AWAY|TOTAL_SHOTS_HOME|TOTAL_SHOTS_AWAY|SHOTS_ON_TARGET_HOME|SHOTS_ON_TARGET_AWAY|DUELS_WON_HOME|DUELS_WON_AWAY|PREDICTION_TEAM_HOME_WIN|PREDICTION_DRAW|PREDICTION_TEAM_AWAY_WIN|LOCATION                 |
+-------------------------+---------+-----+---------------+---------------+-------------------+----------------+---------------+---------------+---------------+---------------+----------------+----------------+--------------------+-------------------

In [0]:
from pyspark.sql.functions import regexp_replace
# Eliminar los símbolos de porcentaje y espacios en blanco
df_2022_23= df_2022_23.withColumn(
    "DUELS_WON_HOME", 
    regexp_replace(col("DUELS_WON_HOME"), "%", "").cast("float")
)

df_2022_23 = df_2022_23.withColumn(
    "DUELS_WON_AWAY", 
    regexp_replace(col("DUELS_WON_AWAY"), "%", "").cast("float")
)
# Pasor las otros dos columnas a tipo float 
df_2022_23 = df_2022_23.withColumn("DUELS_WON_HOME", col("DUELS_WON_HOME").cast("float"))
df_2022_23= df_2022_23.withColumn("DUELS_WON_AWAY", col("DUELS_WON_AWAY").cast("float"))

# Verificar que se convertido los datos correctamente
df_2022_23.select("DUELS_WON_HOME", "DUELS_WON_AWAY", "TEAM_HOME_SCORE", "TEAM_AWAY_SCORE").show(5)  # Verificar los valores

+--------------+--------------+---------------+---------------+
|DUELS_WON_HOME|DUELS_WON_AWAY|TEAM_HOME_SCORE|TEAM_AWAY_SCORE|
+--------------+--------------+---------------+---------------+
|          44.0|          56.0|              1|              0|
|          38.0|          62.0|              1|              1|
|          46.0|          54.0|              0|              3|
|          47.0|          53.0|              1|              4|
|          49.0|          51.0|              3|              0|
+--------------+--------------+---------------+---------------+
only showing top 5 rows



* Filtramos los partidos en los que el local gano el duelo pero perdio , y al contrario, que el visitante gano el duelo pero perdio y comprobamos resultados de las consultas
(comprobamos estadisticas incluyendo los goles, los duelos ganados y los equipos para darle mas veracidad)

In [0]:
from pyspark.sql.functions import col

# Filtrar los partidos donde el equipo local ganó el duelo pero perdió el juego
local_won_duel_lost_game = df_2022_23.filter(
    (col("DUELS_WON_HOME") > col("DUELS_WON_AWAY")) & (col("TEAM_HOME_SCORE") < col("TEAM_AWAY_SCORE"))
).select(
    "STAGE", 
    "TEAM_NAME_HOME", 
    "TEAM_NAME_AWAY", 
    "TEAM_HOME_SCORE", 
    "TEAM_AWAY_SCORE",
    "DUELS_WON_HOME", 
    "DUELS_WON_AWAY"
).withColumnRenamed("TEAM_NAME_HOME", "TEAM_LOST")

# Mostrar los equipos locales que ganaron el duelo pero perdieron el juego, incluyendo los goles, los duelos ganados y los equipos
local_won_duel_lost_game.show()

# Filtrar los partidos donde el equipo visitante ganó el duelo pero perdió el juego
away_won_duel_lost_game = df_2022_23.filter(
    (col("DUELS_WON_AWAY") > col("DUELS_WON_HOME")) & (col("TEAM_AWAY_SCORE") < col("TEAM_HOME_SCORE"))
).select(
    "STAGE", 
    "TEAM_NAME_HOME", 
    "TEAM_NAME_AWAY", 
    "TEAM_HOME_SCORE", 
    "TEAM_AWAY_SCORE",
    "DUELS_WON_HOME", 
    "DUELS_WON_AWAY"
).withColumnRenamed("TEAM_NAME_AWAY", "TEAM_LOST")

# Mostrar los equipos visitantes que ganaron el duelo pero perdieron el juego, incluyendo los goles, los duelos ganados y los equipos
away_won_duel_lost_game.show()


+-----+---------+--------------+---------------+---------------+--------------+--------------+
|STAGE|TEAM_LOST|TEAM_NAME_AWAY|TEAM_HOME_SCORE|TEAM_AWAY_SCORE|DUELS_WON_HOME|DUELS_WON_AWAY|
+-----+---------+--------------+---------------+---------------+--------------+--------------+
+-----+---------+--------------+---------------+---------------+--------------+--------------+

+--------------------+-------------------+-----------------+---------------+---------------+--------------+--------------+
|               STAGE|     TEAM_NAME_HOME|        TEAM_LOST|TEAM_HOME_SCORE|TEAM_AWAY_SCORE|DUELS_WON_HOME|DUELS_WON_AWAY|
+--------------------+-------------------+-----------------+---------------+---------------+--------------+--------------+
| Group stage: Mat...|      Dinamo Zagreb|          Chelsea|              1|              0|          44.0|          56.0|
| Group stage: Mat...|  Borussia Dortmund|        K�benhavn|              3|              0|          49.0|          51.0|
| Gr

* Filtramos de nuevo pero unicamnete con lo duelos ganado y partidos perdidos por amabas partes y mostramos el resultado

In [0]:
from pyspark.sql.functions import col

# Filtrar los partidos donde el equipo local ganó el duelo pero perdió el juego
local_won_duel_lost_game = df_2022_23.filter(
    (col("DUELS_WON_HOME") > col("DUELS_WON_AWAY")) & (col("TEAM_HOME_SCORE") < col("TEAM_AWAY_SCORE"))
).select("STAGE", "TEAM_NAME_HOME").withColumnRenamed("TEAM_NAME_HOME", "TEAM_LOST")

# Filtrar los partidos donde el equipo visitante ganó el duelo pero perdió el juego
away_won_duel_lost_game = df_2022_23.filter(
    (col("DUELS_WON_AWAY") > col("DUELS_WON_HOME")) & (col("TEAM_AWAY_SCORE") < col("TEAM_HOME_SCORE"))
).select("STAGE", "TEAM_NAME_AWAY").withColumnRenamed("TEAM_NAME_AWAY", "TEAM_LOST")

# Unir los dos DataFrames
df_teams_lost_game = local_won_duel_lost_game.union(away_won_duel_lost_game)

# Verificar el resultado
df_teams_lost_game.show()

# Guardar como una vista temporal
df_teams_lost_game.createOrReplaceTempView("TEAM_WON_DUEL_LOST_GAME_STAGE_WISE")

+--------------------+-----------------+
|               STAGE|        TEAM_LOST|
+--------------------+-----------------+
| Group stage: Mat...|          Chelsea|
| Group stage: Mat...|        K�benhavn|
| Group stage: Mat...|         Juventus|
| Group stage: Mat...|    Maccabi Haifa|
| Group stage: Mat...|          Rangers|
| Group stage: Mat...|        Liverpool|
| Group stage: Mat...|            Porto|
| Group stage: Mat...| Bayer Leverkusen|
| Group stage: Mat...|   Viktoria Plze?|
| Group stage: Mat...|        Marseille|
| Group stage: Mat...|             Ajax|
| Group stage: Mat...|  Atletico Madrid|
| Group stage: Mat...|        Barcelona|
| Group stage: Mat...|Tottenham Hotspur|
| Group stage: Mat...|       RB Leipzig|
| Group stage: Mat...|          Rangers|
| Group stage: Mat...|  Atletico Madrid|
| Group stage: Mat...| Bayer Leverkusen|
| Group stage: Mat...|   Viktoria Plze?|
| Group stage: Mat...|        Barcelona|
+--------------------+-----------------+
only showing top