
# ⚽ Operaciones con DataFrames en Apache Spark

Este notebook contiene ejemplos prácticos de las operaciones más comunes que se pueden realizar con DataFrames en Spark, utilizando datos simulados del ámbito deportivo.


In [None]:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Operaciones con DataFrames").getOrCreate()


Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
25/10/13 21:01:12 WARN Utils: Your hostname, maes-GE72-7RE, resolves to a loopback address: 127.0.1.1; using 192.168.1.58 instead (on interface enp3s0)
25/10/13 21:01:12 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/10/13 21:01:13 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/10/13 21:01:13 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


In [4]:

datos = [
    ("Pedri", "FC Barcelona", 32.5, 1, 85, 78, 90),
    ("Modric", "Real Madrid", 30.1, 2, 95, 88, 87),
    ("Kroos", "Real Madrid", 29.8, 1, 102, 92, 90),
    ("Gavi", "FC Barcelona", 31.2, 0, 76, 65, 80),
    ("Kubo", "Real Sociedad", 33.0, 3, 88, 70, 85),
    ("Isco", "Real Betis", 28.7, 2, 90, 75, 83)
]

columnas = ["Jugador", "Equipo", "Velocidad", "Goles", "Pases", "PasesCompletados", "Minutos"]

df = spark.createDataFrame(datos, columnas)
df.show()


                                                                                

+-------+-------------+---------+-----+-----+----------------+-------+
|Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|
+-------+-------------+---------+-----+-----+----------------+-------+
|  Pedri| FC Barcelona|     32.5|    1|   85|              78|     90|
| Modric|  Real Madrid|     30.1|    2|   95|              88|     87|
|  Kroos|  Real Madrid|     29.8|    1|  102|              92|     90|
|   Gavi| FC Barcelona|     31.2|    0|   76|              65|     80|
|   Kubo|Real Sociedad|     33.0|    3|   88|              70|     85|
|   Isco|   Real Betis|     28.7|    2|   90|              75|     83|
+-------+-------------+---------+-----+-----+----------------+-------+



## 🔍 Selección y filtrado

In [None]:
# Seleccionar columnas específicas
df.select("Jugador", "Goles", "Equipo").show()

+-------+-----+-------------+
|Jugador|Goles|       Equipo|
+-------+-----+-------------+
|  Pedri|    1| FC Barcelona|
| Modric|    2|  Real Madrid|
|  Kroos|    1|  Real Madrid|
|   Gavi|    0| FC Barcelona|
|   Kubo|    3|Real Sociedad|
|   Isco|    2|   Real Betis|
+-------+-----+-------------+



In [6]:
# Filtrar jugadores con más de 1 gol
df.filter(df.Goles > 1).show()

+-------+-------------+---------+-----+-----+----------------+-------+
|Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|
+-------+-------------+---------+-----+-----+----------------+-------+
| Modric|  Real Madrid|     30.1|    2|   95|              88|     87|
|   Kubo|Real Sociedad|     33.0|    3|   88|              70|     85|
|   Isco|   Real Betis|     28.7|    2|   90|              75|     83|
+-------+-------------+---------+-----+-----+----------------+-------+



In [None]:
# Eliminar columna de velocidad.
df.drop("Velocidad").show()

+-------+-------------+-----+-----+----------------+-------+
|Jugador|       Equipo|Goles|Pases|PasesCompletados|Minutos|
+-------+-------------+-----+-----+----------------+-------+
|  Pedri| FC Barcelona|    1|   85|              78|     90|
| Modric|  Real Madrid|    2|   95|              88|     87|
|  Kroos|  Real Madrid|    1|  102|              92|     90|
|   Gavi| FC Barcelona|    0|   76|              65|     80|
|   Kubo|Real Sociedad|    3|   88|              70|     85|
|   Isco|   Real Betis|    2|   90|              75|     83|
+-------+-------------+-----+-----+----------------+-------+



In [8]:
# Eliminar duplicados (simulando duplicación)
df.union(df).distinct().show()

+-------+-------------+---------+-----+-----+----------------+-------+
|Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|
+-------+-------------+---------+-----+-----+----------------+-------+
|  Pedri| FC Barcelona|     32.5|    1|   85|              78|     90|
| Modric|  Real Madrid|     30.1|    2|   95|              88|     87|
|  Kroos|  Real Madrid|     29.8|    1|  102|              92|     90|
|   Gavi| FC Barcelona|     31.2|    0|   76|              65|     80|
|   Kubo|Real Sociedad|     33.0|    3|   88|              70|     85|
|   Isco|   Real Betis|     28.7|    2|   90|              75|     83|
+-------+-------------+---------+-----+-----+----------------+-------+



## 🔄 Transformación de columnas

In [9]:
# Crear columna de precisión de pase (%)
df.withColumn("PrecisionPase", (col("PasesCompletados") / col("Pases") * 100)).show()

+-------+-------------+---------+-----+-----+----------------+-------+-----------------+
|Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|    PrecisionPase|
+-------+-------------+---------+-----+-----+----------------+-------+-----------------+
|  Pedri| FC Barcelona|     32.5|    1|   85|              78|     90|91.76470588235294|
| Modric|  Real Madrid|     30.1|    2|   95|              88|     87|92.63157894736842|
|  Kroos|  Real Madrid|     29.8|    1|  102|              92|     90|90.19607843137256|
|   Gavi| FC Barcelona|     31.2|    0|   76|              65|     80|85.52631578947368|
|   Kubo|Real Sociedad|     33.0|    3|   88|              70|     85|79.54545454545455|
|   Isco|   Real Betis|     28.7|    2|   90|              75|     83|83.33333333333334|
+-------+-------------+---------+-----+-----+----------------+-------+-----------------+



In [10]:
# Renombrar columna de minutos
df.withColumnRenamed("Minutos", "MinutosJugados").show()

+-------+-------------+---------+-----+-----+----------------+--------------+
|Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|MinutosJugados|
+-------+-------------+---------+-----+-----+----------------+--------------+
|  Pedri| FC Barcelona|     32.5|    1|   85|              78|            90|
| Modric|  Real Madrid|     30.1|    2|   95|              88|            87|
|  Kroos|  Real Madrid|     29.8|    1|  102|              92|            90|
|   Gavi| FC Barcelona|     31.2|    0|   76|              65|            80|
|   Kubo|Real Sociedad|     33.0|    3|   88|              70|            85|
|   Isco|   Real Betis|     28.7|    2|   90|              75|            83|
+-------+-------------+---------+-----+-----+----------------+--------------+



In [11]:
# Cambiar tipo de dato de goles a string
df.withColumn("Goles_str", col("Goles").cast("string")).printSchema()

root
 |-- Jugador: string (nullable = true)
 |-- Equipo: string (nullable = true)
 |-- Velocidad: double (nullable = true)
 |-- Goles: long (nullable = true)
 |-- Pases: long (nullable = true)
 |-- PasesCompletados: long (nullable = true)
 |-- Minutos: long (nullable = true)
 |-- Goles_str: string (nullable = true)



## 📊 Agregación y agrupamiento

La función `agg()` agrega los resultados agrupados por la función `groupBy()`. Esta función recibe como parámetros una o varias funciones de agregación que resultarán en nuevas columnas.

In [None]:
from pyspark.sql.functions import avg, sum, count, min, max, col

df.groupBy("Equipo").agg(
    avg("Goles").alias("PromedioGoles"),
    sum("Pases").alias("TotalPases"),
    max("Velocidad").alias("MaxVelocidad")
).show()


+-------------+-------------+----------+------------+
|       Equipo|PromedioGoles|TotalPases|MaxVelocidad|
+-------------+-------------+----------+------------+
| FC Barcelona|          0.5|       161|        32.5|
|  Real Madrid|          1.5|       197|        30.1|
|Real Sociedad|          3.0|        88|        33.0|
|   Real Betis|          2.0|        90|        28.7|
+-------------+-------------+----------+------------+



## 🔗 Combinación de DataFrames

In [17]:

# Crear otro DataFrame con nuevos jugadores
datos_extra = [
    ("Bellingham", "Real Madrid", 31.5, 4, 80, 70, 90),
    ("Ferran", "FC Barcelona", 30.8, 2, 65, 50, 75),
    ("Isco", "Real Betis", 28.7, 2, 90, 75, 83)
]
df2 = spark.createDataFrame(datos_extra, columnas)

In [18]:
# Unión
df.union(df2).show()

                                                                                

+----------+-------------+---------+-----+-----+----------------+-------+
|   Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|
+----------+-------------+---------+-----+-----+----------------+-------+
|     Pedri| FC Barcelona|     32.5|    1|   85|              78|     90|
|    Modric|  Real Madrid|     30.1|    2|   95|              88|     87|
|     Kroos|  Real Madrid|     29.8|    1|  102|              92|     90|
|      Gavi| FC Barcelona|     31.2|    0|   76|              65|     80|
|      Kubo|Real Sociedad|     33.0|    3|   88|              70|     85|
|      Isco|   Real Betis|     28.7|    2|   90|              75|     83|
|Bellingham|  Real Madrid|     31.5|    4|   80|              70|     90|
|    Ferran| FC Barcelona|     30.8|    2|   65|              50|     75|
|      Isco|   Real Betis|     28.7|    2|   90|              75|     83|
+----------+-------------+---------+-----+-----+----------------+-------+



In [19]:
# Intersección
df.intersect(df2).show()



+-------+----------+---------+-----+-----+----------------+-------+
|Jugador|    Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|
+-------+----------+---------+-----+-----+----------------+-------+
|   Isco|Real Betis|     28.7|    2|   90|              75|     83|
+-------+----------+---------+-----+-----+----------------+-------+



                                                                                

In [20]:
# Diferencia
df.subtract(df2).show()

                                                                                

+-------+-------------+---------+-----+-----+----------------+-------+
|Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|
+-------+-------------+---------+-----+-----+----------------+-------+
|   Gavi| FC Barcelona|     31.2|    0|   76|              65|     80|
| Modric|  Real Madrid|     30.1|    2|   95|              88|     87|
|  Pedri| FC Barcelona|     32.5|    1|   85|              78|     90|
|   Kubo|Real Sociedad|     33.0|    3|   88|              70|     85|
|  Kroos|  Real Madrid|     29.8|    1|  102|              92|     90|
+-------+-------------+---------+-----+-----+----------------+-------+



In [25]:
# DataFrame de equipos
datos_equipos = [
    ("FC Barcelona", "Xavi", 1),
    ("Real Madrid", "Ancelotti", 2),
    ("Real Sociedad", "Alguacil", 3),
    ("Real Betis", "Pellegrini", 4)
]
columnas_equipos = ["Equipo", "Entrenador", "GrupoChampions"]
df_equipos = spark.createDataFrame(datos_equipos, columnas_equipos)

# Join por columna 'Equipo'
df_completo = df.join(df_equipos, on="Equipo", how="inner")

# Mostrar resultado
df_completo.show()




+-------------+-------+---------+-----+-----+----------------+-------+----------+--------------+
|       Equipo|Jugador|Velocidad|Goles|Pases|PasesCompletados|Minutos|Entrenador|GrupoChampions|
+-------------+-------+---------+-----+-----+----------------+-------+----------+--------------+
| FC Barcelona|  Pedri|     32.5|    1|   85|              78|     90|      Xavi|             1|
| FC Barcelona|   Gavi|     31.2|    0|   76|              65|     80|      Xavi|             1|
|   Real Betis|   Isco|     28.7|    2|   90|              75|     83|Pellegrini|             4|
|  Real Madrid| Modric|     30.1|    2|   95|              88|     87| Ancelotti|             2|
|  Real Madrid|  Kroos|     29.8|    1|  102|              92|     90| Ancelotti|             2|
|Real Sociedad|   Kubo|     33.0|    3|   88|              70|     85|  Alguacil|             3|
+-------------+-------+---------+-----+-----+----------------+-------+----------+--------------+



                                                                                

## 🧹 Orden y organización

In [22]:
# Ordenar por goles descendente
df.orderBy(df.Goles.desc()).show()

+-------+-------------+---------+-----+-----+----------------+-------+
|Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|
+-------+-------------+---------+-----+-----+----------------+-------+
|   Kubo|Real Sociedad|     33.0|    3|   88|              70|     85|
| Modric|  Real Madrid|     30.1|    2|   95|              88|     87|
|   Isco|   Real Betis|     28.7|    2|   90|              75|     83|
|  Kroos|  Real Madrid|     29.8|    1|  102|              92|     90|
|  Pedri| FC Barcelona|     32.5|    1|   85|              78|     90|
|   Gavi| FC Barcelona|     31.2|    0|   76|              65|     80|
+-------+-------------+---------+-----+-----+----------------+-------+



## 📁 Lectura y escritura

In [None]:

# Guardar los resultados (en disco o en un sistema de ficheros distribuido)
df.write.csv("salida_jugadores", header=True, mode="overwrite")

# Podemos agrupar los datos en una única partición usando coalesce(1)
# df.coalesce(1).write.csv("salida_jugadores", header=True, mode="overwrite")

# Leer CSV (requiere archivo existente)
df_leido = spark.read.csv("salida_jugadores", header=True, inferSchema=True)
df_leido.show()

+-------+-------------+---------+-----+-----+----------------+-------+
|Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|
+-------+-------------+---------+-----+-----+----------------+-------+
|  Pedri| FC Barcelona|     32.5|    1|   85|              78|     90|
|  Kroos|  Real Madrid|     29.8|    1|  102|              92|     90|
| Modric|  Real Madrid|     30.1|    2|   95|              88|     87|
|   Kubo|Real Sociedad|     33.0|    3|   88|              70|     85|
|   Gavi| FC Barcelona|     31.2|    0|   76|              65|     80|
|   Isco|   Real Betis|     28.7|    2|   90|              75|     83|
+-------+-------------+---------+-----+-----+----------------+-------+



## 🧠 Consultas estructuradas

Es posible realizar consultas utilizando lenguaje SQL sobre el conjunto de datos. Se crea una vista temporal llamada 'jugadores' que actuará como una tabla.

In [26]:

df.createOrReplaceTempView("jugadores")
sql_df = spark.sql("SELECT Equipo, AVG(Goles) as PromedioGoles FROM jugadores GROUP BY Equipo")
sql_df.show()


+-------------+-------------+
|       Equipo|PromedioGoles|
+-------------+-------------+
| FC Barcelona|          0.5|
|  Real Madrid|          1.5|
|Real Sociedad|          3.0|
|   Real Betis|          2.0|
+-------------+-------------+



## 🔎 Exploración y depuración

Tenemos a nuestra disposición diferentes funciones y propiedades para explorar en detalle los datos

In [28]:
# Muestra los datos como una tabla
df.show()

+-------+-------------+---------+-----+-----+----------------+-------+
|Jugador|       Equipo|Velocidad|Goles|Pases|PasesCompletados|Minutos|
+-------+-------------+---------+-----+-----+----------------+-------+
|  Pedri| FC Barcelona|     32.5|    1|   85|              78|     90|
| Modric|  Real Madrid|     30.1|    2|   95|              88|     87|
|  Kroos|  Real Madrid|     29.8|    1|  102|              92|     90|
|   Gavi| FC Barcelona|     31.2|    0|   76|              65|     80|
|   Kubo|Real Sociedad|     33.0|    3|   88|              70|     85|
|   Isco|   Real Betis|     28.7|    2|   90|              75|     83|
+-------+-------------+---------+-----+-----+----------------+-------+



In [30]:
# Muestra el esquema de los datos (los tipos de las columnas)
df.printSchema()

root
 |-- Jugador: string (nullable = true)
 |-- Equipo: string (nullable = true)
 |-- Velocidad: double (nullable = true)
 |-- Goles: long (nullable = true)
 |-- Pases: long (nullable = true)
 |-- PasesCompletados: long (nullable = true)
 |-- Minutos: long (nullable = true)



In [34]:
# Muestra estadísticos de los datos
df.describe().show()

+-------+-------+-------------+------------------+------------------+-----------------+------------------+-----------------+
|summary|Jugador|       Equipo|         Velocidad|             Goles|            Pases|  PasesCompletados|          Minutos|
+-------+-------+-------------+------------------+------------------+-----------------+------------------+-----------------+
|  count|      6|            6|                 6|                 6|                6|                 6|                6|
|   mean|   NULL|         NULL|30.883333333333336|               1.5|89.33333333333333|              78.0|85.83333333333333|
| stddev|   NULL|         NULL|1.6582118883504207|1.0488088481701516|8.846845012017937|10.373041983911952|3.970726214015098|
|    min|   Gavi| FC Barcelona|              28.7|                 0|               76|                65|               80|
|    max|  Pedri|Real Sociedad|              33.0|                 3|              102|                92|               90|


In [38]:
# Obtiene las columnas como una lista
df.columns

['Jugador',
 'Equipo',
 'Velocidad',
 'Goles',
 'Pases',
 'PasesCompletados',
 'Minutos']

In [40]:
# Obtiene un array de tuplas (Columna, Tipo)
df.dtypes

[('Jugador', 'string'),
 ('Equipo', 'string'),
 ('Velocidad', 'double'),
 ('Goles', 'bigint'),
 ('Pases', 'bigint'),
 ('PasesCompletados', 'bigint'),
 ('Minutos', 'bigint')]