La clase pyspark.sql.Column proporciona varias funciones para trabajar con DataFrame para manipular los valores de la columna, evaluar la expresión booleana para filtrar filas, recuperar un valor o parte de un valor de una columna DataFrame, y para trabajar con columnas list, map & struct.

En este artículo, voy a cubrir cómo crear objetos Column, acceder a ellos para realizar operaciones, y, finalmente, las Funciones Column más utilizadas de PySpark con Ejemplos.

Artículo Relacionado: Clase Row de PySpark con Ejemplos

**Puntos Clave:**

La clase Column de PySpark representa una única Columna en un DataFrame.
Proporciona las funciones más utilizadas para manipular Columnas y Filas de un DataFrame.
Algunas de estas funciones de Columna evalúan una expresión Booleana que puede ser utilizada con la transformación filter() para filtrar las Filas del DataFrame.
Proporciona funciones para obtener un valor de una columna de lista por índice, mapear valor por clave & índice, y finalmente struct nested column.
PySpark también proporciona funciones adicionales pyspark.sql.functions que toman un objeto Column y devuelven un tipo Column.
**Nota:** La mayoría de las funciones pyspark.sql.functions devuelven el tipo Column, por lo que es muy importante conocer las operaciones que se pueden realizar con el tipo Column.

#1. Crear un Objeto de Clase Columna

Una de las formas más sencillas de crear un objeto de clase Columna es utilizando la función SQL lit() de PySpark, esta toma un valor literal y devuelve un objeto Columna.

In [0]:
from pyspark.sql.functions import lit
colObj = lit("sparkbyexamples.com")

In [0]:
data=[("James",23),("Ann",40)]
df=spark.createDataFrame(data).toDF("name.fname","gender")
df.printSchema()
#root
# |-- name.fname: string (nullable = true)
# |-- gender: long (nullable = true)

# Using DataFrame object (df)
df.select(df.gender).show()
df.select(df["gender"]).show()
#Accessing column name with dot (with backticks)
df.select(df["`name.fname`"]).show()

#Using SQL col() function
from pyspark.sql.functions import col
df.select(col("gender")).show()
#Accessing column name with dot (with backticks)
df.select(col("`name.fname`")).show()

root
 |-- name.fname: string (nullable = true)
 |-- gender: long (nullable = true)

+------+
|gender|
+------+
|    23|
|    40|
+------+

+------+
|gender|
+------+
|    23|
|    40|
+------+

+----------+
|name.fname|
+----------+
|     James|
|       Ann|
+----------+

+------+
|gender|
+------+
|    23|
|    40|
+------+

+----------+
|name.fname|
+----------+
|     James|
|       Ann|
+----------+



El siguiente ejemplo muestra el acceso a columnas de tipo struct. Aquí he utilizado la clase PySpark Row para crear un tipo struct. Alternativamente, también se puede crear mediante el uso de PySpark StructType & StructField clases

In [0]:
#Create DataFrame with struct using Row class
from pyspark.sql import Row
data=[Row(name="James",prop=Row(hair="black",eye="blue")),
      Row(name="Ann",prop=Row(hair="grey",eye="black"))]
df=spark.createDataFrame(data)
df.printSchema()
#root
# |-- name: string (nullable = true)
# |-- prop: struct (nullable = true)
# |    |-- hair: string (nullable = true)
# |    |-- eye: string (nullable = true)

#Access struct column
df.select(df.prop.hair).show()
df.select(df["prop.hair"]).show()
df.select(col("prop.hair")).show()

#Access all columns from struct
df.select(col("prop.*")).show()

root
 |-- name: string (nullable = true)
 |-- prop: struct (nullable = true)
 |    |-- hair: string (nullable = true)
 |    |-- eye: string (nullable = true)

+---------+
|prop.hair|
+---------+
|    black|
|     grey|
+---------+

+-----+
| hair|
+-----+
|black|
| grey|
+-----+

+-----+
| hair|
+-----+
|black|
| grey|
+-----+

+-----+-----+
| hair|  eye|
+-----+-----+
|black| blue|
| grey|black|
+-----+-----+



#2. Operadores de columna de PySpark
PySpark column también proporciona una forma de hacer operaciones aritméticas sobre columnas usando operadores.

In [0]:

data=[(100,2,1),(200,3,4),(300,4,4)]
df=spark.createDataFrame(data).toDF("col1","col2","col3")

#Arthmetic operations
df.select(df.col1 + df.col2).show()
df.select(df.col1 - df.col2).show() 
df.select(df.col1 * df.col2).show()
df.select(df.col1 / df.col2).show()
df.select(df.col1 % df.col2).show()

df.select(df.col2 > df.col3).show()
df.select(df.col2 < df.col3).show()
df.select(df.col2 == df.col3).show()

+-------------+
|(col1 + col2)|
+-------------+
|          102|
|          203|
|          304|
+-------------+

+-------------+
|(col1 - col2)|
+-------------+
|           98|
|          197|
|          296|
+-------------+

+-------------+
|(col1 * col2)|
+-------------+
|          200|
|          600|
|         1200|
+-------------+

+-----------------+
|    (col1 / col2)|
+-----------------+
|             50.0|
|66.66666666666667|
|             75.0|
+-----------------+

+-------------+
|(col1 % col2)|
+-------------+
|            0|
|            2|
|            0|
+-------------+

+-------------+
|(col2 > col3)|
+-------------+
|         true|
|        false|
|        false|
+-------------+

+-------------+
|(col2 < col3)|
+-------------+
|        false|
|         true|
|        false|
+-------------+

+-------------+
|(col2 = col3)|
+-------------+
|        false|
|        false|
|         true|
+-------------+



#3. Funciones de Columna de PySpark
Veamos algunas de las Funciones de Columna más usadas, en la tabla de abajo, he agrupado las funciones relacionadas para hacerlo más fácil, haz click en el enlace para ver los ejemplos.

| Función de columna          | Descripción de la función                                                                                          |
|-----------------------------|--------------------------------------------------------------------------------------------------------------------|
| **alias(*alias, kwargs)      | Proporciona un alias a la columna o expresión.                                                                     |
| **name(*alias, kwargs)       | Devuelve lo mismo que alias().                                                                                     |
| asc()                       | Ordena la columna en orden ascendente.                                                                             |
| asc_nulls_first()           | Ordena los valores nulos primero, luego los valores no nulos en orden ascendente.                                  |
| asc_nulls_last()            | Ordena los valores nulos después de los valores no nulos en orden ascendente.                                      |
| astype(tipoDeDato)          | Convierte el tipo de dato a otro tipo.                                                                            |
| cast(tipoDeDato)            | Devuelve lo mismo que astype().                                                                                   |
| between(limiteInferior, limiteSuperior) | Comprueba si los valores de la columna están entre el límite inferior y el superior. Devuelve un valor booleano. |
| bitwiseAND(otra)            | Calcula el AND bit a bit de esta expresión con otra expresión.                                                    |
| bitwiseOR(otra)             | Calcula el OR bit a bit de esta expresión con otra expresión.                                                     |
| bitwiseXOR(otra)            | Calcula el XOR bit a bit de esta expresión con otra expresión.                                                    |
| contains(otra)             | Comprueba si una cadena contiene otra cadena.                                                                    |
| desc()                      | Ordena la columna en orden descendente.                                                                           |
| desc_nulls_first()          | Ordena los valores nulos primero, luego los valores no nulos en orden descendente.                                |
| desc_nulls_last()           | Ordena los valores nulos después de los valores no nulos en orden descendente.                                    |
| startswith(otra)            | Comprueba si una cadena comienza con otra cadena. Devuelve una expresión booleana.                                |
| endswith(otra)              | Comprueba si una cadena termina con otra cadena. Devuelve una expresión booleana.                                  |
| eqNullSafe(otra)            | Realiza una prueba de igualdad segura para valores nulos.                                                         |
| getField(nombre)            | Devuelve un campo por nombre en un StructField y por clave en un Map.                                             |
| getItem(clave)              | Devuelve un valor de un Map/Clave en la posición proporcionada.                                                    |
| isNotNull()                 | Devuelve True si la expresión actual NO es nula.                                                                  |
| isNull()                    | Devuelve True si la expresión actual es nula.                                                                     |
| *isin(columnas)             | Devuelve True si el valor de esta expresión está contenido en los valores evaluados de los argumentos.             |
| like(otra)                  | Similar a la expresión LIKE de SQL.                                                                               |
| rlike(otra)                 | Similar a la expresión RLIKE de SQL (LIKE con Regex).                                                              |
| over(ventana)               | Se utiliza con la columna de ventana.                                                                            |
| substr(posInicial, longitud) | Devuelve una subcadena de la columna.                                                                            |
| when(condición, valor)      | Similar a la expresión CASE WHEN de SQL, ejecuta una lista de condiciones y devuelve una de las múltiples expresiones de resultado posibles. |
| otherwise(valor)            | Se usa con when().                                                                                                |
| *dropFields(nombresDeCampo) | Elimina campos en un StructType por nombre.                                                                      |
| withField(nombreDeCampo, columna) | Agrega o reemplaza un campo en un StructType por nombre.                                                        |


#4. Ejemplos de Funciones de Columna de PySpark
Vamos a crear un simple DataFrame para trabajar con los ejemplos de PySpark SQL Column. En la mayoría de los ejemplos, me referiré al nombre del objeto DataFrame (df.) para obtener la columna.

In [0]:
data=[("James","Bond","100",None),
      ("Ann","Varsa","200",'F'),
      ("Tom Cruise","XXX","400",''),
      ("Tom Brand",None,"400",'M')] 
columns=["fname","lname","id","gender"]
df=spark.createDataFrame(data,columns)

##4.1 alias() - Asigna un nombre a la columna
En el siguiente ejemplo df.fname se refiere al objeto Columna y alias() es una función de la Columna para dar un nombre alternativo. Aquí, la columna fname ha sido cambiada a first_name & lname a last_name.

En el segundo ejemplo he usado la función expr() de PySpark para concatenar columnas y he nombrado la columna como fullName.

In [0]:
#alias
from pyspark.sql.functions import expr
df.select(df.fname.alias("first_name"), \
          df.lname.alias("last_name")
   ).show()

#Another example
df.select(expr(" fname ||','|| lname").alias("fullName") \
   ).show()

+----------+---------+
|first_name|last_name|
+----------+---------+
|     James|     Bond|
|       Ann|    Varsa|
|Tom Cruise|      XXX|
| Tom Brand|     null|
+----------+---------+

+--------------+
|      fullName|
+--------------+
|    James,Bond|
|     Ann,Varsa|
|Tom Cruise,XXX|
|          null|
+--------------+



##4.2 asc() & desc() - Ordenar las columnas del DataFrame por orden Ascendente o Descendente.

In [0]:
#asc, desc to sort ascending and descending order repsectively.
df.sort(df.fname.asc()).show()
df.sort(df.fname.desc()).show()

+----------+-----+---+------+
|     fname|lname| id|gender|
+----------+-----+---+------+
|       Ann|Varsa|200|     F|
|     James| Bond|100|  null|
| Tom Brand| null|400|     M|
|Tom Cruise|  XXX|400|      |
+----------+-----+---+------+

+----------+-----+---+------+
|     fname|lname| id|gender|
+----------+-----+---+------+
|Tom Cruise|  XXX|400|      |
| Tom Brand| null|400|     M|
|     James| Bond|100|  null|
|       Ann|Varsa|200|     F|
+----------+-----+---+------+



##4.3 cast() & astype() - Se utilizan para convertir el Tipo de datos.

In [0]:
#cast
df.select(df.fname,df.id.cast("int")).printSchema()

root
 |-- fname: string (nullable = true)
 |-- id: integer (nullable = true)



##4.4 between() - Devuelve una expresión booleana cuando los valores de una columna se encuentran entre los límites inferior y superior.

In [0]:
#between
df.filter(df.id.between(100,300)).show()

+-----+-----+---+------+
|fname|lname| id|gender|
+-----+-----+---+------+
|James| Bond|100|  null|
|  Ann|Varsa|200|     F|
+-----+-----+---+------+



##4.5 contiene() -
Comprueba si un valor de columna de PySpark DataFrame contiene un valor de cadena especificado en esta función.

In [0]:
#contains
df.filter(df.fname.contains("Cruise")).show()

+----------+-----+---+------+
|     fname|lname| id|gender|
+----------+-----+---+------+
|Tom Cruise|  XXX|400|      |
+----------+-----+---+------+



##4.6 startswith() & endswith() -
Comprueba si el valor de la Columna DataFrame startsWith() y endsWith() es una Cadena. startsWith() filtra las filas en las que existe una subcadena especificada al principio, mientras que endsWith() filtra las filas en las que la subcadena especificada se presenta al final.

In [0]:
#startswith, endswith()
df.filter(df.fname.startswith("T")).show()
df.filter(df.fname.endswith("Cruise")).show()

+----------+-----+---+------+
|     fname|lname| id|gender|
+----------+-----+---+------+
|Tom Cruise|  XXX|400|      |
| Tom Brand| null|400|     M|
+----------+-----+---+------+

+----------+-----+---+------+
|     fname|lname| id|gender|
+----------+-----+---+------+
|Tom Cruise|  XXX|400|      |
+----------+-----+---+------+



##4.7 isNull & isNotNull() - Comprueba si la columna DataFrame tiene valores NULL o no NULL.

In [0]:
#isNull & isNotNull
df.filter(df.lname.isNull()).show()
df.filter(df.lname.isNotNull()).show()

+---------+-----+---+------+
|    fname|lname| id|gender|
+---------+-----+---+------+
|Tom Brand| null|400|     M|
+---------+-----+---+------+

+----------+-----+---+------+
|     fname|lname| id|gender|
+----------+-----+---+------+
|     James| Bond|100|  null|
|       Ann|Varsa|200|     F|
|Tom Cruise|  XXX|400|      |
+----------+-----+---+------+



## 4.8 like() & rlike() - Similar a la expresión LIKE de SQL

In [0]:
#like , rlike
df.select(df.fname,df.lname,df.id) \
  .filter(df.fname.like("%om")) 

Out[13]: DataFrame[fname: string, lname: string, id: string]

##4.9 substr() - Devuelve una Columna después de obtener la subcadena de la Columna

In [0]:
df.select(df.fname.substr(1,2).alias("substr")).show()

+------+
|substr|
+------+
|    Ja|
|    An|
|    To|
|    To|
+------+



## 4.10 when() & otherwise() - Es similar a SQL Case When, ejecuta la secuencia de expresiones hasta que coincide con la condición y devuelve un valor cuando coincide.

In [0]:
#when & otherwise
from pyspark.sql.functions import when
df.select(df.fname,df.lname,when(df.gender=="M","Male") \
              .when(df.gender=="F","Female") \
              .when(df.gender==None ,"") \
              .otherwise(df.gender).alias("new_gender") \
    ).show()

+----------+-----+----------+
|     fname|lname|new_gender|
+----------+-----+----------+
|     James| Bond|      null|
|       Ann|Varsa|    Female|
|Tom Cruise|  XXX|          |
| Tom Brand| null|      Male|
+----------+-----+----------+



## 4.11 isin() - Comprueba si el valor está presente en una Lista.

In [0]:
#isin
li=["100","200","400"]
df.select(df.fname,df.lname,df.id) \
  .filter(df.id.isin(li)) \
  .show()

+----------+-----+---+
|     fname|lname| id|
+----------+-----+---+
|     James| Bond|100|
|       Ann|Varsa|200|
|Tom Cruise|  XXX|400|
| Tom Brand| null|400|
+----------+-----+---+



##4.12 getField() - Para obtener el valor por la clave de la columna MapType y por el nombre del conducto hijo de la columna StructType.

El resto de las funciones operan sobre estructuras de datos List, Map y Struct, por lo que para demostrarlas usaré otro DataFrame con columnas list, map y struct. Para más explicaciones sobre el uso de Arrays ver PySpark ArrayType Column on DataFrame Examples y para map ver PySpark MapType Examples.

In [0]:
#Create DataFrame with struct, array & map
from pyspark.sql.types import StructType,StructField,StringType,ArrayType,MapType
data=[(("James","Bond"),["Java","C#"],{'hair':'black','eye':'brown'}),
      (("Ann","Varsa"),[".NET","Python"],{'hair':'brown','eye':'black'}),
      (("Tom Cruise",""),["Python","Scala"],{'hair':'red','eye':'grey'}),
      (("Tom Brand",None),["Perl","Ruby"],{'hair':'black','eye':'blue'})]

schema = StructType([
        StructField('name', StructType([
            StructField('fname', StringType(), True),
            StructField('lname', StringType(), True)])),
        StructField('languages', ArrayType(StringType()),True),
        StructField('properties', MapType(StringType(),StringType()),True)
     ])
df=spark.createDataFrame(data,schema)
df.printSchema()

root
 |-- name: struct (nullable = true)
 |    |-- fname: string (nullable = true)
 |    |-- lname: string (nullable = true)
 |-- languages: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- properties: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)



In [0]:
#getField from MapType
df.select(df.properties.getField("hair")).show()

#getField from Struct
df.select(df.name.getField("fname")).show()

+----------------+
|properties[hair]|
+----------------+
|           black|
|           brown|
|             red|
|           black|
+----------------+

+----------+
|name.fname|
+----------+
|     James|
|       Ann|
|Tom Cruise|
| Tom Brand|
+----------+



##4.13 getItem() - Para obtener el valor por índice de la columna MapType o ArrayTupe & ny key para MapType.

In [0]:
#getItem() used with ArrayType
df.select(df.languages.getItem(1)).show()

#getItem() used with MapType
df.select(df.properties.getItem("hair")).show()

+------------+
|languages[1]|
+------------+
|          C#|
|      Python|
|       Scala|
|        Ruby|
+------------+

+----------------+
|properties[hair]|
+----------------+
|           black|
|           brown|
|             red|
|           black|
+----------------+

