##  pyspark.sql.functions module

In [1]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').appName('sparkapp2').getOrCreate()

In [1]:
# pyspark.sql.functions.abs()
# 计算绝对值

In [2]:
# pyspark.sql.functions.acos(col)
# 计算给定值的余弦逆;返回的角度在0到π的范围内。

In [2]:
# pyspark.sql.functions.add_months(start, months)
# 返回开始后几个月的日期
from pyspark.sql.functions import *
df = spark.createDataFrame([('2015-04-08',)], ['dt'])
df.select(add_months(df.dt, 1).alias('next_month')).collect()

[Row(next_month=datetime.date(2015, 5, 8))]

In [3]:
# pyspark.sql.functions.approxCountDistinct(col, rsd=None)
# 同pyspark.sql.functions.approx_count_distinct(col, rsd=None)
# 聚合函数：返回一个新的列，用于列col的近似不同计数
# 允许的最大估计误差（默认值= 0.05）。对于rsd <0.01，使用countDistinct（）会更有效率
df = spark.read.csv('example.csv', header=True, inferSchema=True)
df.show()
df.agg(approx_count_distinct(df.age).alias('distinct_afes')).show()

+-----+---+------+
| name|age|height|
+-----+---+------+
|Alice| 10|    50|
|  Bob| 20|    80|
|  Tom| 30|    80|
| Lily| 10|    30|
+-----+---+------+

+-------------+
|distinct_afes|
+-------------+
|            3|
+-------------+



In [16]:
# pyspark.sql.functions.array(*cols)
# 创建一个新的数组列
df.select(array('age', 'age').alias('arr')).show()
df.select(array(df.age, df.age).alias('arr')).show()

+--------+
|     arr|
+--------+
|[10, 10]|
|[20, 20]|
|[30, 30]|
|[10, 10]|
+--------+

+--------+
|     arr|
+--------+
|[10, 10]|
|[20, 20]|
|[30, 30]|
|[10, 10]|
+--------+



In [21]:
# pyspark.sql.functions.array_contains(col, value)
# 集合函数：如果数组为null，则返回null;如果数组包含给定值，则返回true;否则返回false。
df1 = spark.createDataFrame([(['a', 'b', 'c'],), ([],)], ['data'])
df1.show()
df1.select(array_contains(df1.data, 'a')).show()

+---------+
|     data|
+---------+
|[a, b, c]|
|       []|
+---------+

+-----------------------+
|array_contains(data, a)|
+-----------------------+
|                   true|
|                  false|
+-----------------------+



In [30]:
# pyspark.sql.functions.asc(col)
# 基于给定列名称的升序返回一个排序表达式。
df.sort(asc('age')).show()
df.orderBy(df.height.asc()).show()

+-----+---+------+
| name|age|height|
+-----+---+------+
|Alice| 10|    50|
| Lily| 10|    30|
|  Bob| 20|    80|
|  Tom| 30|    80|
+-----+---+------+

+-----+---+------+
| name|age|height|
+-----+---+------+
| Lily| 10|    30|
|Alice| 10|    50|
|  Bob| 20|    80|
|  Tom| 30|    80|
+-----+---+------+



In [39]:
# pyspark.sql.functions.ascii(col)
# 计算字符串列的第一个字符的数字值。

In [40]:
# pyspark.sql.functions.asin(col)
# 计算给定值的正弦倒数;返回的角度在π/ 2到π/ 2的范围内。

In [42]:
# pyspark.sql.functions.atan(col)
# 计算给定值的正切倒数;返回的角度在π/ 2到π/ 2的范围内

In [43]:
# pyspark.sql.functions.base64(col)
# 计算二进制列的BASE64编码并将其作为字符串列返回。

In [45]:
# pyspark.sql.functions.bin(col)
# 返回给定列的二进制值的字符串表示形式。
df.select(bin(df.age).alias('c')).show()

+-----+
|    c|
+-----+
| 1010|
|10100|
|11110|
| 1010|
+-----+



In [None]:
# pyspark.sql.functions.broadcast(df)
# 将DataFrame标记为足够小以用于广播连接。

In [48]:
# pyspark.sql.functions.bround(col, scale=0)
# 如果scale> = 0，则使用HALF_EVEN舍入模式对给定值进行四舍五入以缩放小数点;如果scale <0，则将其舍入为整数部分。
spark.createDataFrame([(2.5,)], ['a']).select(bround('a', 0).alias('r')).show()

+---+
|  r|
+---+
|2.0|
+---+



In [49]:
# pyspark.sql.functions.cbrt(col)
# 计算给定值的立方根。

In [50]:
# pyspark.sql.functions.ceil(col)
# 计算给定值的上限。

In [54]:
# pyspark.sql.functions.coalesce(*cols)
# 返回非空的第一列。
cDF = spark.createDataFrame([(None, None), (1, None), (None, 2)], ('a', 'b'))
cDF.show()
cDF.select(coalesce(cDF['a'], cDF['b'])).show()
cDF.select('*', coalesce(cDF['a'], lit(0.0))).show()

+----+----+
|   a|   b|
+----+----+
|null|null|
|   1|null|
|null|   2|
+----+----+

+--------------+
|coalesce(a, b)|
+--------------+
|          null|
|             1|
|             2|
+--------------+

+----+----+----------------+
|   a|   b|coalesce(a, 0.0)|
+----+----+----------------+
|null|null|             0.0|
|   1|null|             1.0|
|null|   2|             0.0|
+----+----+----------------+



In [55]:
# pyspark.sql.functions.col(col)
# 根据给定的列名返回一个列。

In [57]:
# pyspark.sql.functions.collect_list(col)
# 聚合函数：返回包含重复对象的列表。
df2 = spark.createDataFrame([(2,), (5,), (5,)], ('age',))
df2.agg(collect_list('age')).collect()

[Row(collect_list(age)=[2, 5, 5])]

In [58]:
# pyspark.sql.functions.collect_set(col)
# 聚合函数：返回一组消除重复元素的对象。
df2.agg(collect_set('age')).show()

+----------------+
|collect_set(age)|
+----------------+
|          [5, 2]|
+----------------+



In [59]:
# pyspark.sql.functions.concat(*cols)
# 将多个输入列连接成一个列。如果所有输入都是二进制的，则concat会以二进制形式返回输出。否则，它返回字符串。
df.select(concat(df.age, df.height).alias('num')).show()

+----+
| num|
+----+
|1050|
|2080|
|3080|
|1030|
+----+



In [60]:
# pyspark.sql.functions.concat_ws(sep, *cols)
# 使用给定的分隔符将多个输入字符串列连接到一个字符串列中。
df.select(concat_ws('*', df.name, df.age).alias('xx')).show()

+--------+
|      xx|
+--------+
|Alice*10|
|  Bob*20|
|  Tom*30|
| Lily*10|
+--------+



In [64]:
# pyspark.sql.functions.conv(col, fromBase, toBase)
# 将一个字符串的数字从一个基转换成另一个基。
df1 = spark.createDataFrame([('010101',)], ['n'])
df1.select(conv(df1.n, 2, 16).alias('hex')).show()

+---+
|hex|
+---+
| 15|
+---+



In [66]:
# pyspark.sql.functions.corr(col1, col2)
# 为col1和col2的皮尔逊相关系数返回一个新列。
a = range(20)
b = [2 * x for x in range(20)]
df1 = spark.createDataFrame(zip(a, b), ['a', 'b'])
df1.agg(corr('a', 'b').alias('c')).show()

+---+
|  c|
+---+
|1.0|
+---+



In [67]:
# pyspark.sql.functions.cos(col)
# 计算给定值的余弦值。

In [68]:
# pyspark.sql.functions.cosh(col)
# 计算给定值的双曲余弦。

In [69]:
# pyspark.sql.functions.count(col)
# 聚合函数：返回组中项目的数量。

In [71]:
# pyspark.sql.functions.countDistinct(col, *cols)
# 为不同的col或cols返回一个新列。
df.agg(countDistinct(df.age, df.name).alias('c')).show()

+---+
|  c|
+---+
|  4|
+---+



In [72]:
# pyspark.sql.functions.covar_pop(col1, col2)
# 为col1和col2的人口协方差返回一个新列。
a = [1] * 10
b = [1] * 10
df = spark.createDataFrame(zip(a, b), ['a', 'b'])
df.agg(covar_pop('a', 'b')).alias('c').show()

+---------------+
|covar_pop(a, b)|
+---------------+
|            0.0|
+---------------+



In [73]:
# pyspark.sql.functions.covar_samp(col1, col2)
# 返回col1和col2的样本协方差的新列。
df.agg(covar_samp('a', 'b').alias('c')).show()

+---+
|  c|
+---+
|0.0|
+---+



In [None]:
# pyspark.sql.functions.crc32(col)
# 计算二进制列的循环冗余校验值（CRC32）并将该值作为bigint返回。

In [74]:
spark.createDataFrame([('ABC',)], ['a']).select(crc32('a').alias('crc32')).collect()

[Row(crc32=2743272264)]

In [77]:
# pyspark.sql.functions.create_map(*cols)
# 创建一个新的地图列。
df.select(create_map('name', 'age').alias('map')).show()

+-------------+
|          map|
+-------------+
|[Alice -> 10]|
|  [Bob -> 20]|
|  [Tom -> 30]|
| [Lily -> 10]|
+-------------+



In [78]:
#  pyspark.sql.functions.cume_dist()
# 窗口函数：返回窗口分区内值的累积分布，即在当前行下面的行的分数。

In [79]:
# pyspark.sql.functions.current_date()
# 以DateType列的形式返回当前日期。

In [80]:
# pyspark.sql.functions.current_timestamp()
# 将当前时间戳作为TimestampType列返回。

In [82]:
# pyspark.sql.functions.date_add(start, days)
# 返回启动后天数的日期
df1 = spark.createDataFrame([('2015-04-08',)], ['dt'])
df1.select(date_add(df1.dt, 1).alias('next_date')).show()

+----------+
| next_date|
+----------+
|2015-04-09|
+----------+



In [83]:
# pyspark.sql.functions.date_format(date, format)
# 将日期/时间戳/字符串转换为由第二个参数给出的日期格式指定格式的字符串值。
# 一个模式可以是例如dd.MM.yyyy，并且可以返回一个像'18 .03.1993'这样的字符串。可以使用Java类java.text.SimpleDateFormat的所有模式字母。
# 尽可能使用像年份这样的专业功能。这些受益于专门的实施。
df1.select(date_format('dt', 'MM/dd/yyy').alias('date')).show()

+----------+
|      date|
+----------+
|04/08/2015|
+----------+



In [84]:
# pyspark.sql.functions.date_sub(start, days)
# 返回开始前几天的日期
df1.select(date_sub(df1.dt, 1).alias('prev_date')).collect()

[Row(prev_date=datetime.date(2015, 4, 7))]

In [86]:
# pyspark.sql.functions.date_trunc(format, timestamp)
# 将时间戳记截断为格式指定的单位。
df1 = spark.createDataFrame([('1997-02-28 05:02:11',)], ['t'])
df1.select(date_trunc('year', df1.t).alias('year')).show()
df1.select(date_trunc('mon', df1.t).alias('month')).show()

+-------------------+
|               year|
+-------------------+
|1997-01-01 00:00:00|
+-------------------+

+-------------------+
|              month|
+-------------------+
|1997-02-01 00:00:00|
+-------------------+



In [87]:
# pyspark.sql.functions.datediff(end, start)
# 返回从开始到结束的天数
df1 = spark.createDataFrame([('2015-04-08','2015-05-10')], ['d1', 'd2'])
df1.select(datediff(df1.d2, df1.d1).alias('diff')).collect()

[Row(diff=32)]

In [92]:
# pyspark.sql.functions.dayofmonth(col)
# 将给定日期的月份的日期解压为整数。
df1 = spark.createDataFrame([('2015-04-08',)], ['dt'])
df1.select(dayofmonth('dt').alias('day')).show()

+---+
|day|
+---+
|  8|
+---+



In [95]:
# dayofweek 提取星期为整数
df1.select(dayofweek('dt').alias('day')).show()

+---+
|day|
+---+
|  4|
+---+



In [96]:
# dayofyear 提取日期为一年中第几天为整数
df1.select(dayofyear('dt').alias('day')).show()

+---+
|day|
+---+
| 98|
+---+



In [None]:
# pyspark.sql.functions.decode(col, charset）
#使用提供的字符集（'US-ASCII'，'ISO-8859-1'，'UTF-8'，'UTF-16BE'，'UTF-16LE'之一）从二进制计算第一个参数到二进制文件中。 'UTF-16'）。

In [98]:
# pyspark.sql.functions.explode(col)
# 为给定数组或映射中的每个元素返回一个新行。
from pyspark.sql import Row
eDF = spark.createDataFrame([Row(a=1, intlist=[1,2,3], mapfield={"a": "b"})])
eDF.select(explode(eDF.intlist).alias('anInt')).show()
eDF.select(explode(eDF.mapfield).alias('key', 'value')).show()

+-----+
|anInt|
+-----+
|    1|
|    2|
|    3|
+-----+

+---+-----+
|key|value|
+---+-----+
|  a|    b|
+---+-----+



In [99]:
# pyspark.sql.functions.explode_outer(col)
# 为给定数组或映射中的每个元素返回一个新行。与explode()不同，如果数组/映射为空或空，则会生成空值。
df1 = spark.createDataFrame(
    [(1, ['foo', 'bar'], {'x': 1.0}), (2, [], {}), (3, None, None)],
    ('id', 'an_array', 'a_map')
)
df1.select('id', 'an_array', explode_outer('a_map')).show()

+---+----------+----+-----+
| id|  an_array| key|value|
+---+----------+----+-----+
|  1|[foo, bar]|   x|  1.0|
|  2|        []|null| null|
|  3|      null|null| null|
+---+----------+----+-----+



In [100]:
df1.select('id', 'a_map', explode_outer('an_array')).show()

+---+----------+----+
| id|     a_map| col|
+---+----------+----+
|  1|[x -> 1.0]| foo|
|  1|[x -> 1.0]| bar|
|  2|        []|null|
|  3|      null|null|
+---+----------+----+



In [101]:
#  pyspark.sql.functions.expr(str)
# 将表达式字符串分析到它表示的列中
df.select(expr('length(name)')).show()

+------------+
|length(name)|
+------------+
|           5|
|           3|
|           3|
|           4|
+------------+



In [103]:
# pyspark.sql.functions.factorial(col)
# 计算给定值的阶层
df1 = spark.createDataFrame([(5,)], ['n'])
df1.select(factorial(df1.n).alias('f')).show()

+---+
|  f|
+---+
|120|
+---+



In [106]:
# pyspark.sql.functions.format_number(col, d)
# 返回格式化为n位小数
spark.createDataFrame([(5,)], ['a']).select(format_number('a', 4).alias('v')).show()

+------+
|     v|
+------+
|5.0000|
+------+



In [107]:
#  pyspark.sql.functions.format_string(format, *cols)
# 将参数格式化为printf-style，并将结果作为字符串列返回。
df.select(format_string('%d %s', df.age, df.name).alias('v')).show()

+--------+
|       v|
+--------+
|10 Alice|
|  20 Bob|
|  30 Tom|
| 10 Lily|
+--------+



In [108]:
# pyspark.sql.functions.from_json(col, schema, options={})
# 将包含JSON字符串的栏目解析为带有指定模式的struct类型或ArrayType的ArrayType。返回null，在不可解析字符串的情况下。
# Spark 2.3，ddl格式的字符串或JSON格式字符串也支持schema。
from pyspark.sql.types import *
data = [(1, '''{"a":1}''')]
schema = StructType([StructField("a", IntegerType())])
df1 = spark.createDataFrame(data, ("key", "value"))
df1.select(from_json(df1.value, schema).alias("json")).collect()

[Row(json=Row(a=1))]

In [109]:
df1.select(from_json(df1.value, 'a INT').alias('json')).show()

+----+
|json|
+----+
| [1]|
+----+



In [110]:
schema = ArrayType(StructType([StructField('a', IntegerType())]))
df1 = spark.createDataFrame(data, ('key', 'value'))
df1.select(from_json(df1.value, schema).alias('json')).show()

+-----+
| json|
+-----+
|[[1]]|
+-----+



In [112]:
# pyspark.sql.functions.from_unixtime(timestamp, format='yyyy-MM-dd HH:mm:ss')
# 将unix纪元中的秒数(1970-01-01 00:00 UTC)转换为一个字符串，该字符串表示当前系统时区中给定格式的时间戳。
spark.conf.set('spark.sql.session.timeZone', 'America/Los_Angeles')
time_df = spark.createDataFrame([(1428476400,)], ['unix_time'])
time_df.select(from_unixtime('unix_time').alias('ts')).show()

+-------------------+
|                 ts|
+-------------------+
|2015-04-08 00:00:00|
+-------------------+



In [113]:
spark.conf.unset("spark.sql.session.timeZone")

In [115]:
# pyspark.sql.functions.from_utc_timestamp(timestamp, tz)
# 给定一个时间戳，如2017-07-14 02:40:00.0，将它解释为UTC中的时间，并将该时间呈现为给定时区中的时间戳。例如，GMT+1的收益率为2017-07-14 03:40:00.0。
df1 = spark.createDataFrame([('1997-02-28 10:30:00',)], ['t'])
df1.select(from_utc_timestamp(df1.t, "PST").alias('local_time')).collect()

[Row(local_time=datetime.datetime(1997, 2, 28, 2, 30))]

In [117]:
# pyspark.sql.functions.get_json_object(col, path)
# 根据指定的json路径从json字符串中提取json对象，并返回提取的json对象的json字符串。如果输入json字符串无效，则返回null。
data = [("1", '''{"f1": "value1", "f2": "value2"}'''), ("2", '''{"f1": "value12"}''')]
df1 = spark.createDataFrame(data, ("key", "jstring"))
df1.select(df1.key, get_json_object(df1.jstring, '$.f1').alias("c0"), \
           get_json_object(df1.jstring, '$.f2').alias("c1") ).show()

+---+-------+------+
|key|     c0|    c1|
+---+-------+------+
|  1| value1|value2|
|  2|value12|  null|
+---+-------+------+



In [118]:
# pyspark.sql.functions.greatest(*cols) 
# 返回列名称列表的最大值，跳过空值。这个函数至少有两个参数。它将返回null iff所有参数都为null。
df1 = spark.createDataFrame([(1, 4, 3)], ['a', 'b', 'c'])
df1.select(greatest(df1.a, df1.b, df1.c).alias("greatest")).show()

+--------+
|greatest|
+--------+
|       4|
+--------+



In [119]:
# pyspark.sql.functions.grouping(col)
# 聚合函数：指示GROUP BY list中指定的列是否聚合，在结果集中不聚合的聚合或0返回1。
df.cube('name').agg(grouping('name'), sum('age')).orderBy('name').show()

+-----+--------------+--------+
| name|grouping(name)|sum(age)|
+-----+--------------+--------+
| null|             1|      70|
|Alice|             0|      10|
|  Bob|             0|      20|
| Lily|             0|      10|
|  Tom|             0|      30|
+-----+--------------+--------+



In [120]:
# pyspark.sql.functions.grouping_id(*cols)
# 列的列表应该与分组列完全匹配，或者是空的（表示所有的分组列）。
df.cube('name').agg(grouping_id(), sum('age')).orderBy('name').show()

+-----+-------------+--------+
| name|grouping_id()|sum(age)|
+-----+-------------+--------+
| null|            1|      70|
|Alice|            0|      10|
|  Bob|            0|      20|
| Lily|            0|      10|
|  Tom|            0|      30|
+-----+-------------+--------+



In [121]:
# pyspark.sql.functions.hash(*cols)
# 计算给定列的散列码，并将结果作为int列返回。
spark.createDataFrame([('ABC',)], ['a']).select(hash('a').alias('hash')).show()

+----------+
|      hash|
+----------+
|-757602832|
+----------+



In [122]:
# pyspark.sql.functions.hex(col)
# 计算给定列的hex值
spark.createDataFrame([('ABC', 3)], ['a', 'b']).select(hex('a'), hex('b')).show()

+------+------+
|hex(a)|hex(b)|
+------+------+
|414243|     3|
+------+------+



In [123]:
# pyspark.sql.functions.hour(col) 
# 将给定日期的小时提取为整数。
spark.createDataFrame([('2015-04-08 13:08:15',)], ['ts']).select(hour('ts').alias('hour')).show()

+----+
|hour|
+----+
|  13|
+----+



In [124]:
# pyspark.sql.functions.hypot(col1, col2)
# 计算平方根

In [125]:
# pyspark.sql.functions.initcap(col)
# 将每个单词的第一个字母翻译成句子中的大写字母。
spark.createDataFrame([('ab cd',)], ['a']).select(initcap("a").alias('v')).show()

+-----+
|    v|
+-----+
|Ab Cd|
+-----+



In [127]:
df.select(initcap('name')).show()

+-------------+
|initcap(name)|
+-------------+
|        Alice|
|          Bob|
|          Tom|
|         Lily|
+-------------+



In [128]:
# pyspark.sql.functions.input_file_name()
# 为当前Spark任务的文件名创建一个字符串列。

In [131]:
# pyspark.sql.functions.instr(str, substr) 
# 在给定的字符串中定位substr列的第一次出现的位置。如果任一参数都为null，则返回null。
# 这个位置不是基于零的，而是基于1的索引。如果在str中不能找到substr，则返回0。
df1 = spark.createDataFrame([('abcd',)], ['s',])
df1.select(instr(df1.s, 'b').alias('s')).show()

+---+
|  s|
+---+
|  2|
+---+



In [132]:
# pyspark.sql.functions.isnan(col)
# 返回true iff的表达式是NaN。
df1 = spark.createDataFrame([(1.0, float('nan')), (float('nan'), 2.0)], ('a', 'b'))
df1.select(isnan('a').alias('r1'), isnan(df1.a).alias('r2')).show()

+-----+-----+
|   r1|   r2|
+-----+-----+
|false|false|
| true| true|
+-----+-----+



In [133]:
# pyspark.sql.functions.isnull(col)
# 返回true iff的表达式为null。
df1 = spark.createDataFrame([(1, None), (None, 2)], ('a', 'b'))
df1.select(isnull('a').alias('r1'), isnull(df1.a).alias('r2')).show()

+-----+-----+
|   r1|   r2|
+-----+-----+
|false|false|
| true| true|
+-----+-----+



In [134]:
# pyspark.sql.functions.last_day(date)
# 返回给定日期所属的月份的最后一天。
df1 = spark.createDataFrame([('1997-02-10',)], ['d'])
df1.select(last_day(df1.d).alias('data')).show()

+----------+
|      data|
+----------+
|1997-02-28|
+----------+



In [135]:
# pyspark.sql.functions.least(*cols)
# 返回列名列表的最小值，跳过null值。这个函数至少需要两个参数。它会返回null iff所有参数都是空的。
df1 = spark.createDataFrame([(1, 4, 3)], ['a', 'b', 'c'])
df1.select(least(df1.a, df1.b, df1.c).alias("least")).show()

+-----+
|least|
+-----+
|    1|
+-----+



In [136]:
# pyspark.sql.functions.length(col)
# 计算字符串数据的字符长度或二进制数据的字节数。字符数据的长度包括后面的空格。二进制数据的长度包括二进制零。
spark.createDataFrame([('ABC ',)], ['a']).select(length('a').alias('length')).show()

+------+
|length|
+------+
|     4|
+------+



In [137]:
# pyspark.sql.functions.levenshtein(left, right)
# 计算两个给定字符串的Levenshtein距离。
df0 = spark.createDataFrame([('kitten', 'sitting',)], ['l', 'r'])
df0.select(levenshtein('l', 'r').alias('d')).show()

+---+
|  d|
+---+
|  3|
+---+



In [138]:
# pyspark.sql.functions.lit(col)
# 创建一个文字值的列。
df.select(lit(5).alias('height')).withColumn('spark_user', lit(True)).take(1)

[Row(height=5, spark_user=True)]

In [140]:
# pyspark.sql.functions.locate(substr, str, pos=1)
# 在一个字符串列中，在位置pos之后定位substr的第一次出现的位置。
df1 = spark.createDataFrame([('abcd',)], ['s',])
df1.select(locate('b', df1.s, 1).alias('s')).show()

+---+
|  s|
+---+
|  2|
+---+



In [142]:
# pyspark.sql.functions.log(arg1, arg2=None)
# 返回第二个论证的第一个基于论证的对数。
# 如果只有一个参数，那么这就取了参数的自然对数。
df.select(log(10.0, df.age).alias('ten')).rdd.map(lambda l: str(l.ten)[:7]).collect()

['1.0', '1.30102', '1.47712', '1.0']

In [143]:
# pyspark.sql.functions.lpad(col, len, pad)
df1 = spark.createDataFrame([('abcd',)],['s',])
df1.select(lpad(df1.s, 6, '#').alias('s')).show()

+------+
|     s|
+------+
|##abcd|
+------+



In [6]:
# pyspark.sql.functions.map_keys(col)
# 托收功能：返回一个无序的数组，其中包含映射的键。
from pyspark.sql.functions import *
df1 = spark.sql("SELECT map(1, 'a', 2, 'b') as data")
df1.show()
df1.select(map_keys('data').alias('keys')).show()

+----------------+
|            data|
+----------------+
|[1 -> a, 2 -> b]|
+----------------+

+------+
|  keys|
+------+
|[1, 2]|
+------+



In [5]:
# pyspark.sql.functions.map_values(col)
# 托收函数：返回一个包含map值的无序数组。
df1.select(map_values('data').alias('values')).show()

+------+
|values|
+------+
|[a, b]|
+------+



In [7]:
# pyspark.sql.functions.md5(col)
# 计算MD5摘要，并将值作为32个字符的hex字符串返回。
spark.createDataFrame([('ABC',)], ['a']).select(md5('a').alias('hash')).show()

+--------------------+
|                hash|
+--------------------+
|902fbdd2b1df0c4f7...|
+--------------------+



In [8]:
# pyspark.sql.functions.minute(col)
# 将给定日期的分钟提取为整数。
df1 = spark.createDataFrame([('2015-04-08 13:08:15',)], ['ts'])
df1.select(minute('ts').alias('minute')).collect()

[Row(minute=8)]

In [9]:
# 标量UDF中的pandas的长度不是整个输入列的长度，而是用于每次调用函数的内部批处理的长度。因此，这可以用来保证每个返回的熊猫的长度，并且不能用作列长度。
from pyspark.sql.functions import pandas_udf, PandasUDFType
from pyspark.sql.types import IntegerType, StringType
slen = pandas_udf(lambda s: s.str.len(), IntegerType())
@pandas_udf(StringType())
def to_upper(s):
    return s.str.upper()
@pandas_udf('integer', PandasUDFType.SCALAR)
def add_one(x):
    return x + 1
df1 = spark.createDataFrame([(1, 'John Doe', 21)],
                           ('id', 'name', 'age'))
df1.select(slen('name').alias('slen(name)'), to_upper('name'), add_one('age')).show()

+----------+--------------+------------+
|slen(name)|to_upper(name)|add_one(age)|
+----------+--------------+------------+
|         8|      JOHN DOE|          22|
+----------+--------------+------------+



In [12]:
# GROUPED_MAP
from pyspark.sql.functions import pandas_udf, PandasUDFType
df1 = spark.createDataFrame(
    [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
    ('id', 'v')
)
df1.show()
@pandas_udf('id long, v double', PandasUDFType.GROUPED_MAP)
def normalize(pdf):
    v = pdf.v
    return pdf.assign(v=(v - v.mean()) / v.std())
df1.groupby('id').apply(normalize).show()

+---+----+
| id|   v|
+---+----+
|  1| 1.0|
|  1| 2.0|
|  2| 3.0|
|  2| 5.0|
|  2|10.0|
+---+----+

+---+-------------------+
| id|                  v|
+---+-------------------+
|  1|-0.7071067811865475|
|  1| 0.7071067811865475|
|  2|-0.8320502943378437|
|  2|-0.2773500981126146|
|  2| 1.1094003924504583|
+---+-------------------+



用户定义的功能在默认情况下被认为是确定性的。由于优化，可能会消除重复的调用，甚至可能会调用该函数的次数超过查询中的次数。如果您的功能不确定，请在用户定义的功能上调用asNondeterministic。

In [13]:
@pandas_udf('double', PandasUDFType.SCALAR)
def random(v):
    import numpy as np
    import pandas as pd
    return pd.Series(np.random.randn(len(v)))
random = random.asNondeterministic()

In [14]:
# pyspark.sql.functions.posexplode(col)
# 为给定数组或地图中的每个元素返回一个新行。
from pyspark.sql import Row
eDF = spark.createDataFrame([Row(a=1, intlist=[1, 2, 3], mapfield={'a':'b'})])
eDF.select(posexplode(eDF.intlist)).show()

+---+---+
|pos|col|
+---+---+
|  0|  1|
|  1|  2|
|  2|  3|
+---+---+



In [15]:
eDF.select(posexplode(eDF.mapfield)).show()

+---+---+-----+
|pos|key|value|
+---+---+-----+
|  0|  a|    b|
+---+---+-----+



In [17]:
# pyspark.sql.functions.posexplode_outer(col)
# 为给定数组或地图中的每个元素返回一个新行。与posexplode不同的是，如果数组/映射为null或为空，则会生成该行（null，null）。
df1 = spark.createDataFrame(
    [(1, ["foo", "bar"], {"x": 1.0}), (2, [], {}), (3, None, None)],
    ("id", "an_array", "a_map")
)
df1.select('id', 'an_array', posexplode_outer('a_map')).show()

+---+----------+----+----+-----+
| id|  an_array| pos| key|value|
+---+----------+----+----+-----+
|  1|[foo, bar]|   0|   x|  1.0|
|  2|        []|null|null| null|
|  3|      null|null|null| null|
+---+----------+----+----+-----+



In [18]:
df1.select('id', 'a_map', posexplode_outer('an_array')).show()

+---+----------+----+----+
| id|     a_map| pos| col|
+---+----------+----+----+
|  1|[x -> 1.0]|   0| foo|
|  1|[x -> 1.0]|   1| bar|
|  2|        []|null|null|
|  3|      null|null|null|
+---+----------+----+----+



In [19]:
# pyspark.sql.functions.rand(seed=None)
# 从U [0.0，1.0]生成一个具有独立且分布相同（i.i.d.）样本的随机列。
df.withColumn('rand', rand(seed=42) * 3).show()

+-----+---+------+------------------+
| name|age|height|              rand|
+-----+---+------+------------------+
|Alice| 10|    50|1.9983710323241177|
|  Bob| 20|    80|2.5749454053758716|
|  Tom| 30|    80|2.7419891047485545|
| Lily| 10|    30|2.5994827668473834|
+-----+---+------+------------------+



In [20]:
# pyspark.sql.functions.randn(seed=None)
# 从标准正态分布生成具有独立且分布相同（i.i.d.）样本的列。
df.withColumn('randn', randn(42)).show()

+-----+---+------+------------------+
| name|age|height|             randn|
+-----+---+------+------------------+
|Alice| 10|    50|0.4085363219031828|
|  Bob| 20|    80|0.8811793095417685|
|  Tom| 30|    80|-2.013921870967947|
| Lily| 10|    30|1.6641751435679302|
+-----+---+------+------------------+



In [21]:
# pyspark.sql.functions.regexp_extract(str, pattern, idx)
# 从指定的字符串列中提取由Java正则表达式匹配的特定组。如果正则表达式不匹配，或者指定的组不匹配，则返回空字符串。
df1 = spark.createDataFrame([('100-200',)], ['str'])
df1.select(regexp_extract('str', '(\d+)-(\d+)', 1).alias('d')).collect()

[Row(d='100')]

In [26]:
df1 = spark.createDataFrame([('foo',)], ['str'])
df1.select(regexp_extract('str', '(o.*)', 1).alias('d')).collect()

[Row(d='oo')]

In [28]:
# pyspark.sql.functions.regexp_replace(str, pattern, replacement)
# 将与regexp匹配的指定字符串值的所有子字符串替换为rep。
df1 = spark.createDataFrame([('100-200',)], ['str'])
df1.select(regexp_replace('str', '(\d+)', 'xx').alias('d')).collect()

[Row(d='xx-xx')]

In [30]:
# pyspark.sql.functions.repeat(col, n)
# 重复一次字符串列n次，并将其作为新的字符串列返回。
df1 = spark.createDataFrame([('ab',)], ['s',])
df1.select(repeat(df1.s, 3).alias('s')).show()

+------+
|     s|
+------+
|ababab|
+------+



In [32]:
# pyspark.sql.functions.sort_array(col, asc=True)
# 汇集函数：根据数组元素的自然顺序，按照升序或降序对输入数组进行排序。
df1 = spark.createDataFrame([([2, 1, 3],),([1],),([],)], ['data'])
df1.select(sort_array(df1.data).alias('r')).collect()

[Row(r=[1, 2, 3]), Row(r=[1]), Row(r=[])]

In [34]:
# pyspark.sql.functions.soundex(col）
# 返回字符串的SoundEx编码
df1 = spark.createDataFrame([("Peters",),("Uhrbach",)], ['name'])
df1.select(soundex(df1.name).alias("soundex")).collect()

[Row(soundex='P362'), Row(soundex='U612')]

In [36]:
# pyspark.sql.functions.split(str, pattern)
# 将模式分割（pattern是一个正则表达式）。
df1 = spark.createDataFrame([('ab12cd',)], ['s',])
df1.select(split(df1.s, '[0-9]+').alias('s')).show()

+--------+
|       s|
+--------+
|[ab, cd]|
+--------+

