In [None]:
# Global data variables
SANDBOX_NAME = ''# Sandbox Name
DATA_PATH = "/data/sandboxes/" + SANDBOX_NAME + "/data/data/" 

In [None]:
from pyspark.sql import functions as F



# Creación o modificación de columnas

En Spark hay un único método para la creación o modificación de columnas y es `withColumn`. Este método es de nuevo una transformación y toma dos parámetros: el nombre de la columna a crear (o sobreescribir) y la operación que crea la nueva columna.

Para una ejecución más óptima se recomienda utilizar únicamente las funciones de PySpark cuando se define la operación, pero como se detallará más adelante se pueden utilizar funciones propias. 

In [None]:
movies_df = spark.read.csv(DATA_PATH + 'movie-ratings/movies.csv', sep=',', header=True, inferSchema=True)
ratings_df = spark.read.csv(DATA_PATH + 'movie-ratings/ratings.csv', sep=',', header=True, inferSchema=True)

In [None]:
ratings_movies_df = ratings_df.join(movies_df, on='movieId', how='inner')

In [None]:
ratings_movies_df.cache()



## Funciones de Spark



__valor fijo__

El ejemplo más sencillo es crear una columna con un valor fijo, en este caso, columna `now` con valor '2019/01/21 14:08', y columna `rating2`con valor 4.0.

Hint: `withColumn`

In [None]:
ratings_movies_df = ratings_movies_df.withColumn('now', F.lit('2019/01/21 14:08'))

In [None]:
ratings_movies_df.show(3)

In [None]:
ratings_movies_df = ratings_movies_df.withColumn('rating2', F.lit(4.0))

In [None]:
ratings_movies_df.show(3)



__duplicar columna__

In [None]:
ratings_movies_df.withColumn('title2', F.col('title'))\
                 .select('title', 'title2')\
                 .show(10)



__operaciones aritmeticas__

In [None]:
ratings_movies_df.withColumn('rating_10', F.col('rating') * 2)\
                 .select('rating', 'rating_10')\
                 .show(10)

In [None]:
ratings_movies_df.withColumn('rating_avg', (F.col('rating') + F.col('rating2')) /  2)\
                 .select('rating', 'rating2', 'rating_avg')\
                 .show(10)

 

__if/else__

Crea la columna `kind_rating`, que sea 'high' en caso de que rating sea mayor que 4, y 'low' en caso contrario.

In [None]:
ratings_movies_df.withColumn('kind_rating', 
                              F.when(F.col('rating') >= 4, 'high').otherwise('low')).show(10)



Se pueden concatenar multiples sentencias _when_. Esta vez, sobreescribe la columna `kind_rating` para crear un nivel intermedio, donde si es mayor que dos y menor que 4, `kind_rating` sea 'med'.

In [None]:
ratings_movies_df.withColumn('kind_rating', 
                              F.when(F.col('rating') >= 4, 'high')\
                               .when(F.col('rating') >= 2, 'med')\
                               .otherwise('low')).show(20)



__operaciones con strings__

Pon en mayúsculas todos los títulos de las películas

In [None]:
ratings_movies_df.withColumn('title', F.upper(F.col('title'))).show(3)



Extrae los 10 primeros caracteres de la columna `title`

In [None]:
ratings_movies_df.withColumn('short_title', F.substring(F.col('title'), 0, 10))\
                 .select('title', 'short_title')\
                 .show(10)



Separa los diferentes géneros de la columna `genres` para obtener una lista, usando el separador '|'

In [None]:
ratings_movies_df.withColumn('genres', F.split(F.col('genres'), '\|')).show(4)



Crea una nueva columna `1st_genre` seleccionando el primer elemento de la lista del código anterior

In [None]:
ratings_movies_df.withColumn('1st_genre', F.split(F.col('genres'), '\|')[0])\
                 .select('genres', '1st_genre')\
                 .show(10)



Reemplaza el caracter '|' por '-' en la columna `genres`

In [None]:
ratings_movies_df.withColumn('genres', F.regexp_replace(F.col('genres'), '\|', '-'))\
                 .select('title', 'genres')\
                 .show(10, truncate=False)



_Con expresiones regulares_

https://regexr.com/

In [None]:
ratings_movies_df.withColumn('title', F.regexp_replace(F.col('title'), ' \(\d{4}\)', '')).show(5, truncate=False)

In [None]:
ratings_movies_df = ratings_movies_df.withColumn('year', 
                                                 F.regexp_extract(F.col('title'),  '\((\d{4})\)', 1))

ratings_movies_df.show(5)



## Casting

Con el método `withColumn` también es posible convertir el tipo de una columna con la función `cast`. Es importante saber que en caso de no poder convertirse (por ejemplo una letra a número) no saltará error y el resultado será un valor nulo.

In [1]:
ratings_movies_df.printSchema()

NameError: ignored



Cambia el formato de `year` a entero, y `movieId` a string.

In [2]:
ratings_movies_df = ratings_movies_df.withColumn('year', F.col('year').cast('int'))
ratings_movies_df.show(5)

NameError: ignored

In [None]:
ratings_movies_df = ratings_movies_df.withColumn('movieId', F.col('movieId').cast('string'))

In [None]:
ratings_movies_df.printSchema()

In [None]:
ratings_movies_df.withColumn('error', F.col('title').cast('int')).show(5)



## UDF (User Defined Functions)

Cuando no es posible definir la operación con las funciones de spark se pueden crear funciones propias usando la UDFs. Primero se crea  una función de Python normal y posteriormente se crea la UDFs. Es necesario indicar el tipo de la columna de salida en la UDF.

In [3]:
from pyspark.sql.types import StringType, IntegerType, DoubleType, DateType

ModuleNotFoundError: ignored



_Aumenta el rating en un 15% para cada película más antigua que 2000 (el máximo siempre es 5)._

In [4]:
def increase_rating(year, rating):
    
    if year < 2000:
        rating = min(rating * 1.15, 5.0)
    
    return rating

In [5]:
increase_rating_udf = F.udf(increase_rating, DoubleType())

NameError: ignored

In [None]:
ratings_movies_df.withColumn('rating_inc', 
                              increase_rating_udf(F.col('year'), F.col('rating')))\
                 .select('title', 'year', 'rating', 'rating_inc')\
                 .show(20)



Extrae el año de la película sin usar expresiones regulares.

In [None]:
title = 'Trainspotting (1996)'

In [None]:
title.replace(')', '').replace('(', '')

In [None]:
year = title.replace(')', '').replace('(', '').split(' ')[-1]
year = int(year)
year

In [None]:
def get_year(title): 
    
    year = title.replace(')', '').replace('(', '').split(' ')[-1]
    if year.isnumeric():
        year = int(year)
    else:
        year = -1
    
    return year

In [None]:
get_year_udf = F.udf(get_year, IntegerType())

In [None]:
ratings_movies_df.withColumn('year2', get_year_udf(F.col('title')))\
                 .select('title', 'year', 'year2').show(10, truncate=False)



# Datetimes

Hay varias funciones de _pyspark_ que permiten trabajar con fechas: diferencia entre fechas, dia de la semana, año... Pero para ello primero es necesario transformar las columnas a tipo fecha. Se permite la conversion de dos formatos de fecha:
* timestamp de unix: una columna de tipo entero con los segundos trascurridos entre la medianoche del 1 de Enero de 1990 hasta la fecha.
* cadena: la fecha representada como una cadena siguiendo un formato específico que puede variar.

In [None]:
ratings_movies_df.select('title', 'timestamp', 'now').show(5)

 

## unix timestamp a datetime

In [None]:
ratings_movies_df = ratings_movies_df.withColumn('datetime', F.from_unixtime(F.col('timestamp')))
ratings_movies_df.select('datetime', 'timestamp').show(10)



## string a datetime

In [None]:
ratings_movies_df = ratings_movies_df.withColumn('now_datetime', 
                                                 F.from_unixtime(F.unix_timestamp(F.col('now'), 'yyyy/MM/dd HH:mm')))

ratings_movies_df.select('now', 'now_datetime').show(10)



## funciones con datetimes

In [None]:
ratings_movies_df.select('now_datetime', 'datetime', 
                          F.datediff(F.col('now_datetime'), F.col('datetime'))).show(10)

In [None]:
ratings_movies_df.select('datetime', F.date_add(F.col('datetime'), 10)).show(10)

In [None]:
ratings_movies_df.withColumn('datetime_plus_4_months', F.add_months(F.col('datetime'), 4))\
                  .select('datetime', 'datetime_plus_4_months').show(5)

In [None]:
ratings_movies_df.select('datetime', F.month(F.col('datetime')).alias('month')).show(10)

In [None]:
ratings_movies_df.select('datetime', F.last_day(F.col('datetime')).alias('last_day')).show(10)

In [None]:
ratings_movies_df.select('datetime', F.dayofmonth(F.col('datetime')).alias('day'),
                                     F.dayofyear(F.col('datetime')).alias('year_day'),
                                     F.date_format(F.col('datetime'), 'E').alias('weekday')).show(10)



Para filtrar por fechas se pueden comparar directamente con una cadena en el formato YYYY-MM-DD hh:mm:ss ya que será interpretada como una fecha.

In [None]:
ratings_movies_df.filter(F.col('datetime') >= "2015-09-30 20:00:00").select('datetime', 'title', 'rating').show(10)

In [None]:
ratings_movies_df.filter(F.col('datetime').between("2003-01-31", "2003-02-10"))\
                  .select('datetime', 'title', 'rating').show(5)

In [None]:
ratings_movies_df.filter(F.year(F.col('datetime')) >= 2012)\
                 .select('datetime', 'title', 'rating').show(5)



# Ejercicio 1

1) Cree una función que acepte un DataFrame y un diccionario. La función debe usar el diccionario para renombrar un grupo de columnas y devolver el DataFrame ya modificado.

Use el siguiente DataFrame y diccionario:

In [None]:
pokemon_df = spark.read.csv(DATA_PATH + 'pokemon.csv', sep=',', header=True, inferSchema=True)

rename_dict = {'Sp. Atk': 'sp_atk',
               'Sp. Def': 'sp_def'}

In [None]:
pokemon_df.show(3)

In [None]:
# Respuesta aqui



2) Use la función definida en el punto anterior para cambiar los nombres del DF usando el diccionario dado.

3) Modifique la función de tal forma que también acepte una función en lugar de un diccionario. Use la función para renombrar las columnas.

4) Estandarice según las buenas prácticas los nombres de las columnas usando la función que acaba de definir.

5) Cree otra función que acepte un DataFrame y una lista con un subconjunto de columnas. El objetivo de esta función es determinar el número de filas duplicadas del DF.

6) Use la función creada para obtener el número de duplicados del DataFrame pokemon_df en todas las columnas excepto el nombre (`name`)

In [None]:
# Respuesta aqui

In [None]:
# Respuesta aqui

In [None]:
# Respuesta aqui

In [None]:
# Respuesta aqui

In [None]:
# Respuesta aqui



# Ejercicio 2

Crea la misma lógica definida en el siguiente UDF, pero sin usar UDFs, es decir, usando exclusivamente funciones de SparkSQL.

In [None]:
movies_df = spark.read.csv(DATA_PATH + 'movie-ratings/movies.csv', sep=',', header=True, inferSchema=True)
movies_df = movies_df.withColumn('genres', F.split(F.col('genres'), '\|'))

from pyspark.sql.types import StringType, IntegerType, DoubleType, BooleanType

def value_in_col(col, value):
    return value in col

value_in_col_udf = F.udf(value_in_col, BooleanType())



*Pista*: Mira la función *explode*.

In [None]:
# Respuesta aqui