# Filtrado de tablas para obtener información de actividades solo de la asignatura IP


El objetivo de este script es el de filtrar las tablas que recogen información de las tareas entregadas para obtener solo aquellas relativas  al curso de ip, y así evitar tener que hacer un join para concatenar usuario con la tarea y otro para unir estas tuplas con solo las tareas pertenecientes a un curso. 

A la hora de concatenar, solo nos quedaremos con los atributos de utilidad de cada tabla.

## Configuración 

In [2]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
import os

# Configuración
curso_ip = 8683
ruta_origen = "/home/carlos/Documentos/TFG/spark-workspace/data/raw"
ruta_destino = "/home/carlos/Documentos/TFG/spark-workspace/data/raw/ip"
os.makedirs(ruta_destino, exist_ok=True)

# Crear sesión Spark
spark = SparkSession.builder \
    .appName("Filtrado datos curso IP") \
    .master("local[*]") \
    .config("spark.sql.shuffle.partitions", "8") \
    .getOrCreate()


Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
25/05/29 21:33:16 WARN Utils: Your hostname, carlos-Modern-15-A11SB, resolves to a loopback address: 127.0.1.1; using 158.49.195.162 instead (on interface wlo1)
25/05/29 21:33:16 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/05/29 21:33:17 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/05/29 21:33:18 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
25/05/29 21:33:18 WARN Utils: Service 'SparkUI' could not bind on port 4041. Attempting port 4042.


## Filtrado de assignments y concatenación de entregas y notas

Tras realizar esta operación, nos quedaremos con una única tabla  `assign_submission_grade_cmi` que va a tener información de  todas las tareas entregadas por los estudiantes de ip, junto con la calificación que obtuvieron en ellas. Es clave comprender que, dado que haremos un `inner join` entre las tareas de la asignatura, con las entregas asociadas a ellas, solo se guardarán como resultado de la unión aquellas tareas que tienen asociadas al menos una entrega, que son las que tienen validez para las métricas que se pretenden calcular. 

In [4]:
# Leer datos de asignaciones y envíos
from math import trunc


assign = spark.read.parquet(f"{ruta_origen}/assign_cmi.parquet")
submissions = spark.read.parquet(f"{ruta_origen}/assign_submission_cmi.parquet")


# Filtrar tabla para quedarnos solo con las tareas de ip , y quedarnos solo con los campos necesarios
assign_ip = assign.filter(col("course") == curso_ip).select(
    "id", "duedate", "allowsubmissionsfromdate", "name"
)
# Concatenamos tareas con sus entregas de tal modo que no se obtendrán las tareas que no tienen asociada ninguna entrega.
submissions_ip = (
    submissions.join(assign_ip, submissions.assignment == assign_ip.id, "inner")
    .withColumnRenamed("timemodified", "timesubmitted")
    .drop("id")
)

number_of_submissions = submissions_ip.count()

print(f"Número de envíos de tareas del curso {curso_ip}: {number_of_submissions}")


# Concatenar submissions con grades, para tener información junta de entregas y notas.
grades = spark.read.parquet(f"{ruta_origen}/assign_grades_cmi.parquet")
grades_filtered = grades.select("userid", "assignment", "grade")

assign_submission_grade_cmi = submissions_ip.join(
    grades_filtered, on=["userid", "assignment"], how="left"
).drop("status")

#Comprobamos el número de tuplas tras la unión, para verificar si aumenta el número de tuplas,
#lo cual podría significar que puede haber asociadas varias notas para una misma entrega.
number_of_assign_submission_grade = assign_submission_grade_cmi.count()
print(f"Número de envíos de tareas con notas del curso {curso_ip}: {number_of_assign_submission_grade}")

assign_submission_grade_cmi.show(5)

# Escribir el dataframe a parquet para dejarlo listo para métricas
# # if not os.path.exists(f"{ruta_destino}/assign_submission_cmi.parquet"):
# #     assign_submission_grade_cmi.write.mode("overwrite").parquet(f"{ruta_destino}/assign_submission_grade_cmi.parquet")
# #     print("assign_submission_grade_cmi.parquet creado :)")



Número de envíos de tareas del curso 8683: 1309
Número de envíos de tareas con notas del curso 8683: 1309
+--------------------+----------+-------------+----------+------------------------+--------------------+-------+
|              userid|assignment|timesubmitted|   duedate|allowsubmissionsfromdate|                name|  grade|
+--------------------+----------+-------------+----------+------------------------+--------------------+-------+
|21ca70cb3dc6e0a86...|      7592|   1694522237|1695678900|                       0|Actividad 00. Act...|2.00000|
|5d0ebbbf8e15cc840...|      7592|   1694517609|1695678900|                       0|Actividad 00. Act...|2.00000|
|df7ce50a753bbb53b...|      7592|   1694515840|1695678900|                       0|Actividad 00. Act...|2.00000|
|f27dcf10007aa8bde...|      7592|   1694489667|1695678900|                       0|Actividad 00. Act...|2.00000|
|331604ad8e671e98e...|      7592|   1694525399|1695678900|                       0|Actividad 00. Act...

Como podemos apreciar, el número de tuplas que tiene el dataframe producto de la unión de tareas con entregas es igual al valor devuelto al calcularlo para el dataframe resultante de la unión del anterior con las notas por cada usuario y tarea. Por lo tanto, se ha verificado con éxito que no existe más de una nota publicada para cada entrega de una tarea.

## Exploración de los datos 


A continuación, se van a explorar  los datos obtenidos en la anterior celda. En primer lugar, las aulas pueden tener muchas actividades publicadas, pero que permanecen durante el curso ocultas para los alumnos dado que son de utilidad al profesorado pero no se pretende que las realicen los alumnos. Por lo tanto, para nuestras métricas solo se deberán considerar aquellas que hayan sido realmente publicadas durante el curso.

Para ello, analizaremos , del total de tareas que están publicadas en el aula, cuales de ellas tienen registrada al menos una entrega, dado que esto significará que estuvo visible.

Al  calcularse la unión de las entregas con las actividades  para dar lugar al dataframe `submissions_ip` se hizo un `inner join`, aquellas tareas que no tuvieran asociadas ninguna entrega no cumplieron la condición de join y por lo tanto no fueron devueltas en la operación. 

Por este motivo, para comprobar qué tareas realmente tuvieron alguna entrega nos bastará con contar el número de tuplas de ese dataframe, quedandonos solo con los valores distintos del identificador de tarea, para evitar contar el número de entregas de cada tarea.

In [8]:

from pyspark.sql.functions import from_unixtime, date_format

# Número total de tareas del curso
num_total_tareas_ip = assign_ip.select("id").distinct().count()

# Número de tareas con al menos una entrega asociada
num_tareas_con_entregas_ip = assign_submission_grade_cmi.select("assignment").distinct().count() 

print(f"Número total de tareas: {num_total_tareas_ip}")
print(f"Número de tareas con al menos una entrega: {num_tareas_con_entregas_ip} \n")

print("===========================================\n")

print("Identificador, nombre y fecha de entrega de todas las tareas")

assign_ip_f = assign_ip.withColumn(
      "duedate_formatted", date_format(from_unixtime(col("duedate")), "dd/MM/yy")
)
assign_ip_f.select("id", "name", "duedate_formatted").orderBy("name").show(100, truncate=False)

print("\n")
print("Identificador, nombre y fecha de entrega de las tareas con al menos una entrega")

assign_submission_grade_cmi_F = assign_submission_grade_cmi.withColumn(
      "duedate_formatted", date_format(from_unixtime(col("duedate")), "dd/MM/yy")
)
assign_submission_grade_cmi_F.select(
      "assignment", "name", "duedate_formatted"
).dropDuplicates(["assignment"]).orderBy("name").show(100, truncate=False)
    

Número total de tareas: 34
Número de tareas con al menos una entrega: 14 


Identificador, nombre y fecha de entrega de todas las tareas
+------+--------------------------------------------------------------------------------------------------------------------------+-----------------+
|id    |name                                                                                                                      |duedate_formatted|
+------+--------------------------------------------------------------------------------------------------------------------------+-----------------+
|7592  |Actividad 00. Actualización del perfil en el campus virtual                                                               |25/09/23         |
|96123 |Calificación y comentarios de la actividad 02                                                                             |01/01/70         |
|107688|Entrega actividad 07                                                                                     

Tras ver detenidamente la salida, podemos apreciar algo muy extraño.

La gran mayoría de las tareas del aula, no tienen asociada ninguna entrega en el curso que se está considerando. Se tiene que estudiar a qué se puede debrer esto, dado que resulta muy extraño que solo se tenga información de entregas en la primera tarea del curso, y de las entregas del proyecto de la asignatura, pero no de ninguna de las que se producen en los meses de octubre y noviembre. Además, se puede observar que hay registradas entregas en tareas que en principio, finalizaban en años anteriores.

Por ejemplo, fijemonos en todas las entregas que hizo un estudiante  aleatorio a lo largo de un curso.
