In [11]:
from pyspark.sql import SparkSession

# Crear la sesión de Spark
spark = SparkSession.builder.appName("filmaking").getOrCreate()

# Leer el archivo JSON
film_df = spark.read.json("filmaking.json")

# Crear la vista temporal para consultas SQL
film_df.createOrReplaceTempView("film")

# Mostrar los datos y el esquema
film_df.show(30)
film_df.printSchema()

+------------+---------------+---+------------------+---------------+---------+--------------------+
|duracion_min|    herramienta| id|            premio|presupuesto_usd|      rol|              titulo|
+------------+---------------+---+------------------+---------------+---------+--------------------+
|          15|  Final Cut Pro|  1|Mejor Cortometraje|           1200| director|     Luz de Invierno|
|           8|DaVinci Resolve|  2|              NULL|            500|   editor|      Café y Sombras|
|          12|DaVinci Resolve|  3|              NULL|            800|colorista|     El Último Pixel|
|          20|    Final Draft|  4|   Guion Destacado|           1500|guionista|     Sueños de Acero|
|          10|  Final Cut Pro|  5|              NULL|            900| director|     Ráfaga Nocturna|
|           7| Adobe Premiere|  6|              NULL|            400|   editor|          Fragmentos|
|          18|  Final Cut Pro|  7| Selección Oficial|           2000| director|      Vértig

In [15]:
# 1. ¿Cuántos proyectos tienen un presupuesto mayor a $1,000 USD?
spark.sql("""
        SELECT COUNT(*) AS proyectos_presupuesto_mayor_a_1000_usd
        FROM film
        WHERE presupuesto_usd > 1000
        ;
""").show()

+--------------------------------------+
|proyectos_presupuesto_mayor_a_1000_usd|
+--------------------------------------+
|                                    11|
+--------------------------------------+



In [16]:
# 2. Lista los títulos de los proyectos donde el rol principal fue “animador”.
spark.sql("""
        SELECT titulo
        FROM film
        WHERE rol = "animador";
""").show()



+--------------------+
|              titulo|
+--------------------+
|Sombras en Movimi...|
|       Pixel a Pixel|
|     Animación Fugaz|
+--------------------+



In [17]:
# 3. ¿Cuál es el promedio de duración (en minutos) de todos los proyectos?
spark.sql("""
        SELECT AVG(duracion_min) AS avg_duracion
        FROM film;
""").show()


+------------------+
|      avg_duracion|
+------------------+
|12.866666666666667|
+------------------+



In [18]:
# 4. ¿Cuántos proyectos han ganado algún premio?
spark.sql("""
        SELECT COUNT(*) AS ganadores
        FROM film
        WHERE premio IS NOT NULL;
""").show()


+---------+
|ganadores|
+---------+
|        7|
+---------+



In [20]:
# 5. ¿Cuál es el presupuesto total (en USD) de los proyectos donde el rol fue “editor”?
spark.sql("""
        SELECT SUM(presupuesto_usd) AS presupuesto_total
        FROM film
        WHERE rol = "editor";
""").show()


+-----------------+
|presupuesto_total|
+-----------------+
|             5550|
+-----------------+



In [23]:
# 6. Lista los títulos y premios de los proyectos que han ganado algún premio, ordenados alfabéticamente por título.
spark.sql("""
        SELECT titulo, premio
        FROM film
        WHERE premio IS NOT NULL
        ORDER BY titulo ASC;
""").show()


+------------------+------------------+
|            titulo|            premio|
+------------------+------------------+
|  Caminos Cruzados|Premio del Público|
|Guion de Esperanza|Mención Honorífica|
|   Luz de Invierno|Mejor Cortometraje|
|       Ritmo y Luz|     Mejor Edición|
|Rostros del Tiempo|   Premio Especial|
|   Sueños de Acero|   Guion Destacado|
|    Vértigo Urbano| Selección Oficial|
+------------------+------------------+



In [27]:
# 7. ¿Cuántos proyectos usaron “Final Cut Pro” como herramienta principal?
spark.sql("""
        SELECT  COUNT(*) AS proyectos_final_cut_pro
        FROM film
        WHERE herramienta = "Final Cut Pro";
""").show()


+-----------------------+
|proyectos_final_cut_pro|
+-----------------------+
|                     12|
+-----------------------+



In [31]:
# 8. ¿Cuál es el proyecto con mayor duración?
spark.sql("""
        SELECT titulo, duracion_min
        FROM film
        ORDER BY duracion_min DESC
        LIMIT 1;
""").show()


+----------------+------------+
|          titulo|duracion_min|
+----------------+------------+
|Caminos Cruzados|          22|
+----------------+------------+



In [33]:
# 9. ¿Cuántos proyectos tienen un presupuesto menor a $500 USD y no han ganado premio?
spark.sql("""
        SELECT COUNT(*) AS menor_a_500_no_premio
        FROM film
        WHERE presupuesto_usd < 500 and premio IS NULL;
""").show()


+---------------------+
|menor_a_500_no_premio|
+---------------------+
|                    5|
+---------------------+



In [35]:
# 10. ¿Cuáles son los diferentes roles que aparecen en la base de datos?
spark.sql("""
        SELECT DISTINCT(rol) as roles
        FROM film
        ORDER BY roles ASC;
""").show()

+---------+
|    roles|
+---------+
| animador|
|colorista|
| director|
|   editor|
|guionista|
+---------+

