<a href="https://colab.research.google.com/github/bddonoso/prtueba/blob/master/Spark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install pyspark




In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Ejemplo Spark en Colab") \
    .getOrCreate()

print("Versión de Spark:", spark.version)


Versión de Spark: 3.5.1


In [None]:
#Creando un archivo csv prueba
data = """ id,producto,cantidad,precio
1,laptop,2,3500
2,mouse,10,50
3,teclado,5,120
4,monitor,3,800
5,laptop,1,3500
"""
with open("ventas.csv", "w") as f:
    f.write(data)
#Cargar el csv en dataframe de spark
df = spark.read.csv("ventas.csv", header=True, inferSchema=True)
#Mostrar contenido
df.show()

+---+--------+--------+------+
| id|producto|cantidad|precio|
+---+--------+--------+------+
|  1|  laptop|       2|  3500|
|  2|   mouse|      10|    50|
|  3| teclado|       5|   120|
|  4| monitor|       3|   800|
|  5|  laptop|       1|  3500|
+---+--------+--------+------+



In [None]:
df.select("producto", "precio").show()

+--------+------+
|producto|precio|
+--------+------+
|  laptop|  3500|
|   mouse|    50|
| teclado|   120|
| monitor|   800|
|  laptop|  3500|
+--------+------+



In [None]:
df.filter(df["precio"] > 1500).show()

+---+--------+--------+------+
| id|producto|cantidad|precio|
+---+--------+--------+------+
|  1|  laptop|       2|  3500|
|  5|  laptop|       1|  3500|
+---+--------+--------+------+



In [None]:
df.groupBy("producto").sum("cantidad").show()

+--------+-------------+
|producto|sum(cantidad)|
+--------+-------------+
|  laptop|            3|
| monitor|            3|
| teclado|            5|
|   mouse|           10|
+--------+-------------+



In [None]:
#registrar el DataFrame como una tabla temporal
df.createOrReplaceTempView("ventas")

#consulto con SQL
consulta = spark.sql("""
SELECT producto, sum(cantidad) as total_vendido, AVG(precio) as precio_promedio
FROM ventas
GROUP BY producto
ORDER BY total_vendido DESC
""")
consulta.show()


+--------+-------------+---------------+
|producto|total_vendido|precio_promedio|
+--------+-------------+---------------+
|   mouse|           10|           50.0|
| teclado|            5|          120.0|
|  laptop|            3|         3500.0|
| monitor|            3|          800.0|
+--------+-------------+---------------+



In [None]:
rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

rdd_cuadros = rdd.map(lambda x: x*x)

print("Cuadrados", rdd_cuadros.collect())

Cuadrados [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


In [None]:
suma_total = rdd.reduce(lambda x, y: x + y)
print("Suma total", suma_total)


Suma total 55
