In [None]:
pip install pyspark

In [None]:
conda install pyspark

<h2>¿Qué es Spark?</h2> <p>Spark es una de las últimas tecnologías que se están utilizando para manejar grandes datos de forma rápida y sencilla. Es un proyecto de código abierto en Apache. Fue lanzado por primera vez en febrero de 2013 y se ha vuelto muy popular debido a su facilidad de uso y velocidad. Fue creado en el laboratorio AMPLab de la UC Berkeley.</p> 


<h3>Características clave</h3> <ul> <li>Spark es 100 veces más rápido que Hadoop MapReduce</li> <li>Spark no almacena nada a menos que se aplique una acción sobre los datos</li> </ul>

![imagen.png](attachment:imagen.png)

# Uso de Spark 

![imagen.png](attachment:imagen.png)

Tiene una documentación muy completa con muchos ejemplos. Incluye APIs para Java, Scala, Python y R y herramientas de alto nivel en Spark SQL que permiten trabajar con todo tipo de funciones integradas y con buenas velocidades de procesamiento.

![imagen.png](attachment:imagen.png)

<h2>Procesamiento de datos en tiempo real y por lotes: Spark</h2>

<p>Spark es versátil y puede manejar tanto el procesamiento de datos en tiempo real como el procesamiento por lotes. Esto significa que puedes realizar análisis en tiempo real de flujos de datos continuos, así como procesar grandes conjuntos de datos históricos.</p>

<h3>Rendimiento</h3> 

<p>Una de las características distintivas de Spark es su alto rendimiento. Spark utiliza la memoria en lugar de acceder repetidamente al almacenamiento en disco, lo que lo hace significativamente más rápido que sistemas como Hadoop MapReduce. Spark es capaz de optimizar el procesamiento de datos a través de la ejecución en memoria y la planificación de tareas.</p>

<h3>APIs en múltiples lenguajes</h3>

<p>Spark proporciona APIs en varios lenguajes de programación, incluyendo Scala, Java, Python y R. Esto hace que sea accesible para una amplia gama de desarrolladores.</p>

<h3>Soporte para análisis de datos avanzados</h3> 

<p>Spark incluye bibliotecas integradas para realizar análisis de datos avanzados, incluyendo SQL, Machine Learning, procesamiento de gráficos y procesamiento de flujos en tiempo real.</p>

<h3>Abstracción de datos</h3>

<p>Spark introduce una abstracción llamada Resilient Distributed Dataset (RDD) que facilita el procesamiento distribuido y la recuperación de fallos.</p>

<h3>Escalabilidad horizontal</h3>

<p>Spark se escala horizontalmente, lo que significa que puede manejar grandes conjuntos de datos distribuidos en múltiples nodos de un clúster.</p>

</html>

<h2>Campos de uso comunes de Apache Spark</h2>

<h3>Análisis de datos y ciencia de datos</h3>
<p>Spark se utiliza extensamente en la ciencia de datos para el procesamiento y análisis de grandes conjuntos de datos. Facilita la limpieza, transformación y análisis de datos, además de la construcción de modelos de machine learning con su biblioteca MLlib.</p>

<h3>Procesamiento de datos en tiempo real</h3> 
<p>Spark Streaming permite el procesamiento de flujos de datos en tiempo real, lo que lo hace adecuado para aplicaciones como análisis de logs, monitoreo en tiempo real, detección de fraudes y más.</p>

<h3>Procesamiento de lenguaje natural</h3>
<p>Spark se utiliza para el procesamiento de lenguaje natural (NLP) y tareas como el análisis de sentimientos, extracción de información y resumen de texto.</p>

<h3>Análisis de datos geoespaciales</h3>
<p>Spark se utiliza para procesar y analizar datos geoespaciales en aplicaciones como la cartografía, la navegación y la toma de decisiones basada en la ubicación.</p>

<h3>Análisis de redes sociales</h3>  
<p>Para analizar redes sociales y datos de medios sociales, Spark puede ayudar en la recopilación, limpieza y análisis de datos de plataformas como Twitter, Facebook y LinkedIn.</p>

<h3>Análisis de datos financieros</h3>
<p>En el sector financiero, Spark se utiliza para análisis de riesgos, detección de fraudes, análisis de carteras y otras tareas relacionadas con datos financieros.</p>

<h3>Procesamiento de logs y registros</h3>
<p>Spark es valioso para el procesamiento de logs de aplicaciones y servidores, lo que facilita la detección de problemas y la monitorización en tiempo real.</p>

<!-- más secciones -->

## Iniciar una sesión de Spark:

En esta parte, estamos importando la biblioteca SparkSession de PySpark y creando una sesión de Spark llamada "EjemploSpark". Esta sesión es necesaria para interactuar con Spark y procesar los datos.

In [31]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Test_Session_Spark').getOrCreate()

### Cargar un archivo CSV en un DataFrame:

Supongamos que tienes un archivo CSV llamado ventas.csv con las siguientes columnas: `fecha`, `producto`, `cantidad`, `precio_unitario`.

Supongamos que tienes un archivo CSV llamado "ventas.csv" que contiene información sobre las ventas. Utilizamos PySpark para cargar estos datos en un DataFrame llamado df. 

El argumento `header=True` indica que la primera fila del archivo CSV contiene nombres de columnas

`inferSchema=True` le dice a PySpark que intente inferir automáticamente el tipo de datos de cada columna.

In [32]:
df = spark.read.csv('ventas.csv', header = True, inferSchema= True)

### Realizar algunas operaciones básicas en los datos:
    a. Mostrar las primeras filas del DataFrame:

Usamos `df.show()` para mostrar las primeras filas del DataFrame. Esto nos da una vista previa de cómo se ven los datos.

In [5]:
df.show(4)

+-------------------+----------+--------+---------------+
|              fecha|  producto|cantidad|precio_unitario|
+-------------------+----------+--------+---------------+
|2023-10-08 00:00:00|Producto-4|      52|         161.93|
|2023-10-03 00:00:00|Producto-6|      56|         160.36|
|2023-10-08 00:00:00|Producto-5|      87|         113.47|
|2023-10-27 00:00:00|Producto-5|      76|          132.2|
+-------------------+----------+--------+---------------+
only showing top 4 rows



In [6]:
df.show(7)

+-------------------+----------+--------+---------------+
|              fecha|  producto|cantidad|precio_unitario|
+-------------------+----------+--------+---------------+
|2023-10-08 00:00:00|Producto-4|      52|         161.93|
|2023-10-03 00:00:00|Producto-6|      56|         160.36|
|2023-10-08 00:00:00|Producto-5|      87|         113.47|
|2023-10-27 00:00:00|Producto-5|      76|          132.2|
|2023-10-05 00:00:00|Producto-6|       9|          87.33|
|2023-10-07 00:00:00|Producto-6|      46|         182.86|
|2023-10-25 00:00:00|Producto-1|      87|         159.91|
+-------------------+----------+--------+---------------+
only showing top 7 rows



    b. Calcular la suma total de ventas:

Utilizamos la función sum de PySpark para calcular la suma total de ventas multiplicando la cantidad vendida por el precio unitario de cada producto. Luego, mostramos el resultado con `total_ventas.show()`.

In [33]:
from pyspark.sql.functions import sum

total_ventas = df.select(sum(df['cantidad']*df['precio_unitario']))
total_ventas.show()

+---------------------------------+
|sum((cantidad * precio_unitario))|
+---------------------------------+
|              2.633958848000005E7|
+---------------------------------+



c. Calcular el producto más vendido:

Calcular el producto más vendido:

Agrupamos los datos por el nombre del producto y calculamos la suma de la cantidad vendida para cada producto. Luego, ordenamos los resultados en orden descendente para encontrar el producto más vendido y mostramos esa información.

In [34]:
from pyspark.sql.functions import desc

prod_mas_vendido = df.groupBy('producto').agg(sum('cantidad').alias('total_vendido')).orderBy(desc('total_vendido')).first()
print(f"El producto mas vendido es {prod_mas_vendido['producto']} con {prod_mas_vendido['total_vendido']} unidades vendidas.")

El producto mas vendido es Producto-2 con 26849 unidades vendidas.


In [18]:
prod_mas_vendido

Row(producto='Producto-2', total_vendido=26849)

In [None]:
prod_mas_vendido = df.groupBy('producto').agg(sum('cantidad').alias('total_vendido')).orderBy(desc('total_vendido')).first()
print(f"El producto mas vendido es {prod_mas_vendido['producto']} con {prod_mas_vendido['total_vendido']} unidades vendidas.")

In [21]:
prod_mas_vendido.show()

+-----------+-------------+
|   producto|total_vendido|
+-----------+-------------+
| Producto-2|        26849|
| Producto-4|        26134|
| Producto-9|        25959|
| Producto-1|        25480|
| Producto-3|        25176|
| Producto-6|        25087|
|Producto-10|        24969|
| Producto-7|        24683|
| Producto-8|        24524|
| Producto-5|        23115|
+-----------+-------------+



d. Calcular el promedio de precio unitario por producto:

De manera similar, agrupamos los datos por el nombre del producto y calculamos el promedio del precio unitario para cada producto. Mostramos estos resultados.

In [37]:
from pyspark.sql.functions import avg, round

df = df.withColumn('precio_unitario', round(df['precio_unitario'],2))

precio_promedio = df.groupBy('producto').agg(avg('precio_unitario').alias('precio_promedio'))

precio_promedio = precio_promedio.withColumn('precio_promedio', round(precio_promedio['precio_promedio'],2))

precio_promedio.show()

+-----------+---------------+
|   producto|precio_promedio|
+-----------+---------------+
| Producto-8|         106.59|
| Producto-5|         103.12|
| Producto-9|         107.18|
|Producto-10|         104.44|
| Producto-4|         104.08|
| Producto-7|         106.79|
| Producto-1|         105.61|
| Producto-2|         105.65|
| Producto-6|          99.92|
| Producto-3|         104.28|
+-----------+---------------+



### Finalizar la sesión de Spark:

Una vez que hayamos terminado de trabajar con los datos, es importante detener la sesión de Spark para liberar recursos. Esto se hace con spark.stop().

In [38]:
spark.stop()