## Ejercicio Práctico: Introducción a PySpark

### Objetivo:
Este ejercicio tiene como objetivo familiarizarte con la creación y manipulación de RDDs (Resilient Distributed Datasets) utilizando PySpark. Aprenderás a realizar transformaciones y acciones básicas en RDDs.

### Instrucciones:
1. Crear un RDD a partir de una lista de números.
2. Mostrar el contenido del RDD.
3. Realizar una transformación en el RDD.
4. Filtrar los datos transformados.
5. Contar y recolectar los elementos del RDD resultante.


### A continuación, se va a mencionar qué pasos hay que seguir
#### 01. Configuración del entorno Spark
- Asegúrate de tener PySpark instalado.
- Inicia el contexto y la sesión de Spark.

In [15]:
# Ingresar código

import findspark
findspark.init()

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

conf = SparkConf().setAppName("Ejercicio Práctico").setMaster("local")
sc = SparkContext(conf=conf)
spark = SparkSession.builder.appName("Ejercicio Práctico").getOrCreate()


#### Si les aparece este problema:
```

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=Ejercicio Práctico, master=local) created by __init__ at /tmp/ipykernel_11231/3495782143.py:10 

```

#### Es necesario ejecutar:

In [8]:
# Detener cualquier SparkContext existente
if 'sc' in locals():
    sc.stop()

# Crear un Spark Context
sc = SparkContext(conf=conf)

# Crear una Spark Session con un nuevo nombre
spark = SparkSession.builder \
    .appName("Spark Session2") \
    .getOrCreate()

# Verificar si la Spark Session está activa
if 'spark' in locals() and isinstance(spark, SparkSession):
    print("SparkSession está activa y lista para usar.")
else:
    print("SparkSession no está activa. Por favor, crea una SparkSession.")

SparkSession está activa y lista para usar.


#### 02. Crear un RDD
Crea un RDD a partir de una lista de números del 1 al 20.


In [16]:
# Ingresar código
data = range(1, 21)
dataRDD = sc.parallelize(data)

#### 03. Mostrar el contenido del RDD

In [17]:
print("Contenido del RDD:", dataRDD.collect())

[Stage 0:>                                                          (0 + 1) / 1]

Contenido del RDD: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]


                                                                                

#### 04. Realizar una transformación
Incrementa cada número en el RDD en 10.

In [18]:
# Ingresar código
incrementedRDD = dataRDD.map(lambda x: x + 10)

#### 05. Filtrar los datos
Filtra los números para conservar solo aquellos mayores a 20.

In [19]:
# Ingresar código
filteredRDD = incrementedRDD.filter(lambda x: x > 20)

#### 06. Acciones en el RDD
- Imprime los elementos del RDD resultante.
- Di cuantos elementos hay en el RDD resultante.

In [20]:
# Ingresar código
print("Elementos del RDD filtrado:", filteredRDD.collect())
print("Cantidad de elementos en el RDD filtrado:", filteredRDD.count())

Elementos del RDD filtrado: [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]
Cantidad de elementos en el RDD filtrado: 10


#### Ejecutar la última acción recomendada para finalizar la actividad

In [21]:
# Detener la sesión de spark
spark.stop() 