<a href="https://colab.research.google.com/github/RogerCS17/portfolio-python/blob/main/Big%20Data/Spark/exercises_spark01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# SparkSession

## Teoría

In [1]:
# Instalación de PySpark en Google Colab
!pip install pyspark



In [2]:
# Importamos la librería
from pyspark.sql import SparkSession

# Creamos una sesión de spark
spark = SparkSession.builder.getOrCreate()

# Mostramos el resultado
spark

In [3]:
# Creamos el SparkContext
# Punto de entrada para cualquier funcionalidad de Spark
sc = spark.sparkContext

# Mostramos el resultado
sc

In [4]:
# Crear un RDD
# RDD: Estructura de Datos fundamental en Spark
# RDD vacío
rdd_empty = sc.emptyRDD

# Mostramos el resultado
rdd_empty

In [5]:
# Creamos un RDD con parallelize
# parallelize: Convierte uan colección de Python en RDD
# Primer argumento: La colección
# Segundo argumento: Las particiones
rdd_empty01 = sc.parallelize([], 3)

# Obtenemos el número de particiones de nuestro RDD
# Mostramos el resultado
rdd_empty01.getNumPartitions()

3

In [6]:
# Creamos otro RDD con datos
rdd = sc.parallelize([1,2,3,4,5])

# Mostramos el resultado
rdd.collect()

[1, 2, 3, 4, 5]

In [7]:
# Crear un RDD desde un archivo de texto
rdd_text_file = sc.textFile("./rdd_source.txt")

# Mostramos el resultado
rdd_text_file.collect()

['Así podemos crear', 'un RDD desde un', 'archivo de texto!!!']

In [8]:
# Creamos un RDD donde el archivo de texto sea solo un registro
rdd_full_text_file = sc.wholeTextFiles("./rdd_source.txt")

# Mostramos el resultado
rdd_full_text_file.collect()

[('file:/content/rdd_source.txt',
  'Así podemos crear\nun RDD desde un\narchivo de texto!!!')]

In [9]:
# Crear un RDD a partir de uno existente
rdd_add = rdd.map(lambda x: x+1)

# Mostramos el resultado
rdd_add.collect()

[2, 3, 4, 5, 6]

In [10]:
# Crear un RDD a partir de un DataFrame
df = spark.createDataFrame([(1, "Roger"), (2, "Omar")], ["id", "nombre"])

# Mostramos el resultado
df.show()

+---+------+
| id|nombre|
+---+------+
|  1| Roger|
|  2|  Omar|
+---+------+



## Ejercicios

1. Cree una sesión de Spark con nombre Cap2 y asegúrese de que emplea todos los cores disponibles para ejecutar en su ambiente de trabajo.

In [11]:
# Importamos la librería
from pyspark.sql import SparkSession

# Creamos una sesión de spark
spark = SparkSession.builder.master("local[*]").getOrCreate()
sc = spark.sparkContext

2. Cree dos RDD vacíos, uno de ellos no debe contener particiones y el otro debe tener 5 particiones. Utilice vías diferentes para crear cada RDD.

In [12]:
# RDD vacío sin particiones
rdd01 = sc.emptyRDD

# RDD vacío con 5 particiones
rdd02 = sc.parallelize([], 5)

3. Cree un RDD que contenga los números primos que hay entre 1 y 20.

In [13]:
# Hallamos los número primos del 1 al 20
# Lista de primos
list_prime_numbers = [2,3,5,7,11,13,17,19]

# Creamos el RDD
rdd_prime = sc.parallelize(list_prime_numbers)

# Mostramos el resultado
rdd_prime.collect()

[2, 3, 5, 7, 11, 13, 17, 19]

4. Cree un nuevo RDD a partir del RDD creado en el ejercicio anterior el cuál solo contenga los números primos mayores a 10.

In [14]:
# Filtramos a partir del rdd creado anteriormente
rdd_greater_than_10 = rdd_prime.filter(lambda x: x > 10)

# Mostramos el resultado
rdd_greater_than_10.collect()

[11, 13, 17, 19]

5. Cree un RDD a partir de este archivo de texto en donde todo el documento esté contenido en un solo registro. ¿Cómo podría saber la dirección donde está guardado el archivo de texto a partir del RDD creado?

In [15]:
# Con el método wholeTextFiles obtenemos todo como un solo registro
# con su dirección
rdd_full_doc_text = sc.wholeTextFiles("./el_valor_del_big_data.txt")

# Mostramos el resultado
rdd_full_doc_text.collect()

[('file:/content/el_valor_del_big_data.txt',
  'El valor y la realidad de big data\r\nEn los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?\r\n\r\nHoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.\r\n\r\nAvances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.\r\n\r\nIdentificar el valor

6. Si necesitara crear un RDD a partir del archivo de texto cargado previamente en donde cada línea del archivo fuera un registro del RDD, ¿cómo lo haría?

In [16]:
# Con el método textFile(), cada línea del archivo, es un registro
rdd_doc_text = sc.textFile("./el_valor_del_big_data.txt")

# Mostramos el resultado
rdd_doc_text.collect()

['El valor y la realidad de big data',
 'En los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?',
 '',
 'Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.',
 '',
 'Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.',
 '',
 'Identificar el valor del big data no pasa solo por analizar