<a href="https://colab.research.google.com/github/paul3183/Pyspark_BigData_Udemy/blob/main/01_Introduccion_RDD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Instalar SDK Java 8

!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark 3.4.3

!wget -q https://archive.apache.org/dist/spark/spark-3.4.3/spark-3.4.3-bin-hadoop3.tgz

# Descomprimir el archivo descargado de Spark

!tar xf spark-3.4.3-bin-hadoop3.tgz

# Establecer las variables de entorno

import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.4.3-bin-hadoop3"

# Instalar la librería findspark

!pip install -q findspark

# Instalar pyspark

!pip install -q pyspark

# verificar la instalación ###

import findspark

findspark.init()

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").getOrCreate()

spark

In [None]:
#creando RDDS:
sc = spark.sparkContext

In [None]:
#crear un RDD vacío:
rdd_vacio = sc.emptyRDD()

In [None]:
#con parallelize:
rdd_vacio2 = sc.parallelize([],3)
rdd_vacio2.getNumPartitions()

3

In [None]:
#rdd con datos:
rdd = sc.parallelize([1,2,3,4,5])

In [None]:
rdd.collect()

[1, 2, 3, 4, 5]

In [None]:
#crear un rdd desde un archivo de texto:
rdd_texto = sc.textFile('./rdd_source.txt')
rdd_texto.collect()

['Así podemos crear', 'un RDD desde un', 'archivo de texto!!!']

In [None]:
rdd_texto_completo = sc.wholeTextFiles('./rdd_source.txt')
rdd_texto_completo.collect()

[('file:/content/rdd_source.txt',
  'Así podemos crear\nun RDD desde un\narchivo de texto!!!')]

In [None]:
#crear un RDD a partir de otro existente:
rdd_suma = rdd.map(lambda x: x + 1)
rdd_suma.collect()

[2, 3, 4, 5, 6]

In [None]:
rdd_resta = rdd.map(lambda x: x- 9)
rdd_resta.collect()

[-8, -7, -6, -5, -4]

In [None]:
rdd_cuadrado = rdd.map(lambda x: x**2)
rdd_cuadrado.collect()

[1, 4, 9, 16, 25]

In [None]:
#dataframes:
df = spark.createDataFrame([(1, 'jose'), (2, 'juan'), (3, 'paul')], ['id', 'nombre'])
df.show()

+---+------+
| id|nombre|
+---+------+
|  1|  jose|
|  2|  juan|
|  3|  paul|
+---+------+



In [None]:
rdd_df = df.rdd
rdd_df.collect()

[Row(id=1, nombre='jose'), Row(id=2, nombre='juan'), Row(id=3, nombre='paul')]

In [None]:
#EJERCICIOS:
#Cree una sesión de Spark con nombre Cap2 y asegúrese de que emplea todos los cores disponibles para ejecutar en su ambiente de trabajo.
import findspark

findspark.init()

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").appName("Cap2").getOrCreate()

spark


In [None]:
#Cree dos RDD vacíos, uno de ellos no debe contener particiones y el otro debe tener 5 particiones. Utilice vías diferentes para crear cada RDD.
sc = spark.sparkContext
rdd_vacio3 = sc.emptyRDD()
rdd_vacio3.getNumPartitions()

rdd_vacio4 = sc.parallelize([],5)

rdd_vacio4.getNumPartitions()

5

In [None]:
#Cree un RDD que contenga los números primos que hay entre 1 y 20.
rdd_primo = sc.parallelize([2, 3, 5, 7, 11, 13, 17, 19])
rdd_primo.collect()

[2, 3, 5, 7, 11, 13, 17, 19]

In [None]:
#Cree un nuevo RDD a partir del RDD creado en el ejercicio anterior el cuál solo contenga los números primos mayores a 10.
rdd_primo_restrict = rdd_primo.filter(lambda x : x > 10)
rdd_primo_restrict.collect()


[11, 13, 17, 19]

In [None]:
#Descargue el archivo de texto adjunto a esta lección como recurso y guárdelo en una carpeta llamada data en el ambiente de trabajo de Colab.


In [None]:
#Cree un RDD a partir de este archivo de texto en donde todo el documento esté contenido en un solo registro. ¿Cómo podría saber la dirección donde está guardado el archivo de texto a partir del RDD creado?
rdd_texto01 = sc.wholeTextFiles('./data/el_valor_del_big_data.txt')
rdd_texto01.collect()

[('file:/content/data/el_valor_del_big_data.txt',
  'El valor y la realidad de big data\r\nEn los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?\r\n\r\nHoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.\r\n\r\nAvances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.\r\n\r\nIdentificar el 

In [None]:
#Si necesitara crear un RDD a partir del archivo de texto cargado previamente en donde cada línea del archivo fuera un registro del RDD, ¿cómo lo haría?
rdd_texto02 = sc.textFile('./data/el_valor_del_big_data.txt')
rdd_texto02.collect()

['El valor y la realidad de big data',
 'En los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?',
 '',
 'Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.',
 '',
 'Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.',
 '',
 'Identificar el valor del big data no pasa solo por analizar