# Creación de un RDD

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/oramosul/abd-files/blob/main/spark/1-spark-rdd/1-Creacion-RDD.ipynb)

* Si se está trabajando en Google Colab se debe instalar `pyspark` y luego iniciar el contexto de spark (`SparkContext`).
* Si se está trabajando en un entorno que soporta Spark, como Databricks, no es necesario este paso ya que contiene por defecto un contexto de Spark ya iniciado.

In [1]:
!pip install -q pyspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


## 1.&nbsp;Inicialización del contexto de Spark

Solo es necesario si el entorno en el que se está trabajando no tiene un contexto ya creado (por ejemplo, si se utiliza Google Colab, o si se está trabajando en un archivo .py).

El valor de `local[1]` indica que se está trabajando en modo local con solamente 1 hilo ("thread"). Se puede incrementar el número de hilos según la cantidad de núcleos que tenga la computadora local.

In [2]:
from pyspark import SparkContext

# Creación del contexto de Spark
sc = SparkContext("local[1]", "aplicacion_ejemplo")

Las siguientes instrucciones obtienen el contexto de Spark creado y devuelven sus principales elementos (la mayoría, en este caso, asignados por defecto)

In [3]:
# Configuración del contexto de Spark
conf = sc.getConf().getAll()

for elem in conf:
  print(elem)

('spark.driver.extraJavaOptions', '-Djava.net.preferIPv6Addresses=false -XX:+IgnoreUnrecognizedVMOptions --add-opens=java.base/java.lang=ALL-UNNAMED --add-opens=java.base/java.lang.invoke=ALL-UNNAMED --add-opens=java.base/java.lang.reflect=ALL-UNNAMED --add-opens=java.base/java.io=ALL-UNNAMED --add-opens=java.base/java.net=ALL-UNNAMED --add-opens=java.base/java.nio=ALL-UNNAMED --add-opens=java.base/java.util=ALL-UNNAMED --add-opens=java.base/java.util.concurrent=ALL-UNNAMED --add-opens=java.base/java.util.concurrent.atomic=ALL-UNNAMED --add-opens=java.base/jdk.internal.ref=ALL-UNNAMED --add-opens=java.base/sun.nio.ch=ALL-UNNAMED --add-opens=java.base/sun.nio.cs=ALL-UNNAMED --add-opens=java.base/sun.security.action=ALL-UNNAMED --add-opens=java.base/sun.util.calendar=ALL-UNNAMED --add-opens=java.security.jgss/sun.security.krb5=ALL-UNNAMED -Djdk.reflect.useDirectMethodHandle=false')
('spark.executor.id', 'driver')
('spark.driver.host', 'e514a2224836')
('spark.driver.port', '38647')
('spar

## 2.&nbsp;Creación de RDDs

### 2.1. RDD a partir de una lista

In [4]:
# Lista de Python
lista = [20, 3, 5, 7, 2, 10]
num_particiones = 2

# Creación del RDD
rdd = sc.parallelize(lista, num_particiones)

# Mostrar el tipo de dato (RDD)
print(rdd)

ParallelCollectionRDD[0] at readRDDFromFile at PythonRDD.scala:289


In [5]:
# Visualizar todo el contenido del RDD
rdd.collect()

[20, 3, 5, 7, 2, 10]

In [6]:
# Visualizar solo el primer elemento del RDD
rdd.first()

20

In [7]:
# Número de particiones del RDD
rdd.getNumPartitions()

2

In [8]:
# No funciona en Colab pero sí en Spark que tiene acceso a una IP pública
# sc.uiWebUrl

### 2.2. RDD a partir de un archivo

Se descargará los siguientes datos a modo de muestra. Si no se descarga, se pueden cargar manualmente.

In [9]:
!wget -q https://raw.githubusercontent.com/oramosul/abd-files/main/spark/datos/DowJones19.csv

En este caso se está cargando un archivo de la computadora local. En el caso de estar trabajando en un clúster, el archivo se indicaría a través de una ruta a HDFS.

In [12]:
# Lectura del archivo
rdd2 = sc.textFile("DowJones19.csv")

# VIsualización de las primeras 5 líneas
rdd2.take(5)

['Date,Open,High,Low,Close,Adj Close,Volume',
 '2014-10-27,16796.099609,16836.980469,16729.830078,16817.939453,16817.939453,72580000',
 '2014-10-28,16825.189453,17006.449219,16825.189453,17005.750000,17005.750000,83870000',
 '2014-10-29,17005.070313,17065.500000,16895.380859,16974.310547,16974.310547,76450000',
 '2014-10-30,16968.140625,17223.960938,16920.759766,17195.419922,17195.419922,80180000']

### 2.3. RDD a partir de otro RDD

Se puede obtener un nuevo RDD aplicando una transformación a otro RDD. En este ejemplo, se creará un RDD con `parallelize` y luego utilizando la transformación `map` se creará un nuevo RDD.

In [13]:
rdd = sc.parallelize([10, 30, 50, 70])

# Transformación para crear un nuevo rdd
rdd2 = rdd.map(lambda x: x+5)

# Mostrar el nuevo RDD
rdd2.collect()

[15, 35, 55, 75]