# <center> Fundamentos de Spark </center>

### Conceptos de Spark y Componentes

Spark es un sistema de cómputo distribuido orientado al big data que trabaja en memoria y es independiente de otras tecnologías como Hadoop

Spark está constituido por:

El ecosistema de Spark incluye cinco componentes clave:

1. Spark Core es un motor distribuido de uso general para procesar datos. En él se asientan las bibliotecas de SQL, procesamiento de streaming, aprendizaje automático y computación de grafos que puedes usar juntas en las aplicaciones. Este núcleo constituye la base de los proyectos y facilita el envío de tareas distribuidas, la programación y las funciones básicas de E/S.

2. Spark SQL es el módulo que permite utilizar datos estructurados. Ofrece un método común para acceder a fuentes de datos diversas. Gracias a este módulo, puedes consultar datos estructurados de programas de Spark con SQL o con la API de DataFrame que te resulte más cómoda. Spark SQL admite la sintaxis de HiveQL y franquea el acceso a almacenes de Apache Hive. El modo de servidor proporciona conectividad estándar mediante JDBC u ODBC.

3. Spark Streaming facilita la creación de soluciones de streaming escalables y tolerantes a fallos. Como incorpora la API con integración de lenguajes de Spark al procesamiento de streaming, puedes escribir tareas de streaming igual que lo haces con las tareas por lotes. Spark Streaming no solo admite Java, Scala y Python, sino que incluye semántica de una sola vez y con reconocimiento del estado que está lista para utilizarse.

4. MLlib es la biblioteca escalable de aprendizaje automático de Spark. Contiene herramientas con las que las tareas prácticas de aprendizaje automático son sencillas y escalables, además de numerosos algoritmos de aprendizaje de uso habitual, como clasificación, regresión, recomendación y agrupación en clústeres. También incluye el flujo de trabajo y otras utilidades, como transformaciones de características, creación de flujos de procesamiento de aprendizaje automático, evaluación de modelos, álgebra lineal distribuida y estadísticas.

5. GraphX es la API de Spark para grafos y computación en paralelo de grafos. Es flexible y funciona a la perfección tanto con grafos como con colecciones, de modo que unifica en un mismo sistema el proceso de extracción, transformación y carga (ETL), los análisis exploratorios y la computación iterativa de grafos. GraphX no es solo una API muy flexible, sino que también incluye varios algoritmos de grafos. Compite en rendimiento con los sistemas de grafos más rápidos, con la ventaja de que conserva la flexibilidad, la tolerancia a fallos y la facilidad de uso de Spark.

### Creación de una sesión y context

In [3]:
import pyspark
from pyspark.sql import SparkSession

# Creación de una sesión
# Dentro de local podemos especificar el número de cores, * sería para usar todos los cores disponibles
spark = SparkSession.builder.master("local[*]").appName("Fist app").getOrCreate()
spark

In [4]:
# Creación de un contexto
sc = spark.sparkContext

## RDD

Resilient Distributed Dataset, es la principal abstracción de Spark

* Dependencias: Es uma lista que indica cómo construir un proceso o dato
* Particiones: Distribución a través de nodos, le da resiliencia
* Función de cálculo: Genera iteradores para futuros cálculos

In [5]:
# Creación de un RDD vacío

rdd_vacio = sc.emptyRDD

In [6]:
# Creación de un RDD vacío con 3 particiones usando parallelize

rdd_vacio_3 = sc.parallelize([], 3)

# Obtenemos el número de particiones
print("Número de particiones:", rdd_vacio_3.getNumPartitions())

Número de particiones: 3
