![PySpark](https://www.edureka.co/blog/wp-content/uploads/2018/07/PySpark-logo-1.jpeg)

#**Spark - Core**

A lo largo del curso vamos a explorar los elementos de Spark soportados en al marco de trabajo de python para tal fin, en esta ocasión revisaremos los elementos de la base principal de Spark, esta opción nos permitirá definir elementos en un entorno Spark y también realizar operaciones de map-reduce.

Vamos a usar Pyspark del shell de Windows para aprender las operaciones Básicas del core de SPARK.

In [None]:
import findspark
findspark.init()

In [None]:
from pyspark import SparkContext, SparkConf

In [None]:
conf = SparkConf().setAppName("alfredo").setMaster("local[*]")

In [None]:
sc = SparkContext(conf=conf)

Un RDD se puede definir a partir de un archivo o una variable de python, para este caso vamos a utilizar una lista de python para construir un RDD.

In [None]:
data = [1, 2, 3, 4, 5]
dataRDD = sc.parallelize(data)

In [None]:
type(data)

In [None]:
type(dataRDD)

###**Acciones en RDD's**

Una acción para un RDD es una operación que genera una salida.

![flujo_acciones_transformaciones](https://miro.medium.com/max/569/1*1En5bV-PbHNmkv9buFMxlg.png)

Dentro de las acciones más comunes se encuentran:

*  **collect:** recolectar todos los elementos del RDD 
*  **take:** tomar una cantidad de elementos
*  **count:** contar la cantidad de elementos tiene el RDD.

In [None]:
dataRDD.collect()

In [None]:
dataRDD.take(2)

In [None]:
dataRDD.count()

#**Trransformaciones usando Funciones Lambda**

##**Transformaciones**

Al igual que las acciones las transformaciones son operaciones que se realizan sobre un RDD pero a diferencia de las acciones estas afectan a un RDD para generar otro pero no salen de la sesión y no se muestran en pantalla hasta que una acción así lo permita.

Dentro de las transformaciones más comunes se encuentran:

*  **map:** permite aplicar una función elemento a elemento en un RDD.
*  **flatmap:** es similar a la transformación map pero retorna una lista.  
*  **filter:** permite seleccionar un conjunto de elementos que cumplan con una caracteristica dada en un RDD. 
*  **reduceByKey:** permite generar un RDD a partir de otro el cual es el resultado de una función resumen o de reducción (suma, cuenta).
*  **union:** a partir de dos RDD's se genera uno nuevo el cual tiene los elementos de ambos RDD's.
*  **intersection:** a partir de dos RDD's se genera uno nuevo el cual tiene solo los elementos comunes de los RDD's.
*  **subtract:** a partir de dos RDD's se genera uno nuevo el cual tiene los elementos del primer RDD sin los elementos del segundo RDD.

#**map**

In [None]:
dataRDD2 = dataRDD.map(lambda x: x+1)
dataRDD2.collect()

In [None]:
type(dataRDD2)

#**flatmap**

Devuelve el significado del mapa flattern si tiene un conjunto de datos con una matriz, convierte cada elemento en una matriz como una fila. En otras palabras, devuelve 0 o más elementos en la salida para cada elemento en el conjunto de datos.

In [None]:
datos = [1,2,3]
datosRDD3 =sc.parallelize(datos)

In [None]:
datosRDD4 = datosRDD3.flatMap(lambda x: range(x))
datosRDD4.collect()

In [None]:
list(range(4))

In [None]:
datosRDD5 =  datosRDD3.map(lambda x: range(x))
datosRDD5.collect()

In [None]:
rdd1 = sc.parallelize([1,2,3,4,5,6,7,8,9])
rdd2 = rdd1.map(lambda x: x* 2)
rdd2.collect()

In [None]:
rdd1 = sc.parallelize(["Es mi casa", "que queda en la mancha", "En un lugar de la mancha",  "de cuyo nombre no quiero acordarme", "la la en un de un "])
rdd2 = rdd1.map(lambda x: x.split(" "))
rdd2.collect()
rdd3 = rdd1.flatMap(lambda x: x.split(" "))
rdd3.distinct().collect()

#**filter**


In [None]:
datosRDD6 = dataRDD.filter(lambda x: x%2==0)
datosRDD6.collect()

In [None]:
rdd1 = sc.parallelize(["pescado azul", "cielo azul", "pescado blanco", "carne roja"])
rdd1.first()

In [None]:
rdd9 = sc.parallelize([3,2,4,1])
sorted(rdd9.flatMap(lambda x: range(0, x)).collect())

### **reduceByKey**

In [None]:
datosPares = sc.parallelize([("par",2),("impar",3),("par",4),("impar",5)])
datosRDD7 = datosPares.reduceByKey(lambda x,y: x+y)
datosRDD7.collect()

### **union**

In [None]:
datosUnidos = datosRDD6.union(datosRDD3)
datosUnidos.collect()

intersection

In [None]:
datosIntersectos =  datosRDD6.intersection(datosRDD3)
datosIntersectos.collect()

### **subtract**

In [None]:
datosDiferencia = datosRDD3.subtract(datosRDD6)
datosDiferencia.collect()

#**Funciones Lambda en python**

Qué son las funciones lambda en Python
En Python, las funciones lambda son también conocidas como funciones anónimas porque se definen sin un nombre.

Una función en Python se define con la palabra reservada def. Sin embargo, una función anónima se define con la palabra reservada lambda.

**Cómo se define una función anónima en Python**

La sintaxis para definir una función lambda es la siguiente:

lambda parámetros: expresión

Son funciones que pueden definir cualquier número de parámetros pero una única expresión. Esta expresión es evaluada y devuelta.
Se pueden usar en cualquier lugar en el que una función sea requerida.
Estas funciones están restringidas al uso de una sola expresión.
Se suelen usar en combinación con otras funciones, generalmente como argumentos de otra función.


#**map()**
La función map() en Python aplica una función a cada uno de los elementos de una lista.

map(una_funcion, una_lista)

Imagina que tienes una lista de enteros y quieres obtener una nueva lista con el cuadrado de cada uno de ellos.

Seguramente, lo primero que se te ha ocurrido es algo similar a lo siguiente:



In [None]:
enteros = [1, 2, 4, 7]
cuadrados = []
for e in enteros:
    cuadrados.append(e ** 2)     
print(cuadrados)

Sin embargo, podemos usar una función anónima en combinación con map() para obtener el mismo resultado de una manera mucho más simple:

In [None]:
enteros = [1, 2, 4, 7]
cuadrados = list(map(lambda x : x ** 2, enteros))
print(cuadrados)

#**filter()**
La función filter() filtra una lista de elementos para los que una función devuelve True.

filter(una_funcion, una_lista)

Imagina que quieres filtrar una lista de números para obtener solo los valores pares.

De nuevo, una primera aproximación podría ser como la siguiente:

In [None]:
valores = [1, 2, 3, 4, 5, 6, 7, 8, 9]
pares = []
for valor in valores:
    if valor % 2 == 0:
        pares.append(valor)
print(pares)

No obstante, podemos usar la función filter() y una función lambda para obtener el mismo resultado con una sola línea de código:

In [None]:
valores = [1, 2, 3, 4, 5, 6, 7, 8, 9]
pares = list(filter(lambda x : x % 2 == 0, valores))
print(pares)

#**reduce()**
La última función de esta serie que vamos a ver es la función reduce(). Esta función se utiliza principalmente para llevar a cabo un cálculo acumulativo sobre una lista de valores y devolver el resultado.

La función reduce() está incluida en el módulo functools.

En este caso, la función que se pasa como primer parámetro recibe dos argumentos.

Imagina que quieres obtener el resultado de sumar todos los elementos de una lista.

Como en las veces anteriores, la suma la puedes calcular de la siguiente manera:

In [None]:
valores = [2, 4, 6, 5, 4]
suma = 0
for el in valores:
    suma += el
print(suma)

Pero también usando la función reduce() en combinación con una función lambda:

In [None]:
from functools import reduce
suma = reduce(lambda x, y: x + y, valores)
print(suma)
21

#**Vamos a realizar un ejercicio usando lambda**

https://raw.githubusercontent.com/adiacla/bigdata/master/donQuijote.txt

Decargue el libro de Don Quijote (es un ebook)

In [None]:
libro=sc.textFile("c:\spark\data\donQuijote.txt")

In [None]:
libro.take(10)

In [None]:
resultado=libro.filter(lambda x: "Quijote" in x)

In [None]:
resultado.count()

In [None]:
resultado.take(5)

In [None]:
words = libro.flatMap(lambda x: x.split())

In [None]:
words.take(5)

In [None]:
pairs = words.map(lambda s: (s, 1))
counts = pairs.reduceByKey(lambda a, b: a + b)

In [None]:
counts.take(5)

In [None]:
counts.saveAsTextFile('resultados')

Encontrar laslíneas que tienen algún numero

In [None]:
libro.filter(lambda x: any(i.isdigit() for i in x)).take(10)

In [None]:
libro.filter(lambda x: not any(i.isdigit() for i in x)).take(10)

In [None]:
libro.filter(lambda x: any(i.isdigit() for i in x)).count()

Realizar el mismo ejercicio con el libro
counts.saveAsTextFile('resultados')

https://raw.githubusercontent.com/adiacla/bigdata/master/platillos_voladores.txt