In [1]:
import pyspark

conf = pyspark.SparkConf().setAppName('JugandoASerBanquero').setMaster('local[*]') #Creamos la configuración
sc = pyspark.SparkContext(conf = conf) #Abrimos el contexto de Spark

In [2]:
import pyspark.sql

sparkSession = pyspark.sql.SparkSession(sc, jsparkSession=None)

spark = sparkSession\
.builder\
.master("local")\
.appName("holi")\
.config("spark.some.config.option", "some-value")\
.getOrCreate()

**PART 1**

In [4]:
clientesRDD = sc.textFile("../data/clientes.txt")
tarjetasRDD = sc.textFile("../data/tarjetas.txt")

In [5]:
clientesRDD.collect()

['80000000,Antonio Lopez Ramirez,Calle Cantalapiedra 8',
 '70000000,Francisco Arias Sanchez,Avenida de America 12',
 '50000000,Norberto Marias Quintana,Calle Uganda 88',
 '10000000,Julio Cortazar Carter,Calle Bruselas 14',
 '20000000,Arturo Belano Yañez,Travesia de Calvo Sotelo 13']

In [6]:
tarjetasRDD.count()

5

In [7]:
tarjetasRDD.takeSample(False, 3)

['70000000,Francisco Arias Sanchez,Visa,1200120012001200',
 '20000000,Arturo Belano Yañez,American Express,9008900890089008',
 '20000000,Arturo Belano Yañez,American Express,1111222233334444']

#### Crear un archivo Clases.py
En este archivo crea dos clases,
1. ***Cliente***, la cual tiene estos atributos:
    * DNI
    * Nombre
    * Direccion
2. ***Tarjeta***, con los siguientes atributos:
    * DNI
    * Nombre
    * Tipo de tarjeta
    * Número de tarjeta  

Como puedes observar en la carga de datos, el formato de los datos es un string por cliente o tarjeta, en el cual cada atributo está separado por una coma ",".  
Con tal de cargar los datos en los atributos de cada clase, define convenientemente la asignación de los elementos en el método \__init__ de cada clase.

In [8]:
class Cliente:
    def __init__(self, linea):
        self.dni, self.nombre, self.direccion = linea.split(',')
class Tarjeta(object):
    def __init__(self, linea):
        self.dni, self.nombre, self.tipo_tarjeta, self.num_tarjeta = linea.split(',')

#### Transforma los datos de clientes y tarjetas obtenidos
A continuación, crea los distintos objetos de clientes y tarjetas importados anteriormente. *Utiliza en al menos uno de ellos una **función lambda**.*

In [12]:
from clases import Cliente, Tarjeta

objClientesRDD = clientesRDD.map(Cliente)
objTarjetasRDD = tarjetasRDD.map(lambda x: Tarjeta(x))

Devuelve el primer cliente almacenado

In [13]:
objClientesRDD.first()

<clases.Cliente at 0x7f1e296355c0>

#### Agrupa los clientes y tarjetas en un mismo RDD
Ten en cuenta que se necesita un pairRDD para cruzar datasets.

In [14]:
# Tabla = objClientesRDD.join(objTarjetasRDD) --> Necesitamos clave-valor
joinRDD = objClientesRDD.map(lambda x: (x.dni, x)).join(objTarjetasRDD.map(lambda x: (x.dni, x)))

La estructura devuelta tiene la forma de un pair RDD,
* **key**: DNI
* **value**: Información completa del cliente y tarjeta en forma de tuple

In [15]:
joinRDD.values().collect()

[(<clases.Cliente at 0x7f1e295faba8>, <clases.Tarjeta at 0x7f1e295fac50>),
 (<clases.Cliente at 0x7f1e295fac18>, <clases.Tarjeta at 0x7f1e295facf8>),
 (<clases.Cliente at 0x7f1e295facc0>, <clases.Tarjeta at 0x7f1e295fad68>),
 (<clases.Cliente at 0x7f1e295fac88>, <clases.Tarjeta at 0x7f1e295fae10>),
 (<clases.Cliente at 0x7f1e295fadd8>, <clases.Tarjeta at 0x7f1e295faeb8>)]

In [16]:
ClientesTarjetas = joinRDD.map(lambda x: x[1][0].nombre + ' - ' + x[1][1].tipo_tarjeta + ' - ' + x[1][1].num_tarjeta)
ClientesTarjetas.collect()

['Arturo Belano Yañez - American Express - 9008900890089008',
 'Arturo Belano Yañez - American Express - 1111222233334444',
 'Francisco Arias Sanchez - Visa - 1200120012001200',
 'Norberto Marias Quintana - Visa - 1001100110011001',
 'Julio Cortazar Carter - Master Card - 2003200320032003']

In [17]:
print(joinRDD.collect()[2][0]) # Clave del tercer elemento
print(joinRDD.collect()[1][1]) # Valor del segundo elemento

70000000
(<clases.Cliente object at 0x7f1e295f2278>, <clases.Tarjeta object at 0x7f1e295f2128>)


#### Devuelve los datos cruzados
Se pide que se devuelvan los datos con este formato.  

*Nombre - Tipo de tarjeta - Número de tarjeta*

Como vemos, al cruzar ambas tablas hay clientes que tienen más de una tarjeta, y por ello aparecen duplicados en la tabla de ClientesTarjetas. Por ello, a continuación agrupa las tarjetas y clientes únicos, de manera que obtengas un pairRDD con la siguiente estructura:
* **key**: Cliente
* **value**: Tarjetas, en forma de lista

Debe quedar un RDD de estructura similar a:  
***\[(Cliente1, [Tarjeta1, Tarjeta2]),  
(Cliente2, [Tarjeta1, Tarjeta2, Tarjeta3]),  
(Cliente3, [Tarjeta1])\]***

In [18]:
GroupedByDNI = joinRDD.groupByKey()
GroupedByDNI.collect()

[('20000000', <pyspark.resultiterable.ResultIterable at 0x7f1e29649748>),
 ('70000000', <pyspark.resultiterable.ResultIterable at 0x7f1e296498d0>),
 ('50000000', <pyspark.resultiterable.ResultIterable at 0x7f1e29649c18>),
 ('10000000', <pyspark.resultiterable.ResultIterable at 0x7f1e296496a0>)]

Como se observa en la anterior ejecución, los valores del RDD GroupedByDNI son objetos iterables (que no podemos recorrer mediante un for), en cambio podemos mapear los valores mediante la función lista.

In [19]:
GroupedByDNI = joinRDD.groupByKey().mapValues(list)
# GroupedByDNI = Finaljoin.map(lambda x: (x[0],list(x[1]))) # Es equivalente a la anterior linea
GroupedByDNI.collect()

[('20000000',
  [(<clases.Cliente at 0x7f1e29649f28>, <clases.Tarjeta at 0x7f1e29635cc0>),
   (<clases.Cliente at 0x7f1e29649f28>, <clases.Tarjeta at 0x7f1e29635d30>)]),
 ('70000000',
  [(<clases.Cliente at 0x7f1e296352b0>, <clases.Tarjeta at 0x7f1e29635b38>)]),
 ('50000000',
  [(<clases.Cliente at 0x7f1e29635518>, <clases.Tarjeta at 0x7f1e29635630>)]),
 ('10000000',
  [(<clases.Cliente at 0x7f1e29635c18>, <clases.Tarjeta at 0x7f1e296358d0>)])]

In [20]:
def ExtractCards(x):
    value = []
    for elemento in x[1]:
        key = elemento[0]
        key = key.nombre
        valor = elemento[1]
        value.append(valor)
    return (key,value)

In [21]:
ClientesTarjetas = GroupedByDNI.map(ExtractCards)
ClientesTarjetas.collect()

[('Arturo Belano Yañez',
  [<clases.Tarjeta at 0x7f1e296039e8>, <clases.Tarjeta at 0x7f1e29603278>]),
 ('Francisco Arias Sanchez', [<clases.Tarjeta at 0x7f1e29603048>]),
 ('Norberto Marias Quintana', [<clases.Tarjeta at 0x7f1e29603160>]),
 ('Julio Cortazar Carter', [<clases.Tarjeta at 0x7f1e29603240>])]

In [22]:
ClientesTarjetas = joinRDD.map(lambda x: x[1][0].dni + ',' + x[1][0].nombre + ',' + x[1][0].direccion + ',' + x[1][1].tipo_tarjeta + ',' + x[1][1].num_tarjeta)
ClientesTarjetas.saveAsTextFile("../data/bankcards")

**PART 2**

In [24]:
from pyspark.sql.types import *
schemaCards = (StructType([
    StructField("DNI", IntegerType(), True),
    StructField("Name", StringType(), True),
    StructField("Address", StringType(), True),
    StructField("CardType", StringType(), True),
    StructField("CardNumber", LongType(), True)]))

clientscards = spark.read.load("../data/bankcard.csv",
                     format="csv", sep=",", header="true", schema = schemaCards)

clientscards.show()

+--------+--------------------+--------------------+----------------+----------------+
|     DNI|                Name|             Address|        CardType|      CardNumber|
+--------+--------------------+--------------------+----------------+----------------+
|20000000| Arturo Belano Yañez|Travesia de Calvo...|American Express|9008900890089010|
|20000000| Arturo Belano Yañez|Travesia de Calvo...|American Express|1111222233334444|
|70000000|Francisco Arias S...|Avenida de Americ...|            Visa|1200120012001200|
|50000000|Norberto Marias Q...|     Calle Uganda 88|            Visa|1001100110011001|
|10000000|Julio Cortazar Ca...|   Calle Bruselas 14|     Master Card|2003200320032003|
+--------+--------------------+--------------------+----------------+----------------+



In [25]:
clientscards.printSchema()

root
 |-- DNI: integer (nullable = true)
 |-- Name: string (nullable = true)
 |-- Address: string (nullable = true)
 |-- CardType: string (nullable = true)
 |-- CardNumber: long (nullable = true)



In [26]:
VISA = clientscards.filter(clientscards['CardType'] == 'Visa')
VISA.select(VISA['Name'], VISA['DNI']).show()

+--------------------+--------+
|                Name|     DNI|
+--------------------+--------+
|Francisco Arias S...|70000000|
|Norberto Marias Q...|50000000|
+--------------------+--------+



In [27]:
clientscards.groupBy("CardType").count().show()

+----------------+-----+
|        CardType|count|
+----------------+-----+
|American Express|    2|
|            Visa|    2|
|     Master Card|    1|
+----------------+-----+



In [28]:
clientscards.createOrReplaceTempView("clientestarjetas")

sqlDF = spark.sql("SELECT Name, DNI FROM clientestarjetas WHERE CardType='American Express' ")
sqlDF.distinct().show()

+-------------------+--------+
|               Name|     DNI|
+-------------------+--------+
|Arturo Belano Yañez|20000000|
+-------------------+--------+



#### Finalice el contexto de Spark

In [29]:
sc.stop()