In [1]:
# Crear puntos de entrada spark
try:
    sc.stop()
except:
    pass
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
sc=SparkContext()
spark = SparkSession(sparkContext=sc)

# Objeto RDD

La clase `pyspark.SparkContext` crea un cliente que se conecta a un cluster de Spark. Este cliente se puede utilizar para crear un objeto RDD. Existen dos métodos de esta clase para crear directamente objetos RDD:
* `parallelize()`
* `textFile()`

## `parallelize()`

`parallelize()` Distribuye en local **python collection** para formar RDD. Las colecciones de python incorporadas más comunes incluyen  `dist`, `list`, `tuple` or `set`.

Ejemplos:

In [2]:
# Lista
rdd = sc.parallelize([1,2,3])
rdd.collect()

[1, 2, 3]

In [3]:
# Tupla
rdd = sc.parallelize(('cat', 'dog', 'fish'))
rdd.collect()

['cat', 'dog', 'fish']

In [4]:
# Lista de Tuplas
list_t = [('cat', 'dog', 'fish'), ('orange', 'apple')]
rdd = sc.parallelize(list_t)
rdd.collect()

[('cat', 'dog', 'fish'), ('orange', 'apple')]

In [5]:
# Set
s = {'cat', 'dog', 'fish', 'cat', 'dog', 'dog'}
rdd = sc.parallelize(s)
rdd.collect()

['fish', 'dog', 'cat']

Cuando se trata de un `dict`, sólo se utilizan las teclas para formar el RDD.

In [6]:
# Dict
d = {
    'a': 100,
    'b': 200,
    'c': 300
}
rdd = sc.parallelize(d)
rdd.collect()

['a', 'b', 'c']

## `textFile()`

El `textFile()` es una funcion lee un archivo de texto y lo devuelve como un **RDD of strings**. Por lo general, tendrá que aplicar algunas **map** para transformar cada elemento del RDD en una estructura/tipo de datos que sea adecuada para el análisis de datos.

**Cuando se utiliza `textFile()`, cada línea del archivo de texto se convierte en un elemento del archivo de texto resultantando RDD.**

Por ejemplo:

In [7]:
# Leer archivo csv
rdd = sc.textFile('../../data/mtcars.csv')
rdd.take(5)

[',mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb',
 'Mazda RX4,21,6,160,110,3.9,2.62,16.46,0,1,4,4',
 'Mazda RX4 Wag,21,6,160,110,3.9,2.875,17.02,0,1,4,4',
 'Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1',
 'Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,1,0,3,1']

In [8]:
# Leer archivo txt
rdd = sc.textFile('../../data/twitter.txt')
rdd.take(5)

['Fresh install of XP on new computer. Sweet relief! fuck vista\t1018769417\t1.0',
 'Well. Now I know where to go when I want my knives. #ChiChevySXSW http://post.ly/RvDl\t10284216536\t1.0',
 '"Literally six weeks before I can take off ""SSC Chair"" off my email. Its like the torturous 4th mile before everything stops hurting."\t10298589026\t1.0',
 'Mitsubishi i MiEV - Wikipedia, the free encyclopedia - http://goo.gl/xipe Cutest car ever!\t109017669432377344\t1.0',
 "'Cheap Eats in SLP' - http://t.co/4w8gRp7\t109642968603963392\t1.0"]