# Proyecto: Creación de RDDs

En la presente práctica veremos cómo crear un RDD de forma manual y a partir de un archivo .csv

Algunas funciones importantes en este script:

`.take(N)` Muestra los primeros N registros de un RDD

In [1]:
from pyspark import SparkContext

In [2]:
# Inicializamos un Contexto en nuestra computadora 'local'
sc = SparkContext(master='local', appName = 'transformacionesYAcciones')

## Ejemplo: Creación de un registro manualmente

In [3]:
# pasamos un conjunto de datos distribuido en paralelo:
rdd1 = sc.parallelize([1,2,3])

# verificamos el tipo de dato:
type(rdd1)

pyspark.rdd.RDD

In [4]:
# visualizamos el contenido del 'rdd1':
rdd1.collect()

[1, 2, 3]

In [5]:
# Podemos ver graficamente lo que vamos haciendo en Spark
sc

## Ejemplo: Creación de un RDD cargando un archivo .csv

In [6]:
# Visualizamos el contenido de la carpeta 'Data' 
!ls ./Data/

deporte.csv	 deportistaError.csv  modelo_relacional.jpg  salidatexto
deportista2.csv  evento.csv	      paises.csv
deportista.csv	 juegos.csv	      resultados.csv


In [7]:
# Ruta en donde se encuentran los datos con los que trabajaremos:
path = './Data/'

In [8]:
# Creamos un RDD con los datos del archivo 'paises.csv':

equiposOlimpicosRDD = sc.textFile(path+'paises.csv').map(lambda l : l.split(','))

# La primer parte de código 'equiposOlimpicosRDD = sc.textFile(path+'paises.csv')'
# carga los datos sin darle un formato (carga los datos como una columna)

# El resto de código '.map(lambda line : line.split(','))' le asigna un formato a los datos,
# y como se trata de un archivo .csv  sabemos que los elementos de un renglón están separados por una coma (,)

In [9]:
# Visualizamos los primeros N registros de RDD
# Hay que notar que el encabezado cuenta como primer registro
N=10
equiposOlimpicosRDD.take(N)

[['id', 'equipo', 'sigla'],
 ['1', '30. Februar', 'AUT'],
 ['2', 'A North American Team', 'MEX'],
 ['3', 'Acipactli', 'MEX'],
 ['4', 'Acturus', 'ARG'],
 ['5', 'Afghanistan', 'AFG'],
 ['6', 'Akatonbo', 'IRL'],
 ['7', 'Alain IV', 'SUI'],
 ['8', 'Albania', 'ALB'],
 ['9', 'Alcaid', 'POR']]

In [10]:
# liberamos la memoria del sistema:
sc.stop()