# Con un poco de ayuda de Python

Para este _hands on_ utilizaremos `python`, primero introduciremos algunos conceptos básicos del lenguaje y luego nos dedicaremos a `apache spark`, en particular `pyspark`

## Ejemplo de código de python

Para mostrar las facilidades de comprensión de los programas en `python` observe lo siguiente:

```python

for line in open(”file.txt”):
    for word in line.split():
        if word.endswith(”ing”):
            print word
```

Esto se puede leer línea por línea en inglés

## Funciones en python

En términos básicos una _función_ es una manera de empaquetar código para su posterior reuso.

In [None]:
def repetir(texto, num_veces):
    return texto*num_veces

In [None]:
monty = "Monty Python "
repetir(monty, 3)

También existen las funciones anónimas o funciones _lambda_

In [None]:
cubo = lambda x: x*x*x

In [None]:
cubo(3)

## Tipos de datos en python

Una **lista** es un conjunto ordenado de elementos

In [None]:
variable_3 = [10, "John Smith", ['another', 'list']]
variable_3

In [None]:
variable_3[0] # Observa que este es un comentario y que la lista empieza en 0, no en 1

In [None]:
variable_3[2] = "Adolfo"
variable_3

Una **tupla** es una lista inmutable

In [None]:
variable_4 = (10, "John Smith")
variable_4

Un **diccionario** contiene pares llave-valor (KV)

In [None]:
variable_5 = {"name": "John Smith", "age": 45}
variable_5

In [None]:
variable_5['name']

In [None]:
variable_5['name'] = 'Adolfo De Unánue'

In [None]:
variable_5['name']

# PySpark

Primero importamos las librerías de `pyspark` (de tal manera que podamos usar `spark` y no sólo `python` como hasta  este momento). Hecho esto, obetnermos una referencia al `SparkContext`

In [None]:
import pyspark
sc = pyspark.SparkContext('local[*]')

## RDD con `parallelize`

Crearemos una lista con `10000` números enteros

In [None]:
enteros = range(0,10000)

`enteros` es un objeto `range`

In [None]:
numeros = sc.parallelize(enteros)

In [None]:
numeros

`numeros` es un `RDD`

## RDD desde archivo

Descargaremos del [Proyecto Gutenberg](https://www.gutenberg.org) el libro [Beowulf](https://www.gutenberg.org/ebooks/16328) de J. Lesslie Hall.

Las celdas que siguen realizan lo siguiente:

- Borran la carpeta `data` (si existe)
- Crear la carpeta `data`
- Descargan el libro a la carpeta `data`

In [None]:
! rm -R data

In [None]:
! mkdir data

In [None]:
! wget https://www.gutenberg.org/ebooks/16328.txt.utf-8 -P data/books

Definimos una función para _tokenizar_ el texto

In [None]:
def tokenize(texto):
    return texto.split()

Veámos que hace esta función

In [None]:
tokenize("En el bosque, de la China, la chinita se perdió")

Creamos el RDD desde el archivo

In [None]:
beowulf = sc.textFile("data/books/16328.txt.utf-8") # Creamos el RDD desde archivo

En este caso, cada renglón del archivo se convierte en un renglón del RDD

In [None]:
beowulf.take(5)

Podemos preguntarnos cuántos elementos tiene nuestro `RDD`

In [None]:
beowulf.count() # ¿Cuántas líneas tiene el archivo?

Podemos verificarlo con el comando `wc -l`, este comando cuenta las líneas de todos los archivos en la carpeta en interés, como lo harias con HDFS?

In [None]:
!wc -l data/books/*  

En el siguiente `notebook` veremos las operaciones que podemos realizar sobre los `RDD`s