# Con un poco de ayuda de Python

Para este _hands on_ utilizaremos `python`, primero introduciremos algunos conceptos básicos del lenguaje y luego nos dedicaremos a `apache spark`, en particular `pyspark`

## Ejemplo de código de python

Para mostrar las facilidades de comprensión de los programas en `python` observe lo siguiente:

```python

for line in open(”file.txt”):
    for word in line.split():
        if word.endswith(”ing”):
            print word
```

Esto se puede leer línea por línea en inglés

## Funciones en python

En términos básicos una _función_ es una manera de empaquetar código para su posterior reuso.

In [1]:
def repetir(texto, num_veces):
    return texto*num_veces

In [2]:
monty = "Monty Python "
repetir(monty, 3)

'Monty Python Monty Python Monty Python '

También existen las funciones anónimas o funciones _lambda_

In [3]:
cubo = lambda x: x*x*x

In [4]:
cubo(3)

27

## Tipos de datos en python

Una **lista** es un conjunto ordenado de elementos

In [5]:
variable_3 = [10, "John Smith", ['another', 'list']]
variable_3

[10, 'John Smith', ['another', 'list']]

In [6]:
variable_3[0] # Observa que este es un comentario y que la lista empieza en 0, no en 1

10

In [7]:
variable_3[2] = "Adolfo"
variable_3

[10, 'John Smith', 'Adolfo']

Una **tupla** es una lista inmutable

In [8]:
variable_4 = (10, "John Smith")
variable_4

(10, 'John Smith')

Un **diccionario** contiene pares llave-valor (KV)

In [9]:
variable_5 = {"name": "John Smith", "age": 45}
variable_5

{'name': 'John Smith', 'age': 45}

In [10]:
variable_5['name']

'John Smith'

In [11]:
variable_5['name'] = 'Adolfo De Unánue'

In [12]:
variable_5['name']

'Adolfo De Unánue'

# PySpark

Primero importamos las librerías de `pyspark` (de tal manera que podamos usar `spark` y no sólo `python` como hasta  este momento). Hecho esto, obetnermos una referencia al `SparkContext`

In [1]:
import pyspark
sc = pyspark.SparkContext('local[*]')

## RDD con `parallelize`

Crearemos una lista con `10000` números enteros

In [2]:
enteros = range(0,10000)

`enteros` es un objeto `range`

In [3]:
numeros = sc.parallelize(enteros)

In [4]:
numeros

PythonRDD[1] at RDD at PythonRDD.scala:53

`numeros` es un `RDD`

## RDD desde archivo

Descargaremos del [Proyecto Gutenberg](https://www.gutenberg.org) el libro [Beowulf](https://www.gutenberg.org/ebooks/16328) de J. Lesslie Hall.

Las celdas que siguen realizan lo siguiente:

- Borran la carpeta `data` (si existe)
- Crear la carpeta `data`
- Descargan el libro a la carpeta `data`

In [5]:
! rm -R data

"rm" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [6]:
! mkdir data

In [7]:
! wget https://www.gutenberg.org/ebooks/16328.txt.utf-8 -P data/books

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


Definimos una función para _tokenizar_ el texto

In [8]:
def tokenize(texto):
    return texto.split()

Veámos que hace esta función

In [9]:
tokenize("En el bosque, de la China, la chinita se perdió")

['En', 'el', 'bosque,', 'de', 'la', 'China,', 'la', 'chinita', 'se', 'perdió']

Creamos el RDD desde el archivo

In [12]:
beowulf = sc.textFile("../bigdata/2013/2013-04-10.csv") # Creamos el RDD desde archivo

En este caso, cada renglón del archivo se convierte en un renglón del RDD

In [13]:
beowulf.take(5)

['date,serial_number,model,capacity_bytes,failure,smart_1_normalized,smart_1_raw,smart_2_normalized,smart_2_raw,smart_3_normalized,smart_3_raw,smart_4_normalized,smart_4_raw,smart_5_normalized,smart_5_raw,smart_7_normalized,smart_7_raw,smart_8_normalized,smart_8_raw,smart_9_normalized,smart_9_raw,smart_10_normalized,smart_10_raw,smart_11_normalized,smart_11_raw,smart_12_normalized,smart_12_raw,smart_13_normalized,smart_13_raw,smart_15_normalized,smart_15_raw,smart_183_normalized,smart_183_raw,smart_184_normalized,smart_184_raw,smart_187_normalized,smart_187_raw,smart_188_normalized,smart_188_raw,smart_189_normalized,smart_189_raw,smart_190_normalized,smart_190_raw,smart_191_normalized,smart_191_raw,smart_192_normalized,smart_192_raw,smart_193_normalized,smart_193_raw,smart_194_normalized,smart_194_raw,smart_195_normalized,smart_195_raw,smart_196_normalized,smart_196_raw,smart_197_normalized,smart_197_raw,smart_198_normalized,smart_198_raw,smart_199_normalized,smart_199_raw,smart_200_no

Podemos preguntarnos cuántos elementos tiene nuestro `RDD`

In [14]:
beowulf.count() # ¿Cuántas líneas tiene el archivo?

21196

Podemos verificarlo con el comando `wc -l`, este comando cuenta las líneas de todos los archivos en la carpeta en interés

In [15]:
!wc -l data/books/*  

"wc" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


En el siguiente `notebook` veremos las operaciones que podemos realizar sobre los `RDD`s