#![Spark Logo](https://raw.githubusercontent.com/chicochica10/utad-spark-ml/master/images/ta_Spark-logo-small.png) + ![Python Logo](https://raw.githubusercontent.com/chicochica10/utad-spark-ml/master/images/python-logo-master-v3-TM-flattened_small.png)
# **Primer Notebook: Prueba de la Máquina virtual**
####Este notebook testeará que la máquina virtual (vm) funciona y Spark, Python y sus librerías se encuentran correctamente instaladas. Para moverte por el notebook simplemente ejecuta cada una de las celdas. No vas a resolver ningún problema en este lab. Para ejecutar cada celda pulsa "shift + enter", con esto se computará cada celda y se avanzará a la siguiente. Si pulsas "control + enter" se computará la celda actual pero no se avanzará a la siguiente. Al final del notebook exportarás el notebook.
#### ** Contenido del notebook: **
#### *Parte 1:* Test de Spark
#### *Parte 2:* Comprobación de la librería de testeo de clases
#### *Parte 3:* Comprobación del ploteado
#### *Parte 4:* Comprobación de las fórmulas MathJax
#### *Parte 5:* Exportar / descargar 

### ** Parte 1: Test de Spark **

#### ** (1a) Paralelizar, filtrar y reducir **

In [None]:
# Comprobar que Spark funciona
largeRange = sc.parallelize(xrange(100000))
reduceTest = largeRange.reduce(lambda a, b: a + b)
filterReduceTest = largeRange.filter(lambda x: x % 7 == 0).sum()

print reduceTest
print filterReduceTest

# Si los jobs de Spark no funcionan se lanzará un AssertionError
assert reduceTest == 4999950000
assert filterReduceTest == 714264285

#### ** (1b) Cargar un fichero de texto **

In [None]:
# Comprobar la carga de datos con sc.textFile
import os.path
baseDir = os.path.join('data')
inputPath = os.path.join('utad-spark', 'lab1', 'shakespeare.txt')
fileName = os.path.join(baseDir, inputPath)

rawData = sc.textFile(fileName)
shakespeareCount = rawData.count()

print shakespeareCount

# Si el fichero de texto no se ha cargado correctamente se lanzará un AssertionError
assert shakespeareCount == 122395

### ** Parte 2: Comprobación de la librería de testeo de clases **

#### ** (2a) Comparación con hash **

In [None]:
# TEST comparación con hash (2a)
# Comprobar la lisbrería/paquete de testing 
# Debería imprimir dos líneas con el texto '1 test passed.'
from test_helper import Test

twelve = 12
Test.assertEquals(twelve, 12, 'twelve should equal 12')
Test.assertEqualsHashed(twelve, '7b52009b64fd0a2a49e6d8a939753077792b0554',
                        'twelve, once hashed, should equal the hashed value of 12')

#### ** (2b) Comparación de listas **

In [None]:
# TEST comparación de listas (2b)
# Debería imprimir '1 test passed.'
unsortedList = [(5, 'b'), (5, 'a'), (4, 'c'), (3, 'a')]
Test.assertEquals(sorted(unsortedList), [(3, 'a'), (4, 'c'), (5, 'a'), (5, 'b')],
                  'unsortedList does not sort properly')

### ** Parte 3: Comprobación del ploteado **

#### ** (3a) Primer plot **
#### Después de ejecutar el código de la celda de abajo deberías ver un plot con 50 círculos azules. Los círculos deberían ir desde abajo a la izquierda hasta arriba a la derecha.

In [None]:
# Comprobar matplotlib plotting
import matplotlib.pyplot as plt
import matplotlib.cm as cm
from math import log

# función para generar el plot layout
def preparePlot(xticks, yticks, figsize=(10.5, 6), hideLabels=False, gridColor='#999999', gridWidth=1.0):
    plt.close()
    fig, ax = plt.subplots(figsize=figsize, facecolor='white', edgecolor='white')
    ax.axes.tick_params(labelcolor='#999999', labelsize='10')
    for axis, ticks in [(ax.get_xaxis(), xticks), (ax.get_yaxis(), yticks)]:
        axis.set_ticks_position('none')
        axis.set_ticks(ticks)
        axis.label.set_color('#999999')
        if hideLabels: axis.set_ticklabels([])
    plt.grid(color=gridColor, linewidth=gridWidth, linestyle='-')
    map(lambda position: ax.spines[position].set_visible(False), ['bottom', 'top', 'left', 'right'])
    return fig, ax

# generar el layout and plotear los datos
x = range(1, 50)
y = [log(x1 ** 2) for x1 in x]
fig, ax = preparePlot(range(5, 60, 10), range(0, 12, 1))
plt.scatter(x, y, s=14**2, c='#d6ebf2', edgecolors='#8cbfd0', alpha=0.75)
ax.set_xlabel(r'$range(1, 50)$'), ax.set_ylabel(r'$\log_e(x^2)$')
pass

### ** Parte 4: Comprobación de las fórmulas MathJax **

#### ** (4a) Fórmula del descenso del gradiente **
#### Deberías ver una fórmula escrita : $$ \scriptsize \mathbf{w}_{i+1} = \mathbf{w}_i - \alpha_i \sum_j (\mathbf{w}_i^\top\mathbf{x}_j  - y_j) \mathbf{x}_j \,.$$
 
#### Otra fórmula, esta vez dentro de una misma línea $ \scriptsize (\mathbf{w}^\top \mathbf{x} - y) \mathbf{x} $.

#### ** (4b) Fórmula de la pérdida logarítmica **
#### Esta fórmula muestra la pérdida logarítmica para un único punto. La pérdida logarítmica se define como: $$  \begin{align} \scriptsize \ell_{log}(p, y) = \begin{cases} -\log (p) & \text{if } y = 1 \\\ -\log(1-p) & \text{if } y = 0 \end{cases} \end{align} $$

### ** Parte 5: Exportar / descargar **

#### ** (5a) Guardar el notebook **

#### Has completado el lab. Para descargar como un fichero Python este notebook haz click en "File" / "Download as" y selecciona "Python (.py)".
