# Cuarto Workshop

Para revisar el workshop anterior lo puedes hacer [aqui](http://bit.ly/2quuH4c)

### Pytho3(Parte 3)

#### Manipulacion de listas

En Python al igual que podemos crear listas, tambien las podemos manipular ya sea insertando, quitando, encontrando, contando, ordenando y revirtiendo el contenido de las mismas. Recordemos que a diferencia de los tupples, las listas son mutables. Un ejemplo:

In [17]:
# una lista de ejemplo
x = [1,6,3,2,6,1,2,6,7]

In [18]:
# append para insertar datos al final de la lista
x.append(55)
print(x)

[1, 6, 3, 2, 6, 1, 2, 6, 7, 55]


Podemos observar que al igual que en un documento, la funcion append() inserta contenido al final del texto previo. Que tal si queremos insertar en un lugar especifico?

In [19]:
x.insert(2,33)
print(x)

[1, 6, 33, 3, 2, 6, 1, 2, 6, 7, 55]


Como podemos ver insertamos el numero 33 en el lugar 2(tercer lugar dado que se cuenta desde 0). Ahora vamos a usar remove() para quitar datos. 

In [20]:
x.remove(6)
print(x)

[1, 33, 3, 2, 6, 1, 2, 6, 7, 55]


Como podemos ver hemos eliminado el numero 6 de la lista, si quermos eliminar un digito que no existe en la lista nos marcara el siguiente error

In [21]:
x.remove(120)
print(x)

ValueError: list.remove(x): x not in list

Si queremos eliminar via el indice o 'lugar' que un objeto ocupa en la lista podemos usar del:

In [22]:
del x[7]
print(x)

[1, 33, 3, 2, 6, 1, 2, 7, 55]


Para referencias un objeto via el indice:

In [23]:
print(x[1])

33


In [24]:
print(x.index(1))

0


Como podemos ver se imprime el indice del numero 1 en este caso 0 pero de igual manera tenemos otro 1 en la lista, en casos como estos vale la pena contar cuantos numero 1 tenemos en nustra lista

In [25]:
print(x.count(1))

2


Si queremos ordenar una lista podemos hacer:

In [30]:
x.sort()
print(x)

[1, 1, 2, 2, 3, 6, 7, 33, 55]


In [31]:
x.reverse()
print(x)

[55, 33, 7, 6, 3, 2, 2, 1, 1]


De igual manera lo podemos lograr asi:

In [32]:
x.sort(reverse=False)
print(x)
x.sort(reverse=True)
print(x)

[1, 1, 2, 2, 3, 6, 7, 33, 55]
[55, 33, 7, 6, 3, 2, 2, 1, 1]


#### Listas multidimensionales

Las listas multidimensionales son basicamente listas dentro de listas, rara vez encontraras en el mundo real un script que haga uso de ellas, los diccionarios son una mejor opcion.

In [33]:
x = [[2,6],[6,2],[8,2],[5,12]]
print(x[2])

[8, 2]


In [34]:
# vamos a imprimir el segundo elemento dentro de la tercera lista
print(x[2][1])

2


In [35]:
# En caso de que quieras hacer uso de listas multidimensionales es mejor presentarlas de este modo
y = [[5,2],
     [6,2],
     [3,1],
     [12,6]
    ]

In [36]:
print(y)

[[5, 2], [6, 2], [3, 1], [12, 6]]


#### Leyendo un CSV

Un archivo CSV(Comma Separated Value) es un tipo de archivo muy comun cuando estamos trabajando con Python, la coma se conoce como '_delimiter_'. Un par de ejemplos:

In [51]:
# ejemplo simple de como leer un csv hacia la memoria
import csv

with open('./data/ejemplo.csv') as csvfile:
    readCSV = csv.reader(csvfile, delimiter=',')
    for row in readCSV:
        print(row)
        print(row[0])
        print(row[0],row[1],row[2],row[3])

['1/2/2014', '5', '8', 'rojo']
1/2/2014
1/2/2014 5 8 rojo
['1/3/2014', '5', '2', 'verde']
1/3/2014
1/3/2014 5 2 verde
['1/4/2014', '9', '1', 'azul']
1/4/2014
1/4/2014 9 1 azul


Como podemos observar leimos el archivo csv e iteramos e imprimios el contenido de todas sus filas.

In [46]:
with open('./data/ejemplo.csv') as csvfile:
    readCSV = csv.reader(csvfile, delimiter=',')
    dates = []
    colors = []
    for row in readCSV:
        color = row[3]
        date = row[0]

        dates.append(date)
        colors.append(color)

    print(dates)
    print(colors)

['1/2/2014', '1/3/2014', '1/4/2014']
['rojo', 'verde', 'azul']


Aqui agregamos el contenido del archivo csv a una variable. Que podriamos hacer con un archivo csv:

In [53]:
with open('./data/ejemplo.csv') as csvfile:
    readCSV = csv.reader(csvfile, delimiter=',')
    dates = []
    colors = []
    for row in readCSV:
        color = row[3]
        date = row[0]

        dates.append(date)
        colors.append(color)

    print(dates)
    print(colors)

    # recordemos las listas

    whatColor = input('Escoge un color para saber la fecha:')
    coldex = colors.index(whatColor)
    theDate = dates[coldex]
    print('La fecha del',whatColor,'es:',theDate)

['1/2/2014', '1/3/2014', '1/4/2014']
['rojo', 'verde', 'azul']
Escoge un color para saber la fecha:rojo
La fecha del rojo es: 1/2/2014


#### Manejo de errores con Try y con Except

Try y Except existen para manejar errores en Python, los podemos entender como un if-else statement en donde si usamos Try el segmento de codigo se ejecutara, y el Except no. 

### PySpark



In [41]:
import pyspark as spark
from pyspark import SparkConf
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.sql import Row

In [39]:
sc = SparkContext.getOrCreate()

In [5]:
data_ejemplo = sc.parallelize([('Asus', 100), ('Apple', 300), ('Acer', 150)])
print(data_ejemplo)

ParallelCollectionRDD[1] at parallelize at PythonRDD.scala:195


In [6]:
data_ejemplo = sc.parallelize([('Asus', 100), ('Apple', 300), ('Acer', 150)]).collect()
print(data_ejemplo)

[('Asus', 100), ('Apple', 300), ('Acer', 150)]


In [7]:
data_ejemplo[2]

('Acer', 150)

In [13]:
spark = SparkSession\
.builder\
.appName('Intro_Spark')\
.config('spark.some.config.option', 'some-value')\
.getOrCreate()
    

In [14]:
df = spark.read.csv('./data/creditcard.csv')

In [16]:
df.printSchema()

root
 |-- _c0: string (nullable = true)
 |-- _c1: string (nullable = true)
 |-- _c2: string (nullable = true)
 |-- _c3: string (nullable = true)
 |-- _c4: string (nullable = true)
 |-- _c5: string (nullable = true)
 |-- _c6: string (nullable = true)
 |-- _c7: string (nullable = true)
 |-- _c8: string (nullable = true)
 |-- _c9: string (nullable = true)
 |-- _c10: string (nullable = true)
 |-- _c11: string (nullable = true)
 |-- _c12: string (nullable = true)
 |-- _c13: string (nullable = true)
 |-- _c14: string (nullable = true)
 |-- _c15: string (nullable = true)
 |-- _c16: string (nullable = true)
 |-- _c17: string (nullable = true)
 |-- _c18: string (nullable = true)
 |-- _c19: string (nullable = true)
 |-- _c20: string (nullable = true)
 |-- _c21: string (nullable = true)
 |-- _c22: string (nullable = true)
 |-- _c23: string (nullable = true)
 |-- _c24: string (nullable = true)
 |-- _c25: string (nullable = true)
 |-- _c26: string (nullable = true)
 |-- _c27: string (nullable = tru

In [17]:
df.head()

Row(_c0='Time', _c1='V1', _c2='V2', _c3='V3', _c4='V4', _c5='V5', _c6='V6', _c7='V7', _c8='V8', _c9='V9', _c10='V10', _c11='V11', _c12='V12', _c13='V13', _c14='V14', _c15='V15', _c16='V16', _c17='V17', _c18='V18', _c19='V19', _c20='V20', _c21='V21', _c22='V22', _c23='V23', _c24='V24', _c25='V25', _c26='V26', _c27='V27', _c28='V28', _c29='Amount', _c30='Class')

In [18]:
df.count()

284808

In [19]:
df.describe().show()

+-------+------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+-----------------+--------------------+
|summary|               _c0|                 _c1|                 _c2|                 _c3|                 _c4|                 _c5|                 _c6|                 _c7|                 _c8|                 _c9|                _c10|                _c11|                _c12|                _c13|                _c14|                _c15| 

In [20]:
df.dropna().count()

284808

In [21]:
df.fillna(-1).show()

+----+------------------+-------------------+------------------+-------------------+-------------------+-------------------+--------------------+-------------------+------------------+-------------------+------------------+------------------+-------------------+-------------------+------------------+-------------------+--------------------+-------------------+-------------------+-------------------+--------------------+-------------------+-------------------+-------------------+-------------------+-------------------+--------------------+-------------------+------+-----+
| _c0|               _c1|                _c2|               _c3|                _c4|                _c5|                _c6|                 _c7|                _c8|               _c9|               _c10|              _c11|              _c12|               _c13|               _c14|              _c15|               _c16|                _c17|               _c18|               _c19|               _c20|                _c21

In [42]:
sc = SparkContext.getOrCreate(SparkConf())
rdd = sc.textFile('./data/cal_housing.data')

In [43]:
df = rdd.map(lambda line: Row(longitude=line[0],
                             lattitude=line[1],
                             housingMedianAge=line[2],
                             totalRooms=line[3],
                             totalBedRooms=line[4],
                             population=line[5],
                             households=line[6],
                             medianIncome=line[7],
                             medianHouseValue=line[8])).toDF()

In [44]:
df.columns

['households',
 'housingMedianAge',
 'lattitude',
 'longitude',
 'medianHouseValue',
 'medianIncome',
 'population',
 'totalBedRooms',
 'totalRooms']

In [45]:
df.count()

20640

In [46]:
df.describe().show()

+-------+------------------+------------------+--------------------+---------+----------------+------------+------------------+-------------+------------------+
|summary|        households|  housingMedianAge|           lattitude|longitude|medianHouseValue|medianIncome|        population|totalBedRooms|        totalRooms|
+-------+------------------+------------------+--------------------+---------+----------------+------------+------------------+-------------+------------------+
|  count|             20640|             20640|               20640|    20640|           20640|       20640|             20640|        20640|             20640|
|   mean|  4.54312015503876|1.3976259689922481|                 1.0|     null|             0.0|         0.0|3.8197674418604652|         null| 5.166036821705426|
| stddev|2.8731404333087864|0.4894192098469657|5.551249498454005...|     null|             0.0|         0.0|2.9232932518639436|         null|3.1499808830444445|
|    min|                 0|      

In [47]:
df.show()

+----------+----------------+---------+---------+----------------+------------+----------+-------------+----------+
|households|housingMedianAge|lattitude|longitude|medianHouseValue|medianIncome|population|totalBedRooms|totalRooms|
+----------+----------------+---------+---------+----------------+------------+----------+-------------+----------+
|         3|               2|        1|        -|               0|           0|         2|            .|         2|
|         2|               2|        1|        -|               0|           0|         2|            .|         2|
|         4|               2|        1|        -|               0|           0|         2|            .|         2|
|         5|               2|        1|        -|               0|           0|         2|            .|         2|
|         5|               2|        1|        -|               0|           0|         2|            .|         2|
|         5|               2|        1|        -|               0|      

In [48]:
df.select('households', 'population').show()

+----------+----------+
|households|population|
+----------+----------+
|         3|         2|
|         2|         2|
|         4|         2|
|         5|         2|
|         5|         2|
|         5|         2|
|         5|         2|
|         5|         2|
|         6|         2|
|         5|         2|
|         6|         2|
|         6|         2|
|         6|         2|
|         6|         2|
|         6|         2|
|         6|         2|
|         7|         2|
|         7|         2|
|         6|         2|
|         7|         2|
+----------+----------+
only showing top 20 rows



In [49]:
from pyspark.sql.functions import *
housePop = df.select(col('households')/col('population'))

In [50]:
df = df.withColumn('housePop', col('households')/col('population'))

In [51]:
df[9]

Column<b'housePop'>

In [52]:
df.show()

+----------+----------------+---------+---------+----------------+------------+----------+-------------+----------+--------+
|households|housingMedianAge|lattitude|longitude|medianHouseValue|medianIncome|population|totalBedRooms|totalRooms|housePop|
+----------+----------------+---------+---------+----------------+------------+----------+-------------+----------+--------+
|         3|               2|        1|        -|               0|           0|         2|            .|         2|     1.5|
|         2|               2|        1|        -|               0|           0|         2|            .|         2|     1.0|
|         4|               2|        1|        -|               0|           0|         2|            .|         2|     2.0|
|         5|               2|        1|        -|               0|           0|         2|            .|         2|     2.5|
|         5|               2|        1|        -|               0|           0|         2|            .|         2|     2.5|


In [53]:
from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating

In [54]:
data = sc.textFile("./data/test.data")
ratings = data.map(lambda l: l.split(','))\
    .map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2])))

In [55]:
rank = 10
numIterations = 10
model = ALS.train(ratings, rank, numIterations)

In [56]:
testdata = ratings.map(lambda p: (p[0], p[1]))
predictions = model.predictAll(testdata).map(lambda r: ((r[0], r[1]), r[2]))
ratesAndPreds = ratings.map(lambda r: ((r[0], r[1]), r[2])).join(predictions)
MSE = ratesAndPreds.map(lambda r: (r[1][0] - r[1][1])**2).mean()
print("Mean Squared Error = " + str(MSE))

Mean Squared Error = 8.95557714434518e-06


In [57]:
model.save(sc, "target/tmp/myCollaborativeFilter")
sameModel = MatrixFactorizationModel.load(sc, "target/tmp/myCollaborativeFilter")