# Prerrequisites

Installing Spark and Apache Kafka Library in VM


---



In [None]:
# install Java8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
# download spark3.0.1
!wget -q https://apache.osuosl.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop3.2.tgz

# unzip it
!tar xf spark-3.0.1-bin-hadoop3.2.tgz
!pip install -q findspark
!pip install py4j

# For maps
!pip install folium
!pip install plotly

Define the environment (Java & Spark homes)

---

In [None]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.1-bin-hadoop3.2"
os.environ["PYSPARK_SUBMIT_ARGS"] = "--master local[*] pyspark-shell"

Starting Spark Session and print the version


---


In [1]:
import findspark
findspark.init("c:\src\spark-3.0.1-bin-hadoop3.2")# SPARK_HOME

from pyspark.sql import SparkSession

# create the session
spark = SparkSession \
        .builder \
        .master("local[*]") \
        .config("spark.ui.port", "4500") \
        .getOrCreate()

spark.version

'3.0.1'

In [2]:
spark

In [3]:
# For Pandas conversion optimization
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

Creating ngrok tunnel to allow Spark UI (Optional)


In [None]:
!wget https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!unzip -o ngrok-stable-linux-amd64.zip
!sleep 2
get_ipython().system_raw('./ngrok http 4500 &')
!curl -s http://localhost:4040/api/tunnels | python3 -c \
    "import sys, json; print(json.load(sys.stdin)['tunnels'][0]['public_url'])"

# Descargar Datasets

In [4]:
#!mkdir -p /dataset
!wget -q https://github.com/masfworld/datahack_docker/raw/master/zeppelin/data/bank.csv -P ./dataset
!wget -q https://github.com/masfworld/datahack_docker/raw/master/zeppelin/data/vehicles.csv -P ./dataset
!wget -q https://github.com/masfworld/datahack_docker/raw/master/zeppelin/data/characters.csv -P ./dataset
!wget -q https://github.com/masfworld/datahack_docker/raw/master/zeppelin/data/netflix_titles.csv -P ./dataset
!ls ./dataset

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"ls" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


# Lectura de Datos con Spark SQL

---



## Ejemplo 1

In [None]:
!head /dataset/bank.csv

Leyendo Datos desde un RDD, y conviertiéndolo a DataFrame

In [None]:
from pyspark.sql.types import Row
from pyspark.sql.functions import *

bankText = spark.sparkContext.textFile("/dataset/bank.csv")

bank = bankText.map(lambda lineaCsv: lineaCsv.split(";"))\
.filter(lambda s: s[0] != "\"age\"") \
.map(lambda row: Row(int(row[0]), row[1].replace("\"", ""), row[2].replace("\"", ""), row[3].replace("\"", ""), row[5].replace("\"", ""))) \
.toDF(["age", "job", "marital", "education", "balance"]) \
.withColumn("age", col("age").cast("int"))

In [None]:
bank.printSchema

In [None]:
bank.registerTempTable("bank")

Cargamos una **extensión de Google Colab** para mostrar una tabla con posibilidad de filtro (Debemos devolver un DataFrame en Pandas)

In [None]:
%load_ext google.colab.data_table

In [None]:

from pyspark.sql.functions import *

bank_grouped = bank\
.groupBy(bank.marital) \
.agg({"balance": "avg"}) \
.select("marital", col("avg(balance)").alias("balance_avg")) \
.orderBy(col("balance_avg").desc())\

bank_grouped.show()


In [None]:
bank_grouped.toPandas()

In [None]:
spark.sql("SELECT marital, avg(balance) as balance_avg FROM bank group by marital").show()

In [None]:
import plotly.express as px

fig = px.pie(bank_grouped.toPandas(), values='balance_avg', names='marital', title='By Marital')
fig.show()

## Ejemplo 2

Cargando un fichero CSV como RDD y convirtiendo a DataFrame aplicando un esquema específico usando el método **"createDataFrame"**

In [None]:
from pyspark.sql.types import *

bankSchema = StructType([
    StructField("age", IntegerType(), False), 
    StructField("job", StringType(), False),
    StructField("marital", StringType(), False),
    StructField("education", StringType(), False),
    StructField("balance", IntegerType(), False)])

bankText = spark.sparkContext.textFile("/dataset/bank.csv")

bank = bankText\
.map(lambda s: s.split(";")).filter(lambda s: s[0] != "\"age\"")\
.map(lambda s:(int(s[0]), str(s[1]).replace("\"", ""), str(s[2]).replace("\"", ""), str(s[3]).replace("\"", ""), int(s[5]) ))

bankdf = spark.createDataFrame(bank, bankSchema)
bankdf.registerTempTable("bank2")

In [None]:
spark.sql("select * from bank2 limit 10").show()

## Ejercicio 1
**Carga el fichero "vehicles.csv" directamente en un DataFrame, muéstra el contenido por pantalla e imprime el esquema**

Apóyate en la siguiente documentación para hacer la lectura directamente en un DataFrame https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html

---



In [None]:
!head /dataset/vehicles.csv

**Filtra el anterior dataframe obteniendo los vehículos cuya capacidad supere 70**


---



# Spark SQL. Funciones de agregación

Links útiles:

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html


## Ejercicio 2

**A partir del dataframe con todos los vehículos cargado en el ejercicio 1, obtén el número de pasarejos medios por clase de vehículo**


---




## Ejercicio 3

**Carga el fichero "characters.csv" y obtén el color de ojos más común entre todos los personajes**

---

## Ejercicio 4

**Carga el dataframe completo de personajes en una tabla temporal y obtén mediante SQL el número de personajes por género**


---



## Ejercicio 5

**Carga el fichero "netflix_titles.csv" en un DataFrame e imprime el esquema**


---



In [None]:
!head /dataset/netflix_titles.csv

## Ejercicio 6

**Obtén el año en el que se añadieron más películas (No TV Shows)**
**Usa una UDF para obtener el año en el que se añadió al catálogo**

---

