# Instalación Spark en Google Colab

Primero hemos de instalar Java como prerrequisito

In [1]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

El siguiente paso es descargar y configurar Spark:

In [10]:
!wget -q https://downloads.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz

In [None]:
!tar xvf spark-3.2.1-bin-hadoop3.2.tgz

Instalamos pyspark para trabajar mediante Python

In [14]:
# instalar pyspark
!pip install -q pyspark

[K     |████████████████████████████████| 281.4 MB 30 kB/s 
[K     |████████████████████████████████| 198 kB 54.9 MB/s 
[?25h  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


Configuramos las variables de entorno

In [15]:
# Variables de Entorno
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = f"/content/spark-3.2.1-bin-hadoop3.2"

Cargamos las librerías

In [18]:
# Cargar Pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("s8a").master("local[*]").getOrCreate()
spark

Y ya podemos empezar a desarrollar mediante Python en Spark

In [20]:
# Ejemplo RDD
# Suma de los 100 primeros números
sc = spark.sparkContext
rdd = sc.parallelize(range(100 + 1))
rdd.sum()

5050

In [21]:
# Ejemplo DataFrame
!wget -q https://gist.githubusercontent.com/jsdario/6d6c69398cb0c73111e49f1218960f79/raw/8d4fc4548d437e2a7203a5aeeace5477f598827d/el_quijote.txt

quijoteTxt = spark.read.text("el_quijote.txt")
quijoteTxt.count()  # número de filas del DataFrame - 2186
quijoteTxt.first()  # primera fila - Row(value='DON QUIJOTE DE LA MANCHA')
# Transformamos un DataFrame en otro nuevo
lineasConQuijote = quijoteTxt.filter(quijoteTxt.value.contains("Quijote"))  # DataFrame con las líneas que contiene la palabra Quijote
lineasConQuijote.count()  # cantidad de líneas con la palabra Quijote - 584
# Las transformaciones se pueden encadenar
quijoteTxt.filter(quijoteTxt.value.contains("Quijote")).count()     # idem - 584


584

In [22]:
# Ejemplo datos Collab
archivo = './sample_data/california_housing_train.csv'
dfSpark = spark.read.csv(archivo, inferSchema=True, header=True)

# imprimir tipo de archivo
dfSpark.printSchema()

root
 |-- longitude: double (nullable = true)
 |-- latitude: double (nullable = true)
 |-- housing_median_age: double (nullable = true)
 |-- total_rooms: double (nullable = true)
 |-- total_bedrooms: double (nullable = true)
 |-- population: double (nullable = true)
 |-- households: double (nullable = true)
 |-- median_income: double (nullable = true)
 |-- median_house_value: double (nullable = true)



In [25]:
dfSpark.describe().show()

+-------+-------------------+------------------+------------------+-----------------+-----------------+------------------+-----------------+------------------+------------------+
|summary|          longitude|          latitude|housing_median_age|      total_rooms|   total_bedrooms|        population|       households|     median_income|median_house_value|
+-------+-------------------+------------------+------------------+-----------------+-----------------+------------------+-----------------+------------------+------------------+
|  count|              17000|             17000|             17000|            17000|            17000|             17000|            17000|             17000|             17000|
|   mean|-119.56210823529375|  35.6252247058827| 28.58935294117647|2643.664411764706|539.4108235294118|1429.5739411764705|501.2219411764706| 3.883578100000021|207300.91235294117|
| stddev| 2.0051664084260357|2.1373397946570867|12.586936981660406|2179.947071452777|421.4994515798648| 1