# Spark Dataframes

## Instalación de Spark

Estas instrucciones son para cualquier sistema Ubuntu/Debian, y funcionan también en Google Colab. Si Spark ya está instalado no hay que ejecutar este bloque.

In [None]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
!tar xf spark-3.1.2-bin-hadoop3.2.tgz
!pip install findspark

import os
import findspark
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.2-bin-hadoop3.2"
findspark.init()

In [None]:
from pyspark.sql import SparkSession
spark = SparkSession.builder\
        .master("local")\
        .appName("Colab")\
        .config('spark.ui.port', '4050')\
        .getOrCreate()

## Creación de dataframes

In [None]:
# Desde CSV
ratings = spark.read.csv(filename, header = True, inferSchema= True)

# Desde JSON
ratings = spark.read.json(filename, header = True, inferSchema= True)

# A partir de una DF de Pandas
ratings = spark.createDataFrame(df)

# Manualmente
id_usuarios = spark.createDataFrame([12, 45, 3, 26, 8], "int").toDF("user_id")

## Funciones

* `.select(...)`: extrae una o más columnas de un DataFrame. `df.select('Model', 'ScreenSize').show()  `
* `.filter(...)`: selecciona las filas que cumplen una condición. `df.filter(df.Year > 2015).show()`  
* `.groupBy(...)`: aplica una función de agregación a los valores de una o varias columnas. `df.groupBy('RAM').count().show()`  
* `.orderBy(...)`: ordena valores. `df.orderBy(‘Weight').show()`  
* `df1.union(df2)`: concatena dos dataframes que tienen el mismo schema
* `df1.join(df2, type=...)`: junta dos DataFrames, utilizando uniones SQL (inner, etc.)
* `.fillna(...)`: da valores a valores vacíos.  
* `.dropna()`: elimina filas que contienen valores nulos.  
* `.dropDuplicates()`: elimina filas duplicadas.  
* `.summary()`, `.describe()`: muestran valores estadísticos descriptivos.  
* `.freqItems(...)`: cuenta el número de veces que aparecen los valores en una columna.
* `.show()`: Muestra las primeras líneas.  
* `.collect()`: Recolecta todos los valores de los nodos de trabajo y los vuelca en un  
objeto Python. Cuidado con DataFrames muy grandes.  
* `.take(...)`: Similar a collect pero solo recupera un subconjunto.  
* `.toPandas()`: Convierte el DataFrame de Spark en un DataFrame de Pandas.

## SQL

También se puede acceder a una dataframe utilizando SQL. Hay que crear una vista con createOrReplaceTempView, y después pasar el comando SQL como un string.

In [None]:
datosDF.createOrReplaceTempView(‘miTabla’)  
spark.sql('''SELECT Model, Year, RAM, HDD, ScreenSize FROM miTabla''').show()