### Filtrado de datos

In [0]:
import pyspark

In [0]:
generation = "mod4gen13"

In [0]:
dbutils.fs.ls(f"/mnt/{generation}/input")

In [0]:
df = spark.read.csv(f"/mnt/{generation}/input/appl_stock.csv", inferSchema=True, header=True)

In [0]:
df.printSchema()

## Filtrado de datos

Una gran ventaja de trabajar con DataFrames es la capacidad de filtrar rápidamente los datos según las condiciones.

Los Spark DataFrames están construidos sobre la plataforma Spark SQL, lo que significa que si ya conoces SQL, puedes tomar esos datos rápida y fácilmente usando comandos SQL o usando los métodos de un DataFrame.

In [0]:
# Uso de SQL
df.filter("Close<500").display()

In [0]:
# SQL con .select()
df.filter("Close<500").select("Open").display()

In [0]:
# SQL con .select()
df.filter("Close<500").select(["Open","Close"]).display()

El uso de operadores de comparación tradicionales de Python es otra forma de hacer esto, se verán muy similares a los operadores de SQL, excepto que debe asegurarse de llamar a la columna completa dentro del DataFrame, usando el formato: `df["nombre de la columna"]`

In [0]:
df.filter(df["Close"] < 200).display()

In [0]:
# Esta celda producirá un error. Asegúrese siempre de leer el error para profundizar en el.
#df.filter(df["Close"] < 200 and df['Open'] > 200).display()

In [0]:
# Asegúrese de agregar el paréntesis que separa las declaraciones
df.filter( (df["Close"]<200) & (df['Open']>200) ).display()

In [0]:
# Asegúrese de agregar el paréntesis que separa las declaraciones
df.filter( (df["Close"]<200) | (df['Open']>200) ).display()

In [0]:
# Asegúrese de agregar el paréntesis que separa las declaraciones
df.filter( (df["Close"]<200) & ~(df['Open']<200) ).display()

In [0]:
df.filter(df["Low"] == 197.16).display()

In [0]:
type(df.filter(df["Low"] == 197.16))

In [0]:
# Recopilación de resultados como objetos de Python
df.filter(df["Low"] == 197.16).collect()

In [0]:
result = df.filter(df["Low"] == 197.16).collect()

In [0]:
# Tenga en cuenta que la estructura anidada devuelve un objeto Row anidado
type(result[0])

In [0]:
row = result[0]
row

In [0]:
# Las "Rows" se pueden convertir en diccionarios
row.asDict()

In [0]:
# El objeto Row es también un iterable
for item in row:
    print(item)