In [1]:
# O punto de entrada a toda a funcionalidade en Spark é a clase SparkSession. 

In [3]:
spark = SparkSession \
    .builder \
    .appName("Python Spark SQL Exemplo Básico") \
    .getOrCreate()

In [4]:
spark

In [6]:
# Nunha SparkSession podes crear DataFrames desde diferentes fontes:
# - RDDs
# - Táboas de Hive
# - Ficheiros (HDFS, local fileSystem, ...)
# ...

In [None]:
# Spark contén unha serie de ficheiros de exemplo situados no directorio "examples"

In [8]:
df = spark.read.json("file:///usr/share/spark/examples/src/main/resources/people.json")

                                                                                

In [11]:
# Mostra o tipo -> DataFrame
type(df)

pyspark.sql.dataframe.DataFrame

In [12]:
# Ao contrario que en Python, a variable non mostra directamente o seu contido
# Chamando ao nome da variable mostra a súa estrutura
df

DataFrame[age: bigint, name: string]

In [14]:
# Utiliza a función .show() para mostrar o contido
df.show()

+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+



In [20]:
# Outras opción de visualización son .first() ou head()...
# Busca outras na API: 
# https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql.html#dataframe-apis
df.first()
#df.head(2)

In [21]:
# Outro xeito de mostrar o esquema do DataFrame é o seguinte:
df.printSchema()

root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)



In [35]:
# Lembra que os DataFrames de pySpark non son os mesmos que os de Pandas
df['age']

Column<'age'>

In [36]:
# A forma de seleccionar unha columna é coa función select()
df.select('age').show()

+----+
| age|
+----+
|null|
|  30|
|  19|
+----+



In [29]:
# Para seleccionar varias columnas (SELECT <- similar a SQL)
df.select('age','name').show()

+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+



In [44]:
# Podemos operar sobre as columnas
df.select(df['age']).show()

+----+
| age|
+----+
|null|
|  30|
|  19|
+----+



In [45]:
df.select(df['age']+1).show()

+---------+
|(age + 1)|
+---------+
|     null|
|       31|
|       20|
+---------+



In [47]:
# Podemos filtrar filas aplicando condicións (FILTER <- similar a WHERE de SQL)
df.filter(df['age'] > 25).show()

+---+----+
|age|name|
+---+----+
| 30|Andy|
+---+----+



In [48]:
# Podemos realizar operacións de resumo (summarization): max, min, avg, count, sum, ...
# O seguinte conta filas
df.count()

3

In [53]:
# O seguinte código falla, pero... por que?
df.groupBy('age').count().show()

+----+-----+
| age|count|
+----+-----+
|  19|    1|
|null|    1|
|  30|    1|
+----+-----+



In [55]:
type(df.groupBy('age'))

pyspark.sql.group.GroupedData