In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate() # SparkSession de forma programativa

In [2]:
spark

In [3]:
datos = [("Aitor", 182), ("Pedro", 178), ("Marina", 161)]
rdd = spark.sparkContext.parallelize(datos)
rdd.collect()

                                                                                

[('Aitor', 182), ('Pedro', 178), ('Marina', 161)]

In [4]:
dfRDD = rdd.toDF()
dfRDD.printSchema()

                                                                                

root
 |-- _1: string (nullable = true)
 |-- _2: long (nullable = true)



In [5]:
columnas = ["nombre","altura"]
dfRDD = rdd.toDF(columnas)
dfRDD.printSchema()

root
 |-- nombre: string (nullable = true)
 |-- altura: long (nullable = true)



In [6]:
dfRDD.show()

+------+------+
|nombre|altura|
+------+------+
| Aitor|   182|
| Pedro|   178|
|Marina|   161|
+------+------+



In [7]:
# También podemos crear un DF desde SparkSession
dfDesdeDatos = spark.createDataFrame(datos).toDF(*columnas)
dfDesdeDatos.printSchema()

root
 |-- nombre: string (nullable = true)
 |-- altura: long (nullable = true)



In [4]:
dfCiudades = spark.read.json("../zips.json")
dfCiudades.show(5)

+-----+-----------+--------------------+-----+-----+
|  _id|       city|                 loc|  pop|state|
+-----+-----------+--------------------+-----+-----+
|01001|     AGAWAM|[-72.622739, 42.0...|15338|   MA|
|01002|    CUSHMAN|[-72.51565, 42.37...|36963|   MA|
|01005|      BARRE|[-72.108354, 42.4...| 4546|   MA|
|01007|BELCHERTOWN|[-72.410953, 42.2...|10579|   MA|
|01008|  BLANDFORD|[-72.936114, 42.1...| 1240|   MA|
+-----+-----------+--------------------+-----+-----+
only showing top 5 rows



In [15]:
clientes = [
    ("Aitor", "Medrano", "Elche", 3000),
    ("Pedro", "Casas", "Elche", 4000),
    ("Laura", "García", "Elche", 5000), 
    ("Miguel", "Ruiz", "Torrellano", 6000),
    ("Isabel", "Guillén", "Alicante", 7000)
]

In [16]:
columnas = ["nombre","apellidos", "ciudad", "sueldo"]

In [21]:
df = spark.createDataFrame(clientes, columnas)
df.printSchema()

root
 |-- nombre: string (nullable = true)
 |-- apellidos: string (nullable = true)
 |-- ciudad: string (nullable = true)
 |-- sueldo: long (nullable = true)



In [22]:
df.show(2)

+------+---------+------+------+
|nombre|apellidos|ciudad|sueldo|
+------+---------+------+------+
| Aitor|  Medrano| Elche|  3000|
| Pedro|    Casas| Elche|  4000|
+------+---------+------+------+
only showing top 2 rows



In [23]:
df.show(3, vertical=True)

-RECORD 0------------
 nombre    | Aitor   
 apellidos | Medrano 
 ciudad    | Elche   
 sueldo    | 3000    
-RECORD 1------------
 nombre    | Pedro   
 apellidos | Casas   
 ciudad    | Elche   
 sueldo    | 4000    
-RECORD 2------------
 nombre    | Laura   
 apellidos | García  
 ciudad    | Elche   
 sueldo    | 5000    
only showing top 3 rows



In [25]:
df.show(truncate=False)

+------+---------+----------+------+
|nombre|apellidos|ciudad    |sueldo|
+------+---------+----------+------+
|Aitor |Medrano  |Elche     |3000  |
|Pedro |Casas    |Elche     |4000  |
|Laura |García   |Elche     |5000  |
|Miguel|Ruiz     |Torrellano|6000  |
|Isabel|Guillén  |Alicante  |7000  |
+------+---------+----------+------+



In [26]:
df.write.format("avro").save("clientes.avro")

AnalysisException:  Failed to find data source: avro. Avro is built-in but external data source module since Spark 2.4. Please deploy the application as per the deployment section of "Apache Avro Data Source Guide".        

In [10]:
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
esquema = StructType([
    StructField("nombre", StringType(), False),
    StructField("apellidos", StringType(), False),
    StructField("ciudad", StringType(), True),
    StructField("sueldo", IntegerType(), False)
])

In [11]:
df = spark.createDataFrame(data=clientes, schema=esquema)
df.printSchema()

root
 |-- nombre: string (nullable = false)
 |-- apellidos: string (nullable = false)
 |-- ciudad: string (nullable = true)
 |-- sueldo: integer (nullable = false)



In [12]:
df.show(truncate=False)

+------+---------+----------+------+
|nombre|apellidos|ciudad    |sueldo|
+------+---------+----------+------+
|Aitor |Medrano  |Elche     |3000  |
|Pedro |Casas    |Elche     |4000  |
|Laura |García   |Elche     |5000  |
|Miguel|Ruiz     |Torrellano|6000  |
|Isabel|Guillén  |Alicante  |7000  |
+------+---------+----------+------+



In [13]:
df.columns

['nombre', 'apellidos', 'ciudad', 'sueldo']

In [14]:
df.dtypes

[('nombre', 'string'),
 ('apellidos', 'string'),
 ('ciudad', 'string'),
 ('sueldo', 'int')]

In [15]:
df.schema

StructType(List(StructField(nombre,StringType,false),StructField(apellidos,StringType,false),StructField(ciudad,StringType,true),StructField(sueldo,IntegerType,false)))

In [16]:
df.show(2)

+------+---------+------+------+
|nombre|apellidos|ciudad|sueldo|
+------+---------+------+------+
| Aitor|  Medrano| Elche|  3000|
| Pedro|    Casas| Elche|  4000|
+------+---------+------+------+
only showing top 2 rows



In [17]:
df.show(truncate=False)

+------+---------+----------+------+
|nombre|apellidos|ciudad    |sueldo|
+------+---------+----------+------+
|Aitor |Medrano  |Elche     |3000  |
|Pedro |Casas    |Elche     |4000  |
|Laura |García   |Elche     |5000  |
|Miguel|Ruiz     |Torrellano|6000  |
|Isabel|Guillén  |Alicante  |7000  |
+------+---------+----------+------+



In [18]:
df.show(3, vertical=True)

-RECORD 0------------
 nombre    | Aitor   
 apellidos | Medrano 
 ciudad    | Elche   
 sueldo    | 3000    
-RECORD 1------------
 nombre    | Pedro   
 apellidos | Casas   
 ciudad    | Elche   
 sueldo    | 4000    
-RECORD 2------------
 nombre    | Laura   
 apellidos | García  
 ciudad    | Elche   
 sueldo    | 5000    
only showing top 3 rows



In [19]:
df.head()

Row(nombre='Aitor', apellidos='Medrano', ciudad='Elche', sueldo=3000)

In [20]:
df.first()

Row(nombre='Aitor', apellidos='Medrano', ciudad='Elche', sueldo=3000)

In [21]:
df.head(3)

[Row(nombre='Aitor', apellidos='Medrano', ciudad='Elche', sueldo=3000),
 Row(nombre='Pedro', apellidos='Casas', ciudad='Elche', sueldo=4000),
 Row(nombre='Laura', apellidos='García', ciudad='Elche', sueldo=5000)]

In [22]:
df.count()

5

In [38]:
df.head()[0]

'Aitor'

In [43]:
df.head()["nombre"]

'Aitor'

In [50]:
df.collect()[0][0]

'Aitor'

In [24]:
df.describe().show()



+-------+------+---------+----------+------------------+
|summary|nombre|apellidos|    ciudad|            sueldo|
+-------+------+---------+----------+------------------+
|  count|     5|        5|         5|                 5|
|   mean|  null|     null|      null|            5000.0|
| stddev|  null|     null|      null|1581.1388300841897|
|    min| Aitor|    Casas|  Alicante|              3000|
|    max| Pedro|     Ruiz|Torrellano|              7000|
+-------+------+---------+----------+------------------+



                                                                                

In [25]:
df.collect()

[Row(nombre='Aitor', apellidos='Medrano', ciudad='Elche', sueldo=3000),
 Row(nombre='Pedro', apellidos='Casas', ciudad='Elche', sueldo=4000),
 Row(nombre='Laura', apellidos='García', ciudad='Elche', sueldo=5000),
 Row(nombre='Miguel', apellidos='Ruiz', ciudad='Torrellano', sueldo=6000),
 Row(nombre='Isabel', apellidos='Guillén', ciudad='Alicante', sueldo=7000)]

In [26]:
df.take(2)

[Row(nombre='Aitor', apellidos='Medrano', ciudad='Elche', sueldo=3000),
 Row(nombre='Pedro', apellidos='Casas', ciudad='Elche', sueldo=4000)]

In [27]:
from pyspark.sql.functions import concat_ws, col
dfNuevo = df.withColumn("nombreCompleto", concat_ws(" ", col("nombre"), col("apellidos")) )
dfNuevo.show()

+------+---------+----------+------+--------------+
|nombre|apellidos|    ciudad|sueldo|nombreCompleto|
+------+---------+----------+------+--------------+
| Aitor|  Medrano|     Elche|  3000| Aitor Medrano|
| Pedro|    Casas|     Elche|  4000|   Pedro Casas|
| Laura|   García|     Elche|  5000|  Laura García|
|Miguel|     Ruiz|Torrellano|  6000|   Miguel Ruiz|
|Isabel|  Guillén|  Alicante|  7000|Isabel Guillén|
+------+---------+----------+------+--------------+



In [28]:
df.filter(df.ciudad=="Elche").show()

+------+---------+------+------+
|nombre|apellidos|ciudad|sueldo|
+------+---------+------+------+
| Aitor|  Medrano| Elche|  3000|
| Pedro|    Casas| Elche|  4000|
| Laura|   García| Elche|  5000|
+------+---------+------+------+



In [29]:
df.where(df.sueldo>5500).show()

+------+---------+----------+------+
|nombre|apellidos|    ciudad|sueldo|
+------+---------+----------+------+
|Miguel|     Ruiz|Torrellano|  6000|
|Isabel|  Guillén|  Alicante|  7000|
+------+---------+----------+------+



In [30]:
df.select("nombre", "apellidos").show()

+------+---------+
|nombre|apellidos|
+------+---------+
| Aitor|  Medrano|
| Pedro|    Casas|
| Laura|   García|
|Miguel|     Ruiz|
|Isabel|  Guillén|
+------+---------+



In [31]:
df.select(df.nombre, df.apellidos).show()

+------+---------+
|nombre|apellidos|
+------+---------+
| Aitor|  Medrano|
| Pedro|    Casas|
| Laura|   García|
|Miguel|     Ruiz|
|Isabel|  Guillén|
+------+---------+



In [32]:
df.select(col("nombre"), col("apellidos")).show()

+------+---------+
|nombre|apellidos|
+------+---------+
| Aitor|  Medrano|
| Pedro|    Casas|
| Laura|   García|
|Miguel|     Ruiz|
|Isabel|  Guillén|
+------+---------+



In [33]:
df.select(df["nombre"], df["apellidos"]).show()

+------+---------+
|nombre|apellidos|
+------+---------+
| Aitor|  Medrano|
| Pedro|    Casas|
| Laura|   García|
|Miguel|     Ruiz|
|Isabel|  Guillén|
+------+---------+



In [34]:
df.select(concat_ws(" ", col("nombre"), col("apellidos")).alias("nombreCompleto"),
          "sueldo",
          (col("sueldo")*1.1).alias("nuevoSueldo")).show() 

+--------------+------+------------------+
|nombreCompleto|sueldo|       nuevoSueldo|
+--------------+------+------------------+
| Aitor Medrano|  3000|3300.0000000000005|
|   Pedro Casas|  4000|            4400.0|
|  Laura García|  5000|            5500.0|
|   Miguel Ruiz|  6000| 6600.000000000001|
|Isabel Guillén|  7000| 7700.000000000001|
+--------------+------+------------------+



In [35]:
from pyspark.sql.functions import expr
df.select(concat_ws(" ", col("nombre"), col("apellidos")).alias("nombreCompleto"),
          "sueldo",
          expr("sueldo*1.1").alias("nuevoSueldo")).show() 

+--------------+------+-----------+
|nombreCompleto|sueldo|nuevoSueldo|
+--------------+------+-----------+
| Aitor Medrano|  3000|     3300.0|
|   Pedro Casas|  4000|     4400.0|
|  Laura García|  5000|     5500.0|
|   Miguel Ruiz|  6000|     6600.0|
|Isabel Guillén|  7000|     7700.0|
+--------------+------+-----------+



In [36]:
df.filter((df.ciudad=="Elche") & (df.sueldo > 4000)).show()

+------+---------+------+------+
|nombre|apellidos|ciudad|sueldo|
+------+---------+------+------+
| Laura|   García| Elche|  5000|
+------+---------+------+------+



In [37]:
df.filter((df.ciudad=="Torrellano") | (df.ciudad=="Alicante")).show()

+------+---------+----------+------+
|nombre|apellidos|    ciudad|sueldo|
+------+---------+----------+------+
|Miguel|     Ruiz|Torrellano|  6000|
|Isabel|  Guillén|  Alicante|  7000|
+------+---------+----------+------+

