# Trabajando con DataFrames

#### Crear un DataFrame desde un RDD

In [0]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

In [0]:
datos = [("Aitor", 182), ("Pedro", 178), ("Marina", 161)]
rdd = spark.sparkContext.parallelize(datos)

# Creamos un DataFrame y mostramos su esquema
dfRDD = rdd.toDF()
dfRDD.printSchema()

root
 |-- _1: string (nullable = true)
 |-- _2: long (nullable = true)



In [0]:
# Asignamos nombres a cada columna con una lista
columnas = ["nombre","altura"]
dfRDD = rdd.toDF(columnas)
dfRDD.printSchema()

root
 |-- nombre: string (nullable = true)
 |-- altura: long (nullable = true)



In [0]:
# Mostramos los datos del dataframe
dfRDD.show()

+------+------+
|nombre|altura|
+------+------+
| Aitor|   182|
| Pedro|   178|
|Marina|   161|
+------+------+



#### Crear un DataFrame directamente

In [0]:
dfDesdeDatos = spark.createDataFrame(datos).toDF(*columnas)
dfDesdeDatos.printSchema()

root
 |-- nombre: string (nullable = true)
 |-- altura: long (nullable = true)



In [0]:
# Directamente desde valores de una lista de registros
clientes = [
    ("Alex", "Martín", "Madrid", 3000),
    ("Pedro", "Casas", "Getafe", 4000),
    ("Laura", "García", "Majadahonda", 5000), 
    ("Miguel", "Ruiz", "Alcalá", 6000),
    ("Isabel", "Guillén", "Leganés", 7000)
]
columnas = ["Nombre","Apellidos","Ciudad","Sueldo"]
df = spark.createDataFrame(data=clientes).toDF(*columnas)

#### Mostrar el contenido del DataFrame

In [0]:
# Se utiliza el DataFrame df recién creado 
df.show(2)

+------+---------+------+------+
|Nombre|Apellidos|Ciudad|Sueldo|
+------+---------+------+------+
|  Alex|   Martín|Madrid|  3000|
| Pedro|    Casas|Getafe|  4000|
+------+---------+------+------+
only showing top 2 rows



In [0]:
# Sin truncado de datos
df.show(truncate=4)

+------+---------+------+------+
|Nombre|Apellidos|Ciudad|Sueldo|
+------+---------+------+------+
|  Alex|     M...|  M...|  3000|
|  P...|     C...|  G...|  4000|
|  L...|     G...|  M...|  5000|
|  M...|     Ruiz|  A...|  6000|
|  I...|     G...|  L...|  7000|
+------+---------+------+------+



In [0]:
# Registros en vertical
df.show(3, vertical=True)

-RECORD 0----------------
 Nombre    | Alex        
 Apellidos | Martín      
 Ciudad    | Madrid      
 Sueldo    | 3000        
-RECORD 1----------------
 Nombre    | Pedro       
 Apellidos | Casas       
 Ciudad    | Getafe      
 Sueldo    | 4000        
-RECORD 2----------------
 Nombre    | Laura       
 Apellidos | García      
 Ciudad    | Majadahonda 
 Sueldo    | 5000        
only showing top 3 rows



In [0]:
# Primer registro del DataFrame
df.first()

Out[18]: Row(Nombre='Alex', Apellidos='Martín', Ciudad='Madrid', Sueldo=3000)

In [0]:
# Los tres primeros. Devuelve un objeto tipo Row
df.head(3)

Out[19]: [Row(Nombre='Alex', Apellidos='Martín', Ciudad='Madrid', Sueldo=3000),
 Row(Nombre='Pedro', Apellidos='Casas', Ciudad='Getafe', Sueldo=4000),
 Row(Nombre='Laura', Apellidos='García', Ciudad='Majadahonda', Sueldo=5000)]

In [0]:
# Obtener un valor concreto de una fila por posición o por campo
nom1 = df.first()[0]        
print(nom1)
nom2 = df.first()["Nombre"] 
print(nom2)

Alex
Alex


In [0]:
# Resumen de los datos del DataFrame
df.describe().show()

+-------+------+---------+-----------+------------------+
|summary|Nombre|Apellidos|     Ciudad|            Sueldo|
+-------+------+---------+-----------+------------------+
|  count|     5|        5|          5|                 5|
|   mean|  null|     null|       null|            5000.0|
| stddev|  null|     null|       null|1581.1388300841897|
|    min|  Alex|    Casas|     Alcalá|              3000|
|    max| Pedro|     Ruiz|Majadahonda|              7000|
+-------+------+---------+-----------+------------------+



In [0]:
# Obtener el número de registros del DataFrame
df.count()

Out[23]: 5

In [0]:
# Uso de los métodos propios del RDD para mostrar datos
df.collect()

Out[24]: [Row(Nombre='Alex', Apellidos='Martín', Ciudad='Madrid', Sueldo=3000),
 Row(Nombre='Pedro', Apellidos='Casas', Ciudad='Getafe', Sueldo=4000),
 Row(Nombre='Laura', Apellidos='García', Ciudad='Majadahonda', Sueldo=5000),
 Row(Nombre='Miguel', Apellidos='Ruiz', Ciudad='Alcalá', Sueldo=6000),
 Row(Nombre='Isabel', Apellidos='Guillén', Ciudad='Leganés', Sueldo=7000)]

In [0]:
df.take(2)

Out[26]: [Row(Nombre='Alex', Apellidos='Martín', Ciudad='Madrid', Sueldo=3000),
 Row(Nombre='Pedro', Apellidos='Casas', Ciudad='Getafe', Sueldo=4000)]

In [0]:
nom = df.collect()[0][1]
print(nom)

Martín
