In [21]:
from pyspark.sql import SparkSession, Row
import pandas as pd
from datetime import datetime, date

In [22]:
spark = SparkSession.builder.appName("createDataFrameOverview2").getOrCreate()

# Creación de DataFrame

Se puede crear un DataFrame de PySpark mediante pyspark.sql.SparkSession.createDataFrame, generalmente pasando una lista de listas, tuplas, diccionarios y pyspark.sql.Rows, un DataFrame de pandas y un RDD que consta de dicha lista.

pyspark.sql.SparkSession.createDataFrame toma el argumento de schema para especificar el esquema del DataFrame. Cuando se omite, PySpark infiere el esquema correspondiente tomando una muestra de los datos.

### Crear un DataFrame a partir de una lista de filas

In [23]:
df_1 = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 2, 1, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 3, 1, 12, 0))
])

df_1

a,b,c,d,e
1,2.0,string1,2000-01-01,2000-01-01 12:00:00
2,3.0,string2,2000-02-01,2000-02-01 12:00:00
4,5.0,string3,2000-03-01,2000-03-01 12:00:00


In [24]:
df_1.show()
df_1.printSchema()

+---+---+-------+----------+-------------------+
|  a|  b|      c|         d|                  e|
+---+---+-------+----------+-------------------+
|  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
|  2|3.0|string2|2000-02-01|2000-02-01 12:00:00|
|  4|5.0|string3|2000-03-01|2000-03-01 12:00:00|
+---+---+-------+----------+-------------------+

root
 |-- a: long (nullable = true)
 |-- b: double (nullable = true)
 |-- c: string (nullable = true)
 |-- d: date (nullable = true)
 |-- e: timestamp (nullable = true)



### Crear un DataFrame con un esquema explícito

In [25]:
df_2 = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 2, 1, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 3, 1, 12, 0))
], schema='a int, b double, c string, d date, e timestamp')

df_2

a,b,c,d,e
1,2.0,string1,2000-01-01,2000-01-01 12:00:00
2,3.0,string2,2000-02-01,2000-02-01 12:00:00
4,5.0,string3,2000-03-01,2000-03-01 12:00:00


In [26]:
df_2.show()
df_2.printSchema()

+---+---+-------+----------+-------------------+
|  a|  b|      c|         d|                  e|
+---+---+-------+----------+-------------------+
|  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
|  2|3.0|string2|2000-02-01|2000-02-01 12:00:00|
|  4|5.0|string3|2000-03-01|2000-03-01 12:00:00|
+---+---+-------+----------+-------------------+

root
 |-- a: integer (nullable = true)
 |-- b: double (nullable = true)
 |-- c: string (nullable = true)
 |-- d: date (nullable = true)
 |-- e: timestamp (nullable = true)



### Crear un DataFrame a partir de un DataFrame de pandas

In [27]:
pandas_df = pd.DataFrame({
    'a': [1, 2, 3],
    'b': [2., 3., 4.],
    'c': ['string1', 'string2', 'string3'],
    'd': [date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1)],
    'e': [datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0)]
})

df_3 = spark.createDataFrame(pandas_df)

df_3

a,b,c,d,e
1,2.0,string1,2000-01-01,2000-01-01 12:00:00
2,3.0,string2,2000-02-01,2000-01-02 12:00:00
3,4.0,string3,2000-03-01,2000-01-03 12:00:00


In [28]:
df_3.show()

df_3.printSchema()

+---+---+-------+----------+-------------------+
|  a|  b|      c|         d|                  e|
+---+---+-------+----------+-------------------+
|  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
|  2|3.0|string2|2000-02-01|2000-01-02 12:00:00|
|  3|4.0|string3|2000-03-01|2000-01-03 12:00:00|
+---+---+-------+----------+-------------------+

root
 |-- a: long (nullable = true)
 |-- b: double (nullable = true)
 |-- c: string (nullable = true)
 |-- d: date (nullable = true)
 |-- e: timestamp (nullable = true)



# Visualización de datos

Las filas superiores de un DataFrame se pueden visualizar utilizando DataFrame.show().

In [29]:
df_1.show(1)

+---+---+-------+----------+-------------------+
|  a|  b|      c|         d|                  e|
+---+---+-------+----------+-------------------+
|  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
+---+---+-------+----------+-------------------+
only showing top 1 row



Como alternativa, puede habilitar la configuración spark.sql.repl.eagerEval.enabled para la evaluación diligente de PySpark DataFrame en notebooks como Jupyter. La cantidad de filas que se mostrarán se puede controlar mediante la configuración spark.sql.repl.eagerEval.maxNumRows.

In [30]:
spark.conf.set('spark.sql.repl.eagerEval.enabled', True)

In [31]:
df_1

a,b,c,d,e
1,2.0,string1,2000-01-01,2000-01-01 12:00:00
2,3.0,string2,2000-02-01,2000-02-01 12:00:00
4,5.0,string3,2000-03-01,2000-03-01 12:00:00


Las filas también se pueden mostrar en forma vertical. Esto resulta útil cuando las filas son demasiado largas para mostrarlas en forma horizontal.

In [32]:
df_1.show(1, vertical=True)

-RECORD 0------------------
 a   | 1                   
 b   | 2.0                 
 c   | string1             
 d   | 2000-01-01          
 e   | 2000-01-01 12:00:00 
only showing top 1 row



Puede ver el esquema y los nombres de las columnas del DataFrame de la siguiente manera:

In [33]:
df_1.columns

['a', 'b', 'c', 'd', 'e']

In [34]:
df_1.printSchema()

root
 |-- a: long (nullable = true)
 |-- b: double (nullable = true)
 |-- c: string (nullable = true)
 |-- d: date (nullable = true)
 |-- e: timestamp (nullable = true)



Mostrar el resumen del DataFrame

In [35]:
df_1.select("a", "b", "c").describe().show()

+-------+------------------+------------------+-------+
|summary|                 a|                 b|      c|
+-------+------------------+------------------+-------+
|  count|                 3|                 3|      3|
|   mean|2.3333333333333335|3.3333333333333335|   NULL|
| stddev|1.5275252316519468|1.5275252316519468|   NULL|
|    min|                 1|               2.0|string1|
|    max|                 4|               5.0|string3|
+-------+------------------+------------------+-------+



DataFrame.collect() recopila los datos distribuidos en el lado del controlador como datos locales en Python. Tenga en cuenta que esto puede generar un error de falta de memoria cuando el conjunto de datos es demasiado grande para caber en el lado del controlador, ya que recopila todos los datos de los ejecutores en el lado del controlador.

In [36]:
df_1.collect()

[Row(a=1, b=2.0, c='string1', d=datetime.date(2000, 1, 1), e=datetime.datetime(2000, 1, 1, 12, 0)),
 Row(a=2, b=3.0, c='string2', d=datetime.date(2000, 2, 1), e=datetime.datetime(2000, 2, 1, 12, 0)),
 Row(a=4, b=5.0, c='string3', d=datetime.date(2000, 3, 1), e=datetime.datetime(2000, 3, 1, 12, 0))]

Para evitar lanzar una excepción por falta de memoria, utilice DataFrame.take() o DataFrame.tail().

In [37]:
df_1.tail(5)

[Row(a=1, b=2.0, c='string1', d=datetime.date(2000, 1, 1), e=datetime.datetime(2000, 1, 1, 12, 0)),
 Row(a=2, b=3.0, c='string2', d=datetime.date(2000, 2, 1), e=datetime.datetime(2000, 2, 1, 12, 0)),
 Row(a=4, b=5.0, c='string3', d=datetime.date(2000, 3, 1), e=datetime.datetime(2000, 3, 1, 12, 0))]

In [38]:
df_1.take(5)

[Row(a=1, b=2.0, c='string1', d=datetime.date(2000, 1, 1), e=datetime.datetime(2000, 1, 1, 12, 0)),
 Row(a=2, b=3.0, c='string2', d=datetime.date(2000, 2, 1), e=datetime.datetime(2000, 2, 1, 12, 0)),
 Row(a=4, b=5.0, c='string3', d=datetime.date(2000, 3, 1), e=datetime.datetime(2000, 3, 1, 12, 0))]

In [39]:
df_1.head(5)

[Row(a=1, b=2.0, c='string1', d=datetime.date(2000, 1, 1), e=datetime.datetime(2000, 1, 1, 12, 0)),
 Row(a=2, b=3.0, c='string2', d=datetime.date(2000, 2, 1), e=datetime.datetime(2000, 2, 1, 12, 0)),
 Row(a=4, b=5.0, c='string3', d=datetime.date(2000, 3, 1), e=datetime.datetime(2000, 3, 1, 12, 0))]

PySpark DataFrame también permite la conversión a un DataFrame de pandas para aprovechar la API de pandas. Tenga en cuenta que toPandas también recopila todos los datos en el lado del controlador, lo que puede provocar fácilmente un error de falta de memoria cuando los datos son demasiado grandes para caber en el lado del controlador.

In [40]:
df_1.toPandas()

Unnamed: 0,a,b,c,d,e
0,1,2.0,string1,2000-01-01,2000-01-01 12:00:00
1,2,3.0,string2,2000-02-01,2000-02-01 12:00:00
2,4,5.0,string3,2000-03-01,2000-03-01 12:00:00
