# Crear dataframes

In [12]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

In [13]:
spark = SparkSession.builder.appName("createDataFrameOverview1").getOrCreate()
spark.sparkContext.setLogLevel("ERROR")

### Crear un DataFrame a partir de una lista de tuplas

In [14]:
spark.createDataFrame([('Moyobamba', 0),
                      ('Calzada', 1),
                      ('Habana', 2),
                      ('Jepelacio', 3),
                      ('Soritor', 4),
                      ('Yantalo', 5)]).show()

+---------+---+
|       _1| _2|
+---------+---+
|Moyobamba|  0|
|  Calzada|  1|
|   Habana|  2|
|Jepelacio|  3|
|  Soritor|  4|
|  Yantalo|  5|
+---------+---+



### Crear un DataFrame a partir de una lista de diccionarios

In [15]:
moyobamba = [
    {'distrito': 'Moyobamba', 'id': 0},
    {'distrito': 'Calzada', 'id': 1},
    {'distrito': 'Habana', 'id': 2},
    {'distrito': 'Jepelacio', 'id': 3},
    {'distrito': 'Soritor', 'id': 4},
    {'distrito': 'Yantalo', 'id': 5}
]

spark.createDataFrame(moyobamba).show()

+---------+---+
| distrito| id|
+---------+---+
|Moyobamba|  0|
|  Calzada|  1|
|   Habana|  2|
|Jepelacio|  3|
|  Soritor|  4|
|  Yantalo|  5|
+---------+---+



### Crear un DataFrame con nombres de columnas especificados

In [16]:
spark.createDataFrame([('Moyobamba', 0),
                      ('Calzada', 1),
                      ('Habana', 2),
                      ('Jepelacio', 3),
                      ('Soritor', 4),
                      ('Yantalo', 5)], ['distrito', 'id']).show()

+---------+---+
| distrito| id|
+---------+---+
|Moyobamba|  0|
|  Calzada|  1|
|   Habana|  2|
|Jepelacio|  3|
|  Soritor|  4|
|  Yantalo|  5|
+---------+---+



### Crear un DataFrame con el esquema explícito especificado

In [17]:
schema = StructType([
    StructField('distrito', StringType(), True),
    StructField('id', IntegerType(), True)
])

spark.createDataFrame([('Moyobamba', 0),
                      ('Calzada', 1),
                      ('Habana', 2),
                      ('Jepelacio', 3),
                      ('Soritor', 4),
                      ('Yantalo', 5)], schema).show()

+---------+---+
| distrito| id|
+---------+---+
|Moyobamba|  0|
|  Calzada|  1|
|   Habana|  2|
|Jepelacio|  3|
|  Soritor|  4|
|  Yantalo|  5|
+---------+---+



### Crear un DataFrame con el esquema en cadena con formato DDL

In [18]:
spark.createDataFrame([('Moyobamba', 0),
                      ('Calzada', 1),
                      ('Habana', 2),
                      ('Jepelacio', 3),
                      ('Soritor', 4),
                      ('Yantalo', 5)], "distrito: string, id: int").show()

+---------+---+
| distrito| id|
+---------+---+
|Moyobamba|  0|
|  Calzada|  1|
|   Habana|  2|
|Jepelacio|  3|
|  Soritor|  4|
|  Yantalo|  5|
+---------+---+



### Crear un DataFrame vacío 

Al inicializar un DataFrame vacío en PySpark, es obligatorio especificar su esquema, ya que el DataFrame carece de datos a partir de los cuales se pueda inferir el esquema.

In [19]:
spark.createDataFrame([], "distrito: string, id: int").show()

+--------+---+
|distrito| id|
+--------+---+
+--------+---+



### Crear un DataFrame a partir de objetos Row

In [20]:
from pyspark.sql import Row

Persona = Row('name', 'age')
df = spark.createDataFrame([Persona('Ernesto', 48), Persona('Juan', 67)])
df.show()

+-------+---+
|   name|age|
+-------+---+
|Ernesto| 48|
|   Juan| 67|
+-------+---+



### Crear un DataFrame a partir de un DataFrame de pandas

In [21]:
spark.createDataFrame(df.toPandas())

DataFrame[name: string, age: bigint]

In [22]:
import pandas
spark.createDataFrame(pandas.DataFrame([[1, 2]])).collect()

[Row(0=1, 1=2)]