### ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Creación de Dataframes utilizando a Row

#### Introducción a Row

In [0]:
from pyspark.sql import Row

row1 = Row('Alfonso',36)
row2 = Row(name='Alfonso', age=36)

In [0]:
row2

Out[4]: Row(name='Alfonso', age=36)

In [0]:
row2.name

Out[5]: 'Alfonso'

In [0]:
row2[0]

Out[6]: 'Alfonso'

#### Convertir una lista de listas a una lista de Rows y luego crear un Dataframe

In [0]:
from pyspark.sql import Row

lista = [[1,'Juan'],[2,'Maria'],[3,'Javiera'],[4,'Tomas']]

lista_rows = [Row(*nombre) for nombre in lista]

lista_rows

Out[7]: [<Row(1, 'Juan')>, <Row(2, 'Maria')>, <Row(3, 'Javiera')>, <Row(4, 'Tomas')>]

In [0]:
type(lista_rows)

Out[8]: list

In [0]:
df = spark.createDataFrame(lista_rows, 'id int, nombre string')

df.show()

+---+-------+
| id| nombre|
+---+-------+
|  1|   Juan|
|  2|  Maria|
|  3|Javiera|
|  4|  Tomas|
+---+-------+



#### Convertir una lista de tuplas a una lista de Rows y luego crear un Dataframe

In [0]:
from pyspark.sql import Row

lista = [(1,'Juan'),(2,'Maria'),(3,'Javiera'),(4,'Tomas')]

lista_rows = [Row(*nombre) for nombre in lista]

lista_rows

Out[10]: [<Row(1, 'Juan')>, <Row(2, 'Maria')>, <Row(3, 'Javiera')>, <Row(4, 'Tomas')>]

In [0]:
type(lista_rows)

Out[11]: list

In [0]:
df = spark.createDataFrame(lista_rows, 'id int, nombre string')

df.show()

+---+-------+
| id| nombre|
+---+-------+
|  1|   Juan|
|  2|  Maria|
|  3|Javiera|
|  4|  Tomas|
+---+-------+



#### Convertir una lista de diccionarios a una lista de Rows y luego crear un Dataframe

In [0]:
from pyspark.sql import Row

lista = [
    {'id':1, 
     'nombre':'Scott'
    },
    {'id':2, 
     'nombre':'Donald'
    },
    {'id':3, 
     'nombre':'Mickey'
    },
    {'id':4, 
     'nombre':'Elvis'
    },
    {'id':5, 
     'nombre':'Travis'
    }
]

type(lista)

Out[13]: list

In [0]:
type(lista[0])

Out[14]: dict

In [0]:
lista[0]

Out[15]: {'id': 1, 'nombre': 'Scott'}

In [0]:
lista[0]['nombre']

Out[16]: 'Scott'

##### Forma 1

In [0]:
lista_rows = [Row(*usuario.values()) for usuario in lista]

lista_rows

Out[19]: [<Row(1, 'Scott')>,
 <Row(2, 'Donald')>,
 <Row(3, 'Mickey')>,
 <Row(4, 'Elvis')>,
 <Row(5, 'Travis')>]

In [0]:
df = spark.createDataFrame(lista_rows, 'id int, nombre string')

df.show()

+---+------+
| id|nombre|
+---+------+
|  1| Scott|
|  2|Donald|
|  3|Mickey|
|  4| Elvis|
|  5|Travis|
+---+------+



##### Forma 2

In [0]:
lista_rows = [Row(**usuario) for usuario in lista]

lista_rows

Out[21]: [Row(id=1, nombre='Scott'),
 Row(id=2, nombre='Donald'),
 Row(id=3, nombre='Mickey'),
 Row(id=4, nombre='Elvis'),
 Row(id=5, nombre='Travis')]

In [0]:
df = spark.createDataFrame(lista_rows, 'id int, nombre string')

df.show()

+---+------+
| id|nombre|
+---+------+
|  1| Scott|
|  2|Donald|
|  3|Mickey|
|  4| Elvis|
|  5|Travis|
+---+------+



##### Forma 3

In [0]:
df = spark.createDataFrame(Row(**usuario) for usuario in lista)

df.printSchema()

root
 |-- id: long (nullable = true)
 |-- nombre: string (nullable = true)



In [0]:
df.show()

+---+------+
| id|nombre|
+---+------+
|  1| Scott|
|  2|Donald|
|  3|Mickey|
|  4| Elvis|
|  5|Travis|
+---+------+

