**Sesion de Spark**

In [None]:
# Instalar la librería findspark
# Va a permitir encontrar spark dentro de nuestra maquina

!pip install -q findspark

# Instalar pyspark

!pip install -q pyspark

# Como crear una sesión de spark (SparkSession)

import findspark
findspark.init() # Es de utilidad para encontrar donde esta la instalacion de spark en mi computadora

from pyspark.sql import SparkSession # Importar el sparksession

spark = SparkSession.builder.getOrCreate() # Crear la sesion de spark (sparksession)
sc = spark.sparkContext # Crear el contexto de spark

**Crear un DataFrame a partir de un RDD**

In [None]:
# Crear RDD
rdd = sc.parallelize([item for item in range(10)]).map(lambda x: (x, x**2))
# Función lambada recibe arugmento x y retorna una tupla compuesta por x y x al cuadrado

In [None]:
# rdd.collect()

In [None]:
# Crear DF a partir de RDD
df = rdd.toDF(["numero", "numero_cuadrado"]) # toDF recibe como parametro una lista de los nombres de las columnas

In [None]:
# Ver esquema del DF que se acaba de crear
df.printSchema()

root
 |-- numero: long (nullable = true)
 |-- numero_cuadrado: long (nullable = true)



In [None]:
# Ver los primeros registros
df.show()

+------+---------------+
|numero|numero_cuadrado|
+------+---------------+
|     0|              0|
|     1|              1|
|     2|              4|
|     3|              9|
|     4|             16|
|     5|             25|
|     6|             36|
|     7|             49|
|     8|             64|
|     9|             81|
+------+---------------+



**Crear un DataFrame a partir de un RDD con schema**

In [None]:
# Crear un DataFrame a partir de un RDD con schema

rdd1 = sc.parallelize([(1, 'Jose', 35.5), (2, 'Teresa', 54.3), (3, 'Katia', 12.7)])

In [None]:
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType

In [None]:
# Crear squema
# Primera vía

esquema1 = StructType(
    [
     StructField('id', IntegerType(), True),
     StructField('nombre', StringType(), True),
     StructField('saldo', DoubleType(), True)
    ]
)

In [None]:
# Crear squema
# Segunda vía

esquema2 = "`id` INT, `nombre` STRING, `saldo` DOUBLE"

In [None]:
df1 = spark.createDataFrame(rdd1, schema=esquema1)

In [None]:
df1.printSchema()

root
 |-- id: integer (nullable = true)
 |-- nombre: string (nullable = true)
 |-- saldo: double (nullable = true)



In [None]:
df1.show()

+---+------+-----+
| id|nombre|saldo|
+---+------+-----+
|  1|  Jose| 35.5|
|  2|Teresa| 54.3|
|  3| Katia| 12.7|
+---+------+-----+



**Crear DFs a partir de Fuentes de Datos**

In [None]:
# Clases principales para leer y escribir datos son:
# |-- DataFrameReader
# |---- Instancia: spark.read().format().option().schema().load() (Instancias principales a la hora de leer datos: format, option, schema)
# |-- DataFrameWriter

**Crear DF a partir de Archivo de Texto**

In [None]:
df = spark.read.text('/content/data/dataTXT.txt')

In [None]:
df.show()

+--------------------+
|               value|
+--------------------+
|Estamos en el cur...|
|En este capítulo ...|
|En esta sección e...|
|y en este ejemplo...|
+--------------------+



**Crear DF mediante la lectura de un CSV**

In [None]:
# df_csv = spark.read.csv('/content/data/dataCSV.csv', header= True) # Mi forma
df_csv = spark.read.option('header', 'true').csv('/content/data/dataCSV.csv') # La recomendada

In [None]:
df_csv.show()

+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|   video_id|trending_date|               title|       channel_title|category_id|        publish_time|                tags|  views| likes|dislikes|comment_count|      thumbnail_link|comments_disabled|ratings_disabled|video_error_or_removed|         description|
+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|2kyS6SvSYSE|     17.14.11|WE WANT TO TALK A...|        CaseyNeistat|         22|2017-11-13T17:13:...|     SHANtell martin| 748374| 57527|    2966|        15954|https://i.ytimg.c...|            False|           Fal

**Crear DF con un Delimitador**

In [None]:
df2 = spark.read.option('header', 'true').option('delimiter', '|').csv('/content/data/dataTab.txt') # Se puden agregar varias instanacias de option

In [None]:
df2.show()

+----+----+----------+-----+
|pais|edad|     fecha|color|
+----+----+----------+-----+
|  MX|  23|2021-02-21| rojo|
|  CA|  56|2021-06-10| azul|
|  US|  32|2020-06-02|verde|
+----+----+----------+-----+

