# ***DataFrame en PySpark***

Un DataFrame es una colección de datos estructurados que se pueden manipular utilizando operaciones como selección, filtrado, agregación y transformación, todo de manera distribuida. Esta estructura es optimizada por el motor de Apache Spark, lo que permite el procesamiento eficiente y paralelo de grandes conjuntos de datos.

##**Características principales de un DataFrame en PySpark**:
Distribuido: Un DataFrame en PySpark se distribuye entre diferentes nodos de un clúster de Spark, lo que permite procesar grandes cantidades de datos de manera paralela y eficiente.

## **Estructura de columnas y filas**: 
Similar a una tabla en una base de datos relacional, cada DataFrame tiene columnas con tipos de datos específicos (como String, Integer, Double, etc.) y filas que contienen los datos.

## **Optimización:** 
Los DataFrames en PySpark están optimizados mediante el Catalyst Optimizer, que mejora el rendimiento de las consultas a través de transformaciones internas de código.

## **Lenguaje SQL:**
Puedes utilizar consultas SQL directamente sobre un DataFrame en PySpark, ya que internamente se convierte en un plan de ejecución SQL que es procesado por Spark.

## **Interoperabilidad:** 
Los DataFrames en PySpark pueden ser creados a partir de diferentes fuentes de datos, como archivos CSV, JSON, Parquet, bases de datos, y más. También puedes convertirlos a otros formatos o sistemas de procesamiento.

## **Transformaciones y acciones:** 
Los DataFrames permiten realizar transformaciones (como select(), filter(), groupBy()) y acciones (como show(), collect(), count()) sobre los datos, lo que facilita el análisis de grandes volúmenes de información.

## **Inmutable**
La inmutabilidad en PySpark es un concepto clave cuando trabajas con DataFrames. Un DataFrame en PySpark es inmutable, lo que significa que una vez creado, no se puede modificar directamente. En otras palabras, cualquier operación que realices sobre un DataFrame no cambia el DataFrame original, sino que crea un nuevo DataFrame como resultado de la operación

#### Ejemplo

```python
# Crear un DataFrame
df = spark.createDataFrame([(1, "Alice", 30), (2, "Bob", 25)], ["id", "name", "age"])

# Filtramos el DataFrame (crea un nuevo DataFrame)
filtered_df = df.filter(df.age > 25)

# Mostramos el DataFrame original
df.show()

# Mostramos el DataFrame filtrado
filtered_df.show()
```

In [0]:
import pandas as pd
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.functions import *



In [0]:
# Lista de tuplas que contiene información sobre los empleados: id, nombre, departamento y salario.
emp = [(1, "AAA", "dept1", 1000),
       (2, "BBB", "dept1", 1100),
       (3, "CCC", "dept1", 3000),
       (4, "DDD", "dept1", 1500),
       (5, "EEE", "dept2", 8000),
       (6, "FFF", "dept2", 7200),
       (7, "GGG", "dept3", 7100),
       (8, "HHH", "dept3", 3700),
       (9, "III", "dept3", 4500),
       (10, "JJJ", "dept5", 3400)]

# Lista de tuplas que contiene la relación entre el identificador del departamento y su nombre
dept = [("dept1", "Department - 1"),  
        ("dept2", "Department - 2"),  
        ("dept3", "Department - 3"),  
        ("dept4", "Department - 4")]  

# Crear un DataFrame de Spark a partir de la lista de empleados 'emp', especificando los nombres de las columnas
df = spark.createDataFrame(emp, ["id", "name", "dept", "salary"])

# Crear un DataFrame de Spark a partir de la lista de departamentos 'dept', especificando los nombres de las columnas
deptdf = spark.createDataFrame(dept, ["id", "name"])

In [0]:
df.show()

+---+----+-----+------+
| id|name| dept|salary|
+---+----+-----+------+
|  1| AAA|dept1|  1000|
|  2| BBB|dept1|  1100|
|  3| CCC|dept1|  3000|
|  4| DDD|dept1|  1500|
|  5| EEE|dept2|  8000|
|  6| FFF|dept2|  7200|
|  7| GGG|dept3|  7100|
|  8| HHH|dept3|  3700|
|  9| III|dept3|  4500|
| 10| JJJ|dept5|  3400|
+---+----+-----+------+



## Metodos

### Count() 
Retorna la Cantidad de Registros del Dataframe
### Columns()
Retorna los Nombres de las Columnas del DataFrame
### dtypes
Retorna el tipo de Dato de Cada Columna del Dataframe
### schema
Retorna la estructura del Dataframe almacenado en Spark

In [0]:
print(df.count())
print(df.columns)
print(df.dtypes)
print(df.schema)


10
['id', 'name', 'dept', 'salary']
[('id', 'bigint'), ('name', 'string'), ('dept', 'string'), ('salary', 'bigint')]
StructType([StructField('id', LongType(), True), StructField('name', StringType(), True), StructField('dept', StringType(), True), StructField('salary', LongType(), True)])


El metodo `printSchema` permite mostrar de una manera mas legible la estructura del dataframe

In [0]:
df.printSchema()

root
 |-- id: long (nullable = true)
 |-- name: string (nullable = true)
 |-- dept: string (nullable = true)
 |-- salary: long (nullable = true)



### `Select`
Permite Seleccionar columnas de un DataFrame

In [0]:
df.select("id","name").show()

+---+----+
| id|name|
+---+----+
|  1| AAA|
|  2| BBB|
|  3| CCC|
|  4| DDD|
|  5| EEE|
|  6| FFF|
|  7| GGG|
|  8| HHH|
|  9| III|
| 10| JJJ|
+---+----+



### `Filter`
El método `filter` nos permite filtrar datos de un DataFrame y podemos usarlo de diferentes formas:

- **`df.filter(df['id'] == 1).show()`**: Usamos una **expresión estándar de Python** para acceder a una columna del DataFrame con **corchetes** (`df["id"]`), lo cual es útil cuando se trabaja con nombres de columnas que contienen caracteres especiales o cuando se necesita mayor flexibilidad en el acceso a las columnas. Posteriormente, comparamos si el valor de la columna `id` es igual a 1.

- **`df.filter(df.id == 1).show()`**: Usamos la notación de **punto (`.`)** para acceder directamente a la columna `id`. Este enfoque es más limpio y sencillo cuando los nombres de las columnas son simples y no contienen caracteres especiales, haciendo el código más conciso y legible.

- **`df.filter(col("id") == 1).show()`**: Usamos la función **`col()`** de **`pyspark.sql.functions`** para hacer referencia a las columnas del DataFrame. Este método es muy útil cuando se aplican transformaciones complejas o cuando el nombre de la columna contiene caracteres especiales. La función `col()` es especialmente útil cuando se trabajan con múltiples columnas o se usan funciones adicionales sobre las columnas, como agregaciones, condiciones complejas, etc.

- **`df.filter("id = 1").show()`**: Usamos la condición de comparación como una **cadena de texto**, lo que permite escribir la condición de una manera similar a cómo escribiríamos una consulta SQL. Este enfoque es útil si estamos familiarizados con SQL o queremos escribir condiciones de forma más compacta, especialmente cuando se utilizan expresiones de filtrado simples.


In [0]:
df.filter(df["id"] == 1).show()
df.filter(df.id == 1).show()

+---+----+-----+------+
| id|name| dept|salary|
+---+----+-----+------+
|  1| AAA|dept1|  1000|
+---+----+-----+------+

+---+----+-----+------+
| id|name| dept|salary|
+---+----+-----+------+
|  1| AAA|dept1|  1000|
+---+----+-----+------+



In [0]:
df.filter(col("id") == 1).show()
df.filter("id = 1").show()

+---+----+-----+------+
| id|name| dept|salary|
+---+----+-----+------+
|  1| AAA|dept1|  1000|
+---+----+-----+------+

+---+----+-----+------+
| id|name| dept|salary|
+---+----+-----+------+
|  1| AAA|dept1|  1000|
+---+----+-----+------+



### `Drop`
El método drop se utiliza para eliminar columnas de un DataFrame. Es importante recordar que los DataFrames en PySpark son inmutables, lo que significa que no se modifica el DataFrame original. En lugar de eso, el método drop crea un nuevo DataFrame que no contiene la columna (o las columnas) descartadas. El DataFrame original permanece intacto.

#### Inmutabilidad: 
Como los DataFrames son inmutables, cualquier operación que modifique su estructura (como agregar o eliminar columnas) no afecta el DataFrame original. En cambio, se devuelve una nueva instancia del DataFrame con los cambios aplicados.

In [0]:
newdf = df.drop("id")
newdf.show(2)

+----+-----+------+
|name| dept|salary|
+----+-----+------+
| AAA|dept1|  1000|
| BBB|dept1|  1100|
+----+-----+------+
only showing top 2 rows



### Groupby y agg 
En PySpark, los métodos groupBy y .agg se utilizan para realizar operaciones de agrupación y agregación sobre los datos en un DataFrame. Esto es muy útil cuando trabajas con grandes volúmenes de datos y necesitas calcular estadísticas, resúmenes o aplicar funciones específicas a grupos de datos.

### `Groupby`
El método groupBy se utiliza para agrupar las filas del DataFrame según los valores de una o más columnas. Es el primer paso en la creación de operaciones de agregación, como calcular promedios, sumas o contar registros dentro de cada grupo.

```python
# Crear un DataFrame de ejemplo
data = [(1, "Alice", "Sales", 1000),
        (2, "Bob", "Sales", 1500),
        (3, "Charlie", "HR", 1200),
        (4, "David", "HR", 1300),
        (5, "Eve", "Sales", 1100)]

columns = ["id", "name", "department", "salary"]
df = spark.createDataFrame(data, columns)

# Agrupar por "department"
grouped_df = df.groupBy("department")
grouped_df.show()
```


#### `.agg`
El método .agg() se utiliza junto con groupBy para realizar operaciones de agregación sobre los grupos creados. Puedes aplicar varias funciones de agregación sobre una o más columnas, como contar, sumar, calcular el promedio, el valor máximo o mínimo, etc.

```python
from pyspark.sql import functions as F

# Agrupar por "department" y calcular la suma de "salary" y el promedio de "salary"
agg_df = df.groupBy("department").agg(
    F.sum("salary").alias("total_salary"),
    F.avg("salary").alias("average_salary")
)

agg_df.show()

```
### Funciones comunes

***count(): Cuenta el número de elementos en un grupo.***
- `df.groupBy("department").agg(F.count("salary").alias("count_salary")).show()`

***sum(): Suma los valores de una columna.***
- `df.groupBy("department").agg(F.sum("salary").alias("total_salary")).show()`

***avg(): Calcula el promedio de una columna.***
- `df.groupBy("department").agg(F.avg("salary").alias("avg_salary")).show()`

***min(): Encuentra el valor mínimo de una columna.***
- `df.groupBy("department").agg(F.min("salary").alias("min_salary")).show()` 

***max(): Encuentra el valor máximo de una columna.***
- `df.groupBy("department").agg(F.max("salary").alias("max_salary")).show()`

 ***collect_list(): Devuelve una lista con todos los valores de la columna en cada grupo.***
- `df.groupBy("department").agg(F.collect_list("salary").alias("salary_list")).show()`

***collect_set(): Devuelve un conjunto con los valores únicos de la columna en cada grupo.***
- `df.groupBy("department").agg(F.collect_set("salary").alias("unique_salaries")).show()
`



In [0]:
(df.groupBy("dept")
    .agg(
        count("salary").alias("count"),
        sum("salary").alias("sum"),
        max("salary").alias("max"),
        min("salary").alias("min"),
        avg("salary").alias("avg")
        ).show()
)

+-----+-----+-----+----+----+------+
| dept|count|  sum| max| min|   avg|
+-----+-----+-----+----+----+------+
|dept1|    4| 6600|3000|1000|1650.0|
|dept2|    2|15200|8000|7200|7600.0|
|dept3|    3|15300|7100|3700|5100.0|
|dept5|    1| 3400|3400|3400|3400.0|
+-----+-----+-----+----+----+------+



### sort

El método `sort` en *PySpark* se utiliza para ordenar los datos en un DataFrame según una o más columnas. El orden puede ser ascendente o descendente, y es una operación importante cuando necesitas organizar los datos para análisis o visualización.

Por defecto, el método sort ordena los datos de manera ascendente (de menor a mayor), pero puedes especificar el orden para cada columna, ya sea ascendente o descendente.

In [0]:
#Ordenamiento por Defecto
df.sort("salary").show(5)

+---+----+-----+------+
| id|name| dept|salary|
+---+----+-----+------+
|  1| AAA|dept1|  1000|
|  2| BBB|dept1|  1100|
|  4| DDD|dept1|  1500|
|  3| CCC|dept1|  3000|
| 10| JJJ|dept5|  3400|
+---+----+-----+------+
only showing top 5 rows



In [0]:
# Ordenamiento descendente
df.sort(desc("salary")).show(5)

+---+----+-----+------+
| id|name| dept|salary|
+---+----+-----+------+
|  5| EEE|dept2|  8000|
|  6| FFF|dept2|  7200|
|  7| GGG|dept3|  7100|
|  9| III|dept3|  4500|
|  8| HHH|dept3|  3700|
+---+----+-----+------+
only showing top 5 rows



## Columnas Derivadas

### `withColumn`
El método `withColumn` se utiliza para crear nuevas columnas en un DataFrame o modificar columnas existentes a partir de las columnas ya presentes en el DataFrame. Es un método muy útil cuando necesitas realizar transformaciones o cálculos sobre los datos de una columna y agregar el resultado como una nueva columna en el DataFrame

***Sintaxis Basica***
`df = df.withColumn("new_column", expression)`

***Sintaxis Basica Calculo Varias columnas***

```pyspark
df = df.withColumn("new_column1", expression1) \
       .withColumn("new_column2", expression2) \
       .withColumn("new_column3", expression3)
``` 


In [0]:
df.withColumn("bonus", col("salary") * .1).show()

+---+----+-----+------+-----+
| id|name| dept|salary|bonus|
+---+----+-----+------+-----+
|  1| AAA|dept1|  1000|100.0|
|  2| BBB|dept1|  1100|110.0|
|  3| CCC|dept1|  3000|300.0|
|  4| DDD|dept1|  1500|150.0|
|  5| EEE|dept2|  8000|800.0|
|  6| FFF|dept2|  7200|720.0|
|  7| GGG|dept3|  7100|710.0|
|  8| HHH|dept3|  3700|370.0|
|  9| III|dept3|  4500|450.0|
| 10| JJJ|dept5|  3400|340.0|
+---+----+-----+------+-----+



### Uso de `joins` en PySpark
En PySpark, los **joins** permiten combinar dos o más DataFrames en base a columnas comunes, de manera similar a cómo funcionan los joins en SQL. Los joins son útiles cuando necesitas combinar datos que están en diferentes DataFrames pero comparten alguna relación (por ejemplo, una columna clave común).

#### Tipos de Joins en PySpark

Existen varios tipos de joins en PySpark:

- **Inner Join**: Devuelve solo las filas donde existe una coincidencia en ambos DataFrames.
- **Left Join (Left Outer Join)**: Devuelve todas las filas del DataFrame izquierdo y las filas coincidentes del DataFrame derecho. Si no hay coincidencia, los valores del DataFrame derecho serán `null`.
- **Right Join (Right Outer Join)**: Similar al Left Join, pero devuelve todas las filas del DataFrame derecho.
- **Full Join (Full Outer Join)**: Devuelve todas las filas de ambos DataFrames, con valores `null` donde no hay coincidencia.
- **Cross Join**: Realiza un producto cartesiano entre ambos DataFrames, combinando cada fila del DataFrame izquierdo con todas las filas del DataFrame derecho.




### Inner Join

***Sintaxis Basica***
```python
result = df1.join(df2, on=columna_comun, how="tipo_de_join")
```

In [0]:
df.join(deptdf, df["dept"] == deptdf["id"]).show()

+---+----+-----+------+-----+--------------+
| id|name| dept|salary|   id|          name|
+---+----+-----+------+-----+--------------+
|  1| AAA|dept1|  1000|dept1|Department - 1|
|  2| BBB|dept1|  1100|dept1|Department - 1|
|  3| CCC|dept1|  3000|dept1|Department - 1|
|  4| DDD|dept1|  1500|dept1|Department - 1|
|  5| EEE|dept2|  8000|dept2|Department - 2|
|  6| FFF|dept2|  7200|dept2|Department - 2|
|  7| GGG|dept3|  7100|dept3|Department - 3|
|  8| HHH|dept3|  3700|dept3|Department - 3|
|  9| III|dept3|  4500|dept3|Department - 3|
+---+----+-----+------+-----+--------------+



### Left Join

***Sintaxis Basica***
```python
result = df1.join(df2, on="id", how="left")
```

In [0]:
df.join(deptdf, df["dept"] == deptdf["id"], "left_outer").show()

+---+----+-----+------+-----+--------------+
| id|name| dept|salary|   id|          name|
+---+----+-----+------+-----+--------------+
|  1| AAA|dept1|  1000|dept1|Department - 1|
|  2| BBB|dept1|  1100|dept1|Department - 1|
|  3| CCC|dept1|  3000|dept1|Department - 1|
|  4| DDD|dept1|  1500|dept1|Department - 1|
|  5| EEE|dept2|  8000|dept2|Department - 2|
|  6| FFF|dept2|  7200|dept2|Department - 2|
|  7| GGG|dept3|  7100|dept3|Department - 3|
|  8| HHH|dept3|  3700|dept3|Department - 3|
| 10| JJJ|dept5|  3400| null|          null|
|  9| III|dept3|  4500|dept3|Department - 3|
+---+----+-----+------+-----+--------------+



### right Join

***Sintaxis Basica***
```python
result = df1.join(df2, on="id", how="right")
```

In [0]:
df.join(deptdf, df["dept"] == deptdf["id"], "right_outer").show()

+----+----+-----+------+-----+--------------+
|  id|name| dept|salary|   id|          name|
+----+----+-----+------+-----+--------------+
|   4| DDD|dept1|  1500|dept1|Department - 1|
|   3| CCC|dept1|  3000|dept1|Department - 1|
|   2| BBB|dept1|  1100|dept1|Department - 1|
|   1| AAA|dept1|  1000|dept1|Department - 1|
|   6| FFF|dept2|  7200|dept2|Department - 2|
|   5| EEE|dept2|  8000|dept2|Department - 2|
|   9| III|dept3|  4500|dept3|Department - 3|
|   8| HHH|dept3|  3700|dept3|Department - 3|
|   7| GGG|dept3|  7100|dept3|Department - 3|
|null|null| null|  null|dept4|Department - 4|
+----+----+-----+------+-----+--------------+



### outer Join

***Sintaxis Basica***
```python
result = df1.join(df2, on="id", how="outer")
```

In [0]:
df.join(deptdf, df["dept"] == deptdf["id"], "outer").show()

+----+----+-----+------+-----+--------------+
|  id|name| dept|salary|   id|          name|
+----+----+-----+------+-----+--------------+
|   1| AAA|dept1|  1000|dept1|Department - 1|
|   2| BBB|dept1|  1100|dept1|Department - 1|
|   3| CCC|dept1|  3000|dept1|Department - 1|
|   4| DDD|dept1|  1500|dept1|Department - 1|
|   5| EEE|dept2|  8000|dept2|Department - 2|
|   6| FFF|dept2|  7200|dept2|Department - 2|
|   7| GGG|dept3|  7100|dept3|Department - 3|
|   8| HHH|dept3|  3700|dept3|Department - 3|
|   9| III|dept3|  4500|dept3|Department - 3|
|null|null| null|  null|dept4|Department - 4|
|  10| JJJ|dept5|  3400| null|          null|
+----+----+-----+------+-----+--------------+



## Uso de SQL en PySpark
PySpark permite usar SQL de manera sencilla para consultar DataFrames mediante la integración de `SparkSession` con su motor de SQL. Puedes usar el método `spark.sql()` para ejecutar consultas SQL sobre los DataFrames que han sido registrados como **vistas temporales** (temporary views).

## Configuración inicial

Antes de usar SQL, es necesario registrar los DataFrames como vistas temporales. Una vez que se registre el DataFrame como vista, puedes hacer consultas SQL sobre él como si fuera una tabla en una base de datos tradicional.


## Uso de SQL en PySpark: Registrar DataFrame como Vista Temporal

En PySpark, puedes registrar un **DataFrame** como una **vista temporal** para poder ejecutar consultas SQL sobre él. Esta es una funcionalidad muy útil cuando quieres trabajar con PySpark de una manera más similar a cómo trabajas en bases de datos tradicionales usando SQL.

## Registro del DataFrame como Vista Temporal

Para registrar un **DataFrame** como una vista temporal, utilizamos el método `createOrReplaceTempView()`. Esto nos permite ejecutar consultas SQL sobre el DataFrame como si fuera una tabla en una base de datos.

In [0]:
df.createOrReplaceTempView("temp_table")
spark.sql("select * from temp_table where id = 1").show()

+---+----+-----+------+
| id|name| dept|salary|
+---+----+-----+------+
|  1| AAA|dept1|  1000|
+---+----+-----+------+



In [0]:
spark.sql("select distinct id from temp_table").show(10)

+---+
| id|
+---+
|  1|
|  2|
|  3|
|  5|
|  4|
|  6|
|  7|
|  8|
|  9|
| 10|
+---+



In [0]:
spark.sql("select * from temp_table where salary >= 1500").show(10)

+---+----+-----+------+
| id|name| dept|salary|
+---+----+-----+------+
|  3| CCC|dept1|  3000|
|  4| DDD|dept1|  1500|
|  5| EEE|dept2|  8000|
|  6| FFF|dept2|  7200|
|  7| GGG|dept3|  7100|
|  8| HHH|dept3|  3700|
|  9| III|dept3|  4500|
| 10| JJJ|dept5|  3400|
+---+----+-----+------+

