##  Introducción a GraphFrames

### Qué es GraphFrames?

#### **Definición**:
GraphFrames es un paquete de Apache Spark diseñado para el procesamiento de grafos, pero con una diferencia clave: está basado en DataFrames en lugar de RDDs (Resilient Distributed Datasets). Esto lo hace más eficiente y fácil de usar, especialmente para quienes ya están familiarizados con Spark SQL y DataFrames.

#### **Relación con Spark**:
GraphFrames combina la potencia de los grafos con la flexibilidad y optimización de los DataFrames, permitiendo consultas y operaciones más rápidas y expresivas.


### Ventajas de GraphFrames
GraphFrames ofrece varias ventajas sobre otras APIs de grafos, como GraphX:

**1.** **Integración con Spark SQL**:

  - Permite ejecutar consultas SQL directamente sobre los grafos, lo que facilita el análisis de datos estructurados.

  - Ejemplo: Filtrar vértices o aristas usando expresiones SQL.

**2.** **Facilidad de uso**:

  - Al estar basado en DataFrames, GraphFrames es más intuitivo para usuarios que ya trabajan con Spark SQL.

  - Proporciona una API de alto nivel que simplifica la manipulación de grafos.

**3.** **Optimización de consultas**:

  - Spark optimiza automáticamente las operaciones sobre DataFrames, lo que mejora el rendimiento en comparación con RDDs.

**4.** **Soporte para grafos dirigidos y no dirigidos**:

  - GraphFrames puede manejar tanto grafos dirigidos (con dirección en las aristas) como no dirigidos (sin dirección).

### Representación de vértices y aristas con DataFrames
En GraphFrames, los grafos se representan utilizando dos DataFrames:

**1.** **Vértices (Vertices)**:

- Cada fila del DataFrame representa un vértice.

- La estructura típica incluye:

  - id: Identificador único del vértice.

  - atributos: Columnas adicionales que almacenan propiedades del vértice (por ejemplo, nombre, edad, etc.).

**Ejemplo de DataFrame de vértices**:

In [None]:
+---+-------+-----+
| id| nombre| edad|
+---+-------+-----+
|  1|  Alice|   34|
|  2|    Bob|   28|
+---+-------+-----+

#### Este DataFrame te dice que el grafo tiene dos nodos:
- Un nodo con id=1, que representa a Alice, de 34 años.

- Un nodo con id=2, que representa a Bob, de 28 años.

**2.** **Aristas (Edges)**:

- Cada fila del DataFrame representa una arista.

- La estructura típica incluye:

  - **src**: ID del vértice de origen.

  - **dst**: ID del vértice de destino.

  - **atributos**: Columnas adicionales que almacenan propiedades de la arista (por ejemplo, peso, tipo de relación, etc.).

**Ejemplo de DataFrame de aristas**:

In [None]:
+---+---+------------+
|src|dst|  relación  |
+---+---+------------+
|  1|  2|    amigo    |
|  2|  1|    sigue    |
+---+---+------------+

#### Interpretación:
Este DataFrame de aristas te dice lo siguiente:

**1.** **La primera fila** (de src = 1 a dst = 2) indica que Alice (id=1) tiene una relación de amigo con Bob (id=2).

**2.** **La segunda fila** (de src = 2 a dst = 1) indica que Bob (id=2) sigue a Alice (id=1), es decir, la relación es dirigida.

**Resumen de relaciones**:

- Alice es amiga de Bob.
- Bob sigue a Alice.

### Construcción de grafos en GraphFrames
Para construir un grafo en GraphFrames, se siguen estos pasos:

**1.** **Crear DataFrames para vértices y aristas**:

- Definir los DataFrames que representan los vértices y las aristas, como se mostró anteriormente.

**2.** **Usar el constructor de GraphFrames**:
- Una vez que tienes los DataFrames, puedes crear un grafo utilizando el constructor GraphFrame.

**Ejemplo en código**:

In [None]:
from graphframes import GraphFrame

// Crear DataFrames
vertices = spark.createDataFrame([(1, "Alice", 34), (2, "Bob", 28)], ["id", "nombre", "edad"])
edges = spark.createDataFrame([(1, 2, "amigo"), (2, 1, "sigue")], ["src", "dst", "relación"])

// Construir el grafo
grafo = GraphFrame(vertices, edges)

**3.** **Operaciones sobre el grafo**:

- Una vez construido el grafo, puedes realizar operaciones como:

  - Consultas de vértices y aristas.

  - Algoritmos de grafos (por ejemplo, PageRank, BFS, detección de comunidades).

  - Transformaciones y filtrados.

 ### Ejemplo práctico
- Caso de uso:
Supongamos que tienes una red social y quieres encontrar a los usuarios más influyentes (PageRank) o los caminos más cortos entre dos usuarios (BFS).

- Pasos:

    **1.** Crear los DataFrames de vértices y aristas.

    **2.** Construir el grafo con GraphFrame.

    **3.** Ejecutar algoritmos como PageRank o BFS.

    **4.** Visualizar o exportar los resultados.