<p><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1e/UNAL_Logosimbolo.svg/583px-UNAL_Logosimbolo.svg.png" alt="" width="1280" height="300" /></p>


**# APACHE SPARK**

<p><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f3/Apache_Spark_logo.svg/1280px-Apache_Spark_logo.svg.png" alt="" width="150" height="100" /></p>



Apache Spark ™ es un motor multilenguaje para ejecutar ingeniería de datos, ciencia de datos y aprendizaje automático en máquinas de un solo nodo o clústeres.

>  ⚠️ **ADVERTENCIA:** Si ven el símbolo `!`, significa que ese comando está pensado para ejecutarse desde un notebook, donde se usa para enviar instrucciones al sistema operativo.
Si van a ejecutar el mismo comando directamente desde la consola, deben remover el signo de exclamación.

## **CREACIÓN DE ARCHIVO LOCAL**

In [1]:
%%writefile datos.csv
nombre,edad,ciudad
ana,28,medellin
luis,34,bogota
mario,22,cali
laura,30,barranquilla
carlos,27,manizales

Writing datos.csv


## **INSTALACIÓN DE SPARK**

In [2]:
!pip install pyspark --quiet

###  **VERIFICACIÓN DE VERSIÓN**

In [3]:
!pyspark --version

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.5.1
      /_/
                        
Using Scala version 2.12.18, OpenJDK 64-Bit Server VM, 11.0.27
Branch HEAD
Compiled by user heartsavior on 2024-02-15T11:24:58Z
Revision fd86f85e181fc2dc0f50a096855acf83a6cc5d9c
Url https://github.com/apache/spark
Type --help for more information.


## **INTERACCIÓN ELEMENTAL CON SPARK**

### **IMPORTAR LIBRERÍAS**

In [4]:
from pyspark.sql import SparkSession

### **CREACIÓN DE CONTEXTO**

En Spark, crear un contexto significa inicializar el entorno que permite ejecutar operaciones sobre datos.

Explicado brevemente para principiantes:

* Spark necesita un **contexto** para empezar a trabajar, algo así como abrir una sesión de trabajo.

* Ese contexto le dice a Spark cómo y dónde procesar los datos (por ejemplo, localmente, en cluster, etc.).

* En versiones modernas, usamos `SparkSession`, que reemplaza al antiguo `SparkContext`.

In [5]:
spark = SparkSession.builder \
  .appName("mi primer ejemplo con pyspark") \
  .getOrCreate()

In [6]:
spark

### **CREACIÓN DE DATOS DUMMY**

In [7]:
df = spark.createDataFrame(
  [
    {"nombre": "ana", "edad": 28},
    {"nombre": "luis", "edad": 34},
    {"nombre": "mario", "edad": 22}
  ]
)
df.show()

+----+------+
|edad|nombre|
+----+------+
|  28|   ana|
|  34|  luis|
|  22| mario|
+----+------+



### **LECTURA DE ARCHIVOS**

Spark siempre trabaja con **sistemas de archivos distribuidos**, no con el sistema local por defecto. Por esta razón, **la ruta del archivo debe incluir el esquema que indica el tipo de almacenamiento**.

Además, ten en cuenta que **el formato de archivo por defecto en Spark es Parquet**, un formato columnar optimizado para rendimiento.




#### **LECTURA HDFS**

Hadoop Distributed File System



```bash
hdfs://namenode:9000/user/data/archivo.parquet
```



#### **LECTURA DATABRICKS (DBFS)**


```bash
dbfs:/mnt/datalake/archivo.parquet
```


#### **LECTURA LOCAL**


```bash
file:///ruta/local/archivo.parquet
```

> 💡 **Nota:** Usar rutas locales (`file://`) no es recomendable en producción, ya que Spark está diseñado para procesar datos en entornos distribuidos.

#### **EJEMPLO LECTURA LOCAL**

In [8]:
df_csv = spark.read.csv(
    "file:///content/datos.csv",
    header=True,
    inferSchema=True
  )

In [9]:
df_csv.printSchema()

root
 |-- nombre: string (nullable = true)
 |-- edad: integer (nullable = true)
 |-- ciudad: string (nullable = true)



In [10]:
df_csv.show()

+------+----+------------+
|nombre|edad|      ciudad|
+------+----+------------+
|   ana|  28|    medellin|
|  luis|  34|      bogota|
| mario|  22|        cali|
| laura|  30|barranquilla|
|carlos|  27|   manizales|
+------+----+------------+

