# Semana 1: Introducción a Scala y Programación Funcional

## Contexto del Ejercicio: Mi Porfolio como Data Engineer

Este notebook forma parte de la actividad **"Mi porfolio como Data Engineer"** descrita en el syllabus (páginas 18-19). 

El objetivo es que **construyas tu propia base de conocimiento** documentando lo aprendido. Puedes utilizar estos notebooks como:
*   **Guía**: Para seguir los conceptos clave.
*   **Base**: Para ampliar con tus propios ejemplos y notas.
*   **Complemento**: A tu repositorio de código en GitHub.

Lo importante es que al final del módulo tengas un **recurso propio** que demuestre tu comprensión de Scala y la programación funcional.

---

Este notebook sirve como guía introductoria para el desarrollo del portfolio de Data Engineering. Cubriremos los conceptos básicos de la programación funcional y el lenguaje Scala, preparando el terreno para trabajar con Apache Spark.

## 1. Limitaciones del Entorno y Resolución de Problemas (Troubleshooting)

Al trabajar con notebooks de Scala usando el kernel **Almond** (basado en **Ammonite REPL**), existen algunas limitaciones que debes conocer para evitar frustraciones:

### 1.1 El error de "Compilation Failed" con `var` e `import`
A veces, al redefinir una variable `var` o al ejecutar celdas de forma desordenada, el intérprete puede devolver un error críptico como:
`cmdX.sc:YY: ')' expected but 'import' found. import variable$value.{value => variable}`

*   **Causa**: El REPL de Ammonite envuelve cada celda en un objeto interno. A veces, el rastreo de estados de variables mutables se corrompe en el envoltorio.
*   **Solución**: **Reiniciar el Kernel** (Menú *Kernel* -> *Restart*). Esto limpia el estado y permite volver a compilar sin errores.

### 1.2 Redefinición de `val` y `def`
A diferencia de un archivo `.scala` estándar donde no puedes tener dos `val` con el mismo nombre en el mismo ámbito, en el notebook puedes redefinirlos en celdas distintas. La celda ejecutada más recientemente "machaca" a la anterior.

### 1.3 Carga de librerías con `$ivy` 
Para añadir dependencias externas usamos la sintaxis `$ivy`. 
*   **Regla**: Debe ir en una celda **sola** o al principio de los imports. Si falla, el reinicio de kernel suele ser obligatorio.
```scala
import $ivy.`org.typelevel::cats-core:2.9.0`
```

## 2. Conceptos Teóricos: Fundamentos de Scala

Antes de empezar a programar, es importante asentar los conceptos. Responde brevemente a las siguientes cuestiones (puedes editar esta celda de Markdown):

**Q1. ¿Por qué crees que seleccionamos Scala como lenguaje para el ecosistema Spark en lugar de usar solo Python o Java?**
> Scala fue elegido porque Spark está escrito en Scala, lo que permite una integración más directa y eficiente con el motor interno. Además, combina programación orientada a objetos y funcional, lo que facilita el procesamiento distribuido de datos. Frente a Python, ofrece mejor rendimiento nativo en la JVM, y frente a Java, permite un código más conciso y expresivo.

**Q2. Explica con tus palabras la diferencia entre `val` y `var`. ¿Cuál deberíamos priorizar en un entorno de Big Data?**
> val define una variable inmutable (no puede cambiar su valor una vez asignado), mientras que var permite modificar el valor. En entornos de Big Data deberíamos priorizar val, ya que la inmutabilidad reduce errores, mejora la seguridad en entornos concurrentes y facilita el procesamiento distribuido.

**Q3. ¿Qué significa que una función sea "pura" y por qué esto ayuda a procesar datos en un cluster de máquinas?**
> Una función pura es aquella que siempre devuelve el mismo resultado para los mismos argumentos y no produce efectos secundarios (no modifica variables externas ni depende de estados externos). Esto es importante en un cluster porque permite ejecutar tareas en paralelo de forma segura y predecible, facilitando la escalabilidad y la tolerancia a fallos.

## 3. Introducción a la Programación Funcional

La programación funcional (FP) es un paradigma de programación donde los programas se construyen aplicando y componiendo funciones. 

### Conceptos Clave
*   **Inmutabilidad**: Los datos no cambian una vez creados. En lugar de modificar una variable, creamos una nueva.
*   **Funciones Puras**: El resultado de una función depende solo de sus argumentos y no tiene efectos secundarios (como imprimir en consola o modificar variables globales).
*   **Funciones de Orden Superior**: Funciones que pueden tomar otras funciones como argumentos o devolverlas como resultados.

### Ventajas
*   **Facilidad para el paralelismo**: Al no haber estado compartido mutable, es más seguro ejecutar código en paralelo (crucial para Spark).
*   **Código más predecible y testeable**: Las funciones puras son deterministas.
*   **Modularidad**: El código se compone de pequeñas funciones reutilizables.

## 4. Introducción a Scala

Scala (Scalable Language) combina la programación orientada a objetos y la programación funcional. Es el lenguaje en el que está escrito Spark.

### Sintaxis Básica y Tipos

In [2]:
// Variables inmutables (val) vs mutables (var)
val mensajeInmutable = "Hola, esto no puede cambiar"
// mensajeInmutable = "Nuevo valor" // Esto daría error

var mensajeMutable = "Hola, esto sí puede cambiar"
mensajeMutable = "Nuevo valor"
println(mensajeMutable)

Nuevo valor


In [3]:
// Tipos de datos básicos
val numero: Int = 42
val decimal: Double = 3.14
val booleano: Boolean = true
val texto: String = "Scala es genial"

println(s"Texto: $texto, Número: $numero") // Interpolación de cadenas con s"..."

Texto: Scala es genial, Número: 42


[36mnumero[39m: [32mInt[39m = [32m42[39m
[36mdecimal[39m: [32mDouble[39m = [32m3.14[39m
[36mbooleano[39m: [32mBoolean[39m = [32mtrue[39m
[36mtexto[39m: [32mString[39m = [32m"Scala es genial"[39m

### Funciones

En Scala, las funciones son ciudadanos de primera clase.

In [4]:
// Definición básica de una función
def suma(a: Int, b: Int): Int = {
  a + b
}

println(s"Suma: ${suma(5, 3)}")

Suma: 8


defined [32mfunction[39m [36msuma[39m

## 5. Ejemplo de Programación Funcional en Scala

Vamos a ver cómo manipular colecciones usando funciones de orden superior como `map`, `filter` y `reduce`. Esto es la base de cómo manipularemos datos en Spark.

In [4]:
val numeros = List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

// 1. Filter: Filtrar números pares
val pares = numeros.filter(n => n % 2 == 0)
println(s"Pares: $pares")

// 2. Map: Multiplicar cada número por 2
val doblados = pares.map(n => n * 2)
println(s"Doblados: $doblados")

// 3. Reduce: Sumar todos los elementos
val sumaTotal = doblados.reduce((a, b) => a + b)
println(s"Suma Total: $sumaTotal")

// Encademaniento de operaciones (Pipeline)
val resultado = numeros
  .filter(_ % 2 == 0) // Sintaxis concisa usando _
  .map(_ * 2)
  .sum // sum es una reducción especializada

println(s"Resultado encadenado: $resultado")

Pares: List(2, 4, 6, 8, 10)
Doblados: List(4, 8, 12, 16, 20)
Suma Total: 60
Resultado encadenado: 60


[36mnumeros[39m: [32mList[39m[[32mInt[39m] = [33mList[39m([32m1[39m, [32m2[39m, [32m3[39m, [32m4[39m, [32m5[39m, [32m6[39m, [32m7[39m, [32m8[39m, [32m9[39m, [32m10[39m)
[36mpares[39m: [32mList[39m[[32mInt[39m] = [33mList[39m([32m2[39m, [32m4[39m, [32m6[39m, [32m8[39m, [32m10[39m)
[36mdoblados[39m: [32mList[39m[[32mInt[39m] = [33mList[39m([32m4[39m, [32m8[39m, [32m12[39m, [32m16[39m, [32m20[39m)
[36msumaTotal[39m: [32mInt[39m = [32m60[39m
[36mresultado[39m: [32mInt[39m = [32m60[39m

## 6. Ejercicios Prácticos: Nivel Básico

Estos ejercicios te ayudarán a familiarizarte con la sintaxis de Scala.

### Ejercicio 1: Variables y Cadenas
Crea una variable inmutable que guarde tu saludo favorito y una variable mutable que guarde un contador. Luego imprime ambos. Incrementa el contador e imprime de nuevo.

In [5]:
val saludo = "Hola Mundo Cruel!"
var contador = 1

println(s"Saludo: $saludo")
println(s"Contador inicial: $contador")

contador += 1

println(s"Contador incrementado: $contador")


Saludo: Hola Mundo Cruel!
Contador inicial: 1
Contador incrementado: 2


### Ejercicio 2: Funciones Simples
Define una función llamada `saludar` que reciba un nombre (String) y devuelva un String con el texto "¡Bienvenido al Máster, [nombre]!". Pruébala con tu nombre.

In [6]:
def saludar(nombre: String): String = {
  s"¡Bienvenido al Máster, $nombre!"
}

// Prueba de la función
println(saludar("Laura"))


¡Bienvenido al Máster, Laura!


defined [32mfunction[39m [36msaludar[39m

## 7. Ejercicios con Colecciones (Listas y Mapas)

Las colecciones son esenciales en Scala y Spark. Recuerda que por defecto son inmutables.

### Ejercicio 3: Manipulación de Listas
Dada una lista de ciudades, realiza las siguientes operaciones:
1. Filtra las ciudades que tienen más de 5 letras.
2. Convierte todas las ciudades a minúsculas.
3. Cuenta cuántas ciudades cumplen la condición.


In [8]:
// Añado la ciudad Jaén para comprobar que filtra correctamente.
val ciudades = List("Jaen","Madrid", "Barcelona", "Valencia", "Sevilla", "Bilbao")

// 1. Filtro ciudades con más de 5 letras
val filtradas = ciudades.filter(ciudad => ciudad.length > 5)

// 2. Convierto las ciudades a minúsculas
val minusculas = filtradas.map(ciudad => ciudad.toLowerCase)

// 3. Cuento cuántas ciudades cumplen la condición
val cantidad = filtradas.length

println(s"Ciudades filtradas: $minusculas")
println(s"Cantidad: $cantidad")


Ciudades filtradas: List(madrid, barcelona, valencia, sevilla, bilbao)
Cantidad: 5


[36mciudades[39m: [32mList[39m[[32mString[39m] = [33mList[39m(
  [32m"Jaen"[39m,
  [32m"Madrid"[39m,
  [32m"Barcelona"[39m,
  [32m"Valencia"[39m,
  [32m"Sevilla"[39m,
  [32m"Bilbao"[39m
)
[36mfiltradas[39m: [32mList[39m[[32mString[39m] = [33mList[39m(
  [32m"Madrid"[39m,
  [32m"Barcelona"[39m,
  [32m"Valencia"[39m,
  [32m"Sevilla"[39m,
  [32m"Bilbao"[39m
)
[36mminusculas[39m: [32mList[39m[[32mString[39m] = [33mList[39m(
  [32m"madrid"[39m,
  [32m"barcelona"[39m,
  [32m"valencia"[39m,
  [32m"sevilla"[39m,
  [32m"bilbao"[39m
)
[36mcantidad[39m: [32mInt[39m = [32m5[39m

### Ejercicio 4: Uso de Mapas (Diccionarios)
Crea un mapa que relacione nombres de productos con su precio. Luego calcula el precio de un "pack" que contenga dos productos distintos sumando sus valores desde el mapa.

In [9]:
// 1. Creo mapa de productos del supermercado con su precio
val precios = Map(
  "Leche" -> 1.20,
  "Pan" -> 0.95,
  "Huevos" -> 2.50,
  "Arroz" -> 1.10,
  "Queso" -> 3.75
)

// 2. Calculo el precio de un pack (por ejemplo Leche + Huevos)
val totalPack = precios("Leche") + precios("Huevos")

println(s"Precio total del pack: $totalPack €")


Precio total del pack: 3.7 €


[36mprecios[39m: [32mMap[39m[[32mString[39m, [32mDouble[39m] = [33mHashMap[39m(
  [32m"Arroz"[39m -> [32m1.1[39m,
  [32m"Pan"[39m -> [32m0.95[39m,
  [32m"Queso"[39m -> [32m3.75[39m,
  [32m"Leche"[39m -> [32m1.2[39m,
  [32m"Huevos"[39m -> [32m2.5[39m
)
[36mtotalPack[39m: [32mDouble[39m = [32m3.7[39m

## 8. Ejercicios Prácticos: Nivel Intermedio

Usa estos ejercicios como base para practicar o como ejemplos, y documentar en tu porfolio.

### Ejercicio 5: Estructuras de Control (Match)
Implementa una función que clasifique una edad en etapas de la vida usando un `match` con guardas:
*   < 13: "Niño"
*   13-17: "Adolescente"
*   18-64: "Adulto"
*   >= 65: "Senior"

In [10]:
def clasificarEdad(edad: Int): String = edad match {
  case _ if edad < 13 => "Niño"
  case _ if edad <= 17 => "Adolescente"
  case _ if edad <= 64 => "Adulto"
  case _ => "Senior"
}

// Prueba la función: clasificarEdad(25)
println(clasificarEdad(25)) 



Adulto


defined [32mfunction[39m [36mclasificarEdad[39m

### Ejercicio 6: Funciones y Currying
Crea una función currificada para validar si una cadena tiene una longitud mínima. Luego crea una función específica llamada `validarMin5` que use la primera con el valor 5 fijado.

In [11]:
// 1. Función currificada
def validarLongitud(min: Int)(texto: String): Boolean = {
  texto.length >= min
}

// 2. Función parcialmente aplicada
// El guión bajo al final es porque Scala no siempre “eta-expande” automáticamente el método a función. Hay que hacerlo explícito.
val validarMin5 = validarLongitud(5) _

// Pruebas
println(validarMin5("Hola"))      // false
println(validarMin5("MundoLoco"))     // true

false
true


defined [32mfunction[39m [36mvalidarLongitud[39m
[36mvalidarMin5[39m: [32mString[39m => [32mBoolean[39m = ammonite.$sess.cmd11$Helper$$Lambda$2524/0x00007fd9288d4628@6777c80c

### Ejercicio 7: For Comprehension
Dada una lista de nombres, obtén una lista que contenga solo los nombres que empiezan por 'A' y conviértelos a mayúsculas usando un `for yield`.

In [14]:
val nombres = List("Alice", "Bob", "Charlie", "Anna", "David")

val nombresConA = for {
  // No es necesario hacer nada más.
  n <- nombres if n.startsWith("A")
} yield n.toUpperCase

println(nombresConA)

List(ALICE, ANNA)


[36mnombres[39m: [32mList[39m[[32mString[39m] = [33mList[39m([32m"Alice"[39m, [32m"Bob"[39m, [32m"Charlie"[39m, [32m"Anna"[39m, [32m"David"[39m)
[36mnombresConA[39m: [32mList[39m[[32mString[39m] = [33mList[39m([32m"ALICE"[39m, [32m"ANNA"[39m)