Contenido Detallado:

¿Qué es Apache Spark y por qué es fundamental en Big Data?

Contexto: En el sector bancario, se manejan volúmenes masivos de datos: transacciones, clientes, préstamos, inversiones, datos de mercado, etc. Las herramientas tradicionales de procesamiento de datos a menudo no son suficientes.
Introducción a Spark: Un motor de procesamiento de datos distribuido y de propósito general, diseñado para análisis de Big Data.
Características clave:
Velocidad: Hasta 100x más rápido que Hadoop MapReduce en memoria y 10x en disco, ideal para análisis en tiempo casi real.
Fácil de usar: APIs en Python (PySpark), Scala, Java, R y SQL.
Generalidad: Soporta ETL, SQL, machine learning, procesamiento de gráficos y streaming.
Flexibilidad: Puede ejecutarse en Hadoop YARN, Apache Mesos, Kubernetes, o de forma independiente.
Importancia para el banco: Procesamiento rápido de millones de transacciones, detección de fraude, análisis de riesgo, personalización de ofertas a clientes, reportes regulatorios complejos.

PySpark: La Interfaz de Python para Spark 

¿Por qué Python? Popularidad, facilidad de uso, gran ecosistema de librerías para ciencia de datos y machine learning.
PySpark: Permite a los desarrolladores de Python interactuar con el motor Spark. Combina la potencia de Spark con la simplicidad de Python.
Componentes principales en PySpark:
SparkContext: El punto de entrada "antiguo" para funcionalidades de bajo nivel (RDDs).
SparkSession: El punto de entrada "moderno" y unificado. Recomendado para trabajar con DataFrames y SQL.

RDDs vs. DataFrames (Énfasis en DataFrames) 

RDDs (Resilient Distributed Datasets):
Estructura de datos fundamental de Spark.
Colección de objetos inmutables y distribuidos.
Ofrecen control de bajo nivel.
Menos optimizados para datos estructurados.
DataFrames:
Colección de datos distribuidos organizados en columnas con nombre (similar a tablas de bases de datos o data frames de Pandas/R).
Ventajas clave:
Optimización automática: Spark puede optimizar las operaciones de DataFrames usando el "Catalyst Optimizer" y "Project Tungsten". Esto significa que son mucho más eficientes que los RDDs para datos estructurados.
Familiaridad: Fácil de usar para quienes conocen SQL o Pandas.
Esquema: Tienen un esquema bien definido (nombres de columnas y tipos de datos), lo que permite a Spark aplicar optimizaciones.
Conclusión: Para la ingeniería de datos en el banco, donde la mayoría de los datos son estructurados (transacciones, clientes, sucursales), los DataFrames son la elección ideal y serán el foco principal del curso.

Configuración Básica de una Sesión de Spark (SparkSession)

Concepto: SparkSession es el punto de entrada principal para programar Spark con la API de DataFrame y SQL.
Importaciones esenciales: from pyspark.sql import SparkSession.
Construyendo una SparkSession:

In [1]:
from pyspark.sql import SparkSession

# Crear una SparkSession
# .builder: Inicia el constructor de la sesión.
# .appName("Nombre de la Aplicacion"): Asigna un nombre a tu aplicación Spark.
# .config("spark.executor.memory", "4g"): Configura propiedades de Spark (ej. memoria de los ejecutores).
# .getOrCreate(): Crea una nueva SparkSession si no existe, o devuelve la existente.
spark = SparkSession.builder \
    .appName("CursoPySparkBancario_Clase1") \
    .config("spark.executor.memory", "4g") \
    .getOrCreate()

print("SparkSession creada con éxito.")

25/06/09 12:13:53 WARN Utils: Your hostname, ravi-lap resolves to a loopback address: 127.0.1.1; using 192.168.1.108 instead (on interface wlp2s0)
25/06/09 12:13:53 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/06/09 12:13:55 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


SparkSession creada con éxito.


Detener la SparkSession: spark.stop() (importante para liberar recursos al finalizar el trabajo).
Entornos de trabajo:
Local: Para aprendizaje y desarrollo en tu máquina.
Google Colab con PySpark: Una excelente opción gratuita para practicar sin configuraciones complejas.
Databricks Community Edition: Plataforma basada en la nube, ideal para escenarios más cercanos a la producción. (Mencionar, no profundizar en la configuración aquí).
Jupyter Notebooks: Común para desarrollo local.

Carga y Exploración Inicial de Datos en un DataFrame

Preparación de los datos: Asegurarse de que bank_data.csv esté accesible (en el mismo directorio, o subirlo a Colab/Databricks).
Cargar un archivo CSV:

In [3]:
# Suponiendo que 'bank_data.csv' está en la misma carpeta o ruta especificada
df_bank = spark.read.csv("/home/ravi/Documents/jenifer/data/bank_data.csv", header=True, inferSchema=True)

# header=True: Indica que la primera fila es el encabezado.
# inferSchema=True: Spark intentará adivinar los tipos de datos de las columnas.
# (¡Precaución con inferSchema en producción por rendimiento!)

Exploración inicial:
printSchema(): Muestra el esquema (nombres de columnas y tipos de datos inferidos). Esto es crucial para entender cómo Spark interpreta tus datos.

In [4]:
df_bank.printSchema()

root
 |-- Branch_ID: integer (nullable = true)
 |-- City: string (nullable = true)
 |-- Region: string (nullable = true)
 |-- Firm_Revenue: double (nullable = true)
 |-- Expenses: integer (nullable = true)
 |-- Profit_Margin: double (nullable = true)



show(): Muestra las primeras filas del DataFrame. Por defecto, muestra 20 filas.

In [5]:
df_bank.show() # Muestra las primeras 20 filas
df_bank.show(5) # Muestra las primeras 5 filas
df_bank.show(truncate=False) # Evita truncar el contenido de las columnas

+---------+--------+------+------------+--------+-------------+
|Branch_ID|    City|Region|Firm_Revenue|Expenses|Profit_Margin|
+---------+--------+------+------------+--------+-------------+
|     1000| Solapur|  East|    422443.0|  346471|        56.31|
|     1001|  Mumbai| North|    211155.0|  216256|        79.53|
|     1002|  Nashik|  West|    985006.0|   71777|        55.31|
|     1003| Solapur| North|     55113.0|  253655|         2.57|
|     1004|  Nagpur|  West|    282701.0|  148194|        -14.1|
|     1005|  Nagpur|  East|    657164.0|   90729|        11.57|
|     1006|Kolhapur| North|     96520.0|  273124|        19.48|
|     1007|Kolhapur|  West|    427163.0|  111053|        -9.09|
|     1008|Kolhapur| North|        null|   59920|        -5.94|
|     1009|  Nagpur| South|    690932.0|   44992|        56.47|
|     1010| Solapur| North|    936640.0|  226126|        -18.9|
|     1011|  Nashik|  East|    257505.0|  483161|        65.12|
|     1012|  Nagpur|  West|    969777.0|

count(): Obtiene el número total de filas en el DataFrame.

In [6]:
num_rows = df_bank.count()
print(f"Número de filas en el DataFrame: {num_rows}")

Número de filas en el DataFrame: 1000


columns: Obtiene una lista de los nombres de las columnas.

In [7]:
print(f"Nombres de las columnas: {df_bank.columns}")

Nombres de las columnas: ['Branch_ID', 'City', 'Region', 'Firm_Revenue', 'Expenses', 'Profit_Margin']


Ejemplos Prácticos en Clase:

Montar el entorno:
Instalar pyspark: !pip install pyspark.
Subir bank_data.csv al entorno.
Crear la SparkSession.
Cargar bank_data.csv: Demostrar cómo se carga, y qué sucede si header=False o inferSchema=False.
Analizar printSchema(): Explicar los tipos de datos inferidos por Spark y qué significa nullable=true.
Visualizar con show(): Mostrar diferentes usos de show() para ver las primeras filas y los datos completos.
Contar filas y listar columnas: Demostrar count() y columns.

10 Ejercicios para la Estudiante (Requerimientos Laborales Simulados):

Contexto General: Eres un analista de datos en el Banco de Inversiones y necesitas preparar y entender nuestros datos fundamentales.

Instrucciones: Utiliza el archivo bank_data.csv para estos ejercicios. Si necesitas más datos, puedes generar versiones más grandes del CSV para simular Big Data.

Inicialización y Naming:
Requerimiento: Nuestro equipo de DevOps necesita que cada script de Spark tenga un nombre de aplicación claro para monitoreo.
Ejercicio: Crea una SparkSession y asígnale el nombre "Reporte_Rentabilidad_Sucursales".
Carga de Datos de Sucursales:
Requerimiento: Queremos cargar el registro de nuestras sucursales para un nuevo análisis. Asegúrate de que las cabeceras se reconozcan y que Spark infiera los tipos de datos automáticamente.
Ejercicio: Carga el archivo bank_data.csv en un DataFrame llamado df_sucursales.
Validación de Esquema Inicial:
Requerimiento: El equipo de calidad de datos necesita una validación rápida de los tipos de datos de las columnas para asegurar que la información se está cargando correctamente.
Ejercicio: Muestra el esquema (printSchema()) del df_sucursales para verificar los tipos de datos inferidos para Branch_ID, Firm_Revenue y Profit_Margin. ¿Son los esperados (ej. numéricos para ingresos/márgenes)?
Revisión de Datos Críticos:
Requerimiento: El gerente de operaciones bancarias quiere ver los primeros registros para asegurarse de que los datos de ingresos y gastos de las sucursales se vean coherentes.
Ejercicio: Muestra las primeras 5 filas del df_sucursales para una inspección visual.
Verificación de Datos Completos:
Requerimiento: Antes de iniciar cualquier análisis, necesitamos saber el volumen exacto de registros de sucursales que tenemos.
Ejercicio: Obtén y muestra el número total de filas (registros de sucursales) en el df_sucursales.
Inspección de Encabezados:
Requerimiento: Para fines de documentación interna, necesitamos una lista de los nombres exactos de todas las columnas en nuestro DataFrame de sucursales.
Ejercicio: Imprime la lista de todos los nombres de las columnas del df_sucursales.
Carga con Especificación Manual (Simulando un caso de error):
Requerimiento (hipotético): Imagina que el archivo bank_data.csv no tiene encabezado. ¿Cómo lo cargarías?
Ejercicio: Carga bank_data.csv en un nuevo DataFrame (df_sin_header) asumiendo que no tiene encabezado (header=False). ¿Cómo se ven los nombres de las columnas ahora? (No es necesario corregirlos, solo observarlos).
Comparación de Esquemas:
Requerimiento: Compara el esquema del df_sucursales (con header=True, inferSchema=True) con el df_sin_header.
Ejercicio: Muestra los esquemas de ambos DataFrames y explica brevemente la diferencia clave en los nombres de las columnas.
Preparación para Siguiente Clase:
Requerimiento: Para el próximo análisis, necesitamos el DataFrame principal de sucursales cargado y listo.
Ejercicio: Asegúrate de que tu SparkSession está activa y que df_sucursales (el que tiene header=True y inferSchema=True) está disponible para su uso. (No hay código nuevo, es una verificación).
Liberar Recursos:
Requerimiento: Para mantener limpios nuestros entornos de desarrollo, es una buena práctica detener la SparkSession cuando ya no se necesita.
Ejercicio: Detén tu SparkSession de Spark.

Recursos Adicionales para la Alumna:

Documentación oficial de PySpark: https://spark.apache.org/docs/latest/api/python/index.html (¡muy útil para consultar funciones!).