Autor: Natalia Betancur Herrera

Fecha: 22/09/2025

# Introducción a pyspark en Colab

# 1. Primeros pasos con PySpark en Google Colab

En este notebook exploraremos los conceptos básicos de Apache Spark utilizando PySpark en un entorno de Google Colab.

## 1.1 Introduccion

### _¿Qué es Apache Spark?_

[Apache Spark](https://spark.apache.org/) es un _framework_ de programación **open source** diseñado para el **procesamiento distribuido de datos** (computación en clúster).  

Fue desarrollado originalmente en la **Universidad de California, Berkeley**, y más tarde donado a la **Apache Software Foundation**, que actualmente mantiene y evoluciona el proyecto.  

Spark destaca porque:  
- Ofrece APIs en lenguajes como **Java, Python, Scala y R**.  
- Proporciona librerías para tareas de alto nivel:  
  - **Spark SQL** → Procesamiento de datos estructurados con sintaxis SQL.  
  - **MLlib** → Algoritmos de *Machine Learning*.  
  - **GraphX** → Procesamiento de grafos.  
  - **Spark Streaming** → Procesamiento de datos en tiempo real.

### ¿Qué es PySpark?  
**PySpark** es la interfaz de Apache Spark para **Python**.   Nos permite aprovechar el poder del procesamiento distribuido de Spark junto con la **simplicidad y flexibilidad de Python** para el análisis de **grandes volúmenes de datos (_Big Data_)**.  

### ¿Cómo usar PySpark en Google Colab?  

Instalar y configurar Spark en un entorno local puede ser complejo.  Para simplificar el proceso, utilizaremos **Google Colab**, que nos ofrece un entorno preconfigurado donde solo debemos instalar las bibliotecas necesarias.  



In [None]:
#Instalamos PySpark en el entorno de Google Colab
!pip install pyspark



In [None]:
#Importamos las librerías principales de PySpark
from pyspark.sql import SparkSession


In [None]:
#Creamos una SparkSession (punto de entrada a PySpark)
spark = SparkSession.builder \
    .appName("PrimerosPasosPySpark") \
    .getOrCreate()

In [None]:
#Verificamos la versión de Spark instalada
print("Versión de Spark:", spark.version)

Versión de Spark: 3.5.1


In [None]:
#Creamos un DataFrame sencillo para probar
data = [("Natalia", 28, "F", "Manizales" ), ("Juan", 35, "M", "Medellin"), ("Sofía", 23, "F", "Pereira")]
columnas = ["Nombre", "Edad", "Genero", "Ciudad"]
df = spark.createDataFrame(data, columnas)

#Mostramos el contenido del DataFrame
df.show()

+-------+----+------+---------+
| Nombre|Edad|Genero|   Ciudad|
+-------+----+------+---------+
|Natalia|  28|     F|Manizales|
|   Juan|  35|     M| Medellin|
|  Sofía|  23|     F|  Pereira|
+-------+----+------+---------+



In [None]:
#Ver esquema (nombre y tipo de cada columna)
df.printSchema()


root
 |-- Nombre: string (nullable = true)
 |-- Edad: long (nullable = true)
 |-- Genero: string (nullable = true)
 |-- Ciudad: string (nullable = true)



In [None]:
# Seleccionar solo la columna "Nombre"
df.select("Nombre").show()

+-------+
| Nombre|
+-------+
|Natalia|
|   Juan|
|  Sofía|
+-------+



In [None]:
# Seleccionar varias columnas
df.select("Nombre", "Edad").show()

+-------+----+
| Nombre|Edad|
+-------+----+
|Natalia|  28|
|   Juan|  35|
|  Sofía|  23|
+-------+----+



In [None]:
# Filtrar personas mayores de 30 años
df.filter(df["Edad"] > 30).show()

+------+----+------+--------+
|Nombre|Edad|Genero|  Ciudad|
+------+----+------+--------+
|  Juan|  35|     M|Medellin|
+------+----+------+--------+



In [None]:
# Filtrar personas cuyo nombre empieza con "N"
df.filter(df["Nombre"].startswith("N")).show()

+-------+----+------+---------+
| Nombre|Edad|Genero|   Ciudad|
+-------+----+------+---------+
|Natalia|  28|     F|Manizales|
+-------+----+------+---------+



In [None]:
# Ordenar por edad ascendente
df.orderBy("Edad").show()

+-------+----+------+---------+
| Nombre|Edad|Genero|   Ciudad|
+-------+----+------+---------+
|  Sofía|  23|     F|  Pereira|
|Natalia|  28|     F|Manizales|
|   Juan|  35|     M| Medellin|
+-------+----+------+---------+



In [None]:
# Ordenar por edad descendente
df.orderBy(df["Edad"].desc()).show()

+-------+----+------+---------+
| Nombre|Edad|Genero|   Ciudad|
+-------+----+------+---------+
|   Juan|  35|     M| Medellin|
|Natalia|  28|     F|Manizales|
|  Sofía|  23|     F|  Pereira|
+-------+----+------+---------+



In [None]:
from pyspark.sql import functions as F

In [None]:
# Calcular promedio de edad
df.groupBy().agg(F.avg("Edad")).show()

+------------------+
|         avg(Edad)|
+------------------+
|28.666666666666668|
+------------------+



In [None]:
# Calcular edad mínima y máxima
df.groupBy().agg(F.min("Edad"), F.max("Edad")).show()

+---------+---------+
|min(Edad)|max(Edad)|
+---------+---------+
|       23|       35|
+---------+---------+



In [None]:
# Promedio de edad por género
df.groupBy("Genero").agg(F.avg("Edad")).show()

+------+---------+
|Genero|avg(Edad)|
+------+---------+
|     F|     25.5|
|     M|     35.0|
+------+---------+



In [None]:
# Contar cuántas personas hay por género
df.groupBy("Genero").count().show()

+------+-----+
|Genero|count|
+------+-----+
|     F|    2|
|     M|    1|
+------+-----+



In [None]:
# Crear una nueva columna con Edad en 5 años
df.withColumn("Edad+5", df["Edad"] + 5).show()

+-------+----+------+---------+------+
| Nombre|Edad|Genero|   Ciudad|Edad+5|
+-------+----+------+---------+------+
|Natalia|  28|     F|Manizales|    33|
|   Juan|  35|     M| Medellin|    40|
|  Sofía|  23|     F|  Pereira|    28|
+-------+----+------+---------+------+



In [None]:
# Crear una columna categórica: Mayor de 30
df.withColumn("Mayor30", (df["Edad"] > 30)).show()

+-------+----+------+---------+-------+
| Nombre|Edad|Genero|   Ciudad|Mayor30|
+-------+----+------+---------+-------+
|Natalia|  28|     F|Manizales|  false|
|   Juan|  35|     M| Medellin|   true|
|  Sofía|  23|     F|  Pereira|  false|
+-------+----+------+---------+-------+



#Ventajas de usar PySpark en Google Colab

1. **Entorno listo y gratuito**  
   - No requiere instalación en tu PC.  
   - Con `!pip install pyspark` puedes comenzar a trabajar.  

2. **Acceso desde la nube**  
   - Funciona en servidores de Google, evitando problemas de compatibilidad (Windows, macOS, Linux).  
   - Solo necesitas conexión a internet.  

3. **Recursos gratuitos de cómputo**  
   - Colab ofrece CPU, GPU y TPU gratis.  
   - Aunque Spark no usa GPU, el entorno es más potente que un equipo básico.  

4. **Integración con Google Drive**  
   - Permite almacenar y acceder fácilmente a datasets grandes.  
   - Todo el trabajo se guarda directamente en la nube.  

5. **Facilidad para compartir y colaborar**  
   - Los notebooks se comparten como documentos de Google.  
   - Ideal para proyectos en equipo y docencia.   

6. **Compatibilidad con el ecosistema Python**  
   - Se puede combinar PySpark con librerías como **Pandas, NumPy, Matplotlib, Scikit-learn**.  
   - Flujo híbrido: Spark para datos masivos y Pandas para análisis rápidos.  