In [1]:
# ===================================================================
# PROYECTO PYSPARK - 20 EJERCICIOS FUNDAMENTALES
# ===================================================================
# Autor: Juan Camilo Canchala
# Fecha: Agosto 2024
# Objetivo: Dominar operaciones básicas de PySpark para Data Engineering

print("🚀 INSTALANDO PYSPARK EN GOOGLE COLAB")
print("=" * 50)

# Instalar PySpark
!pip install pyspark

# Importar bibliotecas necesarias
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, avg, sum as spark_sum, min as spark_min, max as spark_max, count, concat, lit, when
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# Crear SparkSession
spark = SparkSession.builder \
    .appName("ProyectoPySpark") \
    .getOrCreate()

print("✅ PySpark configurado exitosamente")
print(f"✅ Spark version: {spark.version}")

🚀 INSTALANDO PYSPARK EN GOOGLE COLAB
✅ PySpark configurado exitosamente
✅ Spark version: 3.5.1


In [2]:

# EJERCICIO 1: CREAR DATAFRAME CON DATOS DE PERSONAS


print("Ejercicio 1: Crear DataFrame con datos de personas")
print("-" * 50)

# Datos según la práctica original
data = [("Alice", 25, "New York"),
        ("Bob", 30, "Los Angeles"),
        ("Charlie", 22, "Chicago")]

# Definir esquema explícito
schema = StructType([
    StructField("Nombre", StringType(), True),
    StructField("Edad", IntegerType(), True),
    StructField("Ciudad", StringType(), True)
])

# Crear DataFrame
df = spark.createDataFrame(data, schema)

# Mostrar el DataFrame
print("DataFrame creado exitosamente:")
df.show()

print(f"Número de filas: {df.count()}")
print(f"Esquema: {df.columns}")

Ejercicio 1: Crear DataFrame con datos de personas
--------------------------------------------------
DataFrame creado exitosamente:
+-------+----+-----------+
| Nombre|Edad|     Ciudad|
+-------+----+-----------+
|  Alice|  25|   New York|
|    Bob|  30|Los Angeles|
|Charlie|  22|    Chicago|
+-------+----+-----------+

Número de filas: 3
Esquema: ['Nombre', 'Edad', 'Ciudad']


In [3]:

# EJERCICIO 2: MOSTRAR SOLO LOS NOMBRES DE LAS PERSONAS


print("Ejercicio 2: Mostrar solo los nombres de las personas del DataFrame")
print("-" * 70)

# Seleccionar solo la columna Nombre
nombres_df = df.select("Nombre")
nombres_df.show()

print(f"Total de nombres mostrados: {nombres_df.count()}")

Ejercicio 2: Mostrar solo los nombres de las personas del DataFrame
----------------------------------------------------------------------
+-------+
| Nombre|
+-------+
|  Alice|
|    Bob|
|Charlie|
+-------+

Total de nombres mostrados: 3


In [4]:
# Ejercicio 3: Filtrar personas cuya edad sea mayor o igual a 25

print("Ejercicio 3: Filtrar personas cuya edad sea mayor o igual a 25")
print("-" * 60)

# Filtrar el DataFrame por edad >= 25
personas_25_mas = df.filter(col("Edad") >= 25)
personas_25_mas.show()

print(f"Personas con edad >= 25: {personas_25_mas.count()}")

Ejercicio 3: Filtrar personas cuya edad sea mayor o igual a 25
------------------------------------------------------------
+------+----+-----------+
|Nombre|Edad|     Ciudad|
+------+----+-----------+
| Alice|  25|   New York|
|   Bob|  30|Los Angeles|
+------+----+-----------+

Personas con edad >= 25: 2


In [5]:
# Ejercicio 4: Agregar una nueva columna "Pais" con un valor constante para todas las filas

print("Ejercicio 4: Agregar una nueva columna 'Pais' con un valor constante para todas las filas")
print("-" * 80)

# Agregar columna "Pais" con valor constante "USA"
df_con_pais = df.withColumn("Pais", lit("USA"))
df_con_pais.show()

print(f"DataFrame ahora tiene {len(df_con_pais.columns)} columnas: {df_con_pais.columns}")

Ejercicio 4: Agregar una nueva columna 'Pais' con un valor constante para todas las filas
--------------------------------------------------------------------------------
+-------+----+-----------+----+
| Nombre|Edad|     Ciudad|Pais|
+-------+----+-----------+----+
|  Alice|  25|   New York| USA|
|    Bob|  30|Los Angeles| USA|
|Charlie|  22|    Chicago| USA|
+-------+----+-----------+----+

DataFrame ahora tiene 4 columnas: ['Nombre', 'Edad', 'Ciudad', 'Pais']


In [6]:
# Ejercicio 5: Calcular el promedio de edad de todas las personas

print("Ejercicio 5: Calcular el promedio de edad de todas las personas")
print("-" * 60)

# Calcular promedio de edad
promedio_resultado = df.select(avg("Edad").alias("PromedioEdad"))
promedio_resultado.show()

# También mostrar el valor extraído
promedio_valor = promedio_resultado.collect()[0]["PromedioEdad"]
print(f"El promedio de edad es: {promedio_valor:.2f} años")

Ejercicio 5: Calcular el promedio de edad de todas las personas
------------------------------------------------------------
+------------------+
|      PromedioEdad|
+------------------+
|25.666666666666668|
+------------------+

El promedio de edad es: 25.67 años


In [7]:
# Ejercicio 6: Ordenar el DataFrame por edad en orden descendente

print("Ejercicio 6: Ordenar el DataFrame por edad en orden descendente")
print("-" * 60)

# Ordenar por edad descendente
df_ordenado = df.orderBy(col("Edad").desc())
df_ordenado.show()

print("Orden: Mayor a menor edad")

Ejercicio 6: Ordenar el DataFrame por edad en orden descendente
------------------------------------------------------------
+-------+----+-----------+
| Nombre|Edad|     Ciudad|
+-------+----+-----------+
|    Bob|  30|Los Angeles|
|  Alice|  25|   New York|
|Charlie|  22|    Chicago|
+-------+----+-----------+

Orden: Mayor a menor edad


In [8]:
# Ejercicio 7: Agrupar por ciudad y calcular la cantidad de personas en cada ciudad

print("Ejercicio 7: Agrupar por ciudad y calcular la cantidad de personas en cada ciudad")
print("-" * 75)

# Agrupar por ciudad y contar
personas_por_ciudad = df.groupBy("Ciudad").count()
personas_por_ciudad.show()

print("Cada ciudad tiene 1 persona en este dataset")

Ejercicio 7: Agrupar por ciudad y calcular la cantidad de personas en cada ciudad
---------------------------------------------------------------------------
+-----------+-----+
|     Ciudad|count|
+-----------+-----+
|   New York|    1|
|Los Angeles|    1|
|    Chicago|    1|
+-----------+-----+

Cada ciudad tiene 1 persona en este dataset


In [9]:
# Ejercicio 8: Renombrar la columna "Nombre" a "NombreCompleto"

print("Ejercicio 8: Renombrar la columna 'Nombre' a 'NombreCompleto'")
print("-" * 60)

# Renombrar columna
df_renombrado = df.withColumnRenamed("Nombre", "NombreCompleto")
df_renombrado.show()

print(f"Columnas actuales: {df_renombrado.columns}")

Ejercicio 8: Renombrar la columna 'Nombre' a 'NombreCompleto'
------------------------------------------------------------
+--------------+----+-----------+
|NombreCompleto|Edad|     Ciudad|
+--------------+----+-----------+
|         Alice|  25|   New York|
|           Bob|  30|Los Angeles|
|       Charlie|  22|    Chicago|
+--------------+----+-----------+

Columnas actuales: ['NombreCompleto', 'Edad', 'Ciudad']


In [10]:
# Ejercicio 9: Eliminar la columna "Edad" del DataFrame

print("Ejercicio 9: Eliminar la columna 'Edad' del DataFrame")
print("-" * 50)

# Eliminar columna Edad
df_sin_edad = df.drop("Edad")
df_sin_edad.show()

print(f"Columnas restantes: {df_sin_edad.columns}")

Ejercicio 9: Eliminar la columna 'Edad' del DataFrame
--------------------------------------------------
+-------+-----------+
| Nombre|     Ciudad|
+-------+-----------+
|  Alice|   New York|
|    Bob|Los Angeles|
|Charlie|    Chicago|
+-------+-----------+

Columnas restantes: ['Nombre', 'Ciudad']


In [11]:
# Ejercicio 10: Realizar una consulta SQL en el DataFrame para seleccionar personas mayores de 20 años

print("Ejercicio 10: Realizar una consulta SQL en el DataFrame para seleccionar personas mayores de 20 años")
print("-" * 95)

# Crear vista temporal para consulta SQL
df.createOrReplaceTempView("personas")

# Ejecutar consulta SQL
resultado_sql = spark.sql("SELECT * FROM personas WHERE Edad > 20")
resultado_sql.show()

print("Consulta SQL ejecutada: SELECT * FROM personas WHERE Edad > 20")

Ejercicio 10: Realizar una consulta SQL en el DataFrame para seleccionar personas mayores de 20 años
-----------------------------------------------------------------------------------------------
+-------+----+-----------+
| Nombre|Edad|     Ciudad|
+-------+----+-----------+
|  Alice|  25|   New York|
|    Bob|  30|Los Angeles|
|Charlie|  22|    Chicago|
+-------+----+-----------+

Consulta SQL ejecutada: SELECT * FROM personas WHERE Edad > 20


In [12]:
# Ejercicio 11: Calcular la suma total de todas las edades

print("Ejercicio 11: Calcular la suma total de todas las edades")
print("-" * 50)

# Calcular suma de edades
suma_resultado = df.select(spark_sum("Edad").alias("SumaEdades"))
suma_resultado.show()

# También mostrar el valor extraído
suma_valor = suma_resultado.collect()[0]["SumaEdades"]
print(f"La suma total de edades es: {suma_valor} años")

Ejercicio 11: Calcular la suma total de todas las edades
--------------------------------------------------
+----------+
|SumaEdades|
+----------+
|        77|
+----------+

La suma total de edades es: 77 años


In [13]:
# Ejercicio 12: Calcular la edad mínima y máxima de todas las personas

print("Ejercicio 12: Calcular la edad mínima y máxima de todas las personas")
print("-" * 65)

# Calcular min y max de edades
min_max_resultado = df.select(
    spark_min("Edad").alias("EdadMinima"),
    spark_max("Edad").alias("EdadMaxima")
)
min_max_resultado.show()

# Mostrar valores extraídos
valores = min_max_resultado.collect()[0]
print(f"Edad mínima: {valores['EdadMinima']} años")
print(f"Edad máxima: {valores['EdadMaxima']} años")

Ejercicio 12: Calcular la edad mínima y máxima de todas las personas
-----------------------------------------------------------------
+----------+----------+
|EdadMinima|EdadMaxima|
+----------+----------+
|        22|        30|
+----------+----------+

Edad mínima: 22 años
Edad máxima: 30 años


In [14]:
# Ejercicio 13: Filtrar personas cuya ciudad de residencia sea "Chicago" y edad sea menor de 30

print("Ejercicio 13: Filtrar personas cuya ciudad de residencia sea 'Chicago' y edad sea menor de 30")
print("-" * 90)

# Filtrar por ciudad Chicago Y edad < 30
chicago_menores_30 = df.filter((col("Ciudad") == "Chicago") & (col("Edad") < 30))
chicago_menores_30.show()

print(f"Personas de Chicago menores de 30: {chicago_menores_30.count()}")

Ejercicio 13: Filtrar personas cuya ciudad de residencia sea 'Chicago' y edad sea menor de 30
------------------------------------------------------------------------------------------
+-------+----+-------+
| Nombre|Edad| Ciudad|
+-------+----+-------+
|Charlie|  22|Chicago|
+-------+----+-------+

Personas de Chicago menores de 30: 1


In [15]:
# Ejercicio 14: Agregar una nueva columna "EdadDuplicada" que contenga el doble de la edad

print("Ejercicio 14: Agregar una nueva columna 'EdadDuplicada' que contenga el doble de la edad")
print("-" * 85)

# Agregar columna con el doble de la edad
df_con_edad_duplicada = df.withColumn("EdadDuplicada", col("Edad") * 2)
df_con_edad_duplicada.show()

print("Nueva columna 'EdadDuplicada' agregada con éxito")

Ejercicio 14: Agregar una nueva columna 'EdadDuplicada' que contenga el doble de la edad
-------------------------------------------------------------------------------------
+-------+----+-----------+-------------+
| Nombre|Edad|     Ciudad|EdadDuplicada|
+-------+----+-----------+-------------+
|  Alice|  25|   New York|           50|
|    Bob|  30|Los Angeles|           60|
|Charlie|  22|    Chicago|           44|
+-------+----+-----------+-------------+

Nueva columna 'EdadDuplicada' agregada con éxito


In [16]:
# Ejercicio 15: Convertir todas las edades en años a meses

print("Ejercicio 15: Convertir todas las edades en años a meses")
print("-" * 50)

# Convertir años a meses (multiplicar por 12)
df_con_meses = df.withColumn("EdadEnMeses", col("Edad") * 12)
df_con_meses.show()

print("Edades convertidas a meses (Edad × 12)")

Ejercicio 15: Convertir todas las edades en años a meses
--------------------------------------------------
+-------+----+-----------+-----------+
| Nombre|Edad|     Ciudad|EdadEnMeses|
+-------+----+-----------+-----------+
|  Alice|  25|   New York|        300|
|    Bob|  30|Los Angeles|        360|
|Charlie|  22|    Chicago|        264|
+-------+----+-----------+-----------+

Edades convertidas a meses (Edad × 12)


In [17]:
# Ejercicio 16: Contar el número total de personas en el DataFrame

print("Ejercicio 16: Contar el número total de personas en el DataFrame")
print("-" * 60)

# Contar total de personas
total_personas = df.count()
print(f"Número total de personas: {total_personas}")

# También usando select con count
df.select(count("*").alias("TotalPersonas")).show()

Ejercicio 16: Contar el número total de personas en el DataFrame
------------------------------------------------------------
Número total de personas: 3
+-------------+
|TotalPersonas|
+-------------+
|            3|
+-------------+



In [18]:
# Ejercicio 17: Filtrar personas cuya edad sea un número par

print("Ejercicio 17: Filtrar personas cuya edad sea un número par")
print("-" * 55)

# Filtrar edades pares (resto de división por 2 = 0)
personas_edad_par = df.filter(col("Edad") % 2 == 0)
personas_edad_par.show()

print(f"Personas con edad par: {personas_edad_par.count()}")

Ejercicio 17: Filtrar personas cuya edad sea un número par
-------------------------------------------------------
+-------+----+-----------+
| Nombre|Edad|     Ciudad|
+-------+----+-----------+
|    Bob|  30|Los Angeles|
|Charlie|  22|    Chicago|
+-------+----+-----------+

Personas con edad par: 2


In [19]:
# Ejercicio 18: Calcular la cantidad de personas por rango de edades (0-20, 21-40, 41-60, 61+)

print("Ejercicio 18: Calcular la cantidad de personas por rango de edades (0-20, 21-40, 41-60, 61+)")
print("-" * 90)

# Crear columna con rangos de edad usando when
df_con_rangos = df.withColumn("RangoEdad",
    when(col("Edad") <= 20, "0-20")
    .when(col("Edad") <= 40, "21-40")
    .when(col("Edad") <= 60, "41-60")
    .otherwise("61+")
)

# Agrupar por rango y contar
rangos_resultado = df_con_rangos.groupBy("RangoEdad").count()
rangos_resultado.show()

print("Distribución de personas por rango de edad")

Ejercicio 18: Calcular la cantidad de personas por rango de edades (0-20, 21-40, 41-60, 61+)
------------------------------------------------------------------------------------------
+---------+-----+
|RangoEdad|count|
+---------+-----+
|    21-40|    3|
+---------+-----+

Distribución de personas por rango de edad


In [20]:
# Ejercicio 19: Contar cuántas personas tienen el mismo nombre

print("Ejercicio 19: Contar cuántas personas tienen el mismo nombre")
print("-" * 55)

# Agrupar por nombre y contar ocurrencias
nombres_repetidos = df.groupBy("Nombre").count()
nombres_repetidos.show()

print("En este dataset, cada nombre aparece solo 1 vez")

Ejercicio 19: Contar cuántas personas tienen el mismo nombre
-------------------------------------------------------
+-------+-----+
| Nombre|count|
+-------+-----+
|  Alice|    1|
|Charlie|    1|
|    Bob|    1|
+-------+-----+

En este dataset, cada nombre aparece solo 1 vez


In [22]:
# Ejercicio 20: Concatenar las columnas "Nombre" y "Ciudad" en una nueva columna llamada "InformacionPersonal"

print("Ejercicio 20: Concatenar las columnas 'Nombre' y 'Ciudad' en una nueva columna llamada 'InformacionPersonal'")
print("-" * 105)

# Concatenar Nombre y Ciudad con separador
df_con_info = df.withColumn("InformacionPersonal",
                           concat(col("Nombre"), lit(" - "), col("Ciudad")))
df_con_info.show()


Ejercicio 20: Concatenar las columnas 'Nombre' y 'Ciudad' en una nueva columna llamada 'InformacionPersonal'
---------------------------------------------------------------------------------------------------------
+-------+----+-----------+-------------------+
| Nombre|Edad|     Ciudad|InformacionPersonal|
+-------+----+-----------+-------------------+
|  Alice|  25|   New York|   Alice - New York|
|    Bob|  30|Los Angeles|  Bob - Los Angeles|
|Charlie|  22|    Chicago|  Charlie - Chicago|
+-------+----+-----------+-------------------+

