### 📦 Importar las bibliotecas necesarias y crear una SparkSession

In [None]:


from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit, avg, count, sum, min, max, when, concat_ws

spark = SparkSession.builder.appName("Ejercicios PySpark").getOrCreate()


### 🧪 1. Crear un DataFrame con datos de personas, que incluya nombre, edad y ciudad de residencia.

In [None]:

data = [("Alice", 25, "New York"),
        ("Bob", 30, "Los Angeles"),
        ("Charlie", 22, "Chicago")]

columns = ["Nombre", "Edad", "Ciudad"]
df = spark.createDataFrame(data, columns)
df.show()


### 🧍 2. Mostrar solo los nombres de las personas del DataFrame.

In [None]:
df.select("Nombre").show()

### 🔎 3. Filtrar personas cuya edad sea mayor o igual a 25.

In [None]:
df.filter(col("Edad") >= 25).show()

### 🌍 4. Agregar una nueva columna 'Pais' con un valor constante para todas las filas.

In [None]:
df = df.withColumn("Pais", lit("Estados Unidos"))
df.show()

### 📊 5. Calcular el promedio de edad de todas las personas.

In [None]:
df.select(avg("Edad").alias("PromedioEdad")).show()

### 🔽 6. Ordenar el DataFrame por edad en orden descendente.

In [None]:
df.orderBy(col("Edad").desc()).show()

### 🏙️ 7. Agrupar por ciudad y calcular la cantidad de personas en cada ciudad.

In [None]:
df.groupBy("Ciudad").agg(count("*").alias("CantidadPersonas")).show()

### ✏️ 8. Renombrar la columna 'Nombre' a 'NombreCompleto'.

In [None]:
df = df.withColumnRenamed("Nombre", "NombreCompleto")
df.show()

### ❌ 9. Eliminar la columna 'Edad' del DataFrame.

In [None]:
df_sin_edad = df.drop("Edad")
df_sin_edad.show()

### 🔍 10. Realizar una consulta SQL en el DataFrame para seleccionar personas mayores de 20 años.

In [None]:
df.createOrReplaceTempView("personas")
spark.sql("SELECT * FROM personas WHERE Edad > 20").show()

### ➕ 11. Calcular la suma total de todas las edades.

In [None]:
df.select(sum("Edad").alias("SumaTotalEdad")).show()

### 📉 12. Calcular la edad mínima y máxima de todas las personas.

In [None]:
df.select(min("Edad").alias("EdadMinima"), max("Edad").alias("EdadMaxima")).show()

### 🌆 13. Filtrar personas cuya ciudad de residencia sea 'Chicago' y edad sea menor de 30.

In [None]:
df.filter((col("Ciudad") == "Chicago") & (col("Edad") < 30)).show()

### 🎯 14. Agregar una nueva columna 'EdadDuplicada' que contenga el doble de la edad.

In [None]:
df = df.withColumn("EdadDuplicada", col("Edad") * 2)
df.show()

### 📅 15. Convertir todas las edades en años a meses.

In [None]:
df = df.withColumn("EdadEnMeses", col("Edad") * 12)
df.show()

### 👥 16. Contar el número total de personas en el DataFrame.

In [None]:
df.count()

### 🔢 17. Filtrar personas cuya edad sea un número par.

In [None]:
df.filter((col("Edad") % 2) == 0).show()

### 📈 18. Calcular la cantidad de personas por rango de edades (0-20, 21-40, 41-60, 61+).

In [None]:

df = df.withColumn("RangoEdad", when(col("Edad") <= 20, "0-20")
                               .when((col("Edad") > 20) & (col("Edad") <= 40), "21-40")
                               .when((col("Edad") > 40) & (col("Edad") <= 60), "41-60")
                               .otherwise("61+"))
df.groupBy("RangoEdad").count().show()


### 🔁 19. Contar cuántas personas tienen el mismo nombre.

In [None]:
df.groupBy("NombreCompleto").count().show()

### 🧩 20. Concatenar las columnas 'Nombre' y 'Ciudad' en una nueva columna llamada 'InformacionPersonal'.

In [None]:
df = df.withColumn("InformacionPersonal", concat_ws(" - ", col("NombreCompleto"), col("Ciudad")))
df.select("InformacionPersonal").show()