In [2]:
import org.apache.spark.sql.SparkSession

// Creamos una sesión de Spark
val spark = SparkSession.builder.appName("pysparkdf").getOrCreate()

import org.apache.spark.sql.SparkSession
spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@23aa8019


In [3]:
// Lee el archivo CSV
val df = spark.read.option("header", "true").csv("/Users/rociobenitezgarcia/Documents/csv/cereal.csv")

df: org.apache.spark.sql.DataFrame = [name: string, mfr: string ... 14 more fields]


In [4]:
// Muestra los primeros 10 registros
df.show(10)

+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|                name|mfr|type|calories|protein|fat|sodium|fiber|carbo|sugars|potass|vitamins|shelf|weight|cups|   rating|
+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|           100% Bran|  N|   C|      70|      4|  1|   130|   10|    5|     6|   280|      25|    3|     1|0.33|68.402973|
|   100% Natural Bran|  Q|   C|     120|      3|  5|    15|    2|    8|     8|   135|       0|    3|     1|   1|33.983679|
|            All-Bran|  K|   C|      70|      4|  1|   260|    9|    7|     5|   320|      25|    3|     1|0.33|59.425505|
|All-Bran with Ext...|  K|   C|      50|      4|  0|   140|   14|    8|     0|   330|      25|    3|     1| 0.5|93.704912|
|      Almond Delight|  R|   C|     110|      2|  2|   200|    1|   14|     8|    -1|      25|    3|     1|0.75|34.384843|
|Apple Cinnamon 

In [5]:
// Imprimir el esquema de los datos
df.printSchema()

root
 |-- name: string (nullable = true)
 |-- mfr: string (nullable = true)
 |-- type: string (nullable = true)
 |-- calories: string (nullable = true)
 |-- protein: string (nullable = true)
 |-- fat: string (nullable = true)
 |-- sodium: string (nullable = true)
 |-- fiber: string (nullable = true)
 |-- carbo: string (nullable = true)
 |-- sugars: string (nullable = true)
 |-- potass: string (nullable = true)
 |-- vitamins: string (nullable = true)
 |-- shelf: string (nullable = true)
 |-- weight: string (nullable = true)
 |-- cups: string (nullable = true)
 |-- rating: string (nullable = true)



### Función `select()`

Se utiliza para mostrar un subconjunto de columnas seleccionadas de un DataFrame. Para utilizarla, simplemente necesitas pasar los nombres de las columnas que deseas seleccionar.

Aquí hay un ejemplo que muestra cómo **seleccionar y mostrar tres columnas específicas del DataFrame**:

In [7]:
df.select("name", "mfr", "rating").show(10)

+--------------------+---+---------+
|                name|mfr|   rating|
+--------------------+---+---------+
|           100% Bran|  N|68.402973|
|   100% Natural Bran|  Q|33.983679|
|            All-Bran|  K|59.425505|
|All-Bran with Ext...|  K|93.704912|
|      Almond Delight|  R|34.384843|
|Apple Cinnamon Ch...|  G|29.509541|
|         Apple Jacks|  K|33.174094|
|             Basic 4|  G|37.038562|
|           Bran Chex|  R|49.120253|
|         Bran Flakes|  P|53.313813|
+--------------------+---+---------+
only showing top 10 rows



Este código imprimirá los **primeros 10 registros** de las columnas `"name," "mfr,"` y `"rating"` del DataFrame.

### Función `withColumn()`

Se utiliza para manipular una columna existente o para crear una nueva columna a partir de una columna existente en un DataFrame. Puedes utilizar esta función para realizar transformaciones en los datos o cambiar el tipo de datos de una columna. Aquí hay un ejemplo que demuestra **cómo cambiar el tipo de datos de la columna "calories" a un número entero**:

In [9]:
df.withColumn("Calories", col("calories").cast("Integer")).printSchema()

root
 |-- name: string (nullable = true)
 |-- mfr: string (nullable = true)
 |-- type: string (nullable = true)
 |-- Calories: integer (nullable = true)
 |-- protein: string (nullable = true)
 |-- fat: string (nullable = true)
 |-- sodium: string (nullable = true)
 |-- fiber: string (nullable = true)
 |-- carbo: string (nullable = true)
 |-- sugars: string (nullable = true)
 |-- potass: string (nullable = true)
 |-- vitamins: string (nullable = true)
 |-- shelf: string (nullable = true)
 |-- weight: string (nullable = true)
 |-- cups: string (nullable = true)
 |-- rating: string (nullable = true)



### Función `groupBy()`

Se utiliza para recopilar datos en grupos dentro de un DataFrame y permite realizar funciones agregadas en los datos agrupados. En este caso, estamos agrupando los datos por las columnas "name" y "calories" y luego contamos el número de filas en cada grupo usando la función `count()`. Finalmente, mostramos el resultado con `show()`. Esta operación es similar a la cláusula SQL `GROUP BY`.

In [10]:
// Agrupar por "name" y "calories" y contar las filas en cada grupo
df.groupBy("name", "calories").count().show()

+--------------------+--------+-----+
|                name|calories|count|
+--------------------+--------+-----+
|             Basic 4|     130|    1|
|         Cocoa Puffs|     110|    1|
|Strawberry Fruit ...|      90|    1|
|  Great Grains Pecan|     120|    1|
|          Wheat Chex|     100|    1|
|Mueslix Crispy Blend|     160|    1|
|     Raisin Nut Bran|     100|    1|
|  Honey Nut Cheerios|     110|    1|
|         Corn Flakes|     100|    1|
|                Trix|     110|    1|
|   Grape Nuts Flakes|     100|    1|
|Muesli Raisins; P...|     150|    1|
|      Fruity Pebbles|     110|    1|
|Shredded Wheat 'n...|      90|    1|
|Post Nat. Raisin ...|     120|    1|
|   Total Raisin Bran|     140|    1|
|           Corn Pops|     110|    1|
|  Cracklin' Oat Bran|     110|    1|
|Cinnamon Toast Cr...|     120|    1|
|                 Kix|     110|    1|
+--------------------+--------+-----+
only showing top 20 rows



### Función `orderBy()`

Se utiliza para ordenar todas las filas de un DataFrame en función de una columna particular. En este ejemplo, estamos ordenando el DataFrame según la columna "protein" en orden ascendente utilizando `asc("protein")`. El resultado se muestra con `show()`. De forma predeterminada, la ordenación se realiza en orden ascendente, pero puedes usar `desc("protein")` para ordenar en orden descendente.

In [11]:
// Ordenar el DataFrame por la columna "protein" en orden ascendente
df.orderBy(asc("protein")).show()

+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|                name|mfr|type|calories|protein|fat|sodium|fiber|carbo|sugars|potass|vitamins|shelf|weight|cups|   rating|
+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|        Cap'n'Crunch|  Q|   C|     120|      1|  2|   220|    0|   12|    12|    35|      25|    2|     1|0.75|18.042851|
|Cinnamon Toast Cr...|  G|   C|     120|      1|  3|   210|    0|   13|     9|    45|      25|    2|     1|0.75|19.823573|
|         Cocoa Puffs|  G|   C|     110|      1|  1|   180|    0|   12|    13|    55|      25|    2|     1|   1|22.736446|
|           Corn Pops|  K|   C|     110|      1|  0|    90|    1|   13|    12|    20|      25|    2|     1|   1|35.782791|
|       Count Chocula|  G|   C|     110|      1|  1|   180|    0|   12|    13|    65|      25|    2|     1|   1|22.396513|
|      Frosted F

### Función `when()`

Muestra la salida en función de una condición particular. Evalúa la condición proporcionada y luego devuelve los valores en consecuencia. En este caso, seleccionamos la columna "name" y usamos `when` para verificar si la columna "vitamins" es mayor o igual a 25. Si es cierto, mostramos "rich in vitamins"; de lo contrario, mostramos "not rich in vitamins". El resultado se muestra con `show()`. Esto es útil para aplicar lógica condicional a los datos en una columna y generar una nueva columna con los resultados.

In [12]:
// Usar la función when() para aplicar una condición y seleccionar "rich in vitamins" cuando vitamins >= 25
df.select(col("name"), when(col("vitamins") >= 25, "rich in vitamins").otherwise("not rich in vitamins")).show()

+--------------------+------------------------------------------------------------------------------+
|                name|CASE WHEN (vitamins >= 25) THEN rich in vitamins ELSE not rich in vitamins END|
+--------------------+------------------------------------------------------------------------------+
|           100% Bran|                                                              rich in vitamins|
|   100% Natural Bran|                                                          not rich in vitamins|
|            All-Bran|                                                              rich in vitamins|
|All-Bran with Ext...|                                                              rich in vitamins|
|      Almond Delight|                                                              rich in vitamins|
|Apple Cinnamon Ch...|                                                              rich in vitamins|
|         Apple Jacks|                                                            

### Función `filter()`

Filtra los datos en filas según los valores de una columna en particular. En este ejemplo, estamos filtrando los cereales que tienen un valor de calorías igual a 100. Para hacer esto, utilizamos la función `filter` y comparamos la columna "calories" con el valor 100. Luego, mostramos el resultado con `show()`. Esto devuelve un DataFrame con solo las filas que cumplen con la condición, es decir, los cereales con 100 calorías.

Esta operación es útil para seleccionar un subconjunto específico de datos que cumple con ciertas condiciones, lo que facilita el análisis y la manipulación de datos en un DataFrame.

In [13]:
val filteredDF = df.filter(df("calories") === 100)
filteredDF.show()

+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|                name|mfr|type|calories|protein|fat|sodium|fiber|carbo|sugars|potass|vitamins|shelf|weight|cups|   rating|
+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|         Corn Flakes|  K|   C|     100|      2|  0|   290|    1|   21|     2|    35|      25|    1|     1|   1|45.863324|
|Cream of Wheat (Q...|  N|   H|     100|      3|  0|    80|    1|   21|     0|    -1|       0|    2|     1|   1|64.533816|
|Crispy Wheat & Ra...|  G|   C|     100|      2|  1|   140|    2|   11|    10|   120|      25|    3|     1|0.75|36.176196|
|         Double Chex|  R|   C|     100|      2|  0|   190|    1|   18|     5|    80|      25|    3|     1|0.75|44.330856|
| Frosted Mini-Wheats|  K|   C|     100|      3|  0|     0|    3|   14|     7|   100|      25|    2|     1| 0.8|58.345141|
|        Golden 

filteredDF: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [name: string, mfr: string ... 14 more fields]


### Función `isNull()` / `isNotNull()`

Se utiliza para comprobar **si hay valores nulos en un DataFrame**, lo que es fundamental para el procesamiento y la limpieza de datos. Si deseas verificar si hay valores no nulos en una columna específica, puedes usar la función isNotNull() en combinación con filter() para filtrar las filas que cumplen con esta condición.

In [19]:
// Filtrar las filas que no tienen un valor nulo en la columna "name"
val filteredDF = df.filter($"name".isNotNull)
filteredDF.show()

+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|                name|mfr|type|calories|protein|fat|sodium|fiber|carbo|sugars|potass|vitamins|shelf|weight|cups|   rating|
+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|           100% Bran|  N|   C|      70|      4|  1|   130|   10|    5|     6|   280|      25|    3|     1|0.33|68.402973|
|   100% Natural Bran|  Q|   C|     120|      3|  5|    15|    2|    8|     8|   135|       0|    3|     1|   1|33.983679|
|            All-Bran|  K|   C|      70|      4|  1|   260|    9|    7|     5|   320|      25|    3|     1|0.33|59.425505|
|All-Bran with Ext...|  K|   C|      50|      4|  0|   140|   14|    8|     0|   330|      25|    3|     1| 0.5|93.704912|
|      Almond Delight|  R|   C|     110|      2|  2|   200|    1|   14|     8|    -1|      25|    3|     1|0.75|34.384843|
|Apple Cinnamon 

filteredDF: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [name: string, mfr: string ... 14 more fields]


Estas dos funciones se utilizan para verificar la presencia de valores nulos en el DataFrame. `isNull()` comprueba si una columna contiene valores nulos, mientras que `isNotNull()` verifica si no hay valores nulos en una columna. Estas funciones son esenciales para la *limpieza y procesamiento de datos*.

In [20]:
// Filtrar las filas que tienen un valor nulo en la columna "name"
val filteredNullDF = df.filter($"name".isNull)

filteredNullDF.show()

+----+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+------+
|name|mfr|type|calories|protein|fat|sodium|fiber|carbo|sugars|potass|vitamins|shelf|weight|cups|rating|
+----+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+------+
+----+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+------+



filteredNullDF: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [name: string, mfr: string ... 14 more fields]


Se concluye que **no hay valores nulos en el dataset**. Por lo tanto, se muestra un marco de datos vacío.