# Parte 5: Valores Faltantes

In [3]:
!pip install -q pyspark

In [4]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

In [5]:
df = spark.read.csv('/content/datos_nulos.csv', header=True, inferSchema=True)
df.show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  1|    Juan|    Ochoa|  NULL|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
|  5|  Ronald|     NULL|  NULL|
| 10|    Sara|  Venegas| 210.6|
|  2|    NULL|     NULL| 345.0|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



## 1. Eliminación de valores nulos

Para eliminar las filas con valores nulos se utiliza `na.drop`.

**Eliminación de todos los nulos**

Si se utiliza sin argumentos elimina todas las filas que tengan nulos y mantiene solo aquellas filas sin ningún valor nulo.

In [12]:
# Eliminar todas las filas que tienen datos faltantes
df.na.drop().show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
| 10|    Sara|  Venegas| 210.6|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



**Eliminación de algunos nulos**

Cuando se utiliza la opción `thresh=N` se mantiene las filas que tengan al menos `N` valores no nulos y se elimina el resto.

In [10]:
# Mantener las filas que tienen al menos 4 valores no nulos
df.na.drop(thresh=4).show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
| 10|    Sara|  Venegas| 210.6|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



In [7]:
# Mantener las filas que tienen al menos 3 valores no nulos
df.na.drop(thresh=3).show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  1|    Juan|    Ochoa|  NULL|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
| 10|    Sara|  Venegas| 210.6|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



In [8]:
# Mantener las filas que tienen al menos 2 valores no nulos
df.na.drop(thresh=2).show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  1|    Juan|    Ochoa|  NULL|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
|  5|  Ronald|     NULL|  NULL|
| 10|    Sara|  Venegas| 210.6|
|  2|    NULL|     NULL| 345.0|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



In [11]:
df.na.fill("NULO").show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  1|    Juan|    Ochoa|  NULL|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
|  5|  Ronald|     NULO|  NULL|
| 10|    Sara|  Venegas| 210.6|
|  2|    NULO|     NULO| 345.0|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



Eliminación de la fila si hay algún valor nulo

In [13]:
df.na.drop(how='any').show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
| 10|    Sara|  Venegas| 210.6|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



Eliminación de la fila solo si todos los campos son nulos

In [14]:
df.na.drop(how='all').show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  1|    Juan|    Ochoa|  NULL|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
|  5|  Ronald|     NULL|  NULL|
| 10|    Sara|  Venegas| 210.6|
|  2|    NULL|     NULL| 345.0|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



**Eliminación por columna**

In [15]:
# Eliminar valores nulos en una columna determinada
df.na.drop(subset=["Ventas"]).show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
| 10|    Sara|  Venegas| 210.6|
|  2|    NULL|     NULL| 345.0|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



## 2. Imputación de valores

Imputación de un valor determinado para todas las columas numéricas

In [16]:
df.na.fill(0).show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  1|    Juan|    Ochoa|   0.0|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
|  5|  Ronald|     NULL|   0.0|
| 10|    Sara|  Venegas| 210.6|
|  2|    NULL|     NULL| 345.0|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



Eliminación de un valor determinado para todas las columnas de tipo `string`.

In [17]:
df.na.fill("No conocido").show()

+---+-----------+-----------+------+
| ID|     Nombre|   Apellido|Ventas|
+---+-----------+-----------+------+
| 13|      Mario|      Perez| 560.0|
| 49|      Carla|  Rodriguez| 456.0|
|  1|       Juan|      Ochoa|  NULL|
|  6|      Diana|     Chavez| 320.5|
| 27|      Angel|    Gaviria| 121.1|
|  5|     Ronald|No conocido|  NULL|
| 10|       Sara|    Venegas| 210.6|
|  2|No conocido|No conocido| 345.0|
| 45|   Milagros|       Vera| 425.7|
+---+-----------+-----------+------+



Imputación en una columna específica

In [18]:
# En la columna Nombre únicamente
df.na.fill("NN", subset=['Nombre']).show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  1|    Juan|    Ochoa|  NULL|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
|  5|  Ronald|     NULL|  NULL|
| 10|    Sara|  Venegas| 210.6|
|  2|      NN|     NULL| 345.0|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+



Imputación utilizando la media

In [27]:
from pyspark.sql.functions import avg

# Recuperación de la media
media_ventas = df.select(avg('Ventas')).collect()[0][0]
print(media_ventas)

348.41428571428565


In [29]:
# Imputación usando la media
df.na.fill(round(media_ventas,2), ['Ventas']).show()

+---+--------+---------+------+
| ID|  Nombre| Apellido|Ventas|
+---+--------+---------+------+
| 13|   Mario|    Perez| 560.0|
| 49|   Carla|Rodriguez| 456.0|
|  1|    Juan|    Ochoa|348.41|
|  6|   Diana|   Chavez| 320.5|
| 27|   Angel|  Gaviria| 121.1|
|  5|  Ronald|     NULL|348.41|
| 10|    Sara|  Venegas| 210.6|
|  2|    NULL|     NULL| 345.0|
| 45|Milagros|     Vera| 425.7|
+---+--------+---------+------+

