# **Obtención y preparación de datos**

# OD19. Gestión de Nulos

Un aspecto crítico en todo análisis de datos es la gestión de los valores nulos, representados en pandas por la valor real `NaN` ("Not a Number").

pandas ofrece diferentes funciones y métodos para gestionar estos valores.

In [None]:
import numpy as np
import pandas as pd

## <font color='blue'>**La función `isnull`**</font>

La función `pandas.isnull` devuelve una estructura con las mismas dimensiones que la que se cede como argumento sustituyendo cada valor por el booleano `True` si el correspondiente elemento es un valor nulo, y por el booleano `False` en caso contrario.

Esta función es equivalente a `pandas.isna`.

In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

In [None]:
pd.isnull(s)

Esta funcionalidad también está disponible como método:

In [None]:
s.isnull()

También podemos aplicarla a un dataframe:

In [None]:
ventas = pd.DataFrame({"A": [3, np.nan, 1],
                   "B": [1, 5, np.nan],
                   "C": [3, 7, 2],
                   "D": [np.nan, 2, np.nan]},
                  index = ["ene", "feb", "mar"])
ventas

In [None]:
pd.isnull(ventas)

In [None]:
ventas.isnull()

## <font color='blue'>**El método `dropna`**</font>

El método `dropna` permite, de una forma muy conveniente, filtrar los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

Aplicado a una serie, el método `pandas.Series.dropna` devuelve una nueva serie tras eliminar los valores nulos:


In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

In [None]:
s.dropna()

Aplicado a un dataframe, el método `pandas.DataFrame.dropna` ofrece algo más de funcionalidad: podemos escoger si queremos eliminar filas o columnas, y si queremos eliminarlas cuando todos sus elementos sean nulos o simplemente cuando alguno de ellos lo sea.

In [None]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Por defecto, el método se aplica al eje 0, es decir, va a eliminar filas que incluyan valores nulos:

In [None]:
ventas.dropna()

Si especificamos el eje 1, lo que se eliminan son las columnas que incluyan valores nulos:

In [None]:
ventas.dropna(axis = 1)

Mediante el parámetro `how` podemos controlar cómo queremos que se aplique el método: si toma el valor `"all"`, solo se eliminarán las filas o columnas en las que todos sus elementos sean nulos. Si toma el valor `"any"` (valor por defecto), se eliminarán las filas o columnas en las que algún elemento sea nulo. De esta forma:



In [None]:
ventas.dropna(how = "all")

Vemos cómo ninguna fila se ha eliminado pues en ninguna de ellas todos los elementos nulos.

## <font color='blue'>**El método `fillna`**</font>

El método `fillna` permite sustituir los valores nulos de una estructura pandas por otro valor según ciertos criterios: pueden sustituirse por un valor concreto o bien puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

Veamos el caso de ejecutar este método en una serie, `pandas.Series.fillna`.

In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

In [None]:
s.fillna(0)

Hemos indicado el valor 0 como argumento, y es este valor el que se utiliza para sustituir los valores nulos de la serie original.

También podríamos haber especificado que el método a utilizar fuese, por ejemplo, el **forward fill** (`"ffill"`), de forma que los valores no nulos se copien "hacia adelante" siempre que se encuentren valores nulos. Esto se indicaría con el parámetro `method`.

In [None]:
s.fillna(method = "ffill")

Vemos cómo los valores nulos se han rellenado con el anterior valor no nulo (o, dicho con otras palabras, cómo los valores no nulos se han extendido hacia adelante).

Si especificamos el método **backward fill** (`"bfill"`).

In [None]:
s.fillna(method = "bfill")

Los valores nulos se han rellenado con el siguiente valor no nulo.

En el caso de los dataframe, `pandas.DataFrame.fillna`, la funcionalidad es semejante. Como se ha comentado, la mayor diferencia consiste en que, en el caso de querer rellenar los valores nulos con el anterior o posterior no nulo, habrá que indicar el eje del que obtener estos datos.

In [None]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Podemos sustituir los valores nulos por una cifra concreta.



In [None]:
ventas.fillna(0)

Si aplicamos el método de **forward fill** a lo largo del eje 0 (eje por defecto).



In [None]:
ventas.fillna(method = "ffill")

Vemos cómo el primer valor de la columna D no se ha modificado pues no hay ningún valor anterior (en el eje 0) del que tomar el valor.

Y si aplicamos el método **backward fill** a lo largo del eje 1.

In [None]:
ventas.fillna(method = "bfill", axis = 1)

En este caso, el valor de la columna D correspondiente a enero no se ha modificado pues, nuevamente, no hay un valor posterior (en el eje 1) del que tomar el valor.

En un caso práctico puede resultar recomendable utilizar "lógica de relleno" seguida de la asignación de un valor por defecto para los valores nulos que puedan seguir existiendo, para asegurarnos de que todos ellos han sido sustituidos adecuadamente.

In [None]:
ventas.fillna(axis = 1, method = "bfill").fillna(0)

In [None]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD'))
df

In [None]:
df.fillna(method='bfill')

In [None]:
df.fillna(method='ffill', axis=1)

### <font color='green'>Actividad 1</font>

Para el siguiente dataframe:

```
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
```
Determine:

1. Contar la cantidad total de nulos.
2. Contar la cantidad de nulos por columna.
3. Eliminar las filas con nulos en la columna texto.
4. Eliminar todas las filas que contengan algún valor nulo.

In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Tienes un DataFrame que representa un catálogo de productos, pero algunos productos tienen valores faltantes en sus características.

```
data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica y cuenta los valores nulos en cada columna.
2. Rellena los valores faltantes del precio con el precio medio de todos los productos.
3. Elimina cualquier fila donde el peso no esté especificado.
4. Verifica si todos los valores nulos han sido tratados y muestra el DataFrame limpio.

In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

En una clínica, se han registrado ciertos parámetros de salud de los pacientes, pero no todos los pacientes han completado todos los parámetros.

```
data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica las filas donde al menos dos parámetros de salud faltan.
2. Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
3. Interpola los valores faltantes en la columna 'Presión'.
4. Elimina las filas donde la 'Temperatura' es NaN.

In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Un conjunto de datos muestra las ventas diarias de un producto durante un mes, pero algunos días faltan.

```
fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
```
Determine:

1. Identifica los días con ventas faltantes.
2. Utiliza un método de imputación basado en el tiempo (como un método de ventana) para rellenar los valores faltantes en ventas.
3. Encuentra el promedio de ventas de los días anteriores y siguientes para cada valor nulo y utiliza este promedio para imputar el dato faltante.
4. Compara los métodos de imputación y discute las diferencias.

In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Se ha realizado una encuesta en línea sobre hábitos alimenticios, y no todos los encuestados han respondido a todas las preguntas.

```
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)
```

1. Calcula el número de respuestas nulas para cada pregunta.
2. Rellena los valores nulos en 'Fruta favorita' con la fruta más popular entre los encuestados.
3. Utiliza el método fillna con el argumento method='ffill' para rellenar las respuestas nulas en 'Verdura favorita'.
4. Genera una columna 'Completado' que sea True si el encuestado respondió ambas preguntas y False en caso contrario.

In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 5</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">


##<font color='red'>**Actividad Avanzada**</font>

### <font color='green'>Actividad 6</font>

Estás analizando datos de un grupo grande de estudiantes que tomaron 5 exámenes durante el año. Sin embargo, algunos estudiantes faltaron a uno o más exámenes. Además de los exámenes, también tienes información sobre la asistencia y el comportamiento de cada estudiante. Tu objetivo es realizar imputaciones de manera sofisticada para obtener un conjunto de datos completo.

Genera un DataFrame simulado con los siguientes datos:

```
np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})
```

1. Analiza la cantidad y proporción de datos faltantes en cada columna del DataFrame.
2. Reemplaza los valores faltantes en los exámenes con la media del estudiante en los demás exámenes. Si todos los exámenes de un estudiante están faltantes, rellénalos con la media general de ese examen entre todos los estudiantes.
3. Añade una columna 'Promedio' que calcule el promedio de los 5 exámenes para cada estudiante.
4. Considera que un estudiante puede tener hasta 2 exámenes con calificaciones faltantes. Si un estudiante tiene calificaciones faltantes en 3 o más exámenes, etiquétalo como 'Incompleto'. De lo contrario, etiquétalo según su promedio: "Sobresaliente" (90 y más), "Aprobado" (70-89) o "Reprobado" (menos de 70).
5. Utilizando las columnas 'Asistencia' y 'Comportamiento', utiliza un método de interpolación para imputar valores faltantes en los exámenes basados en correlaciones con estas columnas. Es decir, si observas que hay una correlación fuerte entre el rendimiento en los exámenes y estas columnas, utiliza esta relación para realizar imputaciones más precisas.
6. Compara los resultados de las calificaciones imputadas de los puntos 2 y 5, y discute las diferencias.

**Hints**: Podrías considerar métodos como interpolate o fillna y funciones como apply y transform para realizar operaciones más complejas.

In [None]:
# Tu código aquí ...



<font color='green'>Fin Actividad 6</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">