# **Obtención y preparación de datos**

# OD19. Gestión de Nulos

Un aspecto crítico en todo análisis de datos es la gestión de los valores nulos, representados en pandas por la valor real `NaN` ("Not a Number").

pandas ofrece diferentes funciones y métodos para gestionar estos valores.

In [2]:
import numpy as np
import pandas as pd

## <font color='blue'>**La función `isnull`**</font>

La función `pandas.isnull` devuelve una estructura con las mismas dimensiones que la que se cede como argumento sustituyendo cada valor por el booleano `True` si el correspondiente elemento es un valor nulo, y por el booleano `False` en caso contrario.

Esta función es equivalente a `pandas.isna`.

In [3]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

Unnamed: 0,0
0,1.0
1,
2,7.0
3,
4,3.0


In [4]:
pd.isnull(s)

Unnamed: 0,0
0,False
1,True
2,False
3,True
4,False


Esta funcionalidad también está disponible como método:

In [5]:
s.isnull()

Unnamed: 0,0
0,False
1,True
2,False
3,True
4,False


También podemos aplicarla a un dataframe:

In [6]:
ventas = pd.DataFrame({"A": [3, np.nan, 1],
                   "B": [1, 5, np.nan],
                   "C": [3, 7, 2],
                   "D": [np.nan, 2, np.nan]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3.0,1.0,3,
feb,,5.0,7,2.0
mar,1.0,,2,


In [7]:
pd.isnull(ventas)

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


In [8]:
ventas.isnull()

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


## <font color='blue'>**El método `dropna`**</font>

El método `dropna` permite, de una forma muy conveniente, filtrar los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

Aplicado a una serie, el método `pandas.Series.dropna` devuelve una nueva serie tras eliminar los valores nulos:


In [9]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

Unnamed: 0,0
0,1.0
1,
2,7.0
3,
4,3.0


In [10]:
s.dropna()

Unnamed: 0,0
0,1.0
2,7.0
4,3.0


Aplicado a un dataframe, el método `pandas.DataFrame.dropna` ofrece algo más de funcionalidad: podemos escoger si queremos eliminar filas o columnas, y si queremos eliminarlas cuando todos sus elementos sean nulos o simplemente cuando alguno de ellos lo sea.

In [11]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Por defecto, el método se aplica al eje 0, es decir, va a eliminar filas que incluyan valores nulos:

In [12]:
ventas.dropna()

Unnamed: 0,A,B,C,D
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0


Si especificamos el eje 1, lo que se eliminan son las columnas que incluyan valores nulos:

In [13]:
ventas.dropna(axis = 1)

Unnamed: 0,A,C
ene,1,3
feb,5,7
mar,4,2
abr,7,1


Mediante el parámetro `how` podemos controlar cómo queremos que se aplique el método: si toma el valor `"all"`, solo se eliminarán las filas o columnas en las que todos sus elementos sean nulos. Si toma el valor `"any"` (valor por defecto), se eliminarán las filas o columnas en las que algún elemento sea nulo. De esta forma:



In [14]:
ventas.dropna(how = "all")

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Vemos cómo ninguna fila se ha eliminado pues en ninguna de ellas todos los elementos nulos.

## <font color='blue'>**El método `fillna`**</font>

El método `fillna` permite sustituir los valores nulos de una estructura pandas por otro valor según ciertos criterios: pueden sustituirse por un valor concreto o bien puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

Veamos el caso de ejecutar este método en una serie, `pandas.Series.fillna`.

In [15]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

Unnamed: 0,0
0,1.0
1,
2,7.0
3,
4,3.0


In [16]:
s.fillna(0)

Unnamed: 0,0
0,1.0
1,0.0
2,7.0
3,0.0
4,3.0


Hemos indicado el valor 0 como argumento, y es este valor el que se utiliza para sustituir los valores nulos de la serie original.

También podríamos haber especificado que el método a utilizar fuese, por ejemplo, el **forward fill** (`"ffill"`), de forma que los valores no nulos se copien "hacia adelante" siempre que se encuentren valores nulos. Esto se indicaría con el parámetro `method`.

In [17]:
s.fillna(method = "ffill")

  s.fillna(method = "ffill")


Unnamed: 0,0
0,1.0
1,1.0
2,7.0
3,7.0
4,3.0


Vemos cómo los valores nulos se han rellenado con el anterior valor no nulo (o, dicho con otras palabras, cómo los valores no nulos se han extendido hacia adelante).

Si especificamos el método **backward fill** (`"bfill"`).

In [18]:
s.fillna(method = "bfill")

  s.fillna(method = "bfill")


Unnamed: 0,0
0,1.0
1,7.0
2,7.0
3,3.0
4,3.0


Los valores nulos se han rellenado con el siguiente valor no nulo.

En el caso de los dataframe, `pandas.DataFrame.fillna`, la funcionalidad es semejante. Como se ha comentado, la mayor diferencia consiste en que, en el caso de querer rellenar los valores nulos con el anterior o posterior no nulo, habrá que indicar el eje del que obtener estos datos.

In [19]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Podemos sustituir los valores nulos por una cifra concreta.



In [20]:
ventas.fillna(0)

Unnamed: 0,A,B,C,D
ene,1,3.0,3,0.0
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,0.0,1,3.0


Si aplicamos el método de **forward fill** a lo largo del eje 0 (eje por defecto).



In [21]:
ventas.fillna(method = "ffill")

  ventas.fillna(method = "ffill")


Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,1.0,1,3.0


Vemos cómo el primer valor de la columna D no se ha modificado pues no hay ningún valor anterior (en el eje 0) del que tomar el valor.

Y si aplicamos el método **backward fill** a lo largo del eje 1.

In [22]:
ventas.fillna(method = "bfill", axis = 1)

  ventas.fillna(method = "bfill", axis = 1)


Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


En este caso, el valor de la columna D correspondiente a enero no se ha modificado pues, nuevamente, no hay un valor posterior (en el eje 1) del que tomar el valor.

En un caso práctico puede resultar recomendable utilizar "lógica de relleno" seguida de la asignación de un valor por defecto para los valores nulos que puedan seguir existiendo, para asegurarnos de que todos ellos han sido sustituidos adecuadamente.

In [23]:
ventas.fillna(axis = 1, method = "bfill").fillna(0)

  ventas.fillna(axis = 1, method = "bfill").fillna(0)


Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,0.0
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


In [24]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


In [25]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,,3.0,,5
3,,3.0,,4


In [26]:
df.fillna(method='ffill', axis=1)

  df.fillna(method='ffill', axis=1)


Unnamed: 0,A,B,C,D
0,,2.0,2.0,0.0
1,3.0,4.0,4.0,1.0
2,,,,5.0
3,,3.0,3.0,4.0


### <font color='green'>Actividad 1</font>

Para el siguiente dataframe:

```
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
```
Determine:

1. Contar la cantidad total de nulos.
2. Contar la cantidad de nulos por columna.
3. Eliminar las filas con nulos en la columna texto.
4. Eliminar todas las filas que contengan algún valor nulo.

In [27]:
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b",
                               "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
display(datos)

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
2,3.0,,7
3,,,5
4,7.0,a,1
5,6.0,b,9
6,9.0,np.nan,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


In [28]:
# Mapeo para contar nulos en otros formatos
def map_null(x):
    import numpy as np
    null_list = ("np.nan", "NA", "na")
    if isinstance(x, str):
        return np.nan if x in null_list else 0
    else:
        return np.nan if np.isnan(x) else 0

In [29]:
"""
1.  Contar la cantidad total de nulos.
"""
print(
    f"1. La cantidad de nulos de los datos es "
    f"{datos.isna().sum().sum()}"
)

1. La cantidad de nulos de los datos es 2


In [30]:
"""
2.  Contar la cantidad de nulos por columna.
"""
print(
    f"2. La cantidad de nulos por columna son:"
)
for i in datos.columns:
    print(f"Columna {i}: {datos[i].isna().sum()} nulos.")

2. La cantidad de nulos por columna son:
Columna id: 1 nulos.
Columna texto: 1 nulos.
Columna valor: 0 nulos.


In [31]:
"""
3.  Eliminar las filas con nulos en la columna texto.
"""
print(
    f"3. Luego de eliminar las filas con algún valor nulo como texto los datos"
    f" quedan:"
)
display(datos.dropna(subset='texto', axis=0))

3. Luego de eliminar las filas con algún valor nulo como texto los datos quedan:


Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
3,,,5
4,7.0,a,1
5,6.0,b,9
6,9.0,np.nan,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


In [32]:
"""
4.  Eliminar todas las filas que contengan algún valor nulo.
"""
print(
    f"3. Luego de eliminar todas filas con algún valor nulo los datos"
    f" quedan:"
)
display(datos.dropna(axis=0))

3. Luego de eliminar todas filas con algún valor nulo los datos quedan:


Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
4,7.0,a,1
5,6.0,b,9
6,9.0,np.nan,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Tienes un DataFrame que representa un catálogo de productos, pero algunos productos tienen valores faltantes en sus características.

```
data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica y cuenta los valores nulos en cada columna.
2. Rellena los valores faltantes del precio con el precio medio de todos los productos.
3. Elimina cualquier fila donde el peso no esté especificado.
4. Verifica si todos los valores nulos han sido tratados y muestra el DataFrame limpio.

In [33]:
data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)
display(df)

Unnamed: 0,Producto,Precio,Peso (g)
0,Móvil,300.0,150.0
1,Laptop,1200.0,
2,Auriculares,,20.0
3,Monitor,250.0,5000.0
4,Teclado,50.0,


In [34]:
"""
1.  Identifica y cuenta los valores nulos en cada columna.
"""
print(
    f"La cantidad de nulos por columna en los datos son:"
)
for i in df.columns:
    print(f"Columna {i}: {df[i].isna().sum()} nulos.")

La cantidad de nulos por columna en los datos son:
Columna Producto: 0 nulos.
Columna Precio: 1 nulos.
Columna Peso (g): 2 nulos.


In [35]:
"""
2.  Rellena los valores faltantes del precio con el precio medio de todos los
    productos.
"""
print(
    f"2. Luego de rellenar los valores faltantes con el precio promedio "
    "correspondiente se obtiene:"
)
df.fillna({'Precio':df['Precio'].mean()}, inplace=True)
display(df)

2. Luego de rellenar los valores faltantes con el precio promedio correspondiente se obtiene:


Unnamed: 0,Producto,Precio,Peso (g)
0,Móvil,300.0,150.0
1,Laptop,1200.0,
2,Auriculares,450.0,20.0
3,Monitor,250.0,5000.0
4,Teclado,50.0,


In [36]:
"""
3.  Elimina cualquier fila donde el peso no esté especificado.
"""
df.dropna(how='any', inplace=True)
print(
    f"3. Luego de eliminar las entradas que no poseen peso especificado queda:"
)
display(df)

3. Luego de eliminar las entradas que no poseen peso especificado queda:


Unnamed: 0,Producto,Precio,Peso (g)
0,Móvil,300.0,150.0
2,Auriculares,450.0,20.0
3,Monitor,250.0,5000.0


In [37]:
"""
4.  Verifica si todos los valores nulos han sido tratados y muestra el
DataFrame limpio.
"""
print(
    f"4. La cantidad de nulos por columna en los datos son:"
)
for i in df.columns:
    print(f"Columna {i}: {df[i].isna().sum()} nulos.")
print(
    f"Y por lo tanto el dataframe limpio es:"
)
display(df)

4. La cantidad de nulos por columna en los datos son:
Columna Producto: 0 nulos.
Columna Precio: 0 nulos.
Columna Peso (g): 0 nulos.
Y por lo tanto el dataframe limpio es:


Unnamed: 0,Producto,Precio,Peso (g)
0,Móvil,300.0,150.0
2,Auriculares,450.0,20.0
3,Monitor,250.0,5000.0


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

En una clínica, se han registrado ciertos parámetros de salud de los pacientes, pero no todos los pacientes han completado todos los parámetros.

```
data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica las filas donde al menos dos parámetros de salud faltan.
2. Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
3. Interpola los valores faltantes en la columna 'Presión'.
4. Elimina las filas donde la 'Temperatura' es NaN.

In [38]:
data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)
display(df)

Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
1,Luis,72.0,115.0,
2,Marta,,110.0,37.0
3,Juan,88.0,,36.4
4,Pedro,90.0,,36.8
5,Elena,76.0,105.0,36.5


In [39]:
"""
1.  Identifica las filas donde al menos dos parámetros de salud faltan.
"""
print(
    f"1. La cantidad de filas que tienen más de dos parámetros faltantes "
    f"son {len(df[df.iloc[:,1:].isna().sum(axis=1) > 2])}")

1. La cantidad de filas que tienen más de dos parámetros faltantes son 0


In [40]:
"""
2.  Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
"""
print(
    "2. Rellenando la columna pulso con la mediana se obtiene:"
)
df.fillna({'Pulso': df['Pulso'].median()}, inplace=True)
display(df)

2. Rellenando la columna pulso con la mediana se obtiene:


Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
1,Luis,72.0,115.0,
2,Marta,80.0,110.0,37.0
3,Juan,88.0,,36.4
4,Pedro,90.0,,36.8
5,Elena,76.0,105.0,36.5


In [41]:
"""
3.  Interpola los valores faltantes en la columna 'Presión'.
"""
print(
    "3. Rellenando la columna pulso con la interpolación se obtiene:"
)
df.fillna({'Presión': df['Presión'].interpolate()}, inplace=True)
display(df)

3. Rellenando la columna pulso con la interpolación se obtiene:


Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
1,Luis,72.0,115.0,
2,Marta,80.0,110.0,37.0
3,Juan,88.0,108.333333,36.4
4,Pedro,90.0,106.666667,36.8
5,Elena,76.0,105.0,36.5


In [42]:
"""
4.  Elimina las filas donde la 'Temperatura' es NaN.
"""
print(
    "4. Luego de eliminar las entradas con Temperatura faltante se obtiene:"
)
df.dropna(subset='Temperatura', inplace=True)
display(df)

4. Luego de eliminar las entradas con Temperatura faltante se obtiene:


Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
2,Marta,80.0,110.0,37.0
3,Juan,88.0,108.333333,36.4
4,Pedro,90.0,106.666667,36.8
5,Elena,76.0,105.0,36.5


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Un conjunto de datos muestra las ventas diarias de un producto durante un mes, pero algunos días faltan.

```
fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
```
Determine:

1. Identifica los días con ventas faltantes.
2. Utiliza un método de imputación basado en el tiempo (como un método de ventana) para rellenar los valores faltantes en ventas.
3. Encuentra el promedio de ventas de los días anteriores y siguientes para cada valor nulo y utiliza este promedio para imputar el dato faltante.
4. Compara los métodos de imputación y discute las diferencias.

In [43]:
fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
# display(df)

In [44]:
"""
1.  Identifica los días con ventas faltantes.
"""
print(
    f"1. Los días con ventas faltantes son:"
)
df[df.isna().sum(axis=1) >=1]['Fecha']

1. Los días con ventas faltantes son:


Unnamed: 0,Fecha
5,2023-01-06
12,2023-01-13
15,2023-01-16
20,2023-01-21
26,2023-01-27
29,2023-01-30


In [45]:
"""
2.  Utiliza un método de imputación basado en el tiempo (como un método de
    ventana) para rellenar los valores faltantes en ventas.
"""
print(
    f"2. Imputando los datos faltantes por interpolación obtenemos:"
)
df2 = df.fillna({'Ventas': df['Ventas'].interpolate()})
display(df2)

2. Imputando los datos faltantes por interpolación obtenemos:


Unnamed: 0,Fecha,Ventas
0,2023-01-01,80.0
1,2023-01-02,66.0
2,2023-01-03,69.0
3,2023-01-04,98.0
4,2023-01-05,52.0
5,2023-01-06,41.0
6,2023-01-07,30.0
7,2023-01-08,27.0
8,2023-01-09,50.0
9,2023-01-10,51.0


In [46]:
"""
3.  Encuentra el promedio de ventas de los días anteriores y siguientes para
    cada valor nulo y utiliza este promedio para imputar el dato faltante.
"""
df3 = df.fillna({'Ventas': df['Ventas'].rolling(window=2, min_periods=1).mean().shift(1)})
print(
    f"2. Imputando los datos faltantes por promedio de ventas con una ventana "
    "de dos días obtenemos:"
)
display(df3)

2. Imputando los datos faltantes por promedio de ventas con una ventana de dos días obtenemos:


Unnamed: 0,Fecha,Ventas
0,2023-01-01,80.0
1,2023-01-02,66.0
2,2023-01-03,69.0
3,2023-01-04,98.0
4,2023-01-05,52.0
5,2023-01-06,75.0
6,2023-01-07,30.0
7,2023-01-08,27.0
8,2023-01-09,50.0
9,2023-01-10,51.0


In [47]:
"""
4.  Compara los métodos de imputación y discute las diferencias.
"""
indices = [i for i in range(len(df)) if np.isnan(df.iloc[i,1])]
print(
    f"4. Comparando los datos imputados por los dos métodos se tienen:"
)
print(f"{'Día':^20}|{'Interpolación':^15}|{'Promedio':^10}")
print(55*'-')
for i in indices:
    print(f"{df['Fecha'].iloc[i].strftime('%Y-%m-%d'):^20}|{df2.iloc[i,1]:^15}"
    "|{df3.iloc[i,1]:^10}")

4. Comparando los datos imputados por los dos métodos se tienen:
        Día         | Interpolación | Promedio 
-------------------------------------------------------
     2023-01-06     |     41.0      |{df3.iloc[i,1]:^10}
     2023-01-13     |     62.0      |{df3.iloc[i,1]:^10}
     2023-01-16     |     86.5      |{df3.iloc[i,1]:^10}
     2023-01-21     |     66.0      |{df3.iloc[i,1]:^10}
     2023-01-27     |     64.5      |{df3.iloc[i,1]:^10}
     2023-01-30     |     67.0      |{df3.iloc[i,1]:^10}


En el item 4 de esta actividad podemos ver que el valor varía considerablemente en ciertos valores imputados, en particular nosotros hicimos uso del método `interpolate` sin argumentos, el cual hace interpolación linal por defecto entre los valores adyacentes, por lo cual dicho método puede no ser robusto en caso de que los datos no sean lo suficientemente suaves. Por otro lado, para el promedio se uso una ventana de dos días, lo que puede hacer un poco más robusta esta imputación en el caso de que los datos no sean tan regulares.

Podemos concluir que, aunque cualquier métodos sean válidos, la elección de la imputación a utilizar depende de las características de los datos.

<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Se ha realizado una encuesta en línea sobre hábitos alimenticios, y no todos los encuestados han respondido a todas las preguntas.

```
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)
```

1. Calcula el número de respuestas nulas para cada pregunta.
2. Rellena los valores nulos en 'Fruta favorita' con la fruta más popular entre los encuestados.
3. Utiliza el método fillna con el argumento method='ffill' para rellenar las respuestas nulas en 'Verdura favorita'.
4. Genera una columna 'Completado' que sea True si el encuestado respondió ambas preguntas y False en caso contrario.

In [48]:
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)

In [49]:
"""
1.  Calcula el número de respuestas nulas para cada pregunta.
"""
print(
    f"1. La cantidad respuestas nulas para cada pregunta son:")
for i in df.columns[1:]:
    print(
        f"Pregunta {i}: {df[i].isna().sum()} nulos."
    )

1. La cantidad respuestas nulas para cada pregunta son:
Pregunta Fruta favorita: 2 nulos.
Pregunta Verdura favorita: 2 nulos.


In [50]:
"""
2.  Rellena los valores nulos en 'Fruta favorita' con la fruta más popular
entre los encuestados.
"""
indices = [i for i in range(len(df)) if df.iloc[i,1:].isna().sum() > 0]

print(
    f"2. Luego de rellenar los datos faltantes en la columna de fruta "
    "favorita con la más popular se obtiene"
)
df.fillna({'Fruta favorita': df['Fruta favorita'].mode()[0]}, inplace=True)
display(df)

2. Luego de rellenar los datos faltantes en la columna de fruta favorita con la más popular se obtiene


Unnamed: 0,Nombre,Fruta favorita,Verdura favorita
0,Carlos,Manzana,
1,Isabel,Naranja,Brocoli
2,Sofía,Manzana,Zanahoria
3,Ernesto,Manzana,Calabacín
4,Hugo,Manzana,Espinaca
5,Natalia,Plátano,
6,Laura,Naranja,Espinaca


In [51]:
"""
3.  Utiliza el método fillna con el argumento method='ffill' para rellenar
las respuestas nulas en 'Verdura favorita'.
"""
print(
    f"2. Luego de rellenar los datos faltantes en la columna de verdura "
    "favorita con el método ffill se obtiene"
)
df['Verdura favorita'] = df['Verdura favorita'].ffill().bfill()
display(df)

2. Luego de rellenar los datos faltantes en la columna de verdura favorita con el método ffill se obtiene


Unnamed: 0,Nombre,Fruta favorita,Verdura favorita
0,Carlos,Manzana,Brocoli
1,Isabel,Naranja,Brocoli
2,Sofía,Manzana,Zanahoria
3,Ernesto,Manzana,Calabacín
4,Hugo,Manzana,Espinaca
5,Natalia,Plátano,Espinaca
6,Laura,Naranja,Espinaca


In [52]:
"""
4.  Genera una columna 'Completado' que sea True si el encuestado respondió
ambas preguntas y False en caso contrario.
"""
print(
    "4. Al agregar la columna completado con cierto si ambas respuestas "
    "fueron contestadas y falso en otro caso, los datos quedan como:"
)
df['Completado'] = [False if i in indices else True for i in range(len(df))]
display(df)

4. Al agregar la columna completado con cierto si ambas respuestas fueron contestadas y falso en otro caso, los datos quedan como:


Unnamed: 0,Nombre,Fruta favorita,Verdura favorita,Completado
0,Carlos,Manzana,Brocoli,False
1,Isabel,Naranja,Brocoli,True
2,Sofía,Manzana,Zanahoria,False
3,Ernesto,Manzana,Calabacín,True
4,Hugo,Manzana,Espinaca,False
5,Natalia,Plátano,Espinaca,False
6,Laura,Naranja,Espinaca,True


<font color='green'>Fin Actividad 5</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">


##<font color='red'>**Actividad Avanzada**</font>

### <font color='green'>Actividad 6</font>

Estás analizando datos de un grupo grande de estudiantes que tomaron 5 exámenes durante el año. Sin embargo, algunos estudiantes faltaron a uno o más exámenes. Además de los exámenes, también tienes información sobre la asistencia y el comportamiento de cada estudiante. Tu objetivo es realizar imputaciones de manera sofisticada para obtener un conjunto de datos completo.

Genera un DataFrame simulado con los siguientes datos:

```
np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})
```

1. Analiza la cantidad y proporción de datos faltantes en cada columna del DataFrame.
2. Reemplaza los valores faltantes en los exámenes con la media del estudiante en los demás exámenes. Si todos los exámenes de un estudiante están faltantes, rellénalos con la media general de ese examen entre todos los estudiantes.
3. Añade una columna 'Promedio' que calcule el promedio de los 5 exámenes para cada estudiante.
4. Considera que un estudiante puede tener hasta 2 exámenes con calificaciones faltantes. Si un estudiante tiene calificaciones faltantes en 3 o más exámenes, etiquétalo como 'Incompleto'. De lo contrario, etiquétalo según su promedio: "Sobresaliente" (90 y más), "Aprobado" (70-89) o "Reprobado" (menos de 70).
5. Utilizando las columnas 'Asistencia' y 'Comportamiento', utiliza un método de interpolación para imputar valores faltantes en los exámenes basados en correlaciones con estas columnas. Es decir, si observas que hay una correlación fuerte entre el rendimiento en los exámenes y estas columnas, utiliza esta relación para realizar imputaciones más precisas.
6. Compara los resultados de las calificaciones imputadas de los puntos 2 y 5, y discute las diferencias.

**Hints**: Podrías considerar métodos como interpolate o fillna y funciones como apply y transform para realizar operaciones más complejas.

In [53]:
np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})

display(df)

Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento
0,Estudiante_1,97.0,67.0,96.0,91.0,90.0,74,82
1,Estudiante_2,87.0,66.0,82.0,63.0,83.0,81,73
2,Estudiante_3,73.0,70.0,63.0,77.0,98.0,86,73
3,Estudiante_4,66.0,92.0,92.0,62.0,,92,75
4,Estudiante_5,79.0,91.0,64.0,93.0,74.0,82,97
...,...,...,...,...,...,...,...,...
95,Estudiante_96,100.0,64.0,92.0,67.0,97.0,89,95
96,Estudiante_97,97.0,90.0,79.0,70.0,90.0,86,97
97,Estudiante_98,99.0,62.0,88.0,,82.0,100,87
98,Estudiante_99,86.0,69.0,91.0,,81.0,76,97


In [54]:
"""
1.  Analiza la cantidad y proporción de datos faltantes en cada columna del
    DataFrame.
"""
print("1. La cantidad de datos faltantes en cada columna son:")
for i in df.columns:
    print(f"Columna {i}: {df[i].isna().sum()} nulos.")

1. La cantidad de datos faltantes en cada columna son:
Columna Nombre: 0 nulos.
Columna Examen_1: 2 nulos.
Columna Examen_2: 4 nulos.
Columna Examen_3: 2 nulos.
Columna Examen_4: 3 nulos.
Columna Examen_5: 3 nulos.
Columna Asistencia: 0 nulos.
Columna Comportamiento: 0 nulos.


In [55]:
"""
2.  Reemplaza los valores faltantes en los exámenes con la media del estudiante
    en los demás exámenes. Si todos los exámenes de un estudiante están
    faltantes, rellénalos con la media general de ese examen entre todos
    los estudiantes.
"""

col = [i for i,c in enumerate(df.columns) if "Examen_" in c]
rows = {
    i:df.iloc[i,col].isna().sum()
    for i in range(len(df))
    if df.iloc[i,col].isna().sum() > 0}

df2 = df.copy()

for i, n in rows.items():
    if 0 < n < 5:
        df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
    elif n == 5:
        for j in col:
            df2.iloc[i,j] = df.iloc[i,j].fillna(df.iloc[:,j].mean(skipna=True))
print(
    "2. Reemplazando los valores perdidos por la media del estudiante en los "
    "demás exámenes, o en el promedio de cada examén en caso de ser necesario "
    "se obtiene:"
)
display(df2)

2. Reemplazando los valores perdidos por la media del estudiante en los demás exámenes, o en el promedio de cada examén en caso de ser necesario se obtiene:


  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i,col] = df.iloc[i,col].fillna(df.iloc[i,col].mean(skipna=True))
  df2.iloc[i

Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento
0,Estudiante_1,97.0,67.0,96.0,91.00,90.0,74,82
1,Estudiante_2,87.0,66.0,82.0,63.00,83.0,81,73
2,Estudiante_3,73.0,70.0,63.0,77.00,98.0,86,73
3,Estudiante_4,66.0,92.0,92.0,62.00,78.0,92,75
4,Estudiante_5,79.0,91.0,64.0,93.00,74.0,82,97
...,...,...,...,...,...,...,...,...
95,Estudiante_96,100.0,64.0,92.0,67.00,97.0,89,95
96,Estudiante_97,97.0,90.0,79.0,70.00,90.0,86,97
97,Estudiante_98,99.0,62.0,88.0,82.75,82.0,100,87
98,Estudiante_99,86.0,69.0,91.0,81.75,81.0,76,97


In [56]:
"""
3.  Añade una columna 'Promedio' que calcule el promedio de los 5 exámenes
    para cada estudiante.
"""
df2['Promedio'] = df2.iloc[:,col].mean(axis=1)
print(
    "3. Al agregar la nueva columna con el promedio, el DataFrame queda dado "
    "por:"
)
display(df2)

3. Al agregar la nueva columna con el promedio, el DataFrame queda dado por:


Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento,Promedio
0,Estudiante_1,97.0,67.0,96.0,91.00,90.0,74,82,88.20
1,Estudiante_2,87.0,66.0,82.0,63.00,83.0,81,73,76.20
2,Estudiante_3,73.0,70.0,63.0,77.00,98.0,86,73,76.20
3,Estudiante_4,66.0,92.0,92.0,62.00,78.0,92,75,78.00
4,Estudiante_5,79.0,91.0,64.0,93.00,74.0,82,97,80.20
...,...,...,...,...,...,...,...,...,...
95,Estudiante_96,100.0,64.0,92.0,67.00,97.0,89,95,84.00
96,Estudiante_97,97.0,90.0,79.0,70.00,90.0,86,97,85.20
97,Estudiante_98,99.0,62.0,88.0,82.75,82.0,100,87,82.75
98,Estudiante_99,86.0,69.0,91.0,81.75,81.0,76,97,81.75


In [57]:
"""
4.  Considera que un estudiante puede tener hasta 2 exámenes con calificaciones
    faltantes. Si un estudiante tiene calificaciones faltantes en 3 o más
    exámenes, etiquétalo como 'Incompleto'. De lo contrario, etiquétalo según
    su promedio: "Sobresaliente" (90 y más), "Aprobado" (70-89) o
    "Reprobado" (menos de 70).
"""
def etiquetas(row):
    if row['Etiqueta'] >= 3:
        return 'Incompleto'
    elif row['Promedio'] >= 90:
        return 'Sobresaliente'
    elif row['Promedio'] >= 70:
        return 'Aprobado'
    else:
        return 'Reprobado'

df2['Etiqueta'] = [0 if i not in rows.keys() else rows[i]
                  for i in range(len(df2))]
df2['Etiqueta'] = df2.apply(etiquetas, axis=1)
print(
    "4. Luego de aplicar las etiquetas según críterios de calificación se "
    "tiene:"
)
display(df2)

4. Luego de aplicar las etiquetas según críterios de calificación se tiene:


Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento,Promedio,Etiqueta
0,Estudiante_1,97.0,67.0,96.0,91.00,90.0,74,82,88.20,Aprobado
1,Estudiante_2,87.0,66.0,82.0,63.00,83.0,81,73,76.20,Aprobado
2,Estudiante_3,73.0,70.0,63.0,77.00,98.0,86,73,76.20,Aprobado
3,Estudiante_4,66.0,92.0,92.0,62.00,78.0,92,75,78.00,Aprobado
4,Estudiante_5,79.0,91.0,64.0,93.00,74.0,82,97,80.20,Aprobado
...,...,...,...,...,...,...,...,...,...,...
95,Estudiante_96,100.0,64.0,92.0,67.00,97.0,89,95,84.00,Aprobado
96,Estudiante_97,97.0,90.0,79.0,70.00,90.0,86,97,85.20,Aprobado
97,Estudiante_98,99.0,62.0,88.0,82.75,82.0,100,87,82.75,Aprobado
98,Estudiante_99,86.0,69.0,91.0,81.75,81.0,76,97,81.75,Aprobado


In [58]:
"""
5.  Utilizando las columnas 'Asistencia' y 'Comportamiento', utiliza un método
    de interpolación para imputar valores faltantes en los exámenes basados en
    correlaciones con estas columnas. Es decir, si observas que hay una
    correlación fuerte entre el rendimiento en los exámenes y estas columnas,
    utiliza esta relación para realizar imputaciones más precisas.
"""
print(
    "La correlación de Pearson queda dada por:"
)
display(df.iloc[:,1:].corr(method='pearson')[['Asistencia', 'Comportamiento']])
print(
    "\n"
    "La correlación de Spearman queda dada por:")
display(df.iloc[:,1:].corr(method='spearman')[['Asistencia', 'Comportamiento']])
print(
    "\n"
    "La correlación de Kendall queda dada por:")
display(df.iloc[:,1:].corr(method='kendall')[['Asistencia', 'Comportamiento']])
print(
    "Es posible ver que bajo ningún método de análisis de correlación se "
    "establece una fuerte dependencia (ni positiva ni negativa) entre la "
    "'Asistencia' y 'Comportamiento' con las notas de los exámenes. La "
    "imputación realizando regresiones lineales se hará de todos modos para "
    "comparar los resultados."
)

# ========== Imputación ===============

from sklearn.linear_model import LinearRegression

df3 = df.copy()

# Para cada examen con valores faltantes
for exam in examenes:
    # Filtrar las filas donde no hay valores faltantes en el examen
    df_notna = df3[df3[exam].notna()]
    df_na = df3[df3[exam].isna()]

    # Si hay filas con valores faltantes, proceder a la imputación
    if not df_na.empty:
        # Definir las variables predictoras y la variable objetivo
        X_train = df_notna[['Asistencia', 'Comportamiento']]
        y_train = df_notna[exam]

        # Definir las variables de las filas con valores faltantes
        X_missing = df_na[['Asistencia', 'Comportamiento']]

        # Entrenar el modelo de regresión lineal
        modelo = LinearRegression()
        modelo.fit(X_train, y_train)

        # Predecir los valores faltantes
        valores_imputados = modelo.predict(X_missing)

        # Imputar los valores en el DataFrame original
        df3.loc[df3[exam].isna(), exam] = valores_imputados

# Mostrar la cantidad de valores faltantes después de la imputación
df3['Promedio'] = df3.iloc[:,col].mean(axis=1)
df3['Etiqueta'] = [0 if i not in rows.keys() else rows[i]
                  for i in range(len(df3))]
df3['Etiqueta'] = df3.apply(etiquetas, axis=1)
print(
    "5. Luego de la imputación por regresión lineal considerando las variab"
    "les 'Asistencia' y 'Comportamiento' el data frame queda así:")
display(df3)


La correlación de Pearson queda dada por:


Unnamed: 0,Asistencia,Comportamiento
Examen_1,-0.177205,0.044018
Examen_2,0.038429,0.187332
Examen_3,-0.2056,-0.006407
Examen_4,-0.053746,-0.053812
Examen_5,-0.161654,0.084048
Asistencia,1.0,-0.01528
Comportamiento,-0.01528,1.0



La correlación de Spearman queda dada por:


Unnamed: 0,Asistencia,Comportamiento
Examen_1,-0.181604,0.034685
Examen_2,0.044352,0.199019
Examen_3,-0.196868,-0.016724
Examen_4,-0.046582,-0.022591
Examen_5,-0.144042,0.083687
Asistencia,1.0,-0.020872
Comportamiento,-0.020872,1.0



La correlación de Kendall queda dada por:


Unnamed: 0,Asistencia,Comportamiento
Examen_1,-0.114928,0.01365
Examen_2,0.026896,0.148149
Examen_3,-0.133205,-0.014092
Examen_4,-0.035289,-0.012597
Examen_5,-0.095701,0.054534
Asistencia,1.0,-0.016079
Comportamiento,-0.016079,1.0


Es posible ver que bajo ningún método de análisis de correlación se establece una fuerte dependencia (ni positiva ni negativa) entre la 'Asistencia' y 'Comportamiento' con las notas de los exámenes. La imputación realizando regresiones lineales se hará de todos modos para comparar los resultados.
5. Luego de la imputación por regresión lineal considerando las variables 'Asistencia' y 'Comportamiento' el data frame queda así:


Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento,Promedio,Etiqueta
0,Estudiante_1,97.0,67.0,96.0,91.000000,90.00000,74,82,88.200000,Aprobado
1,Estudiante_2,87.0,66.0,82.0,63.000000,83.00000,81,73,76.200000,Aprobado
2,Estudiante_3,73.0,70.0,63.0,77.000000,98.00000,86,73,76.200000,Aprobado
3,Estudiante_4,66.0,92.0,92.0,62.000000,78.48233,92,75,78.096466,Aprobado
4,Estudiante_5,79.0,91.0,64.0,93.000000,74.00000,82,97,80.200000,Aprobado
...,...,...,...,...,...,...,...,...,...,...
95,Estudiante_96,100.0,64.0,92.0,67.000000,97.00000,89,95,84.000000,Aprobado
96,Estudiante_97,97.0,90.0,79.0,70.000000,90.00000,86,97,85.200000,Aprobado
97,Estudiante_98,99.0,62.0,88.0,80.723808,82.00000,100,87,82.344762,Aprobado
98,Estudiante_99,86.0,69.0,91.0,81.881618,81.00000,76,97,81.776324,Aprobado


In [59]:
"""
6.  Compara los resultados de las calificaciones imputadas de los puntos 2 y 5,
    y discute las diferencias.
"""
print(
    "6. La diferencia de los errores relativos de los datos inputados, entre "
    "los métodos del promedio y la relación con la asistencia y\ncomportamien"
    "to queda representada a continuación."
)
diferencias = (abs(df2[df.isna()]-df3[df.isna()])/df2[df.isna()]).mean(
    axis=0).iloc[1:6]
diferencias.name = 'Media de error relativo'
display(diferencias)
print(
    "En donde no se pueden apreciar variaciones considerables."
)

6. La diferencia de los errores relativos de los datos inputados, entre los métodos del promedio y la relación con la asistencia y
comportamiento queda representada a continuación.


Unnamed: 0,Media de error relativo
Examen_1,0.099651
Examen_2,0.057464
Examen_3,0.026262
Examen_4,0.039472
Examen_5,0.012521


En donde no se pueden apreciar variaciones considerables.


<font color='green'>Fin Actividad 6</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">