# **Obtención y preparación de datos**

# OD19. Gestión de Nulos

Un aspecto crítico en todo análisis de datos es la gestión de los valores nulos, representados en pandas por la valor real `NaN` ("Not a Number").

pandas ofrece diferentes funciones y métodos para gestionar estos valores.

In [1]:
import numpy as np
import pandas as pd

## <font color='blue'>**La función `isnull`**</font>

La función `pandas.isnull` devuelve una estructura con las mismas dimensiones que la que se cede como argumento sustituyendo cada valor por el booleano `True` si el correspondiente elemento es un valor nulo, y por el booleano `False` en caso contrario.

Esta función es equivalente a `pandas.isna`.

In [2]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

Unnamed: 0,0
0,1.0
1,
2,7.0
3,
4,3.0


In [3]:
pd.isnull(s)

Unnamed: 0,0
0,False
1,True
2,False
3,True
4,False


Esta funcionalidad también está disponible como método:

In [4]:
s.isnull()

Unnamed: 0,0
0,False
1,True
2,False
3,True
4,False


También podemos aplicarla a un dataframe:

In [5]:
ventas = pd.DataFrame({"A": [3, np.nan, 1],
                   "B": [1, 5, np.nan],
                   "C": [3, 7, 2],
                   "D": [np.nan, 2, np.nan]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3.0,1.0,3,
feb,,5.0,7,2.0
mar,1.0,,2,


In [6]:
pd.isnull(ventas)

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


In [7]:
ventas.isnull()

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


## <font color='blue'>**El método `dropna`**</font>

El método `dropna` permite, de una forma muy conveniente, filtrar los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

Aplicado a una serie, el método `pandas.Series.dropna` devuelve una nueva serie tras eliminar los valores nulos:


In [8]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

Unnamed: 0,0
0,1.0
1,
2,7.0
3,
4,3.0


In [9]:
s.dropna()

Unnamed: 0,0
0,1.0
2,7.0
4,3.0


Aplicado a un dataframe, el método `pandas.DataFrame.dropna` ofrece algo más de funcionalidad: podemos escoger si queremos eliminar filas o columnas, y si queremos eliminarlas cuando todos sus elementos sean nulos o simplemente cuando alguno de ellos lo sea.

In [10]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Por defecto, el método se aplica al eje 0, es decir, va a eliminar filas que incluyan valores nulos:

In [11]:
ventas.dropna()

Unnamed: 0,A,B,C,D
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0


Si especificamos el eje 1, lo que se eliminan son las columnas que incluyan valores nulos:

In [12]:
ventas.dropna(axis = 1)

Unnamed: 0,A,C
ene,1,3
feb,5,7
mar,4,2
abr,7,1


Mediante el parámetro `how` podemos controlar cómo queremos que se aplique el método: si toma el valor `"all"`, solo se eliminarán las filas o columnas en las que todos sus elementos sean nulos. Si toma el valor `"any"` (valor por defecto), se eliminarán las filas o columnas en las que algún elemento sea nulo. De esta forma:



In [13]:
ventas.dropna(how = "all")

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Vemos cómo ninguna fila se ha eliminado pues en ninguna de ellas todos los elementos nulos.

## <font color='blue'>**El método `fillna`**</font>

El método `fillna` permite sustituir los valores nulos de una estructura pandas por otro valor según ciertos criterios: pueden sustituirse por un valor concreto o bien puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

Veamos el caso de ejecutar este método en una serie, `pandas.Series.fillna`.

In [14]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

Unnamed: 0,0
0,1.0
1,
2,7.0
3,
4,3.0


In [15]:
s.fillna(0)

Unnamed: 0,0
0,1.0
1,0.0
2,7.0
3,0.0
4,3.0


Hemos indicado el valor 0 como argumento, y es este valor el que se utiliza para sustituir los valores nulos de la serie original.

También podríamos haber especificado que el método a utilizar fuese, por ejemplo, el **forward fill** (`"ffill"`), de forma que los valores no nulos se copien "hacia adelante" siempre que se encuentren valores nulos. Esto se indicaría con el parámetro `method`.

In [16]:
s.fillna(method = "ffill")

  s.fillna(method = "ffill")


Unnamed: 0,0
0,1.0
1,1.0
2,7.0
3,7.0
4,3.0


Vemos cómo los valores nulos se han rellenado con el anterior valor no nulo (o, dicho con otras palabras, cómo los valores no nulos se han extendido hacia adelante).

Si especificamos el método **backward fill** (`"bfill"`).

In [17]:
s.fillna(method = "bfill")

  s.fillna(method = "bfill")


Unnamed: 0,0
0,1.0
1,7.0
2,7.0
3,3.0
4,3.0


Los valores nulos se han rellenado con el siguiente valor no nulo.

En el caso de los dataframe, `pandas.DataFrame.fillna`, la funcionalidad es semejante. Como se ha comentado, la mayor diferencia consiste en que, en el caso de querer rellenar los valores nulos con el anterior o posterior no nulo, habrá que indicar el eje del que obtener estos datos.

In [18]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Podemos sustituir los valores nulos por una cifra concreta.



In [19]:
ventas.fillna(0)

Unnamed: 0,A,B,C,D
ene,1,3.0,3,0.0
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,0.0,1,3.0


Si aplicamos el método de **forward fill** a lo largo del eje 0 (eje por defecto).



In [20]:
ventas.fillna(method = "ffill")

  ventas.fillna(method = "ffill")


Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,1.0,1,3.0


Vemos cómo el primer valor de la columna D no se ha modificado pues no hay ningún valor anterior (en el eje 0) del que tomar el valor.

Y si aplicamos el método **backward fill** a lo largo del eje 1.

In [21]:
ventas.fillna(method = "bfill", axis = 1)

  ventas.fillna(method = "bfill", axis = 1)


Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


En este caso, el valor de la columna D correspondiente a enero no se ha modificado pues, nuevamente, no hay un valor posterior (en el eje 1) del que tomar el valor.

En un caso práctico puede resultar recomendable utilizar "lógica de relleno" seguida de la asignación de un valor por defecto para los valores nulos que puedan seguir existiendo, para asegurarnos de que todos ellos han sido sustituidos adecuadamente.

In [22]:
ventas.fillna(axis = 1, method = "bfill").fillna(0)

  ventas.fillna(axis = 1, method = "bfill").fillna(0)


Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,0.0
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


In [23]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


In [24]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,,3.0,,5
3,,3.0,,4


In [25]:
df.fillna(method='ffill', axis=1)

  df.fillna(method='ffill', axis=1)


Unnamed: 0,A,B,C,D
0,,2.0,2.0,0.0
1,3.0,4.0,4.0,1.0
2,,,,5.0
3,,3.0,3.0,4.0


## <font color='purple'>__Material adicional__</font>


En el siguiente enlace podremos revisar la documentación de otra función para imputar datos. interpolate():
https://www.w3schools.com/python/pandas/ref_df_interpolate.asp

Esta función permite reemplazar valores nulos con muchos métodos, incluyendo un método basado en el tiempo. Esto permite que la imputación de datos sea muchísimo más versátil utilizando pandas.

### <font color='purple'>Fin material adicional </font>

### <font color='green'>Actividad 1</font>

Para el siguiente dataframe:

```
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
```
Determine:

1. Contar la cantidad total de nulos.
2. Contar la cantidad de nulos por columna.
3. Eliminar las filas con nulos en la columna texto.
4. Eliminar todas las filas que contengan algún valor nulo.

In [26]:
# 1) Contar la cantidad total de nulos.
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
print(f"La cantidad total de nulos es {datos.isnull().sum().sum()}.")

La cantidad total de nulos es 2.


In [27]:
# 2) Contar la cantidad de nulos por columna.
datos.isnull().sum().rename('Nulos por columna')

Unnamed: 0,Nulos por columna
id,1
texto,1
valor,0


In [28]:
# 3) Eliminar las filas con nulos en la columna texto.
datos[~datos['texto'].isnull()]

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
3,,,5
4,7.0,a,1
5,6.0,b,9
6,9.0,np.nan,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


In [29]:
# 4) Eliminar las filas con nulos en la columna texto.
datos.dropna()

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
4,7.0,a,1
5,6.0,b,9
6,9.0,np.nan,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Tienes un DataFrame que representa un catálogo de productos, pero algunos productos tienen valores faltantes en sus características.

```
data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica y cuenta los valores nulos en cada columna.
2. Rellena los valores faltantes del precio con el precio medio de todos los productos.
3. Elimina cualquier fila donde el peso no esté especificado.
4. Verifica si todos los valores nulos han sido tratados y muestra el DataFrame limpio.

In [30]:
# 1) Identifica y cuenta los valores nulos en cada columna.
data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)
df.isnull().sum().rename('Nulos por columna')

Unnamed: 0,Nulos por columna
Producto,0
Precio,1
Peso (g),2


In [31]:
# 2) Rellena los valores faltantes del precio con el precio medio de todos los productos.
df['Precio'].fillna(df['Precio'].mean(), inplace=True)
df

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Precio'].fillna(df['Precio'].mean(), inplace=True)


Unnamed: 0,Producto,Precio,Peso (g)
0,Móvil,300.0,150.0
1,Laptop,1200.0,
2,Auriculares,450.0,20.0
3,Monitor,250.0,5000.0
4,Teclado,50.0,


In [32]:
# 3) Elimina cualquier fila donde el peso no esté especificado.
df = df.dropna(subset=['Peso (g)'])
df

Unnamed: 0,Producto,Precio,Peso (g)
0,Móvil,300.0,150.0
2,Auriculares,450.0,20.0
3,Monitor,250.0,5000.0


In [33]:
# 4) Verifica si todos los valores nulos han sido tratados y muestra el DataFrame limpio.
df.isnull().sum().rename('Nulos por columna')

Unnamed: 0,Nulos por columna
Producto,0
Precio,0
Peso (g),0


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

En una clínica, se han registrado ciertos parámetros de salud de los pacientes, pero no todos los pacientes han completado todos los parámetros.

```
data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica las filas donde al menos dos parámetros de salud faltan.
2. Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
3. Interpola los valores faltantes en la columna 'Presión'.
4. Elimina las filas donde la 'Temperatura' es NaN.

In [34]:
# 1) Identifica las filas donde al menos dos parámetros de salud faltan.
data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)
df[df.isnull().sum(axis=1) >= 2]

Unnamed: 0,Paciente,Pulso,Presión,Temperatura


In [35]:
# 2) Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
df['Pulso'].fillna(df['Pulso'].median(), inplace=True)
df

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Pulso'].fillna(df['Pulso'].median(), inplace=True)


Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
1,Luis,72.0,115.0,
2,Marta,80.0,110.0,37.0
3,Juan,88.0,,36.4
4,Pedro,90.0,,36.8
5,Elena,76.0,105.0,36.5


In [36]:
# 3) Interpola los valores faltantes en la columna 'Presión'.
df['Presión'].interpolate(method='linear', inplace=True)
df

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Presión'].interpolate(method='linear', inplace=True)


Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
1,Luis,72.0,115.0,
2,Marta,80.0,110.0,37.0
3,Juan,88.0,108.333333,36.4
4,Pedro,90.0,106.666667,36.8
5,Elena,76.0,105.0,36.5


In [37]:
# 4) Elimina las filas donde la 'Temperatura' es NaN.
df.dropna(subset=['Temperatura'], inplace=True)
df

Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
2,Marta,80.0,110.0,37.0
3,Juan,88.0,108.333333,36.4
4,Pedro,90.0,106.666667,36.8
5,Elena,76.0,105.0,36.5


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Un conjunto de datos muestra las ventas diarias de un producto durante un mes, pero algunos días faltan.

```
fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
```
Determine:

1. Identifica los días con ventas faltantes.
2. Utiliza un método de imputación basado en el tiempo (como un método de ventana) para rellenar los valores faltantes en ventas.
3. Encuentra el promedio de ventas de los días anteriores y siguientes para cada valor nulo y utiliza este promedio para imputar el dato faltante.
4. Compara los métodos de imputación y discute las diferencias.

In [38]:
# 1) Identifica los días con ventas faltantes.
fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
df[df['Ventas'].isnull()]

Unnamed: 0,Fecha,Ventas
5,2023-01-06,
12,2023-01-13,
15,2023-01-16,
20,2023-01-21,
26,2023-01-27,
29,2023-01-30,


In [39]:
# 2) Utiliza un método de imputación basado en el tiempo (como un método de ventana) para rellenar los valores faltantes en ventas.
# usaremos el metodo interpolate() que puede realizar imputacion basado en el tiempo, el cual tiene como argumento el método de imputacion
# el metodo 'time' es una imputacion basada en tiempo que requiere que el índice del dataframe sea de tipo datetime
df.set_index('Fecha', inplace=True)
df['Ventas'] = df['Ventas'].interpolate(method='time')
df

Unnamed: 0_level_0,Ventas
Fecha,Unnamed: 1_level_1
2023-01-01,90.0
2023-01-02,61.0
2023-01-03,99.0
2023-01-04,37.0
2023-01-05,77.0
2023-01-06,75.5
2023-01-07,74.0
2023-01-08,74.0
2023-01-09,68.0
2023-01-10,94.0


In [40]:
# 3) Encuentra el promedio de ventas de los días anteriores y siguientes para cada valor nulo y utiliza este promedio para imputar el dato faltante.
df2 = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
df2['Ventas'].fillna(df2['Ventas'].mean(), inplace=True)
df2

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2['Ventas'].fillna(df2['Ventas'].mean(), inplace=True)


Unnamed: 0,Fecha,Ventas
0,2023-01-01,90.0
1,2023-01-02,61.0
2,2023-01-03,99.0
3,2023-01-04,37.0
4,2023-01-05,77.0
5,2023-01-06,59.88
6,2023-01-07,74.0
7,2023-01-08,74.0
8,2023-01-09,68.0
9,2023-01-10,94.0


In [41]:
print(df.describe())
print(df2['Ventas'].describe())

          Ventas
count  31.000000
mean   59.419355
std    20.335149
min    24.000000
25%    42.500000
50%    65.000000
75%    74.000000
max    99.000000
count    31.000000
mean     59.880000
std      19.691487
min      24.000000
25%      42.500000
50%      59.880000
75%      73.500000
max      99.000000
Name: Ventas, dtype: float64


Comparando los métodos de imputación utilizados, podemos darnos cuenta que hay resultados de imputación distintos, así como también al revisar parámetros estadísticos básicos la variación es pequeña. Sin embargo, como grupo consideramos que es importante hacer la distinción de los diferentes métodos de imputación que existen y la variabilidad que genera en el conjunto de datos.

<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Se ha realizado una encuesta en línea sobre hábitos alimenticios, y no todos los encuestados han respondido a todas las preguntas.

```
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)
```

1. Calcula el número de respuestas nulas para cada pregunta.
2. Rellena los valores nulos en 'Fruta favorita' con la fruta más popular entre los encuestados.
3. Utiliza el método fillna con el argumento method='ffill' para rellenar las respuestas nulas en 'Verdura favorita'.
4. Genera una columna 'Completado' que sea True si el encuestado respondió ambas preguntas y False en caso contrario.

In [42]:
# 1) Calcula el número de respuestas nulas para cada pregunta.
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)
df.isnull().sum().rename('Respuestas nulas')


Unnamed: 0,Respuestas nulas
Nombre,0
Fruta favorita,2
Verdura favorita,2


In [43]:
# 2) Rellena los valores nulos en 'Fruta favorita' con la fruta más popular entre los encuestados.
df['Fruta favorita'].fillna(df['Fruta favorita'].mode(), inplace=True)
df

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Fruta favorita'].fillna(df['Fruta favorita'].mode(), inplace=True)


Unnamed: 0,Nombre,Fruta favorita,Verdura favorita
0,Carlos,Manzana,
1,Isabel,Naranja,Brocoli
2,Sofía,,Zanahoria
3,Ernesto,Manzana,Calabacín
4,Hugo,,Espinaca
5,Natalia,Plátano,
6,Laura,Naranja,Espinaca


In [44]:
# 3) Utiliza el método fillna con el argumento method='ffill' para rellenar las respuestas nulas en 'Verdura favorita'.
df['Verdura favorita'].fillna(method='ffill', inplace=True)
df

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Verdura favorita'].fillna(method='ffill', inplace=True)
  df['Verdura favorita'].fillna(method='ffill', inplace=True)


Unnamed: 0,Nombre,Fruta favorita,Verdura favorita
0,Carlos,Manzana,
1,Isabel,Naranja,Brocoli
2,Sofía,,Zanahoria
3,Ernesto,Manzana,Calabacín
4,Hugo,,Espinaca
5,Natalia,Plátano,Espinaca
6,Laura,Naranja,Espinaca


In [45]:
# 4) Genera una columna 'Completado' que sea True si el encuestado respondió ambas preguntas y False en caso contrario.
df['Completado'] = ~df['Fruta favorita'].isnull() & ~df['Verdura favorita'].isnull()
df

Unnamed: 0,Nombre,Fruta favorita,Verdura favorita,Completado
0,Carlos,Manzana,,False
1,Isabel,Naranja,Brocoli,True
2,Sofía,,Zanahoria,False
3,Ernesto,Manzana,Calabacín,True
4,Hugo,,Espinaca,False
5,Natalia,Plátano,Espinaca,True
6,Laura,Naranja,Espinaca,True


<font color='green'>Fin Actividad 5</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">


##<font color='red'>**Actividad Avanzada**</font>

### <font color='green'>Actividad 6</font>

Estás analizando datos de un grupo grande de estudiantes que tomaron 5 exámenes durante el año. Sin embargo, algunos estudiantes faltaron a uno o más exámenes. Además de los exámenes, también tienes información sobre la asistencia y el comportamiento de cada estudiante. Tu objetivo es realizar imputaciones de manera sofisticada para obtener un conjunto de datos completo.

Genera un DataFrame simulado con los siguientes datos:

```
np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})
```

1. Analiza la cantidad y proporción de datos faltantes en cada columna del DataFrame.
2. Reemplaza los valores faltantes en los exámenes con la media del estudiante en los demás exámenes. Si todos los exámenes de un estudiante están faltantes, rellénalos con la media general de ese examen entre todos los estudiantes.
3. Añade una columna 'Promedio' que calcule el promedio de los 5 exámenes para cada estudiante.
4. Considera que un estudiante puede tener hasta 2 exámenes con calificaciones faltantes. Si un estudiante tiene calificaciones faltantes en 3 o más exámenes, etiquétalo como 'Incompleto'. De lo contrario, etiquétalo según su promedio: "Sobresaliente" (90 y más), "Aprobado" (70-89) o "Reprobado" (menos de 70).
5. Utilizando las columnas 'Asistencia' y 'Comportamiento', utiliza un método de interpolación para imputar valores faltantes en los exámenes basados en correlaciones con estas columnas. Es decir, si observas que hay una correlación fuerte entre el rendimiento en los exámenes y estas columnas, utiliza esta relación para realizar imputaciones más precisas.
6. Compara los resultados de las calificaciones imputadas de los puntos 2 y 5, y discute las diferencias.

**Hints**: Podrías considerar métodos como interpolate o fillna y funciones como apply y transform para realizar operaciones más complejas.

In [46]:
# Tu código aquí ...
np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})


<font color='green'>Fin Actividad 6</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">