# **Obtención y preparación de datos**

# OD19. Gestión de Nulos

Un aspecto crítico en todo análisis de datos es la gestión de los valores nulos, representados en pandas por la valor real `NaN` ("Not a Number").

pandas ofrece diferentes funciones y métodos para gestionar estos valores.

In [2]:
import numpy as np
import pandas as pd

## <font color='blue'>**La función `isnull`**</font>

La función `pandas.isnull` devuelve una estructura con las mismas dimensiones que la que se cede como argumento sustituyendo cada valor por el booleano `True` si el correspondiente elemento es un valor nulo, y por el booleano `False` en caso contrario.

Esta función es equivalente a `pandas.isna`.

In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

Unnamed: 0,0
0,1.0
1,
2,7.0
3,
4,3.0


In [None]:
pd.isnull(s)

Unnamed: 0,0
0,False
1,True
2,False
3,True
4,False


Esta funcionalidad también está disponible como método:

In [None]:
s.isnull()

Unnamed: 0,0
0,False
1,True
2,False
3,True
4,False


También podemos aplicarla a un dataframe:

In [None]:
ventas = pd.DataFrame({"A": [3, np.nan, 1],
                   "B": [1, 5, np.nan],
                   "C": [3, 7, 2],
                   "D": [np.nan, 2, np.nan]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3.0,1.0,3,
feb,,5.0,7,2.0
mar,1.0,,2,


In [None]:
pd.isnull(ventas)

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


In [None]:
ventas.isnull()

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


## <font color='blue'>**El método `dropna`**</font>

El método `dropna` permite, de una forma muy conveniente, filtrar los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

Aplicado a una serie, el método `pandas.Series.dropna` devuelve una nueva serie tras eliminar los valores nulos:


In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

Unnamed: 0,0
0,1.0
1,
2,7.0
3,
4,3.0


In [None]:
s.dropna()

Unnamed: 0,0
0,1.0
2,7.0
4,3.0


Aplicado a un dataframe, el método `pandas.DataFrame.dropna` ofrece algo más de funcionalidad: podemos escoger si queremos eliminar filas o columnas, y si queremos eliminarlas cuando todos sus elementos sean nulos o simplemente cuando alguno de ellos lo sea.

In [None]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Por defecto, el método se aplica al eje 0, es decir, va a eliminar filas que incluyan valores nulos:

In [None]:
ventas.dropna()

Unnamed: 0,A,B,C,D
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0


Si especificamos el eje 1, lo que se eliminan son las columnas que incluyan valores nulos:

In [None]:
ventas.dropna(axis = 1)

Unnamed: 0,A,C
ene,1,3
feb,5,7
mar,4,2
abr,7,1


Mediante el parámetro `how` podemos controlar cómo queremos que se aplique el método: si toma el valor `"all"`, solo se eliminarán las filas o columnas en las que todos sus elementos sean nulos. Si toma el valor `"any"` (valor por defecto), se eliminarán las filas o columnas en las que algún elemento sea nulo. De esta forma:



In [None]:
ventas.dropna(how = "all")

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Vemos cómo ninguna fila se ha eliminado pues en ninguna de ellas todos los elementos nulos.

## <font color='blue'>**El método `fillna`**</font>

El método `fillna` permite sustituir los valores nulos de una estructura pandas por otro valor según ciertos criterios: pueden sustituirse por un valor concreto o bien puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

Veamos el caso de ejecutar este método en una serie, `pandas.Series.fillna`.

In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

Unnamed: 0,0
0,1.0
1,
2,7.0
3,
4,3.0


In [None]:
s.fillna(0)

Unnamed: 0,0
0,1.0
1,0.0
2,7.0
3,0.0
4,3.0


Hemos indicado el valor 0 como argumento, y es este valor el que se utiliza para sustituir los valores nulos de la serie original.

También podríamos haber especificado que el método a utilizar fuese, por ejemplo, el **forward fill** (`"ffill"`), de forma que los valores no nulos se copien "hacia adelante" siempre que se encuentren valores nulos. Esto se indicaría con el parámetro `method`.

In [None]:
s.fillna(method = "ffill")

  s.fillna(method = "ffill")


Unnamed: 0,0
0,1.0
1,1.0
2,7.0
3,7.0
4,3.0


Vemos cómo los valores nulos se han rellenado con el anterior valor no nulo (o, dicho con otras palabras, cómo los valores no nulos se han extendido hacia adelante).

Si especificamos el método **backward fill** (`"bfill"`).

In [None]:
s.fillna(method = "bfill")

  s.fillna(method = "bfill")


Unnamed: 0,0
0,1.0
1,7.0
2,7.0
3,3.0
4,3.0


Los valores nulos se han rellenado con el siguiente valor no nulo.

En el caso de los dataframe, `pandas.DataFrame.fillna`, la funcionalidad es semejante. Como se ha comentado, la mayor diferencia consiste en que, en el caso de querer rellenar los valores nulos con el anterior o posterior no nulo, habrá que indicar el eje del que obtener estos datos.

In [None]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Podemos sustituir los valores nulos por una cifra concreta.



In [None]:
ventas.fillna(0)

Unnamed: 0,A,B,C,D
ene,1,3.0,3,0.0
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,0.0,1,3.0


Si aplicamos el método de **forward fill** a lo largo del eje 0 (eje por defecto).



In [None]:
ventas.fillna(method = "ffill")

  ventas.fillna(method = "ffill")


Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,1.0,1,3.0


Vemos cómo el primer valor de la columna D no se ha modificado pues no hay ningún valor anterior (en el eje 0) del que tomar el valor.

Y si aplicamos el método **backward fill** a lo largo del eje 1.

In [None]:
ventas.fillna(method = "bfill", axis = 1)

  ventas.fillna(method = "bfill", axis = 1)


Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


En este caso, el valor de la columna D correspondiente a enero no se ha modificado pues, nuevamente, no hay un valor posterior (en el eje 1) del que tomar el valor.

En un caso práctico puede resultar recomendable utilizar "lógica de relleno" seguida de la asignación de un valor por defecto para los valores nulos que puedan seguir existiendo, para asegurarnos de que todos ellos han sido sustituidos adecuadamente.

In [None]:
ventas.fillna(axis = 1, method = "bfill").fillna(0)

  ventas.fillna(axis = 1, method = "bfill").fillna(0)


Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,0.0
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


In [None]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


In [None]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,,3.0,,5
3,,3.0,,4


In [None]:
df.fillna(method='ffill', axis=1)

  df.fillna(method='ffill', axis=1)


Unnamed: 0,A,B,C,D
0,,2.0,2.0,0.0
1,3.0,4.0,4.0,1.0
2,,,,5.0
3,,3.0,3.0,4.0


### <font color='green'>Actividad 1</font>

Para el siguiente dataframe:

```
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
```
Determine:

1. Contar la cantidad total de nulos.
2. Contar la cantidad de nulos por columna.
3. Eliminar las filas con nulos en la columna texto.
4. Eliminar todas las filas que contengan algún valor nulo.

In [None]:
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})


In [None]:
# Contar la cantidad total de nulos.
total_nulos = datos.isna().sum().sum()
print(f"Total de valores nulos: {total_nulos}")

Total de valores nulos: 2


In [None]:
# Contar la cantidad de nulos por columna.
nulos_por_columna = datos.isna().sum()
print(nulos_por_columna)

id       1
texto    1
valor    0
dtype: int64


In [None]:
# Eliminar las filas con nulos en la columna "texto"
datos_sin_nulos_texto = datos.dropna(subset=['texto'])
display(datos_sin_nulos_texto)

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
3,,,5
4,7.0,a,1
5,6.0,b,9
6,9.0,np.nan,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


In [None]:
# Eliminar todas las filas que contengan algún valor nulo
datos_sin_nulos = datos.dropna()
display(datos_sin_nulos)

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
4,7.0,a,1
5,6.0,b,9
6,9.0,np.nan,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Tienes un DataFrame que representa un catálogo de productos, pero algunos productos tienen valores faltantes en sus características.

```
data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica y cuenta los valores nulos en cada columna.
2. Rellena los valores faltantes del precio con el precio medio de todos los productos.
3. Elimina cualquier fila donde el peso no esté especificado.
4. Verifica si todos los valores nulos han sido tratados y muestra el DataFrame limpio.

In [None]:
data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)

In [None]:
#Identifica y cuenta los valores nulos en cada columna.
print("Valores nulos por columna:")
print(df.isna().sum())


Valores nulos por columna:
Producto    0
Precio      1
Peso (g)    2
dtype: int64


In [None]:
# Rellena los valores faltantes del precio con el precio medio de todos los productos.
mean_price = df['Precio'].mean()
df['Precio'] = df['Precio'].fillna(mean_price)

In [None]:
# Elimina cualquier fila donde el peso no esté especificado.
df_cleaned = df.dropna(subset=['Peso (g)'])

In [None]:
# Paso 4: Verificar si todos los valores nulos han sido tratados
display(df_cleaned)

Unnamed: 0,Producto,Precio,Peso (g)
0,Móvil,300.0,150.0
2,Auriculares,450.0,20.0
3,Monitor,250.0,5000.0


In [None]:
# Verifica si todos los valores nulos han sido tratados y muestra el DataFrame limpio.
print(df_cleaned.isna().sum())

Producto    0
Precio      0
Peso (g)    0
dtype: int64


In [None]:
display(df_cleaned)

Unnamed: 0,Producto,Precio,Peso (g)
0,Móvil,300.0,150.0
2,Auriculares,450.0,20.0
3,Monitor,250.0,5000.0


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

En una clínica, se han registrado ciertos parámetros de salud de los pacientes, pero no todos los pacientes han completado todos los parámetros.

```
data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica las filas donde al menos dos parámetros de salud faltan.
2. Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
3. Interpola los valores faltantes en la columna 'Presión'.
4. Elimina las filas donde la 'Temperatura' es NaN.

In [None]:
# Crear el DataFrame con los datos de los pacientes
data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)

In [None]:
# Identifica las filas donde al menos dos parámetros de salud faltan.
filas_con_dos_o_mas_nulos = df.isna().sum(axis=1) >= 2
print("Filas con al menos dos parámetros faltantes:")
print(df[filas_con_dos_o_mas_nulos])

Filas con al menos dos parámetros faltantes:
Empty DataFrame
Columns: [Paciente, Pulso, Presión, Temperatura]
Index: []


In [None]:
# Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
mediana_pulso = df['Pulso'].median()
df['Pulso'] = df['Pulso'].fillna(mediana_pulso)
display(df)

Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
1,Luis,72.0,115.0,
2,Marta,80.0,110.0,37.0
3,Juan,88.0,,36.4
4,Pedro,90.0,,36.8
5,Elena,76.0,105.0,36.5


In [None]:
# Interpola los valores faltantes en la columna 'Presión'.
df['Presión'] = df['Presión'].interpolate()
display(df)

Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
1,Luis,72.0,115.0,
2,Marta,80.0,110.0,37.0
3,Juan,88.0,108.333333,36.4
4,Pedro,90.0,106.666667,36.8
5,Elena,76.0,105.0,36.5


In [None]:
# Elimina las filas donde la 'Temperatura' es NaN.
df_sin_temperatura_nula = df.dropna(subset=['Temperatura'])
display(df_sin_temperatura_nula)

Unnamed: 0,Paciente,Pulso,Presión,Temperatura
0,Ana,80.0,120.0,36.6
2,Marta,80.0,110.0,37.0
3,Juan,88.0,108.333333,36.4
4,Pedro,90.0,106.666667,36.8
5,Elena,76.0,105.0,36.5


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Un conjunto de datos muestra las ventas diarias de un producto durante un mes, pero algunos días faltan.

```
fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
```
Determine:

1. Identifica los días con ventas faltantes.
2. Utiliza un método de imputación basado en el tiempo (como un método de ventana) para rellenar los valores faltantes en ventas.
3. Encuentra el promedio de ventas de los días anteriores y siguientes para cada valor nulo y utiliza este promedio para imputar el dato faltante.
4. Compara los métodos de imputación y discute las diferencias.

<font color='red'>__LINK DE INTERÉS__: Media móvil y ejemplo de valores nulos con media móvil</font>

La media móvil y el uso de cómo llenar los valores de nan con la media móvil en pandas lo podemos ver en los siguientes enlaces [aquí](https://www.geeksforgeeks.org/python-pandas-dataframe-rolling/) y [aquí](https://stackoverflow.com/questions/49172914/how-to-fill-nan-values-with-rolling-mean-in-pandas) respectivamente.

In [None]:
# Crear las fechas y ventas, incluyendo algunos valores nulos
fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos

# Crear el DataFrame
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})

# Identificar los días con ventas faltantes
dias_faltantes = df[df['Ventas'].isna()]
display(dias_faltantes)

Unnamed: 0,Fecha,Ventas
5,2023-01-06,
12,2023-01-13,
15,2023-01-16,
20,2023-01-21,
26,2023-01-27,
29,2023-01-30,


In [None]:
# Imputación con un método basado en el tiempo (promedio de la ventana de 3 días)
df['Ventas_Imputadas'] = df['Ventas'].fillna(df['Ventas'].rolling(window=3, min_periods=1, center=True).mean())

# Comparar los métodos de imputación

# Método 1: Rellenar con la media de todas las ventas
media_ventas = df['Ventas'].mean()
df['Ventas_Imputadas_Media'] = df['Ventas'].fillna(media_ventas)

# Método 2: Rellenar con el valor anterior (método forward fill)
df['Ventas_Imputadas_Anterior'] = df['Ventas'].fillna(method='ffill')

# Mostrar los resultados comparativos
display(df)

  df['Ventas_Imputadas_Anterior'] = df['Ventas'].fillna(method='ffill')


Unnamed: 0,Fecha,Ventas,Ventas_Imputadas,Ventas_Imputadas_Media,Ventas_Imputadas_Anterior
0,2023-01-01,57.0,57.0,57.0,57.0
1,2023-01-02,49.0,49.0,49.0,49.0
2,2023-01-03,96.0,96.0,96.0,96.0
3,2023-01-04,41.0,41.0,41.0,41.0
4,2023-01-05,56.0,56.0,56.0,56.0
5,2023-01-06,,70.0,62.6,56.0
6,2023-01-07,84.0,84.0,84.0,84.0
7,2023-01-08,35.0,35.0,35.0,35.0
8,2023-01-09,48.0,48.0,48.0,48.0
9,2023-01-10,29.0,29.0,29.0,29.0


In [None]:
# Comparación de los métodos
# Método forward fill (rellenar con el valor anterior)
df['Ventas_ffill'] = df['Ventas'].ffill()

# Método backward fill (rellenar con el valor siguiente)
df['Ventas_bfill'] = df['Ventas'].bfill()

display(df[['Fecha', 'Ventas', 'Ventas_imputadas', 'Ventas_ffill', 'Ventas_bfill']])


Unnamed: 0,Fecha,Ventas,Ventas_imputadas,Ventas_ffill,Ventas_bfill
0,2023-01-01,20.0,20.0,20.0,20.0
1,2023-01-02,64.0,64.0,64.0,64.0
2,2023-01-03,61.0,61.0,61.0,61.0
3,2023-01-04,96.0,96.0,96.0,96.0
4,2023-01-05,81.0,81.0,81.0,81.0
5,2023-01-06,,67.5,81.0,54.0
6,2023-01-07,54.0,54.0,54.0,54.0
7,2023-01-08,30.0,30.0,30.0,30.0
8,2023-01-09,47.0,47.0,47.0,47.0
9,2023-01-10,65.0,65.0,65.0,65.0


DISCUSIÓN: El método de ventana (rolling) toma el promedio de los días anteriores y siguientes.
El forward fill usa el último valor conocido, mientras que el backward fill utiliza el primer valor conocido en el futuro.

Personalmente considero que el método ventana puede ser más útil cuando hablamos de días, ya que es muy probable que el dato faltante, en promedio, se comporte de manera similar a los dias anteriores y siguientes

<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Se ha realizado una encuesta en línea sobre hábitos alimenticios, y no todos los encuestados han respondido a todas las preguntas.

```
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)
```

1. Calcula el número de respuestas nulas para cada pregunta.
2. Rellena los valores nulos en 'Fruta favorita' con la fruta más popular entre los encuestados.
3. Utiliza el método fillna con el argumento method='ffill' para rellenar las respuestas nulas en 'Verdura favorita'.
4. Genera una columna 'Completado' que sea True si el encuestado respondió ambas preguntas y False en caso contrario.

In [None]:
# Data frame
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)

# Calcular el número de respuestas nulas por columna
nulos_por_columna = df.isna().sum()
print(nulos_por_columna)

Nombre              0
Fruta favorita      2
Verdura favorita    2
dtype: int64


In [None]:
# Rellenar los nulos en 'Fruta favorita' con la fruta más popular
fruta_popular = df['Fruta favorita'].mode()[0]
df['Fruta favorita'] = df['Fruta favorita'].fillna(fruta_popular)

# Rellenar los nulos en 'Verdura favorita' con ffill
df['Verdura favorita'] = df['Verdura favorita'].ffill()

# Crear columna 'Completado' para verificar si ambas preguntas fueron respondidas
df['Completado'] = df['Fruta favorita'].notna() & df['Verdura favorita'].notna()

# Mostrar el DataFrame actualizado
display(df)

Unnamed: 0,Nombre,Fruta favorita,Verdura favorita,Completado
0,Carlos,Manzana,,False
1,Isabel,Naranja,Brocoli,True
2,Sofía,Manzana,Zanahoria,True
3,Ernesto,Manzana,Calabacín,True
4,Hugo,Manzana,Espinaca,True
5,Natalia,Plátano,Espinaca,True
6,Laura,Naranja,Espinaca,True


<font color='green'>Fin Actividad 5</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">


##<font color='red'>**Actividad Avanzada**</font>

### <font color='green'>Actividad 6</font>

Estás analizando datos de un grupo grande de estudiantes que tomaron 5 exámenes durante el año. Sin embargo, algunos estudiantes faltaron a uno o más exámenes. Además de los exámenes, también tienes información sobre la asistencia y el comportamiento de cada estudiante. Tu objetivo es realizar imputaciones de manera sofisticada para obtener un conjunto de datos completo.

Genera un DataFrame simulado con los siguientes datos:

```
np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})
```

1. Analiza la cantidad y proporción de datos faltantes en cada columna del DataFrame.
2. Reemplaza los valores faltantes en los exámenes con la media del estudiante en los demás exámenes. Si todos los exámenes de un estudiante están faltantes, rellénalos con la media general de ese examen entre todos los estudiantes.
3. Añade una columna 'Promedio' que calcule el promedio de los 5 exámenes para cada estudiante.
4. Considera que un estudiante puede tener hasta 2 exámenes con calificaciones faltantes. Si un estudiante tiene calificaciones faltantes en 3 o más exámenes, etiquétalo como 'Incompleto'. De lo contrario, etiquétalo según su promedio: "Sobresaliente" (90 y más), "Aprobado" (70-89) o "Reprobado" (menos de 70).
5. Utilizando las columnas 'Asistencia' y 'Comportamiento', utiliza un método de interpolación para imputar valores faltantes en los exámenes basados en correlaciones con estas columnas. Es decir, si observas que hay una correlación fuerte entre el rendimiento en los exámenes y estas columnas, utiliza esta relación para realizar imputaciones más precisas.
6. Compara los resultados de las calificaciones imputadas de los puntos 2 y 5, y discute las diferencias.

**Hints**: Podrías considerar métodos como interpolate o fillna y funciones como apply y transform para realizar operaciones más complejas.

In [5]:
# Data Frame
np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})
display(df)

Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento
0,Estudiante_1,97.0,67.0,96.0,91.0,90.0,74,82
1,Estudiante_2,87.0,66.0,82.0,63.0,83.0,81,73
2,Estudiante_3,73.0,70.0,63.0,77.0,98.0,86,73
3,Estudiante_4,66.0,92.0,92.0,62.0,,92,75
4,Estudiante_5,79.0,91.0,64.0,93.0,74.0,82,97
...,...,...,...,...,...,...,...,...
95,Estudiante_96,100.0,64.0,92.0,67.0,97.0,89,95
96,Estudiante_97,97.0,90.0,79.0,70.0,90.0,86,97
97,Estudiante_98,99.0,62.0,88.0,,82.0,100,87
98,Estudiante_99,86.0,69.0,91.0,,81.0,76,97


In [6]:
#Analiza la cantidad y proporción de datos faltantes en cada columna del DataFrame.
nulos_por_columna = df.isna().sum()
print(nulos_por_columna)

Nombre            0
Examen_1          2
Examen_2          4
Examen_3          2
Examen_4          3
Examen_5          3
Asistencia        0
Comportamiento    0
dtype: int64


In [19]:
#Imputación de valores faltantes
def imputar_examenes(row, cols_examenes):
    for col in cols_examenes:
        if pd.isnull(row[col]):
            otros_examenes = row[cols_examenes].dropna()
            if not otros_examenes.empty:
                row[col] = otros_examenes.mean()
            else:
                row[col] = df[col].mean()
    return row

columnas_examenes = [col for col in df.columns if 'Examen' in col]
df_imputado = df.copy().apply(imputar_examenes, axis=1, cols_examenes=columnas_examenes)
display(df_imputado.head(15))

Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento
0,Estudiante_1,97.0,67.0,96.0,91.0,90.0,74,82
1,Estudiante_2,87.0,66.0,82.0,63.0,83.0,81,73
2,Estudiante_3,73.0,70.0,63.0,77.0,98.0,86,73
3,Estudiante_4,66.0,92.0,92.0,62.0,78.0,92,75
4,Estudiante_5,79.0,91.0,64.0,93.0,74.0,82,97
5,Estudiante_6,97.0,81.0,80.0,75.0,97.0,92,100
6,Estudiante_7,77.0,82.0,69.0,86.0,63.0,94,88
7,Estudiante_8,81.0,95.0,74.0,88.0,80.0,72,98
8,Estudiante_9,69.0,93.0,91.0,87.0,87.0,78,81
9,Estudiante_10,69.0,98.0,67.0,64.0,61.0,99,91


In [13]:
#Calcular promedio de los 5 exámenes
df_imputado['Promedio'] = df_imputado[columnas_examenes].mean(axis=1)
display(df_imputado[['Nombre', 'Promedio']])

Unnamed: 0,Nombre,Promedio
0,Estudiante_1,88.20
1,Estudiante_2,76.20
2,Estudiante_3,76.20
3,Estudiante_4,78.00
4,Estudiante_5,80.20
...,...,...
95,Estudiante_96,84.00
96,Estudiante_97,85.20
97,Estudiante_98,82.75
98,Estudiante_99,81.75


In [14]:
# Cantidad de exámenes faltantes por estudiante
n_faltantes = df_imputado[columnas_examenes].isnull().sum(axis=1)

# Crear las condiciones y los valores correspondientes
condiciones = [
    n_faltantes >= 3,
    df_imputado['Promedio'] >= 90,
    (df_imputado['Promedio'] >= 70) & (df_imputado['Promedio'] < 90),
    df_imputado['Promedio'] < 70
]

valores = ['Incompleto', 'Sobresaliente', 'Aprobado', 'Reprobado']

# Asignar etiquetas usando np.select
df_imputado['Etiqueta'] = np.select(condiciones, valores)

# Mostrar los resultados
display(df_imputado[['Nombre', 'Promedio', 'Etiqueta']].head())

Unnamed: 0,Nombre,Promedio,Etiqueta
0,Estudiante_1,88.2,Aprobado
1,Estudiante_2,76.2,Aprobado
2,Estudiante_3,76.2,Aprobado
3,Estudiante_4,78.0,Aprobado
4,Estudiante_5,80.2,Aprobado


In [16]:
from sklearn.linear_model import LinearRegression
# Utilizando las columnas 'Asistencia' y 'Comportamiento'
# utiliza un método de interpolación para imputar valores
# faltantes en los exámenes basados en correlaciones con estas columnas.
# Crear una copia del DataFrame
df_interpolado= df.copy()

regresores = ['Asistencia', 'Comportamiento']

for examen in columnas_examenes:
    # Filtrar filas con datos completos y datos faltantes para la columna de examen actual
    df_train = df_interpolado.dropna(subset=[examen] + regresores)
    df_missing = df_interpolado[df_interpolado[examen].isnull()]

    if not df_missing.empty:
        # Realizar la regresión directamente en un paso
        modelo = LinearRegression().fit(df_train[regresores], df_train[examen])
        df_interpolado.loc[df_missing.index, examen] = modelo.predict(df_missing[regresores])

# Calcular el promedio actualizado después de la imputación
df_interpolado['Promedio'] = df_interpolado[columnas_examenes].mean(axis=1)

# Mostrar los primeros resultados
display(df_interpolado[['Nombre', 'Promedio']].head())

Unnamed: 0,Nombre,Promedio
0,Estudiante_1,88.2
1,Estudiante_2,76.2
2,Estudiante_3,76.2
3,Estudiante_4,78.096466
4,Estudiante_5,80.2


In [18]:
#Comparación de promedios entre imputación media y regresión
comparacion = pd.DataFrame({
    'Nombre': df['Nombre'],
    'Promedio_Media': df_imputado['Promedio'],
    'Promedio_Interpolado': df_interpolado['Promedio']
})
display(comparacion.head(15))

Unnamed: 0,Nombre,Promedio_Media,Promedio_Interpolado
0,Estudiante_1,88.2,88.2
1,Estudiante_2,76.2,76.2
2,Estudiante_3,76.2,76.2
3,Estudiante_4,78.0,78.096466
4,Estudiante_5,80.2,80.2
5,Estudiante_6,86.0,86.0
6,Estudiante_7,75.4,75.4
7,Estudiante_8,83.6,83.6
8,Estudiante_9,85.4,85.4
9,Estudiante_10,71.8,71.8


DISCUSIÓN: En algúnos casos la diferencia es más notable, pero la importancia radicará en el objetivo de los datos, ya que al menos en los 15 primeros, solo hay dos que demuestran esta diferencia

<font color='green'>Fin Actividad 6</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">