# **Obtención y preparación de datos**

# OD19. Gestión de Nulos - SOLUCION

Un aspecto crítico en todo análisis de datos es la gestión de los valores nulos, representados en pandas por la valor real `NaN` ("Not a Number").

pandas ofrece diferentes funciones y métodos para gestionar estos valores.

In [1]:
import numpy as np
import pandas as pd

## <font color='blue'>**La función `isnull`**</font>

La función `pandas.isnull` devuelve una estructura con las mismas dimensiones que la que se cede como argumento sustituyendo cada valor por el booleano `True` si el correspondiente elemento es un valor nulo, y por el booleano `False` en caso contrario.

Esta función es equivalente a `pandas.isna`.

In [2]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [3]:
pd.isnull(s)

0    False
1     True
2    False
3     True
4    False
dtype: bool

Esta funcionalidad también está disponible como método:

In [4]:
s.isnull()

0    False
1     True
2    False
3     True
4    False
dtype: bool

También podemos aplicarla a un dataframe:

In [5]:
ventas = pd.DataFrame({"A": [3, np.nan, 1],
                   "B": [1, 5, np.nan],
                   "C": [3, 7, 2],
                   "D": [np.nan, 2, np.nan]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3.0,1.0,3,
feb,,5.0,7,2.0
mar,1.0,,2,


In [6]:
pd.isnull(ventas)

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


In [7]:
ventas.isnull()

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


## <font color='blue'>**El método `dropna`**</font>

El método `dropna` permite, de una forma muy conveniente, filtrar los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

Aplicado a una serie, el método `pandas.Series.dropna` devuelve una nueva serie tras eliminar los valores nulos:


In [8]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [9]:
s.dropna()

0    1.0
2    7.0
4    3.0
dtype: float64

Aplicado a un dataframe, el método `pandas.DataFrame.dropna` ofrece algo más de funcionalidad: podemos escoger si queremos eliminar filas o columnas, y si queremos eliminarlas cuando todos sus elementos sean nulos o simplemente cuando alguno de ellos lo sea.

In [10]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Por defecto, el método se aplica al eje 0, es decir, va a eliminar filas que incluyan valores nulos:

In [11]:
ventas.dropna()

Unnamed: 0,A,B,C,D
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0


Si especificamos el eje 1, lo que se eliminan son las columnas que incluyan valores nulos:

In [12]:
ventas.dropna(axis = 1)

Unnamed: 0,A,C
ene,1,3
feb,5,7
mar,4,2
abr,7,1


Mediante el parámetro `how` podemos controlar cómo queremos que se aplique el método: si toma el valor `"all"`, solo se eliminarán las filas o columnas en las que todos sus elementos sean nulos. Si toma el valor `"any"` (valor por defecto), se eliminarán las filas o columnas en las que algún elemento sea nulo. De esta forma:



In [13]:
ventas.dropna(how = "all")

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Vemos cómo ninguna fila se ha eliminado pues en ninguna de ellas todos los elementos nulos.

## <font color='blue'>**El método `fillna`**</font>

El método `fillna` permite sustituir los valores nulos de una estructura pandas por otro valor según ciertos criterios: pueden sustituirse por un valor concreto o bien puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

Veamos el caso de ejecutar este método en una serie, `pandas.Series.fillna`.

In [14]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [15]:
s.fillna(0)

0    1.0
1    0.0
2    7.0
3    0.0
4    3.0
dtype: float64

Hemos indicado el valor 0 como argumento, y es este valor el que se utiliza para sustituir los valores nulos de la serie original.

También podríamos haber especificado que el método a utilizar fuese, por ejemplo, el **forward fill** (`"ffill"`), de forma que los valores no nulos se copien "hacia adelante" siempre que se encuentren valores nulos. Esto se indicaría con el parámetro `method`.

In [16]:
s.fillna(method = "ffill")

0    1.0
1    1.0
2    7.0
3    7.0
4    3.0
dtype: float64

Vemos cómo los valores nulos se han rellenado con el anterior valor no nulo (o, dicho con otras palabras, cómo los valores no nulos se han extendido hacia adelante).

Si especificamos el método **backward fill** (`"bfill"`).

In [17]:
s.fillna(method = "bfill")

0    1.0
1    7.0
2    7.0
3    3.0
4    3.0
dtype: float64

Los valores nulos se han rellenado con el siguiente valor no nulo.

En el caso de los dataframe, `pandas.DataFrame.fillna`, la funcionalidad es semejante. Como se ha comentado, la mayor diferencia consiste en que, en el caso de querer rellenar los valores nulos con el anterior o posterior no nulo, habrá que indicar el eje del que obtener estos datos.

In [18]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Podemos sustituir los valores nulos por una cifra concreta.



In [19]:
ventas.fillna(0)

Unnamed: 0,A,B,C,D
ene,1,3.0,3,0.0
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,0.0,1,3.0


Si aplicamos el método de **forward fill** a lo largo del eje 0 (eje por defecto).



In [20]:
ventas.fillna(method = "ffill")

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,1.0,1,3.0


Vemos cómo el primer valor de la columna D no se ha modificado pues no hay ningún valor anterior (en el eje 0) del que tomar el valor.

Y si aplicamos el método **backward fill** a lo largo del eje 1.

In [21]:
ventas.fillna(method = "bfill", axis = 1)

Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


En este caso, el valor de la columna D correspondiente a enero no se ha modificado pues, nuevamente, no hay un valor posterior (en el eje 1) del que tomar el valor.

En un caso práctico puede resultar recomendable utilizar "lógica de relleno" seguida de la asignación de un valor por defecto para los valores nulos que puedan seguir existiendo, para asegurarnos de que todos ellos han sido sustituidos adecuadamente.

In [22]:
ventas.fillna(axis = 1, method = "bfill").fillna(0)

Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,0.0
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


In [23]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


In [24]:
df.fillna(method='bfill')

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,,3.0,,5
3,,3.0,,4


In [25]:
df.fillna(method='ffill', axis=1)

Unnamed: 0,A,B,C,D
0,,2.0,2.0,0.0
1,3.0,4.0,4.0,1.0
2,,,,5.0
3,,3.0,3.0,4.0


### <font color='green'>Actividad 1</font>

Para el siguiente dataframe:

```
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
```
Determine:

1. Contar la cantidad total de nulos.
2. Contar la cantidad de nulos por columna.
3. Eliminar las filas con nulos en la columna texto.
4. Eliminar todas las filas que contengan algún valor nulo.

In [32]:
# Tu código aquí ...

# Parte 1

datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "a", "NA", "b", np.nan, "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
print(datos.isnull().sum().sum())

3


In [33]:
#Parte 2

print(datos.isnull().sum())

id       1
texto    2
valor    0
dtype: int64


In [35]:
#Parte 3

datos.dropna(subset=['texto'])

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
3,,a,5
4,7.0,,1
5,6.0,b,9
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


In [None]:
# Parte 4
datos.dropna()

<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Tienes un DataFrame que representa un catálogo de productos, pero algunos productos tienen valores faltantes en sus características.

```
data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica y cuenta los valores nulos en cada columna.
2. Rellena los valores faltantes del precio con el precio medio de todos los productos.
3. Elimina cualquier fila donde el peso no esté especificado.
4. Verifica si todos los valores nulos han sido tratados y muestra el DataFrame limpio.

In [36]:
# Tu código aquí ...

data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)

# 1. Identificar y contar valores nulos
print("Valores nulos por columna:")
print(df.isnull().sum())

# 2. Rellenar valores faltantes en Precio con el precio medio
precio_medio = df['Precio'].mean()
df['Precio'].fillna(precio_medio, inplace=True)

# 3. Eliminar filas donde el Peso no está especificado
df.dropna(subset=['Peso (g)'], inplace=True)

# 4. Verificar valores nulos y mostrar DataFrame limpio
print("\nValores nulos tras la limpieza:")
print(df.isnull().sum())
print("\nDataFrame limpio:")
print(df)


Valores nulos por columna:
Producto    0
Precio      1
Peso (g)    2
dtype: int64

Valores nulos tras la limpieza:
Producto    0
Precio      0
Peso (g)    0
dtype: int64

DataFrame limpio:
      Producto  Precio  Peso (g)
0        Móvil   300.0     150.0
2  Auriculares   450.0      20.0
3      Monitor   250.0    5000.0


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

En una clínica, se han registrado ciertos parámetros de salud de los pacientes, pero no todos los pacientes han completado todos los parámetros.

```
data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica las filas donde al menos dos parámetros de salud faltan.
2. Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
3. Interpola los valores faltantes en la columna 'Presión'.
4. Elimina las filas donde la 'Temperatura' es NaN.

In [37]:
# Tu código aquí ...

data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)

# 1. Identificar las filas donde al menos dos parámetros de salud faltan
filas_con_datos_faltantes = df[df.iloc[:, 1:].isnull().sum(axis=1) >= 2]
print("Filas con al menos dos parámetros faltantes:")
print(filas_con_datos_faltantes)

# 2. Rellenar la columna 'Pulso' con la mediana
mediana_pulso = df['Pulso'].median()
df['Pulso'].fillna(mediana_pulso, inplace=True)

# 3. Interpolar los valores faltantes en la columna 'Presión'
df['Presión'].interpolate(method='linear', inplace=True)

# 4. Eliminar filas donde la 'Temperatura' es NaN
df.dropna(subset=['Temperatura'], inplace=True)

print("\nDataFrame después de limpieza:")
print(df)


Filas con al menos dos parámetros faltantes:
Empty DataFrame
Columns: [Paciente, Pulso, Presión, Temperatura]
Index: []

DataFrame después de limpieza:
  Paciente  Pulso     Presión  Temperatura
0      Ana   80.0  120.000000         36.6
2    Marta   80.0  110.000000         37.0
3     Juan   88.0  108.333333         36.4
4    Pedro   90.0  106.666667         36.8
5    Elena   76.0  105.000000         36.5


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Un conjunto de datos muestra las ventas diarias de un producto durante un mes, pero algunos días faltan.

```
fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
```
Determine:

1. Identifica los días con ventas faltantes.
2. Utiliza un método de imputación basado en el tiempo (como un método de ventana) para rellenar los valores faltantes en ventas.
3. Encuentra el promedio de ventas de los días anteriores y siguientes para cada valor nulo y utiliza este promedio para imputar el dato faltante.
4. Compara los métodos de imputación y discute las diferencias.

In [40]:
# Tu código aquí ...

fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)  # Cambiamos a tipo float
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})

# 1. Identifica los días con ventas faltantes.
dias_faltantes = df[df['Ventas'].isnull()]['Fecha']
print("Días con ventas faltantes:")
print(dias_faltantes)

# 2. Método de imputación basado en el tiempo.
# Utilizaremos el método ffill para rellenar con el último valor observado.
df['Ventas_ffill'] = df['Ventas'].ffill()

# 3. Encuentra el promedio de ventas de los días anteriores y siguientes.
def imputar_promedio(index):
    prev_val = df.at[index - 1, 'Ventas'] if index > 0 else np.nan
    next_val = df.at[index + 1, 'Ventas'] if index < len(df) - 1 else np.nan
    return np.nanmean([prev_val, next_val])

indices_nulos = df[df['Ventas'].isnull()].index
for idx in indices_nulos:
    df.at[idx, 'Ventas'] = imputar_promedio(idx)

# 4. Compara los métodos de imputación y discute las diferencias.
print("\nVentas originales con valores imputados:")
print(df[['Fecha', 'Ventas', 'Ventas_ffill']])

Días con ventas faltantes:
5    2023-01-06
12   2023-01-13
15   2023-01-16
20   2023-01-21
26   2023-01-27
29   2023-01-30
Name: Fecha, dtype: datetime64[ns]

Ventas originales con valores imputados:
        Fecha  Ventas  Ventas_ffill
0  2023-01-01    32.0          32.0
1  2023-01-02    85.0          85.0
2  2023-01-03    39.0          39.0
3  2023-01-04    52.0          52.0
4  2023-01-05    25.0          25.0
5  2023-01-06    47.5          25.0
6  2023-01-07    70.0          70.0
7  2023-01-08    58.0          58.0
8  2023-01-09    45.0          45.0
9  2023-01-10    74.0          74.0
10 2023-01-11    20.0          20.0
11 2023-01-12    25.0          25.0
12 2023-01-13    28.5          25.0
13 2023-01-14    32.0          32.0
14 2023-01-15    96.0          96.0
15 2023-01-16    73.0          96.0
16 2023-01-17    50.0          50.0
17 2023-01-18    96.0          96.0
18 2023-01-19    47.0          47.0
19 2023-01-20    54.0          54.0
20 2023-01-21    59.0          54.0
21 2023-

Análisis:

* El método ffill simplemente toma el último valor observado para llenar el dato faltante.
* El método de promedio considera tanto el valor anterior como el siguiente (si están disponibles) para imputar un promedio.
* Esto podría ser una mejor estimación si las ventas siguen una tendencia más uniforme.

<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Se ha realizado una encuesta en línea sobre hábitos alimenticios, y no todos los encuestados han respondido a todas las preguntas.

```
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)
```

1. Calcula el número de respuestas nulas para cada pregunta.
2. Rellena los valores nulos en 'Fruta favorita' con la fruta más popular entre los encuestados.
3. Utiliza el método fillna con el argumento method='ffill' para rellenar las respuestas nulas en 'Verdura favorita'.
4. Genera una columna 'Completado' que sea True si el encuestado respondió ambas preguntas y False en caso contrario.

In [41]:
# Tu código aquí ...

# Datos
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)

# 1. Calcula el número de respuestas nulas para cada pregunta.
respuestas_nulas = df.isnull().sum()
print("Número de respuestas nulas:")
print(respuestas_nulas)

# 2. Rellena los valores nulos en 'Fruta favorita' con la fruta más popular entre los encuestados.
fruta_popular = df['Fruta favorita'].value_counts().idxmax()
df['Fruta favorita'].fillna(fruta_popular, inplace=True)

# 3. Utiliza el método fillna con el argumento method='ffill' para rellenar las respuestas nulas en 'Verdura favorita'.
df['Verdura favorita'].fillna(method='ffill', inplace=True)

# 4. Genera una columna 'Completado' que sea True si el encuestado respondió ambas preguntas y False en caso contrario.
df['Completado'] = ~df[['Fruta favorita', 'Verdura favorita']].isnull().any(axis=1)

print("\nDataFrame actualizado:")
print(df)

Número de respuestas nulas:
Nombre              0
Fruta favorita      2
Verdura favorita    2
dtype: int64

DataFrame actualizado:
    Nombre Fruta favorita Verdura favorita  Completado
0   Carlos        Manzana              NaN       False
1   Isabel        Naranja          Brocoli        True
2    Sofía        Manzana        Zanahoria        True
3  Ernesto        Manzana        Calabacín        True
4     Hugo        Manzana         Espinaca        True
5  Natalia        Plátano         Espinaca        True
6    Laura        Naranja         Espinaca        True


<font color='green'>Fin Actividad 5</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">


##<font color='red'>**Actividad Avanzada**</font>

### <font color='green'>Actividad 6</font>

Estás analizando datos de un grupo grande de estudiantes que tomaron 5 exámenes durante el año. Sin embargo, algunos estudiantes faltaron a uno o más exámenes. Además de los exámenes, también tienes información sobre la asistencia y el comportamiento de cada estudiante. Tu objetivo es realizar imputaciones de manera sofisticada para obtener un conjunto de datos completo.

Genera un DataFrame simulado con los siguientes datos:

```
np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})
```

1. Analiza la cantidad y proporción de datos faltantes en cada columna del DataFrame.
2. Reemplaza los valores faltantes en los exámenes con la media del estudiante en los demás exámenes. Si todos los exámenes de un estudiante están faltantes, rellénalos con la media general de ese examen entre todos los estudiantes.
3. Añade una columna 'Promedio' que calcule el promedio de los 5 exámenes para cada estudiante.
4. Considera que un estudiante puede tener hasta 2 exámenes con calificaciones faltantes. Si un estudiante tiene calificaciones faltantes en 3 o más exámenes, etiquétalo como 'Incompleto'. De lo contrario, etiquétalo según su promedio: "Sobresaliente" (90 y más), "Aprobado" (70-89) o "Reprobado" (menos de 70).
5. Utilizando las columnas 'Asistencia' y 'Comportamiento', utiliza un método de interpolación para imputar valores faltantes en los exámenes basados en correlaciones con estas columnas. Es decir, si observas que hay una correlación fuerte entre el rendimiento en los exámenes y estas columnas, utiliza esta relación para realizar imputaciones más precisas.
6. Compara los resultados de las calificaciones imputadas de los puntos 2 y 5, y discute las diferencias.

**Hints**: Podrías considerar métodos como interpolate o fillna y funciones como apply y transform para realizar operaciones más complejas.

In [44]:
# Tu código aquí ...

# Puntos 1 a 3

np.random.seed(42)

# Datos
nombres = ['Estudiante_' + str(i) for i in range(1, 101)]
examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}
otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}
df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})

# 1. Analiza la cantidad y proporción de datos faltantes.
print("Cantidad de datos faltantes por columna:")
print(df.isnull().sum())
print("\nProporción de datos faltantes por columna:")
print(df.isnull().mean())
print('')

# 2. Reemplaza los valores faltantes...
for columna in examenes:
    media_por_estudiante = df[examenes.keys()].mean(axis=1)
    df[columna].fillna(media_por_estudiante, inplace=True)
    # Si todos están faltantes, rellena con la media general
    df[columna].fillna(df[columna].mean(), inplace=True)

# 3. Añade columna 'Promedio'.
df['Promedio'] = df[examenes.keys()].mean(axis=1)
print(df)

Cantidad de datos faltantes por columna:
Nombre            0
Examen_1          2
Examen_2          4
Examen_3          2
Examen_4          3
Examen_5          3
Asistencia        0
Comportamiento    0
dtype: int64

Proporción de datos faltantes por columna:
Nombre            0.00
Examen_1          0.02
Examen_2          0.04
Examen_3          0.02
Examen_4          0.03
Examen_5          0.03
Asistencia        0.00
Comportamiento    0.00
dtype: float64

            Nombre  Examen_1  Examen_2  Examen_3  Examen_4  Examen_5  \
0     Estudiante_1      97.0      67.0      96.0     91.00      90.0   
1     Estudiante_2      87.0      66.0      82.0     63.00      83.0   
2     Estudiante_3      73.0      70.0      63.0     77.00      98.0   
3     Estudiante_4      66.0      92.0      92.0     62.00      78.0   
4     Estudiante_5      79.0      91.0      64.0     93.00      74.0   
..             ...       ...       ...       ...       ...       ...   
95   Estudiante_96     100.0      64.0

In [46]:
# Punto 4 a 5
#4. Etiquetado
def etiqueta(row):
    if row.isnull().sum() >= 3:
        return "Incompleto"
    elif row['Promedio'] >= 90:
        return "Sobresaliente"
    elif 70 <= row['Promedio'] < 90:
        return "Aprobado"
    else:
        return "Reprobado"

df['Etiqueta'] = df.apply(etiqueta, axis=1)

# 5. Interpolación basada en correlación
correlaciones = df[list(examenes.keys()) + ['Asistencia', 'Comportamiento']].corr()
print(correlaciones)

# Vamos a imputar basado en correlaciones, pero este paso es complejo y no siempre es lineal.
# Para simplificar, si 'Asistencia' y 'Comportamiento' tienen una correlación alta con un examen,
# vamos a calcular un promedio ponderado.
for examen in examenes:
    mask = df[examen].isnull()
    peso_asistencia = correlaciones.loc[examen, 'Asistencia']
    peso_comportamiento = correlaciones.loc[examen, 'Comportamiento']
    total = peso_asistencia + peso_comportamiento
    df.loc[mask, examen] = (df['Asistencia'] * peso_asistencia + df['Comportamiento'] * peso_comportamiento) / total

print(df.describe())

                Examen_1  Examen_2  Examen_3  Examen_4  Examen_5  Asistencia  \
Examen_1        1.000000  0.025141  0.128211 -0.008379  0.223688   -0.179812   
Examen_2        0.025141  1.000000 -0.010683  0.033018  0.105127    0.019429   
Examen_3        0.128211 -0.010683  1.000000  0.015885  0.197298   -0.205179   
Examen_4       -0.008379  0.033018  0.015885  1.000000  0.016333   -0.046508   
Examen_5        0.223688  0.105127  0.197298  0.016333  1.000000   -0.164503   
Asistencia     -0.179812  0.019429 -0.205179 -0.046508 -0.164503    1.000000   
Comportamiento  0.042302  0.194699 -0.007788 -0.052546  0.087489   -0.015280   

                Comportamiento  
Examen_1              0.042302  
Examen_2              0.194699  
Examen_3             -0.007788  
Examen_4             -0.052546  
Examen_5              0.087489  
Asistencia           -0.015280  
Comportamiento        1.000000  
         Examen_1    Examen_2    Examen_3    Examen_4    Examen_5  Asistencia  \
count  100.000

Comparar resultados:
Analizar las diferencias observadas en las estadísticas descriptivas o en las visualizaciones para los diferentes métodos de imputación. La imputación basada en correlación puede ser más precisa si realmente hay una relación lineal entre los exámenes y las otras características.

<font color='green'>Fin Actividad 6</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">