# **Obtención y preparación de datos**

# OD19. Gestión de Nulos

Un aspecto crítico en todo análisis de datos es la gestión de los valores nulos, representados en pandas por la valor real `NaN` ("Not a Number").

pandas ofrece diferentes funciones y métodos para gestionar estos valores.

In [None]:
import numpy as np
import pandas as pd

## <font color='blue'>**La función `isnull`**</font>

La función `pandas.isnull` devuelve una estructura con las mismas dimensiones que la que se cede como argumento sustituyendo cada valor por el booleano `True` si el correspondiente elemento es un valor nulo, y por el booleano `False` en caso contrario.

Esta función es equivalente a `pandas.isna`.

In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [None]:
pd.isnull(s)

0    False
1     True
2    False
3     True
4    False
dtype: bool

Esta funcionalidad también está disponible como método:

In [None]:
s.isnull()

0    False
1     True
2    False
3     True
4    False
dtype: bool

También podemos aplicarla a un dataframe:

In [None]:
ventas = pd.DataFrame({"A": [3, np.nan, 1],
                   "B": [1, 5, np.nan],
                   "C": [3, 7, 2],
                   "D": [np.nan, 2, np.nan]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3.0,1.0,3,
feb,,5.0,7,2.0
mar,1.0,,2,


In [None]:
pd.isnull(ventas)

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


In [None]:
ventas.isnull()

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


## <font color='blue'>**El método `dropna`**</font>

El método `dropna` permite, de una forma muy conveniente, filtrar los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

Aplicado a una serie, el método `pandas.Series.dropna` devuelve una nueva serie tras eliminar los valores nulos:


In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [None]:
s.dropna()

0    1.0
2    7.0
4    3.0
dtype: float64

Aplicado a un dataframe, el método `pandas.DataFrame.dropna` ofrece algo más de funcionalidad: podemos escoger si queremos eliminar filas o columnas, y si queremos eliminarlas cuando todos sus elementos sean nulos o simplemente cuando alguno de ellos lo sea.

In [None]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Por defecto, el método se aplica al eje 0, es decir, va a eliminar filas que incluyan valores nulos:

In [None]:
ventas.dropna()

Unnamed: 0,A,B,C,D
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0


Si especificamos el eje 1, lo que se eliminan son las columnas que incluyan valores nulos:

In [None]:
ventas.dropna(axis = 1)

Unnamed: 0,A,C
ene,1,3
feb,5,7
mar,4,2
abr,7,1


Mediante el parámetro `how` podemos controlar cómo queremos que se aplique el método: si toma el valor `"all"`, solo se eliminarán las filas o columnas en las que todos sus elementos sean nulos. Si toma el valor `"any"` (valor por defecto), se eliminarán las filas o columnas en las que algún elemento sea nulo. De esta forma:



In [None]:
ventas.dropna(how = "all")

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Vemos cómo ninguna fila se ha eliminado pues en ninguna de ellas todos los elementos nulos.

## <font color='blue'>**El método `fillna`**</font>

El método `fillna` permite sustituir los valores nulos de una estructura pandas por otro valor según ciertos criterios: pueden sustituirse por un valor concreto o bien puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

Veamos el caso de ejecutar este método en una serie, `pandas.Series.fillna`.

In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [None]:
s.fillna(0)

0    1.0
1    0.0
2    7.0
3    0.0
4    3.0
dtype: float64

Hemos indicado el valor 0 como argumento, y es este valor el que se utiliza para sustituir los valores nulos de la serie original.

También podríamos haber especificado que el método a utilizar fuese, por ejemplo, el **forward fill** (`"ffill"`), de forma que los valores no nulos se copien "hacia adelante" siempre que se encuentren valores nulos. Esto se indicaría con el parámetro `method`.

In [None]:
s.fillna(method = "ffill")

0    1.0
1    1.0
2    7.0
3    7.0
4    3.0
dtype: float64

Vemos cómo los valores nulos se han rellenado con el anterior valor no nulo (o, dicho con otras palabras, cómo los valores no nulos se han extendido hacia adelante).

Si especificamos el método **backward fill** (`"bfill"`).

In [None]:
s.fillna(method = "bfill")

0    1.0
1    7.0
2    7.0
3    3.0
4    3.0
dtype: float64

Los valores nulos se han rellenado con el siguiente valor no nulo.

En el caso de los dataframe, `pandas.DataFrame.fillna`, la funcionalidad es semejante. Como se ha comentado, la mayor diferencia consiste en que, en el caso de querer rellenar los valores nulos con el anterior o posterior no nulo, habrá que indicar el eje del que obtener estos datos.

In [None]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Podemos sustituir los valores nulos por una cifra concreta.



In [None]:
ventas.fillna(0)

Unnamed: 0,A,B,C,D
ene,1,3.0,3,0.0
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,0.0,1,3.0


Si aplicamos el método de **forward fill** a lo largo del eje 0 (eje por defecto).



In [None]:
ventas.fillna(method = "ffill")

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,1.0,1,3.0


Vemos cómo el primer valor de la columna D no se ha modificado pues no hay ningún valor anterior (en el eje 0) del que tomar el valor.

Y si aplicamos el método **backward fill** a lo largo del eje 1.

In [None]:
ventas.fillna(method = "bfill", axis = 1)

Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


En este caso, el valor de la columna D correspondiente a enero no se ha modificado pues, nuevamente, no hay un valor posterior (en el eje 1) del que tomar el valor.

En un caso práctico puede resultar recomendable utilizar "lógica de relleno" seguida de la asignación de un valor por defecto para los valores nulos que puedan seguir existiendo, para asegurarnos de que todos ellos han sido sustituidos adecuadamente.

In [None]:
ventas.fillna(axis = 1, method = "bfill").fillna(0)

Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,0.0
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


In [None]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


In [None]:
df.fillna(method='bfill')

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,,3.0,,5
3,,3.0,,4


In [None]:
df.fillna(method='ffill', axis=1)

Unnamed: 0,A,B,C,D
0,,2.0,2.0,0.0
1,3.0,4.0,4.0,1.0
2,,,,5.0
3,,3.0,3.0,4.0


### <font color='green'>Actividad 1</font>

Para el siguiente dataframe:

```
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
```
Determine:

1. Contar la cantidad total de nulos.
2. Contar la cantidad de nulos por columna.
3. Eliminar las filas con nulos en la columna texto.
4. Eliminar todas las filas que contengan algún valor nulo.

In [None]:
# Tu código aquí ...

datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
print(datos, '\n')

    id   texto  valor
0  1.0       a      2
1  4.0       b      8
2  3.0     NaN      7
3  NaN      NA      5
4  7.0       a      1
5  6.0       b      9
6  9.0  np.nan      4
7  4.0       b      3
8  0.0       c      7
9  8.0       d      2 



In [None]:
# 1. Contar la cantidad total de nulos.
print('1. Número total de nulos :', datos.isnull().sum().sum())

1. Número total de nulos : 2


In [None]:
# 2. Contar la cantidad de nulos por columna.
print('2. Nulos por columna :')
print(datos.isnull().sum(), '\n')

2. Nulos por columna :
id       1
texto    1
valor    0
dtype: int64 



In [None]:
# 3. Eliminar las filas con nulos en la columna texto.
print('3.')
datos = datos.dropna(subset=['texto'])
print(datos, '\n')

3.
    id   texto  valor
0  1.0       a      2
1  4.0       b      8
3  NaN      NA      5
4  7.0       a      1
5  6.0       b      9
6  9.0  np.nan      4
7  4.0       b      3
8  0.0       c      7
9  8.0       d      2 



In [None]:
# 4. Eliminar todas las filas que contengan algún valor nulo.
print('4.')
datos = datos.dropna()
print(datos)

4.
    id   texto  valor
0  1.0       a      2
1  4.0       b      8
4  7.0       a      1
5  6.0       b      9
6  9.0  np.nan      4
7  4.0       b      3
8  0.0       c      7
9  8.0       d      2



## <font color='purple'> __EXPERIMENTO__: </font>


En el df hay mas que al parecer tambien son nulos, despues de conversarlo con el equipo y el profesor a cargo, se ha desidido tratar estos datos tambien como nulos, por lo cual, los datos de la columna 'texto' tales como NA o 'np.nan' se trataran como datos nulos.

In [None]:
# INICIO EXPERIMENTO !!!

# Cargamos el df
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
datos

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
2,3.0,,7
3,,,5
4,7.0,a,1
5,6.0,b,9
6,9.0,np.nan,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


In [None]:
# todos los datos de la columna 'texto' que no son letras, son tratados como datos nulos

datos['texto'].replace(['NA', 'np.nan'], np.nan, inplace=True)
datos

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
2,3.0,,7
3,,,5
4,7.0,a,1
5,6.0,b,9
6,9.0,,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


In [None]:
# se eliminan todos los datos nulos del df

datos.dropna(inplace=True)
datos

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
4,7.0,a,1
5,6.0,b,9
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


**<font color='purple'>Fin experimento </font>**

<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Tienes un DataFrame que representa un catálogo de productos, pero algunos productos tienen valores faltantes en sus características.

```
data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica y cuenta los valores nulos en cada columna.
2. Rellena los valores faltantes del precio con el precio medio de todos los productos.
3. Elimina cualquier fila donde el peso no esté especificado.
4. Verifica si todos los valores nulos han sido tratados y muestra el DataFrame limpio.

In [None]:
# Tu código aquí ...

data = {
    'Producto': ['Móvil', 'Laptop', 'Auriculares', 'Monitor', 'Teclado'],
    'Precio': [300, 1200, np.nan, 250, 50],
    'Peso (g)': [150, np.nan, 20, 5000, np.nan]
}
df = pd.DataFrame(data)
print(df, '\n')

      Producto  Precio  Peso (g)
0        Móvil   300.0     150.0
1       Laptop  1200.0       NaN
2  Auriculares     NaN      20.0
3      Monitor   250.0    5000.0
4      Teclado    50.0       NaN 



In [None]:
# 1. Identifica y cuenta los valores nulos en cada columna.
print('1.')
print(df.isnull().sum())

1.
Producto    0
Precio      1
Peso (g)    2
dtype: int64


In [None]:
# 2. Rellena los valores faltantes del precio con el precio medio de todos los productos.
print('2.')
precio_medio = df['Precio'].mean()
df['Precio'].fillna(precio_medio, inplace=True)
print(df)

2.
      Producto  Precio  Peso (g)
0        Móvil   300.0     150.0
1       Laptop  1200.0       NaN
2  Auriculares   450.0      20.0
3      Monitor   250.0    5000.0
4      Teclado    50.0       NaN


In [None]:
# 3. Elimina cualquier fila donde el peso no esté especificado.
print('3.')
df = df.dropna(subset=['Peso (g)'])
print(df)

3.
      Producto  Precio  Peso (g)
0        Móvil   300.0     150.0
2  Auriculares   450.0      20.0
3      Monitor   250.0    5000.0


In [None]:
# 4. Verifica si todos los valores nulos han sido tratados y muestra el DataFrame limpio.
print('4.')
print(df.isnull(), '\n')
print(df)

4.
   Producto  Precio  Peso (g)
0     False   False     False
2     False   False     False
3     False   False     False 

      Producto  Precio  Peso (g)
0        Móvil   300.0     150.0
2  Auriculares   450.0      20.0
3      Monitor   250.0    5000.0


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

En una clínica, se han registrado ciertos parámetros de salud de los pacientes, pero no todos los pacientes han completado todos los parámetros.

```
data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)
```
Determine:

1. Identifica las filas donde al menos dos parámetros de salud faltan.
2. Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
3. Interpola los valores faltantes en la columna 'Presión'.
4. Elimina las filas donde la 'Temperatura' es NaN.

In [None]:
# Tu código aquí ...

data = {
    'Paciente': ['Ana', 'Luis', 'Marta', 'Juan', 'Pedro', 'Elena'],
    'Pulso': [80, 72, np.nan, 88, 90, 76],
    'Presión': [120, 115, 110, np.nan, np.nan, 105],
    'Temperatura': [36.6, np.nan, 37.0, 36.4, 36.8, 36.5]
}
df = pd.DataFrame(data)
print(df)

  Paciente  Pulso  Presión  Temperatura
0      Ana   80.0    120.0         36.6
1     Luis   72.0    115.0          NaN
2    Marta    NaN    110.0         37.0
3     Juan   88.0      NaN         36.4
4    Pedro   90.0      NaN         36.8
5    Elena   76.0    105.0         36.5


In [None]:
# 1. Identifica las filas donde al menos dos parámetros de salud faltan.
print('1.')
filas_dos_nulos = df[df.isnull().sum(axis=1) >= 2]
print(filas_dos_nulos)

1.
Empty DataFrame
Columns: [Paciente, Pulso, Presión, Temperatura]
Index: []


In [None]:
# 2. Rellena la columna de 'Pulso' con la mediana de los valores disponibles.
print('2.')
med_pulso = df['Pulso'].median()
df['Pulso'].fillna(med_pulso, inplace=True)
print(df)

2.
  Paciente  Pulso  Presión  Temperatura
0      Ana   80.0    120.0         36.6
1     Luis   72.0    115.0          NaN
2    Marta   80.0    110.0         37.0
3     Juan   88.0      NaN         36.4
4    Pedro   90.0      NaN         36.8
5    Elena   76.0    105.0         36.5


In [None]:
# 3. Interpola los valores faltantes en la columna 'Presión'.
print('3.')
df['Presión'] = df['Presión'].interpolate(method='linear')
print(df)

3.
  Paciente  Pulso     Presión  Temperatura
0      Ana   80.0  120.000000         36.6
1     Luis   72.0  115.000000          NaN
2    Marta   80.0  110.000000         37.0
3     Juan   88.0  108.333333         36.4
4    Pedro   90.0  106.666667         36.8
5    Elena   76.0  105.000000         36.5


In [None]:
# 4. Elimina las filas donde la 'Temperatura' es NaN.
print('4.')
df = df.dropna(subset=['Temperatura'])
print(df)

4.
  Paciente  Pulso     Presión  Temperatura
0      Ana   80.0  120.000000         36.6
2    Marta   80.0  110.000000         37.0
3     Juan   88.0  108.333333         36.4
4    Pedro   90.0  106.666667         36.8
5    Elena   76.0  105.000000         36.5


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Un conjunto de datos muestra las ventas diarias de un producto durante un mes, pero algunos días faltan.

```
fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
```
Determine:

1. Identifica los días con ventas faltantes.
2. Utiliza un método de imputación basado en el tiempo (como un método de ventana) para rellenar los valores faltantes en ventas.
3. Encuentra el promedio de ventas de los días anteriores y siguientes para cada valor nulo y utiliza este promedio para imputar el dato faltante.
4. Compara los métodos de imputación y discute las diferencias.

In [None]:
# Tu código aquí ...

np.random.seed(1)

fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
print(df)


        Fecha  Ventas
0  2023-01-01    57.0
1  2023-01-02    32.0
2  2023-01-03    92.0
3  2023-01-04    29.0
4  2023-01-05    95.0
5  2023-01-06     NaN
6  2023-01-07    99.0
7  2023-01-08    84.0
8  2023-01-09    36.0
9  2023-01-10    21.0
10 2023-01-11    96.0
11 2023-01-12    91.0
12 2023-01-13     NaN
13 2023-01-14    45.0
14 2023-01-15    70.0
15 2023-01-16     NaN
16 2023-01-17    38.0
17 2023-01-18    31.0
18 2023-01-19    48.0
19 2023-01-20    49.0
20 2023-01-21     NaN
21 2023-01-22    70.0
22 2023-01-23    88.0
23 2023-01-24    33.0
24 2023-01-25    29.0
25 2023-01-26    27.0
26 2023-01-27     NaN
27 2023-01-28    81.0
28 2023-01-29    42.0
29 2023-01-30     NaN
30 2023-01-31    21.0


In [None]:
# 1. Identifica los días con ventas faltantes.

fechas_nulos = df.loc[df['Ventas'].isna(), 'Fecha']
print(fechas_nulos, '\n')

5    2023-01-06
12   2023-01-13
15   2023-01-16
20   2023-01-21
26   2023-01-27
29   2023-01-30
Name: Fecha, dtype: datetime64[ns] 



In [None]:
# 2. Utiliza un método de imputación basado en el tiempo (como un método de ventana) para rellenar los valores faltantes en ventas.
ventana = 3
df['Ventas'] = df['Ventas'].fillna(df['Ventas'].rolling(ventana, min_periods=1).mean())  # media móvil con una ventana de tamaño 3
print(df)


        Fecha  Ventas
0  2023-01-01    57.0
1  2023-01-02    32.0
2  2023-01-03    92.0
3  2023-01-04    29.0
4  2023-01-05    95.0
5  2023-01-06    62.0
6  2023-01-07    99.0
7  2023-01-08    84.0
8  2023-01-09    36.0
9  2023-01-10    21.0
10 2023-01-11    96.0
11 2023-01-12    91.0
12 2023-01-13    93.5
13 2023-01-14    45.0
14 2023-01-15    70.0
15 2023-01-16    57.5
16 2023-01-17    38.0
17 2023-01-18    31.0
18 2023-01-19    48.0
19 2023-01-20    49.0
20 2023-01-21    48.5
21 2023-01-22    70.0
22 2023-01-23    88.0
23 2023-01-24    33.0
24 2023-01-25    29.0
25 2023-01-26    27.0
26 2023-01-27    28.0
27 2023-01-28    81.0
28 2023-01-29    42.0
29 2023-01-30    61.5
30 2023-01-31    21.0


In [None]:
# 3. Encuentra el promedio de ventas de los días anteriores y siguientes para cada valor nulo y utiliza este promedio para imputar el dato faltante.

np.random.seed(1)

fechas = pd.date_range(start="2023-01-01", end="2023-01-31")
ventas = np.random.randint(20, 100, size=31).astype(float)
ventas[[5, 12, 15, 20, 26, 29]] = np.nan  # Introduce valores nulos
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})

for i in range(len(df)):
    if pd.isnull(df.at[i, 'Ventas']):
        # Encontrar el dato anterior y posterior no nulos
        anterior = df.at[i - 1, 'Ventas']
        posterior = df.at[i + 1, 'Ventas']

        promedio = (anterior + posterior) / 2
        df.loc[i, 'Ventas'] = promedio

print(df)



        Fecha  Ventas
0  2023-01-01    57.0
1  2023-01-02    32.0
2  2023-01-03    92.0
3  2023-01-04    29.0
4  2023-01-05    95.0
5  2023-01-06    97.0
6  2023-01-07    99.0
7  2023-01-08    84.0
8  2023-01-09    36.0
9  2023-01-10    21.0
10 2023-01-11    96.0
11 2023-01-12    91.0
12 2023-01-13    68.0
13 2023-01-14    45.0
14 2023-01-15    70.0
15 2023-01-16    54.0
16 2023-01-17    38.0
17 2023-01-18    31.0
18 2023-01-19    48.0
19 2023-01-20    49.0
20 2023-01-21    59.5
21 2023-01-22    70.0
22 2023-01-23    88.0
23 2023-01-24    33.0
24 2023-01-25    29.0
25 2023-01-26    27.0
26 2023-01-27    54.0
27 2023-01-28    81.0
28 2023-01-29    42.0
29 2023-01-30    31.5
30 2023-01-31    21.0


###4. Compara los métodos de imputación y discute las diferencias.

Comportamiento de los datos imputados:

En el Método que valores nulos se imputan utilizando el promedio de los valores vecinos directos (anterior y posterior). Esto puede ser útil si se espera que los datos cambien abruptamente entre puntos de tiempo consecutivos.

En el Método que los valores nulos se imputan utilizando una media móvil, que suaviza los datos y puede proporcionar una representación más suave de la serie temporal. Esto es útil si se quiere dar más peso a la tendencia general en lugar de los valores individuales.

<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Se ha realizado una encuesta en línea sobre hábitos alimenticios, y no todos los encuestados han respondido a todas las preguntas.

```
data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)
```

1. Calcula el número de respuestas nulas para cada pregunta.
2. Rellena los valores nulos en 'Fruta favorita' con la fruta más popular entre los encuestados.
3. Utiliza el método fillna con el argumento method='ffill' para rellenar las respuestas nulas en 'Verdura favorita'.
4. Genera una columna 'Completado' que sea True si el encuestado respondió ambas preguntas y False en caso contrario.

In [None]:
# Tu código aquí ...

data = {
    'Nombre': ['Carlos', 'Isabel', 'Sofía', 'Ernesto', 'Hugo', 'Natalia', 'Laura'],
    'Fruta favorita': ['Manzana', 'Naranja', np.nan, 'Manzana', np.nan, 'Plátano', 'Naranja'],
    'Verdura favorita': [np.nan, 'Brocoli', 'Zanahoria', 'Calabacín', 'Espinaca', np.nan, 'Espinaca'],
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Fruta favorita,Verdura favorita
0,Carlos,Manzana,
1,Isabel,Naranja,Brocoli
2,Sofía,,Zanahoria
3,Ernesto,Manzana,Calabacín
4,Hugo,,Espinaca
5,Natalia,Plátano,
6,Laura,Naranja,Espinaca


In [None]:
# 1. Calcula el número de respuestas nulas para cada pregunta.

frutas_nulas = df['Fruta favorita'].isnull().sum()
verduras_nulas = df['Verdura favorita'].isnull().sum()

print("Número de respuestas nulas para 'Fruta favorita' es:", frutas_nulas)
print("Número de respuestas nulas para 'Verdura favorita' es:", verduras_nulas)


Número de respuestas nulas para 'Fruta favorita' es: 2
Número de respuestas nulas para 'Verdura favorita' es: 2


In [None]:
# 2. Rellena los valores nulos en 'Fruta favorita' con la fruta más popular entre los encuestados.

fruta_popular = df['Fruta favorita'].mode()[0]
df['Fruta favorita'].fillna(fruta_popular, inplace=True)
print(df)

    Nombre Fruta favorita Verdura favorita
0   Carlos        Manzana              NaN
1   Isabel        Naranja          Brocoli
2    Sofía        Manzana        Zanahoria
3  Ernesto        Manzana        Calabacín
4     Hugo        Manzana         Espinaca
5  Natalia        Plátano              NaN
6    Laura        Naranja         Espinaca


In [None]:
# 3. Utiliza el método fillna con el argumento method='ffill' para rellenar las respuestas nulas en 'Verdura favorita'.

df['Verdura favorita'].fillna(method='ffill', inplace=True)
print(df)

    Nombre Fruta favorita Verdura favorita
0   Carlos        Manzana              NaN
1   Isabel        Naranja          Brocoli
2    Sofía        Manzana        Zanahoria
3  Ernesto        Manzana        Calabacín
4     Hugo        Manzana         Espinaca
5  Natalia        Plátano         Espinaca
6    Laura        Naranja         Espinaca


In [None]:
# 4. Genera una columna 'Completado' que sea True si el encuestado respondió ambas preguntas y False en caso contrario.

df['Completado'] = ~df['Fruta favorita'].isnull() & ~df['Verdura favorita'].isnull()
print(df)

    Nombre Fruta favorita Verdura favorita  Completado
0   Carlos        Manzana              NaN       False
1   Isabel        Naranja          Brocoli        True
2    Sofía        Manzana        Zanahoria        True
3  Ernesto        Manzana        Calabacín        True
4     Hugo        Manzana         Espinaca        True
5  Natalia        Plátano         Espinaca        True
6    Laura        Naranja         Espinaca        True


<font color='green'>Fin Actividad 5</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">


##<font color='red'>**Actividad Avanzada**</font>

### <font color='green'>Actividad 6</font>

Estás analizando datos de un grupo grande de estudiantes que tomaron 5 exámenes durante el año. Sin embargo, algunos estudiantes faltaron a uno o más exámenes. Además de los exámenes, también tienes información sobre la asistencia y el comportamiento de cada estudiante. Tu objetivo es realizar imputaciones de manera sofisticada para obtener un conjunto de datos completo.

Genera un DataFrame simulado con los siguientes datos:

```
np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})
```

1. Analiza la cantidad y proporción de datos faltantes en cada columna del DataFrame.
2. Reemplaza los valores faltantes en los exámenes con la media del estudiante en los demás exámenes. Si todos los exámenes de un estudiante están faltantes, rellénalos con la media general de ese examen entre todos los estudiantes.
3. Añade una columna 'Promedio' que calcule el promedio de los 5 exámenes para cada estudiante.
4. Considera que un estudiante puede tener hasta 2 exámenes con calificaciones faltantes. Si un estudiante tiene calificaciones faltantes en 3 o más exámenes, etiquétalo como 'Incompleto'. De lo contrario, etiquétalo según su promedio: "Sobresaliente" (90 y más), "Aprobado" (70-89) o "Reprobado" (menos de 70).
5. Utilizando las columnas 'Asistencia' y 'Comportamiento', utiliza un método de interpolación para imputar valores faltantes en los exámenes basados en correlaciones con estas columnas. Es decir, si observas que hay una correlación fuerte entre el rendimiento en los exámenes y estas columnas, utiliza esta relación para realizar imputaciones más precisas.
6. Compara los resultados de las calificaciones imputadas de los puntos 2 y 5, y discute las diferencias.

**Hints**: Podrías considerar métodos como interpolate o fillna y funciones como apply y transform para realizar operaciones más complejas.

In [None]:
# Tu código aquí ...

np.random.seed(42)

nombres = ['Estudiante_' + str(i) for i in range(1, 101)]

examenes = {
    'Examen_' + str(i): np.random.choice([np.nan] + list(range(60, 101)), size=100)
    for i in range(1, 6)
}

otros_datos = {
    'Asistencia': np.random.choice(range(70, 101), size=100),
    'Comportamiento': np.random.choice(range(70, 101), size=100)
}

df = pd.DataFrame({'Nombre': nombres, **examenes, **otros_datos})
df.head(5)

Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento
0,Estudiante_1,97.0,67.0,96.0,91.0,90.0,74,82
1,Estudiante_2,87.0,66.0,82.0,63.0,83.0,81,73
2,Estudiante_3,73.0,70.0,63.0,77.0,98.0,86,73
3,Estudiante_4,66.0,92.0,92.0,62.0,,92,75
4,Estudiante_5,79.0,91.0,64.0,93.0,74.0,82,97


In [None]:
# 1. Analiza la cantidad y proporción de datos faltantes en cada columna del DataFrame.

cantidad_faltantes = df.isnull().sum()
proporcion_faltantes = (df.isnull().sum() / len(df)) * 100
resultados = pd.DataFrame({'Cantidad Datos Faltantes': cantidad_faltantes, 'Proporción Datos Faltantes (%)': proporcion_faltantes})

print(resultados)

                Cantidad Datos Faltantes  Proporción Datos Faltantes (%)
Nombre                                 0                             0.0
Examen_1                               2                             2.0
Examen_2                               4                             4.0
Examen_3                               2                             2.0
Examen_4                               3                             3.0
Examen_5                               3                             3.0
Asistencia                             0                             0.0
Comportamiento                         0                             0.0


In [None]:
# 2.

df_examenes = df.iloc[:, 1:6]                                               # Seleccionar solo las columnas de los exámenes
df_examenes_full = df_examenes.fillna(df_examenes.mean(axis=1), axis=0)
df_examenes_full = df_examenes_full.fillna(df_examenes_full.mean())
df.iloc[:, 1:6] = df_examenes_full                                    # Actualizar el df original con los valores reemplazados

df.isnull().sum()

Nombre            0
Examen_1          0
Examen_2          0
Examen_3          0
Examen_4          0
Examen_5          0
Asistencia        0
Comportamiento    0
dtype: int64

In [None]:
# 3. Añade una columna 'Promedio' que calcule el promedio de los 5 exámenes para cada estudiante.

df['Promedio'] = df.iloc[:, 1:6].mean(axis=1)
df.head(5)

Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento,Promedio
0,Estudiante_1,97.0,67.0,96.0,91.0,90.0,74,82,88.2
1,Estudiante_2,87.0,66.0,82.0,63.0,83.0,81,73,76.2
2,Estudiante_3,73.0,70.0,63.0,77.0,98.0,86,73,76.2
3,Estudiante_4,66.0,92.0,92.0,62.0,81.113402,92,75,78.62268
4,Estudiante_5,79.0,91.0,64.0,93.0,74.0,82,97,80.2


In [None]:
# 4. Considera que un estudiante puede tener hasta 2 exámenes con calificaciones faltantes.
#    Si un estudiante tiene calificaciones faltantes en 3 o más exámenes, etiquétalo como 'Incompleto'.
#    De lo contrario, etiquétalo según su promedio: "Sobresaliente" (90 y más), "Aprobado" (70-89) o "Reprobado" (menos de 70)

def etiquetar_estudiante(row):
  calificaciones_faltantes = row.iloc[1:6].isnull().sum()
  promedio = row['Promedio']
  if calificaciones_faltantes >= 3:
    return 'Incompleto'
  elif promedio >= 90:
    return 'Sobresaliente'
  elif 70 <= promedio < 90:
    return 'Aprobado'
  else:
    return 'Reprobado'

df['Estatus'] = df.apply(etiquetar_estudiante, axis=1)
df.head(5)

Unnamed: 0,Nombre,Examen_1,Examen_2,Examen_3,Examen_4,Examen_5,Asistencia,Comportamiento,Promedio,Estatus
0,Estudiante_1,97.0,67.0,96.0,91.0,90.0,74,82,88.2,Aprobado
1,Estudiante_2,87.0,66.0,82.0,63.0,83.0,81,73,76.2,Aprobado
2,Estudiante_3,73.0,70.0,63.0,77.0,98.0,86,73,76.2,Aprobado
3,Estudiante_4,66.0,92.0,92.0,62.0,81.113402,92,75,78.62268,Aprobado
4,Estudiante_5,79.0,91.0,64.0,93.0,74.0,82,97,80.2,Aprobado


In [None]:
# 5. Utilizando las columnas 'Asistencia' y 'Comportamiento', utiliza un método de interpolación para imputar
#    valores faltantes en los exámenes basados en correlaciones con estas columnas.
#    Es decir, si observas que hay una correlación fuerte entre el rendimiento en los exámenes y estas columnas,
#    utiliza esta relación para realizar imputaciones más precisas.

# Calcular las correlaciones entre 'Asistencia', 'Comportamiento' y cada examen
correlaciones_asistencia = df[['Asistencia'] + [f'Examen_{i}' for i in range(1, 6)]].corr()
correlaciones_comportamiento = df[['Comportamiento'] + [f'Examen_{i}' for i in range(1, 6)]].corr()

# Imputar valores faltantes en los exámenes basados en correlaciones
for i in range(1, 6):
    examen_col = f'Examen_{i}'
    correlacion_asistencia = correlaciones_asistencia.loc['Asistencia', examen_col]
    correlacion_comportamiento = correlaciones_comportamiento.loc['Comportamiento', examen_col]
    promedio_ponderado = (df['Asistencia'] * correlacion_asistencia + df['Comportamiento'] * correlacion_comportamiento) / (correlacion_asistencia + correlacion_comportamiento)
    df[examen_col] = df[examen_col].fillna(promedio_ponderado)

df.isnull().sum()

Nombre            0
Examen_1          0
Examen_2          0
Examen_3          0
Examen_4          0
Examen_5          0
Asistencia        0
Comportamiento    0
Promedio          0
Estatus           0
dtype: int64

In [None]:
# 6. Compara los resultados de las calificaciones imputadas de los puntos 2 y 5, y discute las diferencias



<font color='green'>Fin Actividad 6</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">