# Datos faltantes

**Autor:** Jazna Meza Hidalgo

**Correo Electrónico:** ja.meza@profesor.duoc.cl

**Fecha de Creación:** Abril de 2025

**Versión:** 1.0  

---

## Descripción

Este notebook explica la forma de trabajar con los 'missing values' o valores nulos.

Contiene ejercicios que deberá resolver

---

## Requisitos de Software

Este notebook fue desarrollado con Python 3.9. A continuación se listan las bibliotecas necesarias:

- numpy (2.0.2)
- pandas (2.2.2)

Para verificar la versión instalada ejecutar usando el siguiente comando, usando la librería de la cual quieres saber la versión:

```bash
import pandas as pd
print(pd.__version__)
````

In [None]:
import numpy as np
import pandas as pd

**Usaremos el mismo dataset pequeño**

Como se darán cuenta, el valor **np.nan** es una forma común de reflejar la presencia de MV.

No siempre es asi. Como vimos en la clase teórica, aveces puedne encontrar otros símbolos como: espacios en blanco, signos de interrogación, etc.

In [None]:
datos = {'alumno': ['Zutano', 'Mengano', 'Zutano','Pepe' ,'Fulanito, Cosme', 'Maria', 'Juan', 'Pablo', 'Ana'],
         'Primera prueba': [np.nan, 8.5,7,7,np.nan, 4.5, 7.5, 1.0, 8.8],
         'Segunda prueba': [10,np.nan,9.8,4,np.nan,np.nan, 2.5, np.nan, np.nan],
         'observaciones':['ninguna','libre','ninguna','ninguna','libre','oyente','ninguna','libre','oyente'],
         'DNI':[23000000, 12389100,23000000, 99999, 1001,30406011, 1230000, 86758444, 9996696]}
df = pd.DataFrame(datos)
df

Unnamed: 0,alumno,Primera prueba,Segunda prueba,observaciones,DNI
0,Zutano,,10.0,ninguna,23000000
1,Mengano,8.5,,libre,12389100
2,Zutano,7.0,9.8,ninguna,23000000
3,Pepe,7.0,4.0,ninguna,99999
4,"Fulanito, Cosme",,,libre,1001
5,Maria,4.5,,oyente,30406011
6,Juan,7.5,2.5,ninguna,1230000
7,Pablo,1.0,,libre,86758444
8,Ana,8.8,,oyente,9996696


### Eliminación de filas o columnas con MV

Eliminamos las filas que tienen NaN. Para eso usamos el método df.dropna()

In [None]:
df_2 = df.dropna()
df_2

Unnamed: 0,alumno,Primera prueba,Segunda prueba,observaciones,DNI
2,Zutano,7.0,9.8,ninguna,23000000
3,Pepe,7.0,4.0,ninguna,99999
6,Juan,7.5,2.5,ninguna,1230000


Observemos que había varias maneras de hacer esto. Por ejemplo, podríamos haber querido eliminar las columnas que tenían un NaN, en vez de las filas:

In [None]:
df_3 = df.dropna(axis=1)
df_3

Unnamed: 0,alumno,observaciones,DNI
0,Zutano,ninguna,23000000
1,Mengano,libre,12389100
2,Zutano,ninguna,23000000
3,Pepe,ninguna,99999
4,"Fulanito, Cosme",libre,1001
5,Maria,oyente,30406011
6,Juan,ninguna,1230000
7,Pablo,libre,86758444
8,Ana,oyente,9996696


### Podemos usar técnicas de imputación.

In [None]:
# Vuelve a mostrar los datos iniciales
df

Unnamed: 0,alumno,Primera prueba,Segunda prueba,observaciones,DNI
0,Zutano,,10.0,ninguna,23000000
1,Mengano,8.5,,libre,12389100
2,Zutano,7.0,9.8,ninguna,23000000
3,Pepe,7.0,4.0,ninguna,99999
4,"Fulanito, Cosme",,,libre,1001
5,Maria,4.5,,oyente,30406011
6,Juan,7.5,2.5,ninguna,1230000
7,Pablo,1.0,,libre,86758444
8,Ana,8.8,,oyente,9996696


En principio se imputa por la media observable de la columna "Primera prueba" y "Segunda prueba"

🔴 **NOTA**

Esta imputación, en la realidad, debe ser tratada con cuidado porque si el promedio resulta ser una medida NO representativa por la existencia de atípicos, entonces NO SERÍA UNA IMPUTACIÓN CORRECTA.

In [None]:
a = df['Primera prueba']
b = df['Segunda prueba']
prom_a = a.mean()
prom_b = b.mean()

# Una forma simple es usar un diccionario para guardar la información.
# Las llaves del diccionario son los nombres de las variables (columnas) y el valor asociado es el promedio
diccionario = {'Primera prueba':prom_a, 'Segunda prueba': prom_b}

# El método .fillna sirve para reemplazar los valores NaN por los que queremos.
df2 = df.fillna(diccionario)
df2

Unnamed: 0,alumno,Primera prueba,Segunda prueba,observaciones,DNI
0,Zutano,6.328571,10.0,ninguna,23000000
1,Mengano,8.5,6.575,libre,12389100
2,Zutano,7.0,9.8,ninguna,23000000
3,Pepe,7.0,4.0,ninguna,99999
4,"Fulanito, Cosme",6.328571,6.575,libre,1001
5,Maria,4.5,6.575,oyente,30406011
6,Juan,7.5,2.5,ninguna,1230000
7,Pablo,1.0,6.575,libre,86758444
8,Ana,8.8,6.575,oyente,9996696


Es posible notar que el dataframe se ve modificado según el valor promedio de la variable respectiva. Esto puede ser útil, a veces, pero otras no.

Por ejemplo, en la variable: "Segunda prueba", existe 3 MV. Esto es el 50% de los datos. Eso puede tener una repercusión fuerte en la distribución de los datos.

##Tarea en clase:

+ ¿Qué tipo de gráfico nos puede mostrar la distribución de los datos?

+ Haga un grafico que permita ver la distribucion de los datos de las variables: "Primera prueba" y "Segunda prueba". ¿Logra ver la influencia de la imputación?

Recuerde importar las librerias para graficar.

**¡¡TIENE 20 Minutos!!**
