# Manejo de datos faltantes: detección y exploración

## Importar líbrerias

Las líbrerias que importamos a continuación son fundamentales para el análisis, visualización y manimulación de datos.
- `matplotlib.pyplot` y - `seaborn`: Herramientas por excelencia para la visualización de datos.
- `missingno`: Líbreria especial para visualizar valores faltantes.
- `numpy`: Computo cientifico y manejo de grándes volumenes de arrays y matrices con Python.
- `pandas`: Manipulación de datos.
- `pyreadr`: Leectura de archivos de lenguaje `R`.
- `upsetplot`: Explorar y visualizar intersecciones complejas de datos.

In [1]:
import matplotlib.pyplot as plt 
import missingno
import numpy as np
import pandas as pd
import pyreadr
import seaborn as sns
import upsetplot

## Configurar el aspecto general de las gráficas del proyecto

In [2]:
%matplotlib inline

sns.set_theme(
    rc={
        "figure.figsize": (10, 10)
    }
)

sns.set_style("whitegrid")

- `%matplotlib inline`: Magic command de Jupyter, asegura que todos los gráficos generados por `matplotlib` se muestren directamente en el notebook.
- `sns.set_theme`: Configuración del tema global de los gráficos de `seaborn` y `matplotlib`. Para este notebook le decimor que los gráficos tendran un tamaño de 10x10"
- `sns.set_style("whitegrid")`: Define el estilo de fondo de los gráficos, en este caso el fondo sera blanco.

## Operaciones con valores faltantes

### Python

In [4]:
print(
  None or True,
  None or False,
  None == None,
  None is None,
  type(None),
  sep="\n"
)

True
False
True
True
<class 'NoneType'>


**Explicación:**
El código anterior nos muestra como Python maneja los "valores" `None`; en realidad este objeto representa la ausencia de valor.
- `None or True` y `None or False`: Regresa `True` y `False` respectivamente pues estos representan valores booleanos y en cambio `None` representa la falta de valor.
- `None == None`: La comparación de igualdad entre dos objetos `None` retorna un `True`, ya que dicho objeto es un singleton en Python, lo que quiere decir aque solo exciste uno en todo el ambiente.
- `None is None`: Similar a la comparación anterior, `is` verifica que ambos objetos sean el mismo.

In [7]:
None + 1

TypeError: unsupported operand type(s) for +: 'NoneType' and 'int'

El objeto `None` no soporta operaciones aritmeticas o booleanas (que no sean de comparación).

### Numpy

In [12]:
print(
  np.nan,
  np.nan or True,
  np.nan or False,
  np.nan == np.nan,
  np.nan is np.nan,
  type(np.nan),
  np.isnan(np.nan),
  np.nan / 1,
  sep="\n"
)

nan
nan
nan
False
True
<class 'float'>
True
nan


**Explicación:**
Numpy a diferencia de utilizar Python que maneja los valroes faltantes con un **objeto** llamdo `None`, la líbreria utiliza una constante de tipo `float` llamada `nan`.

- `np.nan`: Forma en que la `Numpy` representa los valores faltantes.
- `np.nan or True` y  `np.nan or False`: Retornan `nan` pues como se ve en la línea 6, Numpy maneja el valor `nan` como un float.
- `np.nan == np.nan`: A diferencia de como Python lo maneja de forma nativa; `nan` no es igual a ningun valor incluido a sí mismo.
- `np.isnan(np.nan)`: La función `isnan()` es la forma correcta para verificar los valores faltantes en utilizando la líbreria Numpy.
- `type(np.nan)`: Nos dice que el tipo de dato es un float.

### Pandas

In [14]:
test_df = pd.DataFrame.from_dict(
  data=dict(
    x=[0, 1, np.nan, np.nan, None],
    y=[0, 1, pd.NA, np.nan, None]
  )
)
test_df

Unnamed: 0,x,y
0,0.0,0.0
1,1.0,1.0
2,,
3,,
4,,


Pandas permite representar los valores faltantes de tres formas distintas:
- `None`: Representación de datos faltantes de Python
- `np.nan`: Representación de datos faltantes de Numpy
- `pd.NA`: Representación de datos faltantes de Pandas

Al trabajar con Data Frames y Series de pandas, contamos con dos funciones que nos dices en notación booleana (`True` o `False`) si un dato no se encuentra en el conjunto.


📌 Ambas funciones hacen lo mismo, pero tienen diferente nombr.

In [15]:
test_df.isna()

Unnamed: 0,x,y
0,False,False
1,False,False
2,True,True
3,True,True
4,True,True


In [18]:
print(test_df.isnull().value_counts())
test_df.isnull()

x      y    
True   True     3
False  False    2
dtype: int64


Unnamed: 0,x,y
0,False,False
1,False,False
2,True,True
3,True,True
4,True,True


In [20]:
pd.Series([1, pd.NA, np.nan]).isnull()


0    False
1     True
2     True
dtype: bool