In [14]:
import pandas as pd
import numpy as np
# Se establece esta opción para silenciar una advertencia de un futuro cambio en el comportamiento del método `replace`
pd.set_option('future.no_silent_downcasting', True)

## Codificación de valores faltantes

### Valores comúnmente asociados a valores faltantes

Cadenas de texto

In [4]:
common_na_strings = (
    "minNA",
    "N A",
    "N/A",
    "#N/A",
    "N / A",
    "na",
    "n a",
    "n/a",
    "NULL",
    "null",
    "•",
    "?",
    "*",
    "."
)

common_na_number = (-9, -99, -999, -9999, 9999, 66, 77, 88, -1)

### ¿Cómo encontrar los valores comúnmente asociados a valores faltantes?

In [5]:
missing_data_df = pd.DataFrame(
    {
        'x': [1, 3, "NA", -99, -99, -99],
        'y': ["A", "N/A", "NA", "E", "F", "G"],
        'z': [-100, -99, -98, -101, -1, -1]
    }
)

missing_data_df

Unnamed: 0,x,y,z
0,1.0,A,-100
1,3.0,,-99
2,,,-98
3,-99.0,E,-101
4,-99.0,F,-1
5,-99.0,G,-1


In [6]:
missing_data_df.missing.number_missing()

0

### Revisar tipos de datos

In [7]:
missing_data_df.dtypes

x    object
y    object
z     int64
dtype: object

### Revisar valores únicos de los datos

In [8]:
missing_data_df["x"].unique()

array([1, 3, 'NA', -99], dtype=object)

In [24]:
(
    missing_data_df
    .select_dtypes(object)
    .apply(pd.unique)
)

x          [1, 3, NA, -99]
y    [A, N/A, NA, E, F, G]
dtype: object

### Sustituyendo valores comúnmente asociados a valores faltantes

Sustitución desde la lectura de datos

In [28]:
pd.read_csv(
    "./data/missing_data_enconding_example.csv",
    # na_filter=True,
    na_values=[-99, -1]
)

Unnamed: 0,x,y,z
0,1.0,A,-100.0
1,3.0,,
2,,,-98.0
3,,E,-101.0
4,-98.0,F,
5,,G,


Sustitución global

In [31]:
(
    missing_data_df
    .replace(
        [-99, "NA"],
        value=np.nan
    )
)

Unnamed: 0,x,y,z
0,1.0,A,-100.0
1,3.0,,
2,,,-98.0
3,,E,-101.0
4,,F,-1.0
5,,G,-1.0


Sustitución dirigida

In [32]:
(
    missing_data_df
    .replace(
        {
            'x': {
                -99: np.nan
            }
        }
    )
)

Unnamed: 0,x,y,z
0,1.0,A,-100
1,3.0,,-99
2,,,-98
3,,E,-101
4,,F,-1
5,,G,-1
