# Codificacion de Valores Faltantes

Asumir que los datos faltantes siempre vendran en un unico formato es un error. Debemos evaluar la data y detectar cómo vienen representados las valores faltantes para luego llevarlos a un formato que pueda leerlo Python. 

In [2]:
# Librerias
import pandas as pd
import numpy as np

### Valores de tipo texto asociados a valores faltantes

In [3]:
common_na_strings = (
    "missing",
    "NA",
    "N A",
    "N/A",
    "#N/A",
    "NA ",
    " NA",
    "N /A",
    "N / A",
    " N / A",
    "N / A ",
    "na",
    "n a",
    "n/a",
    "na ",
    " na",
    "n /a",
    "n / a",
    " a / a",
    "n / a ",
    "NULL",
    "null",
    "",
    "?",
    "*",
    ".",
)

type(common_na_strings)

tuple

### Valores de tipo numerico asociados a valores faltantes

In [4]:
common_na_numbers = (-9, -99, -999, -9999, 9999, 66, 77, 88, -1)

### Data de Prueba

In [5]:
df = pd.DataFrame.from_dict(
    dict(
        x = [1, 3, "NA", -99, -98, -99],
        y = ["A", "N/A", "NA", "E", "F", "G"],
        z = [-100, -99, -98, -101, -1, -1]
    )
)

df

Unnamed: 0,x,y,z
0,1.0,A,-100
1,3.0,,-99
2,,,-98
3,-99.0,E,-101
4,-98.0,F,-1
5,-99.0,G,-1


### Detectar valores faltantes en columnas mediante el tipo de dato

In [6]:
df.dtypes

x    object
y    object
z     int64
dtype: object

La columna x solo tiene 1 string y Pandas reconoce toda la columna como object lo que sugiere que existen valores faltantes debido a que lo demas valores son de tipo numerico

### Detectar valores faltantes revisando valores unicos en los datos

In [7]:
df.x.unique()

array([1, 3, 'NA', -99, -98], dtype=object)

Como vemos, en la columna x solo hay un elemento con string y los demas son numerico. Sin embargo, Pandas detecta todo el array de tipo object lo que sugiere la presencia de valores faltantes.

Este metodo se aplica a columna por columna y es util solo para datframes pequeños.


### Detectar valores faltantes revisando los valores unicos de las variables de un determinado tipo

In [8]:
(
    df
    .select_dtypes(object)
    .apply(pd.unique)
)

x     [1, 3, NA, -99, -98]
y    [A, N/A, NA, E, F, G]
dtype: object

Lo que se hace es seleccionar las variables de tipo object y regresar sus valores unicos. En este caso vemos que la variable x contiene valores faltantes debido a que Pandas lo detecta como object cuando en su mayoria los datos son de tipo numerico.

### Sustitucion Global de valores asociados a valores faltantes

In [9]:
(
    df
    .replace(
        to_replace=common_na_strings+common_na_numbers,
        value=np.nan
    )
)

Unnamed: 0,x,y,z
0,1.0,A,-100.0
1,3.0,,
2,,,-98.0
3,,E,-101.0
4,-98.0,F,
5,,G,


Metodo utilizado cuando conoces como estan representados los valores faltantes pero no en que variables se ubican.

### Sustitucion Dirigida de valores asociados a valores faltantes

In [10]:
(
    df
    .replace(
        to_replace={
            'x':{
                -99:np.nan,
                'NA':np.nan
            }
        }
    )
)

Unnamed: 0,x,y,z
0,1.0,A,-100
1,3.0,,-99
2,,,-98
3,,E,-101
4,-98.0,F,-1
5,,G,-1


Este metodo es muy util cuando sabemos en que variables estan ubicados los valores faltantes y como estan representados