La omisión de valores en el conjunto de datos puede tener diversos efectos y diferentes grados de impacto. En términos generales, se suelen considerar los siguientes grados de impacto, dependiendo del porcentaje de valores faltantes (*dumb rules*):
La omisión de valores en el conjunto de datos puede tener diversos efectos y diferentes grados de impacto. En términos generales, se suelen considerar los siguientes grados de impacto, dependiendo del porcentaje de valores faltantes (*dumb rules*):

* Menos de 1%: Trivial (no relevante)
* 1-5%: Manejable
* 5-15%: Manejable mediante métodos sofisticados
* Más de 15%: Crítico, con impacto severo en cualquier tipo de interpretación

In [None]:

df.dropna()



El parámetro *tresh* en DataFrame.dropna() permite eliminar todos los renglones que no contengan al menos el número de columnas "limpias" expresado por el prámetro. En los ejemplos a continuación, se conservan 1) sólo los renglones que tienen al menos 8 columnas *limpias* y 2) los renglones que tienen al menos 7 columnas con valores definidos:

In [None]:
print(df.dropna(thresh=8), '\n')
print(df.dropna(thresh=7))

### Imputación 

El análisis de casos completos es una opción aceptable si el porcentaje de valores faltantes es pequeño. En la mayoría de los casos, es preferible reemplazar los valores faltantes por valores calculados por omisión o valores calculados. Esta operación se denomina **imputación**. En el siguiente ejemplo, todos los valores *NaN* son reemplazados por 0, lo cual pudiera seguir la lógica de que "si el dato no está disponible es que en realidad era cero.

In [None]:
#df3 = df.fillna(0)

Sin embargo, en muchos casos un valor por omisión de cero no tiene sentido. En nuestro ejemplo con los datos de diabetes, un valor de cero en la columna *pad* (*Presión diastólica de la sangre*) es imposible en una persona viva. En este caso, una mejor opción es rellenar los valores faltantes por el mínimo registrado:

In [None]:
df3 = df.fillna(df.min())
df.fillna(df.mode())
df.fillna(df.max())
print(df3, "\n")

In [None]:
### Rellene los valores faltantes con los anteriores
Otra alternativa común es rellenar los valores faltantes con el valor no nulo previo o el siguiente:

In [None]:
print(df, "\n")
# this is equivalent to both method='ffill' and .ffill()
print("Replicar hacia enfrente\n", df.fillna(method='pad'), "\n") 

In [None]:
 # Rellenar con el siguiente
print("Replicar hacia atrás\n", df.fillna(method='bfill'))

### Interpolación
La interpolación es un método formal para estimar valores en una serie de datos. La idea consiste en suponer que todos los puntos en la serie se encuentran sobre una curva subyacente, aunque desconocida. 
La forma más simple de interpolación es la *lineal*. En este caso se parte de dos puntos conocidos y los puntos intermedios (faltantes) se calculan como si estuvieran colocados sobre la línea recta que une a los puntos conocidos.

np.random.seed(2)

ser = pd.Series(np.arange(1, 10.1, .25) ** 2 + np.random.randn(37))

missing = np.array([4, 13, 14, 15, 16, 17, 18, 20, 29])

ser[missing] = np.nan

methods = ['linear', 'quadratic', 'cubic']

df = pd.DataFrame({m: ser.interpolate(method=m) for m in methods})

df.plot()

In [None]:
### Normalización


In [None]:
def find_boundaries_std(df, variable, sigma):
    
    lower_boundary = df[variable].mean() - df [variable].std() * sigma
    upper_boundary = df[variable].mean() + df [variable].std() * sigma
    
    return upper_boundary, lower_boundary



def find_boundaries_IQR (df, variable, distance): 

    IQR = df[variable].quantile(0.75) - df[variable].quantile(0.25) 

    lower_boundary = df[variable].quantile (0.25) - (IQR * distance) 
    upper_boundary = df[variable].quantile (0.75) + (IQR * distancia) 

    return upper_boundary, lower_boundary



from scipy import stats
df[(np.abs(stats.zscore(df)) < 3).all(axis=1)]

Normalization - Standardization (Z-score scaling) 	removes the mean and scales the data to unit variance.
z = (X - X.mean) / std



Robust scaling 	removes the median and scales the data according to the quantile range (defaults to IQR)
X_scaled = (X - X.median) / IQR

## Feature Scaling

## Feature Cleaning

## Algoritmo de optimización FTRL

Los modelos lineales de dimensiones altas se benefician del uso de una variante de optimización basada en gradientes, que se denomina FTRL. Este algoritmo tiene la ventaja de ajustar la tasa de aprendizaje de distintas maneras para diferentes coeficientes, lo cual puede resultar útil si algunos atributos raramente toman valores distintos de cero (también es adecuado cuando se utiliza regularización L1). Podemos aplicar FTRL a través de la función FtrlOptimizer.