<div class="jumbotron">
  <h1><i class="fa fa-bar-chart" aria-hidden="true"></i>Inegeniría de características y trasnformaciones</h1>
  <p></p>
</div>


In [None]:
# ! pip install mlxtend

In [None]:
from os import chdir

# retroceder al directorio principal
chdir("..")

In [None]:
import pickle
import matplotlib.pyplot as plt
from scipy.stats import zscore
from sklearn import preprocessing
from sklearn.preprocessing import OneHotEncoder
from scipy import stats
from utils.custom import anomaly_delete
from utils.custom import handle_outliers
from utils.custom import find_boundaries_quuantil
from utils.custom import find_boundaries_sigma
from pandas import DataFrame
from seaborn import boxplot
from pandas import get_dummies
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import KBinsDiscretizer



In [None]:
# Load data (deserialize)
with open('data/interim/processing.pickle', 'rb') as handle:
    df = pickle.load(handle)

In [None]:
variables_numericas = df.select_dtypes(include=['int64', 'float64']).columns
variables_categoricas = df.select_dtypes(include=['category']).columns
# etiqueta = ''

In [None]:
df.dtypes

# Normalización y estadarización de variables

<div class="alert alert-warning" role="alert">

La elección de utilizar la normalización Min-Max o la estandarización Z-score depende del problema y los datos en cuestión. Aquí hay algunas consideraciones para decidir cuándo usar cada uno de estos métodos:

**Min-Max Scaling (Normalización Min-Max):**

1. **Cuando se necesita restringir los datos a un rango específico:** La normalización Min-Max escalará tus datos a un rango específico, generalmente [0, 1], pero puedes especificar otro rango si es necesario. Esto es útil cuando deseas que tus datos estén en un rango particular.

2. **Cuando se desea preservar la relación entre los datos originales:** Min-Max Scaling conserva la relación de orden entre los datos originales. Si esta relación es importante para tu aplicación, Min-Max Scaling puede ser más apropiado.

3. **Cuando se trabaja con algoritmos sensibles a la escala:** Algunos algoritmos de aprendizaje automático, como las máquinas de soporte vectorial (SVM) y los algoritmos basados en gradiente, pueden beneficiarse de la normalización Min-Max para que converjan más rápido y funcionen mejor.

**Z-score Standardization (Estandarización Z-score):**

1. **Cuando se busca una distribución normal o gaussianización:** La estandarización Z-score transforma los datos para que tengan una media de 0 y una desviación estándar de 1, lo que puede ayudar a que los datos se asemejen más a una distribución normal. Esto puede ser útil en estadísticas inferenciales.

2. **Cuando se quieren detectar valores atípicos:** Los valores atípicos (outliers) en los datos pueden ser más fáciles de detectar y manejar después de aplicar la estandarización Z-score. Los valores que están muy por encima o por debajo de ciertos umbrales Z pueden ser considerados como valores atípicos.

3. **Cuando se trabaja con algoritmos que asumen datos estandarizados:** Algunos algoritmos de aprendizaje automático, como el análisis de componentes principales (PCA) o la regresión logística, asumen que los datos están estandarizados. En estos casos, la estandarización Z-score es más apropiada.

La elección entre Min-Max Scaling y Z-score Standardization depende de los requisitos específicos de tu problema y de la naturaleza de tus datos. Ambos métodos tienen sus propias ventajas y desventajas, y debes seleccionar el que mejor se adapte a tus necesidades y los supuestos de tus algoritmos de análisis o aprendizaje automático.


<div class="alert alert-warning" role="alert">ESTO ES MUY IMPORTANTE</div>

### MinMaxScaler

In [None]:
x = df[variables_numericas].values #returns a numpy array
min_max_scaler = MinMaxScaler()
x_scaled = min_max_scaler.fit_transform(x)
df_min_max = DataFrame(x_scaled)

In [None]:
ax = boxplot( data=df_min_max)

### Z-score

In [None]:
z_score_scaler = StandardScaler()
x_scaled = z_score_scaler.fit_transform(x)
df_z_score = DataFrame(x_scaled)

In [None]:
ax = boxplot( data=df_z_score)

# Discretizar

### Contenedores del mismo tamaño 

In [None]:
# Utiliza la función pd.cut() para categorizar las edades en tres grupos
# Definir los límites de los intervalos y las etiquetas de las categorías
# bins = 3
# labels = ["baja", "media", "alta"]

# resultado = cut(df[column], 
#                   bins=bins,             # Divide en 3 grupos
#                   labels=labels,  # Etiquetas para los grupos
#                   include_lowest=True,  # Incluye el límite inferior en la categoría más baja
#                   retbins=True)        # Devuelve los intervalos de categorización

### Contenedores de diferente tamaño 

In [None]:
# resultado = cut(df[column], 
#                   bins=[0, 11, 17, 59, inf], 
#                   labels=["infante", "joven", "adulto", "mayor"],
#                   include_lowest=True,
#                   retbins=True)

### Discretización basada en intervalos de igual frecuencia

In [None]:
# df['column'] = qcut(df['column'], q=3)

### Discretizar usando k-means

In [None]:
# n = 5
# var_dis = KBinsDiscretizer(n_bins=n, encode='ordinal',strategy = "kmeans").fit_transform(df[['var']])

<div class="alert alert-warning" role="alert">

Elegir la estrategia de discretización adecuada depende de varios factores, incluyendo la naturaleza de tus datos y los objetivos de tu análisis. Aquí tienes una estrategia general para decidir qué tipo de discretización usar:

1. **Comprende tus Datos:**
   - Comienza por comprender la distribución de tus datos. ¿Son tus datos uniformemente distribuidos, sesgados o siguen una distribución normal?
   - Observa la naturaleza de la variable que deseas discretizar. ¿Es una variable continua que se puede dividir en rangos significativos?
   
2. **Objetivos del Análisis:**
   - Considera tus objetivos de análisis. ¿Qué intentas lograr con la discretización?
   - Si deseas simplificar tus datos y reducir la complejidad, la estrategia "uniforme" podría ser una buena opción.
   - Si deseas preservar información sobre la distribución original de tus datos, "quantile" podría ser más apropiada.

3. **Tamaño del Conjunto de Datos:**
   - El tamaño de tu conjunto de datos también puede influir en tu elección. Si tienes un conjunto de datos pequeño, es posible que desees mantener la información original tanto como sea posible, por lo que "quantile" podría ser preferible. Si tienes un conjunto de datos grande, "uniforme" podría ser más práctico.

4. **Impacto en el Modelo de Aprendizaje Automático:**
   - Piensa en cómo la discretización afectará a tus modelos de aprendizaje automático. Algunos modelos, como los árboles de decisión, pueden manejar variables discretas directamente, mientras que otros pueden requerir que las variables sean continuas.
</div>

### Obtener la gráfica de bigotes y la forma de la distribución de la variable

visualizar distribución y semetría

In [None]:
# fig,ax = plt.subplots(nrows = 1, ncols = 2)
# df._.plot(kind = 'box',figsize = [12.0,5.0],title="",ax = ax[0])
# df._.plot(kind = 'density',figsize = [12.0,5.0],title="",ax = ax[1])

In [None]:
# - La variable __name_var__ está sesgado a la derecha, por lo cual debemos transformar la variable para reducir el sesgo.
# - Si las colas de la distribución son muy larga es necesario crear un piso y un techo para los valores extremos

#  Sesgo de simetría y normalidad

Aplicaresmos una trasformación para normalizar la variable y obervar su distribución después de la trasformación

### Aplicar una transformación logaritmica

In [None]:
# train[''] = (((np.log2(((df._ - np.mean(df._))/np.std(df._))**2))))

### Aplicar una transformación de raíz cuadrada

In [None]:
# df[''] = np.sqrt(df[''])

### Aplicar la transformación de Box-Cox

In [None]:
# df[''], _ = stats.boxcox(df[''])

La transformación logarítmica no arroja buenos resultados, probemos con dos transformaciones más complejas : `PowerTransformer` y `QuantileTransformer`

In [None]:
# test_transformers([columns])

#qt = QuantileTransformer(n_quantiles=5000, output_distribution='normal')
#array = np.array(df['']).reshape(-1, 1)
#x = qt.fit_transform(array)

#df['']= x

Podemos ver que NO|se redujo la asimetría por la derecha. 

# Datos átipicos

Ahora grafiquemos la variable X segmentada de acuerdo a sus diferentes clases para comprobar que no existe presencia de valores átipicos

In [None]:
# matplotlib.rcParams['figure.figsize'] = (20.0, 10.0)
# fig,ax = plt.subplots(nrows = 1, ncols = 2)
# sns.boxplot(x = '', y = '',data = train,ax = ax[0])
# g = sns.FacetGrid(train,col='')
# g.map(sns.distplot,"")
# sns.distplot(train[''],ax = ax[1])

El diagrama de bigotes muestras la posible existencia de datos atípicos, lo que indica que aún estan sesgados los datos.

 Las gráficas de distribución de densidad muestra que las distribuciones tiene colas largas con la derecha y por la izquierda, aun que se debe mensionar que la asimetría se ha reducido.

### Definir el límites de forna visual a través de las graficas de vigotes

In [None]:
# upper_bound = -7
# lower_bound = 2

# obtener los indices de los datos que estan fuera del umbral de normalidad
# idxs = train.loc[(df.column>upper_bound) & (df.column<lower_bound)].index

# obtener los valores máximos y mínimos
# mx = max(df.iloc[idxs]._)
# mn = min(df.iloc[idxs]._)

# aplicar la función de supresión
# df._ = df._.apply(anomaly_delete)

### Utilizar rango inetercuartil o z-score

In [None]:
# std
# upper_boundary, lower_boundary = find_boundaries_sigma(df, 'variable',num_sigma=2)

# cuartiles
# upper_boundary, lower_boundary = find_boundaries_quuantil(df, 'variable', distance=1.5)

# df= handle_outliers(df, variable, distance=1.5, num_sigma = 3, flag_quantil = True)

In [None]:
# gráficar nuevamente

# Datos cicliclos


In [None]:
# agregar dos variable más a los datos : mes y dia
# df['month'] = df.Date.dt.month
# df['day'] = df.Date.dt.day

In [None]:
# df = encode(df, 'month', 12)
# df = encode(df, 'day', 31)

In [None]:
# ax = df.plot.scatter('mes_sin', 'mes_cos').set_aspect('equal')

# Valores Ausentes

### Refill con valores de tendecias estadísticas

In [None]:
# df.fillna(df.mode())
# df.fillna(df.median())

### Refill con valor no nulo previo o valor siguiente no nulo  

In [None]:
# df.fillna(method='pad')
# df.fillna(method='bfill')

### Refill utilizando interpolación

In [None]:
# methods = ['linear', 'quadratic', 'cubic']

# df = pd.DataFrame({m: df[''].interpolate(method=m) for m in methods})

# Desbalanceo

In [None]:
# https://imbalanced-learn.org/stable/auto_examples/api/plot_sampling_strategy_usage.html#sphx-glr-auto-examples-api-plot-sampling-strategy-usage-py
# SMOTE (Synthetic Minority Over-sampling Technique)

# Convinación de Variables

In [None]:
# https://feature-engine.trainindata.com/en/latest/index.html
# https://featuretools.alteryx.com/en/stable/getting_started/afe.html#Creating-%22Deep-Features%22
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

# Categóricos

### Convertir las variables a tipo `category`

In [None]:
# for i in range(len(variables_categoricas)):
#    df[variables_categoricas[i]]=df[variables_categoricas[i]].astype('category')

### Convertir las variables a tipo `ordinal`

In [None]:
# for i in range(len(variables_categoricas)):
#    df[variables_categoricas[i]]=df[variables_categoricas[i]].astype('category').cat.codes.values

### Convertir las variables a tipo `etiqueta``

In [None]:
#le2 = preprocessing.LabelEncoder()

#for i in range(len(cat_col)):
    #df[cat_col[i]]=le2.fit_transform(df[cat_col[i]])

### Convertir las variables a tipo `onehot`

In [None]:
df_min_max['column'] = df['column']

In [None]:
df_min_max = get_dummies(df_min_max, columns=['column'])

### Remover `column` del dataset 

In [None]:
del df_min_max['Gender_Male']

In [None]:
columns = []

# Save file

In [None]:
# Store data 
with open('data/interim/transform.pickle', 'wb') as handle:
    pickle.dump(df_min_max, handle, protocol=pickle.HIGHEST_PROTOCOL)