In [None]:
from sklearn.preprocessing import StandardScaler
#StandardScaler es una herramienta de preprocesamiento de datos utilizada para escalar y 
# normalizar los datos numéricos para que estén todos dentro de la misma escala. 
# Esto es útil cuando se trabaja con algoritmos de aprendizaje automático, ya que los algoritmos pueden tener problemas para converger 
# correctamente si los datos están muy dispersos. El escalado de los datos también ayuda a evitar la sobreestimación de ciertos atributos.
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
from sklearn.preprocessing import MinMaxScaler
#MinMaxScaler es una herramienta de escalado de características usada para ajustar los datos a un rango específico.
#Esta herramienta es útil cuando se manejan datos con un gran rango de valores, como en el caso de datos que contienen valores entre cero y un millón.
#Esta herramienta permite normalizar los datos a un rango específico, como 0 a 1.
#Permite que los algoritmos de aprendizaje automático trabajen con los datos de manera más eficiente,
#ya que los algoritmos suelen funcionar mejor con datos normalizados.
scaler = MinMaxScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
from sklearn.preprocessing import Normalizer
#Normalizer en Python se utiliza para normalizar (estandarizar) los datos de entrada para que sean adecuados para la computación.
#Esto se hace para garantizar que los datos sean estandarizados y sean homogéneos en su formato para que sean más fáciles de usar. 
#Normalizar los datos es esencial para los algoritmos de Machine Learning, ya que le ayuda a eliminar los efectos de la escala y el sesgo para mejorar
#la precisión de los modelos.
scaler = Normalizer()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
from sklearn.preprocessing import Binarizer
#Binarizer se usa para transformar cualquier valor numérico a uno binario, esto es, 0 o 1.
# Esto es útil para tareas de clasificación binaria. Esto es especialmente útil para los algoritmos de aprendizaje de máquinas,
#  donde se necesita una salida binaria para la clasificación. Por ejemplo, se puede usar Binarizer para convertir un conjunto de características
#  numéricas en una matriz binaria, donde cada celda es una característica binaria. Esto proporciona una mejor representación para los algoritmos 
# de aprendizaje de máquinas, ya que los algoritmos de aprendizaje de máquinas se basan en la manipulación de vectores binarios.
scaler = Binarizer(threshold=0.0).fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore')
X_train = encoder.fit_transform(X_train)
X_test = encoder.transform(X_test)
from sklearn.preprocessing import PolynomialFeatures
#PolynomialFeatures en python se usa para generar características nuevas a partir de características existentes en los datos.
#Esto se usa comúnmente para construir modelos predictivos, como regresión lineal, regresión logística y árboles de decisión.
#Esta herramienta genera nuevas características a partir de la combinación lineal de los atributos de los datos,
#lo que nos da una mejor representación para el modelo.
#Esto aumenta la flexibilidad del modelo y da mejores resultados.
poly = PolynomialFeatures(2)
X_train = poly.fit_transform(X_train)
X_test = poly.transform(X_test)
from sklearn.preprocessing import FunctionTransformer
#FunctionTransformer es una herramienta de preprocesamiento de datos de Scikit-learn que permite a los usuarios aplicar una función personalizada 
#a un conjunto de datos de entrada. Esta herramienta se puede utilizar para realizar transformaciones de datos tales como la normalización, 
#la estandarización, la codificación, la binarización, entre otras. 
#Esta herramienta es útil para aplicar operaciones directamente a los datos sin tener que codificar toda la lógica en una función.
transformer = FunctionTransformer(np.log1p, validate=True)
X_train = transformer.transform(X_train)
X_test = transformer.transform(X_test)
from sklearn.preprocessing import LabelEncoder
#El LabelEncoder de Python es una herramienta de preprocesamiento de datos que se utiliza para convertir variables categóricas en numéricas, 
#es decir, se etiquetan los diferentes valores de las variables. Esto es útil para alimentar modelos de aprendizaje automático,
#ya que la mayoría de los modelos funcionan mejor con datos numéricos. 
#LabelEncoder se usa para convertir etiquetas de texto o números enteros a una representación numérica.
encoder = LabelEncoder()
y_train = encoder.fit_transform(y_train)
y_test = encoder.transform(y_test)
from sklearn.preprocessing import LabelBinarizer
#LabelBinarizer en python sirve para convertir etiquetas categóricas a etiquetas binarias.
#Esto significa que convierte etiquetas de texto o números en vectores binarios,
#donde cada etiqueta se convierte en un vector de una dimensión con una longitud igual al número de clases. 
#Esto se usa a menudo en la clasificación de problemas donde los datos de entrenamiento están etiquetados con valores discretos 
#para indicar la clase a la que pertenecen. El uso de LabelBinarizer en python puede reducir el tiempo de ejecución de los modelos de clasificación,
#ya que reduce el número de características necesarias para entrenar el modelo.
encoder = LabelBinarizer()
y_train = encoder.fit_transform(y_train)
y_test = encoder.transform(y_test)
from sklearn.preprocessing import MultiLabelBinarizer
#MultiLabelBinarizer es una herramienta de Python que se utiliza para convertir etiquetas de cadena a etiquetas binarias de Python.
#Esta herramienta es útil cuando se trabaja con etiquetas múltiples. Por ejemplo, si una imagen se etiqueta como "perro" y "gato", 
# se puede usar MultiLabelBinarizer para convertir estas etiquetas en dos etiquetas binarias, "perro" y "gato". 
#Esto permite a los algoritmos de aprendizaje automático entender mejor la estructura de los datos etiquetados.
encoder = MultiLabelBinarizer()
y_train = encoder.fit_transform(y_train)
y_test = encoder.transform(y_test)
from sklearn.preprocessing import OrdinalEncoder
#El OrdinalEncoder en Python se usa para codificar variables cualitativas ordinales en valores numéricos. 
#Esta codificación es útil para poder usar algoritmos de aprendizaje automático que solo trabajan con datos numéricos. 
#`Los datos cualitativos ordinales son aquellos en los que los valores varían entre diferentes categorías, pero hay un orden entre ellas. 
#Por ejemplo, si estamos codificando la variable "calificación", los valores posibles pueden ser "malo", "regular", "bueno" y "excelente". 
#El OrdinalEncoder cambiará cada uno de estos valores por un número entero,
#por ejemplo "malo" se convertiría en 0, "regular" en 1, "bueno" en 2 y "excelente" en 3.
encoder = OrdinalEncoder()
y_train = encoder.fit_transform(y_train)
y_test = encoder.transform(y_test)
from sklearn.preprocessing import KBinsDiscretizer
#KBinsDiscretizer es una función en Python que se utiliza para convertir variables continuas en variables discretas.
#Esto es útil para analizar datos que no pueden ser representados en una escala continua, como el ingreso anual, el puntaje de un examen, 
#la edad, etc. La función KBinsDiscretizer se puede utilizar para crear un conjunto de clases discretas, lo que permite agrupar 
#los datos en categorías y realizar un análisis estadístico más preciso. 
#Esta función es también útil para reducir el ruido en los datos al agrupar los datos en los límites de cada clase.
encoder = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='quantile')
y_train = encoder.fit_transform(y_train)
y_test = encoder.transform(y_test)
from sklearn.preprocessing import PowerTransformer
#El módulo PowerTransformer de Python es una herramienta útil para transformar datos de entrada para un mejor ajuste a modelos estadísticos. 
#Esta herramienta se puede utilizar para transformar variables numéricas a distribuciones más adecuadas para modelos estadísticos, como la distribución
#Normal o la distribución logarítmica. Esto mejora el rendimiento de los modelos de aprendizaje automático, 
#ya que reducen la sensibilidad a los valores atípicos.
#Esto también puede mejorar la precisión de los modelos de clasificación.
transformer = PowerTransformer(method='yeo-johnson', standardize=False)
X_train = transformer.fit_transform(X_train)
X_test = transformer.transform(X_test)
from sklearn.preprocessing import QuantileTransformer
#El QuantileTransformer de Python se utiliza para ajustar los datos de entrada de forma que los valores de salida estén distribuidos de manera uniforme.
#Esta técnica es útil para preprocesar los datos antes de entrenar un modelo de aprendizaje automático, ya que ayuda a reducir la posible varianza
#entre los datos de entrenamiento y los datos de prueba. Esto mejora la capacidad de generalización de un modelo de aprendizaje automático. 
#El QuantileTransformer también se puede utilizar para normalizar los datos antes de la aplicación de algunos algoritmos de aprendizaje automático,
#como KNN o SVM.
transformer = QuantileTransformer(n_quantiles=10, output_distribution='normal', random_state=0)
X_train = transformer.fit_transform(X_train)
X_test = transformer.transform(X_test)
from sklearn.preprocessing import RobustScaler
#RobustScaler es una herramienta de escalado de características de Python diseñada para ser robusta ante los valores extremos.
#Esto significa que RobustScaler tratará los valores atípicos como valores de media y los no atípicos como valores extremos.
#Esto es útil cuando se trabaja con datos que contienen muchos valores atípicos. 
#Las herramientas de escalado tradicionales, como MinMaxScaler, no manejan bien los valores atípicos y pueden resultar en una distribución deformada
#de los datos. RobustScaler, por otro lado, minimiza la distorsión de los datos.
scaler = RobustScaler(quantile_range=(25.0, 75.0), with_centering=True, with_scaling=True)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
from sklearn.preprocessing import MaxAbsScaler
#MaxAbsScaler es una herramienta de escalado de datos en Python que se utiliza para transformar los datos de manera que los valores más grandes sean
#el valor máximo absoluto de cada feature. Esta herramienta es útil cuando se trabaja con conjuntos de datos que contienen valores que varían mucho 
#entre sí, ya que le da a cada valor un rango de 0 a 1. Esto ayuda a normalizar los datos y a reducir los efectos de la desigualdad en los datos.
#Además, MaxAbsScaler también se usa para mejorar la precisión y la exactitud de los modelos de aprendizaje automático.