# StandarScaler
El StandarScaler transforma cada caracteristica x usando la formula 

![escalado.png](attachment:eff5def4-dca1-4807-8a80-02f610959556.png)

## from sklearn.preprocessing import MinMaxScaler
Donde :
- Miu : La media de los valores de la caracteristicas
- Desviacion standar: Se calcula la desviación standar de los valores de la característica.
El resultado es que los valores transformados tendrán:
- una media cercana a cero
- Una desviación estandar cercana a 1.

# Configuración del StandarScaler

## Cuando creamos un standardScaler en sklearn, se tienen varios parametros configurables importantes.
1. with_mean(bool, por defecto vale True).
   - Indica si se debe centrar los datos restando la media del valor de cada cararcteristica.
   - Desactivar( with_mean = False), es util cuando trabajamos con datos dispersos como matrices sparse para evitar que consuman mucha memoria
     
2. with_std (bool, por defecto es True).

   - Se indica si se debe escalar los datos dividiendo entre la desviación estándar.
   - Desactivarlo( with_std =False) es útil si solo deceamos centrar los datos sin normalizarlos
3. copy (bool por defecto : True)

   - Si es true, el scaler crea una copia de los datos en lugar de sobreescribir los originales.

# Cuando usar StandarScaler ?

1. Cuando tenemos Algoritmos sensibles a la escala:
   - Regresión logística, SVM, K-NN, redes neuronales etc.
   - 
3. Datos con unidades diferentes:
   - Por ejemplo, pero en kg, y altura en cm en un mismo dataset.
     
5. Preparación para PCA (Análisis de Componentes Principales.
6. - PCA asume que las caracteristicas tengan una scala comparable.


# Ejemplo
Se tiene el dataset Iris, que es uno de los algoritmos más conocidos en machine learning. Contiene información sobre  tres especies de flores de iris: Iris Versicolor, Iris Setosa,  Iris Virgínica, Tiene un total de 150 muestras con las siguientes caracteristicas  númericas:
1. Longitud del sépalo (cm).
2. Ancho del sépalo (cm)
3. Ancho del pétalo (cm)

Tenemos el problema que el valor de las caracteristicas en ese dataset están en diferentes escalas. Por ejemplo.
- Las longitudes y anchos de los pétalos son mucho más pequeño que la de los sépalos.
- Algunos modelos de  ML como SVM. K-NN o PCA son sencibles a estas diferencias ya que dan mas péso a caracteristicas con rangos más altos.

El uso de standardScaler asegura que todas las caracteristicas estén en la misma escala, con una media de 0 y una desviación stándar de 1, mejorando la precisión y estabilidad de los modelos.

In [47]:
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np

In [58]:
# Función para construir el transformador
#Nota si el conjunto de datos es muy grande se puede cambiar  el tipo de dato en el dataFrame (dtype=np.float32)

"""Observese que se retorna el scalador esto es una buena practica ya que evita tener que entrenar nuevamente un escalador si se planea 
   Escalar un nuevo conjunto de datos ya sean de prueba o produccion"""

""" Cuando retornamos el escalador podemos revertir los datos transformados al dataset original"""

def scaler_standar(data, with_mean = True, with_std =True, copy=True, dtype=np.float64):
    """Creamos el transformador scaler"""
    scaler = StandardScaler(with_mean=with_mean, with_std=with_std, copy=copy)      #Configuracion de la clase StandarScaler
    scaled_data = scaler.fit_transform(data)                             # Se aplica el escalador a la data
    #print(f"Media calculada por caracteristica: {scaler.mean_}")          # Informacion de la media    
    #print(f"Desviación estándar por caracteristica: {scaler.scale_}")    # Informacion de la dispersiónde los valores
    return scaled_data, scaler

iris = load_iris()     #Se crea una instancia de los datos de Iris
data = iris['data']
feature_names = iris['feature_names']
df = pd.DataFrame(data, columns=feature_names)

#Aplicamos la función del escalado

datos_escalados, scaler = scaler_standar(df)
df_escalado= pd.DataFrame(datos_escalados, columns = feature_names)
print(df.describe())
print(df_escalado.describe())

print(scaler.inverse_transform(datos_escalados))

       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count         150.000000        150.000000         150.000000   
mean            5.843333          3.057333           3.758000   
std             0.828066          0.435866           1.765298   
min             4.300000          2.000000           1.000000   
25%             5.100000          2.800000           1.600000   
50%             5.800000          3.000000           4.350000   
75%             6.400000          3.300000           5.100000   
max             7.900000          4.400000           6.900000   

       petal width (cm)  
count        150.000000  
mean           1.199333  
std            0.762238  
min            0.100000  
25%            0.300000  
50%            1.300000  
75%            1.800000  
max            2.500000  
       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count       1.500000e+02      1.500000e+02       1.500000e+02   
mean       -1.468455e-15     -1.823726e-15      -1