# sklearn.preprocessing.StandardScaler

[sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)

class ``sklearn.preprocessing.StandardScaler(*, copy=True, with_mean=True, with_std=True)``

Estandarizar características eliminando la media y escalando a la varianza de la unidad

La puntuación estándar de una muestra de $x$ se calcula como:

$$ z = \frac{x-\mu}{s} $$

donde $\mu$ es la media de las muestras de entrenamiento o cero si ``with_mean=False``, y $s$ es la desviación estándar de las muestras de entrenamiento o uno si ``with_std=False``.

El centrado y el escalado ocurren de forma independiente en cada característica al calcular las estadísticas relevantes en las muestras del conjunto de entrenamiento.

A continuación, se almacenan la media y la desviación estándar para utilizarlas en datos posteriores mediante la transformación.

La estandarización de un conjunto de datos es un requisito común para muchos estimadores de aprendizaje automático: pueden comportarse mal si las características individuales no se parecen más o menos a datos estándar distribuidos normalmente (por ejemplo, gaussiano con media $0$ y varianza unitaria).

Por ejemplo, muchos elementos utilizados en la función objetivo de un algoritmo de aprendizaje (como el núcleo RBF de Support Vector Machines o los regularizadores L1 y L2 de modelos lineales) asumen que todas las características están centradas alrededor de 0 y tienen varianza en el mismo orden.

Si una característica tiene una varianza que es órdenes de magnitud mayor que otras, podría dominar la función objetivo y hacer que el estimador no pueda aprender de otras características correctamente como se esperaba.

Este escalador también se puede aplicar a matrices CSR o CSC dispersas pasando ``with_mean=False`` para evitar romper la estructura de dispersión de los datos.

Read more in the User Guide.

Parameters
copybool, default=True
If False, try to avoid a copy and do inplace scaling instead. This is not guaranteed to always work inplace; e.g. if the data is not a NumPy array or scipy.sparse CSR matrix, a copy may still be returned.

with_meanbool, default=True
If True, center the data before scaling. This does not work (and will raise an exception) when attempted on sparse matrices, because centering them entails building a dense matrix which in common use cases is likely to be too large to fit in memory.

with_stdbool, default=True
If True, scale the data to unit variance (or equivalently, unit standard deviation).

Attributes
scale_ndarray of shape (n_features,) or None
Per feature relative scaling of the data to achieve zero mean and unit variance. Generally this is calculated using np.sqrt(var_). If a variance is zero, we can’t achieve unit variance, and the data is left as-is, giving a scaling factor of 1. scale_ is equal to None when with_std=False.

New in version 0.17: scale_

mean_ndarray of shape (n_features,) or None
The mean value for each feature in the training set. Equal to None when with_mean=False.

var_ndarray of shape (n_features,) or None
The variance for each feature in the training set. Used to compute scale_. Equal to None when with_std=False.

n_samples_seen_int or ndarray of shape (n_features,)
The number of samples processed by the estimator for each feature. If there are no missing samples, the n_samples_seen will be an integer, otherwise it will be an array of dtype int. If sample_weights are used it will be a float (if no missing data) or an array of dtype float that sums the weights seen so far. Will be reset on new calls to fit, but increments across partial_fit calls.

See also  

scale
Equivalent function without the estimator API.

PCA
Further removes the linear correlation across features with ‘whiten=True’.

Notes

NaNs are treated as missing values: disregarded in fit, and maintained in transform.

We use a biased estimator for the standard deviation, equivalent to numpy.std(x, ddof=0). Note that the choice of ddof is unlikely to affect model performance.

For a comparison of the different scalers, transformers, and normalizers, see examples/preprocessing/plot_all_scaling.py.

Example 

In [11]:
from sklearn.preprocessing import StandardScaler
data = [[0, 0], [0, 0], [1, 1], [1, 1]]

In [12]:
data 

[[0, 0], [0, 0], [1, 1], [1, 1]]

In [13]:
scaler = StandardScaler()
print(scaler.fit(data))

StandardScaler()


In [14]:
print(scaler.mean_)

[0.5 0.5]


In [15]:
print(scaler.transform(data))

[[-1. -1.]
 [-1. -1.]
 [ 1.  1.]
 [ 1.  1.]]


In [16]:
print(scaler.transform([[2, 2]]))

[[3. 3.]]


In [17]:
data 

[[0, 0], [0, 0], [1, 1], [1, 1]]

## Methods 