
<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/taca/blob/main/ref/geron/part_1/chap_2/5_prep_algorith/5_feature_scaling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/taca/blob/main/ref/geron/part_1/chap_2/5_prep_algorith/5_feature_scaling.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>


# Feature Scaling

Una de las **transformaciones** más importantes que debe aplicar a sus datos es el **escalado de características**.

Con pocas excepciones, los algoritmos de aprendizaje automático no funcionan bien cuando los atributos numéricos de entrada tienen escalas muy diferentes.

Este es el caso de los datos de vivienda: 
* el número total de habitaciones oscila entre aproximadamente 6 y 39,320, mientras que 
* los ingresos medios solo oscilan entre 0 y 15.

Tenga en cuenta que, por lo general, no es necesario escalar los valores objetivo.

Hay dos formas comunes de lograr que todos los atributos tengan la misma escala: 
* escala mínima y 
* estandarización.

La escala mínima-máxima (mucha gente llama a esto normalización) es la más simple: los valores se cambian y se vuelven a escalar para que terminen oscilando entre 0 y 1.

Hacemos esto restando el valor mínimo y dividiendo por el máximo menos el mínimo.

`Scikit-Learn` proporciona un transformador llamado `MinMaxScaler` para esto.

Tiene un hiperparámetro `feature_range` que le permite cambiar el rango si, por alguna razón, no quiere 0 - 1.

La estandarización es diferente: primero resta el valor medio (por lo que los valores estandarizados siempre tienen una media cero) y luego lo divide por la desviación estándar

La estandarización es diferente:  

* primero resta el valor medio (por lo que los valores estandarizados siempre tienen una media cero), y luego 
* divide por la desviación estándar para que la distribución resultante tenga varianza unitaria.

A diferencia del escalado mínimo-máximo, la estandarización no limita los valores a un rango específico, lo que puede ser un problema para algunos algoritmos (por ejemplo, las redes neuronales a menudo esperan un valor de entrada que va de 0 a 1).

Sin embargo, la estandarización se ve mucho menos afectada por los valores atípicos.

Por ejemplo, suponga que un distrito tiene un ingreso medio igual a 100 (por error).

El escalado mínimo-máximo aplastaría todos los demás valores de 0 a 15 hasta 0 a $0.15$, mientras que la estandarización no se vería muy afectada.

`Scikit-Learn` proporciona un transformador llamado `StandardScaler` para la estandarización.

### ADVERTENCIA  

Al igual que con todas las transformaciones, es importante ajustar los escaladores solo a los datos de entrenamiento, no al conjunto de datos completo (incluido el conjunto de prueba). 

Solo entonces puedes usarlos para transformar el conjunto de entrenamiento y conjunto de prueba (y nuevos datos).

## Transformation Pipelines

Como puede ver, hay muchos pasos de transformación de datos que deben ejecutarse en el orden correcto.

Afortunadamente, `Scikit-Learn` proporciona la clase Pipeline para ayudar con tales secuencias de transformaciones.

In [5]:
pip install numpy

Collecting numpy
  Downloading numpy-1.22.0-cp310-cp310-win_amd64.whl (14.7 MB)
Installing collected packages: numpy
Successfully installed numpy-1.22.0
Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'C:\Users\Usuario\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip' command.


In [7]:
pip install pandas 

Collecting pandas
  Downloading pandas-1.3.5-cp310-cp310-win_amd64.whl (10.2 MB)
Collecting pytz>=2017.3
  Downloading pytz-2021.3-py2.py3-none-any.whl (503 kB)
Installing collected packages: pytz, pandas
Successfully installed pandas-1.3.5 pytz-2021.3
Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'C:\Users\Usuario\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip' command.


In [8]:
import numpy as np 
import pandas as pd 

In [9]:
url = 'https://raw.githubusercontent.com/marco-canas/taca/main/datasets/housing/housing.csv'
housing = pd.read_csv(url)

In [16]:
from sklearn.model_selection import train_test_split
train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)

In [18]:
housing["income_cat"] = pd.cut(housing["median_income"],
bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
labels=[1, 2, 3, 4, 5])

In [19]:
from sklearn.model_selection import StratifiedShuffleSplit


In [21]:
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

In [22]:
for set_ in (strat_train_set, strat_test_set):
    set_.drop("income_cat", axis=1, inplace=True)

In [23]:
housing = strat_train_set.copy()

## Visualización de datos geográficos

In [None]:
housing.plot(kind="scatter", x="longitude", y="latitude")


In [None]:
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)


In [None]:
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
s=housing["population"]/100, label="population", figsize=(10,7),
c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,
)
plt.legend()

## Looking for correlations 

In [None]:
corr_matrix = housing.corr()


In [1]:
corr_matrix["median_house_value"].sort_values(ascending=False)


NameError: name 'corr_matrix' is not defined

In [None]:
from pandas.plotting import scatter_matrix
attributes = ["median_house_value", "median_income", "total_rooms",
"housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8))

In [None]:
housing.plot(kind="scatter", x="median_income", y="median_house_value",
alpha=0.1)


In [None]:
housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"]=housing["population"]/housing["households"]


In [None]:
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)


## Prepare the Data for Machine Learning Algorithms

In [None]:
housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"].copy()

### Data Cleaning


In [None]:
housing.dropna(subset=["total_bedrooms"]) # option 1
housing.drop("total_bedrooms", axis=1) # option 2
median = housing["total_bedrooms"].median() # option 3
housing["total_bedrooms"].fillna(median, inplace=True)

In [None]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy="median")

In [None]:
housing_num = housing.drop("ocean_proximity", axis=1)

In [None]:
imputer.fit(housing_num)


In [None]:
imputer.statistics_


In [None]:
housing_num.median().values

In [None]:
X = imputer.transform(housing_num)

In [None]:
housing_tr = pd.DataFrame(X, columns=housing_num.columns,
index=housing_num.index)


### Handling Text and Categorical Attributes

In [None]:
housing_cat = housing[["ocean_proximity"]]
housing_cat.head(10)


In [None]:
from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder = OrdinalEncoder()
housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)
housing_cat_encoded[:10]


In [None]:
ordinal_encoder.categories_


In [None]:
from sklearn.preprocessing import OneHotEncoder
cat_encoder = OneHotEncoder()
housing_cat_1hot = cat_encoder.fit_transform(housing_cat)
housing_cat_1hot


In [None]:
housing_cat_1hot.toarray()


In [None]:
cat_encoder.categories_


### Custom Transformers

In [12]:
pip install sklearn 

Collecting sklearnNote: you may need to restart the kernel to use updated packages.
  Using cached sklearn-0.0.tar.gz (1.1 kB)
Collecting scikit-learn
  Downloading scikit_learn-1.0.2-cp310-cp310-win_amd64.whl (7.2 MB)
Collecting joblib>=0.11
  Downloading joblib-1.1.0-py2.py3-none-any.whl (306 kB)
Collecting scipy>=1.1.0
  Downloading scipy-1.7.3-cp310-cp310-win_amd64.whl (34.3 MB)
Collecting threadpoolctl>=2.0.0
  Downloading threadpoolctl-3.0.0-py3-none-any.whl (14 kB)
Using legacy 'setup.py install' for sklearn, since package 'wheel' is not installed.
Installing collected packages: threadpoolctl, scipy, joblib, scikit-learn, sklearn


You should consider upgrading via the 'C:\Users\Usuario\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip' command.



    Running setup.py install for sklearn: started
    Running setup.py install for sklearn: finished with status 'done'
Successfully installed joblib-1.1.0 scikit-learn-1.0.2 scipy-1.7.3 sklearn-0.0 threadpoolctl-3.0.0


In [14]:
from sklearn.base import BaseEstimator, TransformerMixin
rooms_ix, bedrooms_ix, population_ix, households_ix = 3, 4, 5, 6 # le damos nombre a las columnas
class CombinedAttributesAdder(BaseEstimator, TransformerMixin): # adición de atributos combinados 
    def __init__(self, add_bedrooms_per_room = True): # no *args or **kargs
        self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
        return self # nothing else to do
    def transform(self, X, y=None):
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]
        
attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.values)

Aquí hay una pequeña canalización para los atributos numéricos:

### Feature Scaling
#### Transformation Pipelines

In [15]:
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
num_pipeline = Pipeline([
                        ('imputer', SimpleImputer(strategy="median")),
                        ('attribs_adder', CombinedAttributesAdder()),
                        ('std_scaler', StandardScaler()),
                        ])
housing_num_tr = num_pipeline.fit_transform(housing_num)

NameError: name 'housing_num' is not defined

In [None]:
from sklearn.compose import ColumnTransformer
num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]
full_pipeline = ColumnTransformer([
("num", num_pipeline, num_attribs),
("cat", OneHotEncoder(), cat_attribs),
])
housing_prepared = full_pipeline.fit_transform(housing)