# Actividad Notebook Processing
## Tema seleccionado: Extracción de características

## Feature Engineering Techniques
Fuente: <a scr="https://towardsdatascience.com/feature-engineering-techniques-bab6cb39ed7e">Clic Aqui</a>
<br>
<br>
<img src="./img/notebookimage.png">

Feature engenieering (Ingeniería de características en español) es uno de los pasos claves en el desarrollo de modelo de machine learning. Esto implica cualquiera de los procesos de selección, agregación o extracción de características a partir de datos brutos con el objetivo de asignar los datos brutos a características de aprendizaje automático. 

Para este ejemplo usaremos él datase <a src="hhttps://www.kaggle.com/datasets/lespin/house-prices-dataset">House Prices dataset</a>.

Librerías que se utilizaran:

In [2]:
#pip install pandas
#pip install sklearn
import pandas as pd

### Creando un DataFrame

In [3]:
dataframe = pd.read_csv(r"../dataset/House Prices dataset/test.csv")
dataframe

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1461,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,...,120,0,,MnPrv,,0,6,2010,WD,Normal
1,1462,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,...,0,0,,,Gar2,12500,6,2010,WD,Normal
2,1463,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,...,0,0,,MnPrv,,0,3,2010,WD,Normal
3,1464,60,RL,78.0,9978,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,6,2010,WD,Normal
4,1465,120,RL,43.0,5005,Pave,,IR1,HLS,AllPub,...,144,0,,,,0,1,2010,WD,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1454,2915,160,RM,21.0,1936,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,6,2006,WD,Normal
1455,2916,160,RM,21.0,1894,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,4,2006,WD,Abnorml
1456,2917,20,RL,160.0,20000,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,9,2006,WD,Abnorml
1457,2918,85,RL,62.0,10441,Pave,,Reg,Lvl,AllPub,...,0,0,,MnPrv,Shed,700,7,2006,WD,Normal


## Tipo de proceso en ingeniería de características

El tipo de proceso que a un dato depende de su tipo, existen datos numéricos y no numéricos como los dos tipos de datos más básicos que pueden presentarse en un dato bruto. Estos pueden subdividirse en tipos de datos discretos, continuos, categóricos, de texto, de imagen y temporales.

Este Notebook se centra en la ingeniería de características de datos *numéricos, categóricos y de texto*. También se estudian formas de tratar los datos que faltan y de derivar nuevas características para mejorar el rendimiento del modelo.

Las columnas numéricas y no numéricas de un dato que se ha leído en un dataframe de Pandas se pueden diferenciar según los tipos de datos de sus columnas así:

In [4]:
numerical_cols = dataframe.loc[:, dataframe.dtypes != object].columns
nonNumerical_cols = dataframe.loc[:, dataframe.dtypes == object].columns

### Trabajando con Datos numéricos

In [5]:
numerical_cols

Index(['Id', 'MSSubClass', 'LotFrontage', 'LotArea', 'OverallQual',
       'OverallCond', 'YearBuilt', 'YearRemodAdd', 'MasVnrArea', 'BsmtFinSF1',
       'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd',
       'Fireplaces', 'GarageYrBlt', 'GarageCars', 'GarageArea', 'WoodDeckSF',
       'OpenPorchSF', 'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea',
       'MiscVal', 'MoSold', 'YrSold'],
      dtype='object')

Los datos numéricos son un término general para los datos de características que contienen valores numéricos que pueden disponerse en un orden lógico. A menudo es más fácil trabajar con características numéricas en el aprendizaje automático, ya que los formatos de datos numéricos (enteros, flotantes, etc.) son digeribles por los algoritmos de aprendizaje automático.

In [6]:
scaler_df = dataframe[numerical_cols[13:23]]
scaler_df

Unnamed: 0,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr
0,896,0,0,896,0.0,0.0,1,0,2,1
1,1329,0,0,1329,0.0,0.0,1,1,3,1
2,928,701,0,1629,0.0,0.0,2,1,3,1
3,926,678,0,1604,0.0,0.0,2,1,3,1
4,1280,0,0,1280,0.0,0.0,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...
1454,546,546,0,1092,0.0,0.0,1,1,3,1
1455,546,546,0,1092,0.0,0.0,1,1,3,1
1456,1224,0,0,1224,1.0,0.0,1,0,4,1
1457,970,0,0,970,0.0,1.0,1,0,3,1


Los valores numéricos de un dato bruto suelen expresarse en diferentes escalas. Un ejemplo de esto son algunas columnas como "FullBath" y "HalfBath" que tienen escalas menores a 10 mientras que columnas como "1stFlrSF" y "2ndFlrSF" tienen escalas más altas menores a 1000. 

Una buena práctica es estandarizar las escalas de los datos para evitar que los algoritmos de aprendizaje automático asignen más peso a las características con mayor escala. Esto puede realizarse utilizando los métodos *MinMaxScaler y StandardScaler* de la librería *Sklearn*.

In [7]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

#### *MinMaxScaler*
Escala todos los datos numéricos en un rango de 0 a 1.

In [8]:
scaler = MinMaxScaler()
pd.DataFrame(scaler.fit_transform(scaler_df), columns=scaler_df.columns)

Unnamed: 0,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr
0,0.104309,0.000000,0.0,0.104309,0.000000,0.0,0.25,0.0,0.333333,0.5
1,0.196672,0.000000,0.0,0.196672,0.000000,0.0,0.25,0.5,0.500000,0.5
2,0.111135,0.376477,0.0,0.260666,0.000000,0.0,0.50,0.5,0.500000,0.5
3,0.110708,0.364125,0.0,0.255333,0.000000,0.0,0.50,0.5,0.500000,0.5
4,0.186220,0.000000,0.0,0.186220,0.000000,0.0,0.50,0.0,0.333333,0.5
...,...,...,...,...,...,...,...,...,...,...
1454,0.029650,0.293233,0.0,0.146118,0.000000,0.0,0.25,0.5,0.500000,0.5
1455,0.029650,0.293233,0.0,0.146118,0.000000,0.0,0.25,0.5,0.500000,0.5
1456,0.174275,0.000000,0.0,0.174275,0.333333,0.0,0.25,0.0,0.666667,0.5
1457,0.120094,0.000000,0.0,0.120094,0.000000,0.5,0.25,0.0,0.500000,0.5


#### *StandardScaler*
Escala todos los datos numéricos para que tengan una varianza unitaria y una media de 0.

In [9]:
scaler = StandardScaler()
pd.DataFrame(scaler.fit_transform(scaler_df), columns=scaler_df.columns)

Unnamed: 0,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr
0,-0.654561,-0.775254,-0.080483,-1.215588,-0.819006,-0.258349,-1.028720,-0.751040,-1.029543,-0.20391
1,0.433298,-0.775254,-0.080483,-0.323539,-0.819006,-0.258349,-1.028720,1.237648,0.175997,-0.20391
2,-0.574165,0.891944,-0.080483,0.294508,-0.819006,-0.258349,0.773083,1.237648,0.175997,-0.20391
3,-0.579190,0.837243,-0.080483,0.243004,-0.819006,-0.258349,0.773083,1.237648,0.175997,-0.20391
4,0.310192,-0.775254,-0.080483,-0.424487,-0.819006,-0.258349,0.773083,-0.751040,-1.029543,-0.20391
...,...,...,...,...,...,...,...,...,...,...
1454,-1.533893,0.523306,-0.080483,-0.811797,-0.819006,-0.258349,-1.028720,1.237648,0.175997,-0.20391
1455,-1.533893,0.523306,-0.080483,-0.811797,-0.819006,-0.258349,-1.028720,1.237648,0.175997,-0.20391
1456,0.169499,-0.775254,-0.080483,-0.539856,1.066131,-0.258349,-1.028720,-0.751040,1.381537,-0.20391
1457,-0.468645,-0.775254,-0.080483,-1.063136,-0.819006,3.703905,-1.028720,-0.751040,0.175997,-0.20391


### Trabajando con *NO* Datos numericos

In [10]:
nonNumerical_cols

Index(['MSZoning', 'Street', 'Alley', 'LotShape', 'LandContour', 'Utilities',
       'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2',
       'BldgType', 'HouseStyle', 'RoofStyle', 'RoofMatl', 'Exterior1st',
       'Exterior2nd', 'MasVnrType', 'ExterQual', 'ExterCond', 'Foundation',
       'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2',
       'Heating', 'HeatingQC', 'CentralAir', 'Electrical', 'KitchenQual',
       'Functional', 'FireplaceQu', 'GarageType', 'GarageFinish', 'GarageQual',
       'GarageCond', 'PavedDrive', 'PoolQC', 'Fence', 'MiscFeature',
       'SaleType', 'SaleCondition'],
      dtype='object')

Los datos no numéricos incluyen datos categóricos y de texto que a menudo se codifican en números antes de introducirlos en los modelos de aprendizaje automático. Los datos categóricos pueden expresarse a veces como números, pero no deben confundirse con los datos numéricos, ya que muestran la relación entre las distintas clases de un dato.

In [11]:
some_nonum_cols = dataframe[nonNumerical_cols[6:13]]
some_nonum_cols

Unnamed: 0,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle
0,Inside,Gtl,NAmes,Feedr,Norm,1Fam,1Story
1,Corner,Gtl,NAmes,Norm,Norm,1Fam,1Story
2,Inside,Gtl,Gilbert,Norm,Norm,1Fam,2Story
3,Inside,Gtl,Gilbert,Norm,Norm,1Fam,2Story
4,Inside,Gtl,StoneBr,Norm,Norm,TwnhsE,1Story
...,...,...,...,...,...,...,...
1454,Inside,Gtl,MeadowV,Norm,Norm,Twnhs,2Story
1455,Inside,Gtl,MeadowV,Norm,Norm,TwnhsE,2Story
1456,Inside,Gtl,Mitchel,Norm,Norm,1Fam,1Story
1457,Inside,Gtl,Mitchel,Norm,Norm,1Fam,SFoyer


Para que un algoritmo de aprendizaje automático pueda entender la información de datos categóricos, a veces es necesario representar estas categorías con números. Sin embargo no podemos asignar números consecutivos porque es posible que el algoritmo cree una relación matemática entre las características. 

Por ejemplo si tuviéramos tres colores (rojo, verde y azul) y les asignamos un valor numérico (rojo=1, verde=2, azul=3). El algoritmo puede generar una relación matemática como que el número 3 es el triple que 1, pero no tendría sentido, ya que azul no es el triple de rojo.

Resulta más óptimo codificar las características en el DataFrame, de tal manera que la presencia de una categoría en un punto de datos se denota con uno (1), mientras que la ausencia se denota con cero (0). Esto se puede hacer fácilmente utilizando *oneHotEncoder* de *Scikit Learn*.

In [19]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()
pd.DataFrame(encoder.fit_transform(some_nonum_cols).toarray())


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,49,50,51,52,53,54,55,56,57,58
0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
1,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
3,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
4,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1454,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1455,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1456,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
1457,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0


Como se puede observar en el ejemplo anterior, pasamos de tener 7 columnas con datos categóricos a un DataFrame de 50 columnas con un valor binario para representar de forma numérica la categorización de cada columna de las 7 anteriores.

#### Datos de texto

Para los datos de texto, es necesario representarlos como valores numéricos que son reconocidos por los algoritmos de aprendizaje automático mediante un proceso conocido como vectorización. Algunas técnicas habituales de vectorización de textos son el recuento de palabras, la frecuencia de términos-frecuencia inversa de documentos (TF-IDF) y la incrustación de palabras.

El recuento de palabras es una sencilla técnica de vectorización que consiste en representar datos de texto como valores numéricos en función de la frecuencia con que aparecen en los datos. Consideremos, por ejemplo, una lista de textos:

In [21]:
text_data = ['Today is a good day for battle',
             'Battle of good against evil',
            'For the day after today is Monday',
            'Monday is a good day for good']

Para vectorizar los datos de texto anteriores mediante la técnica de recuento de palabras, se forma una matriz dispersa registrando el número de veces que aparece cada palabra en los datos de texto. Esto se puede lograr utilizando *CountVectorizer* de Scikit Learn.

In [22]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

vectorizer = CountVectorizer()
text_features = vectorizer.fit_transform(text_data)
pd.DataFrame(text_features.toarray(), columns=vectorizer.get_feature_names_out())

Unnamed: 0,after,against,battle,day,evil,for,good,is,monday,of,the,today
0,0,0,1,1,0,1,1,1,0,0,0,1
1,0,1,1,0,1,0,1,0,0,1,0,0
2,1,0,0,1,0,1,0,1,1,0,1,1
3,0,0,0,1,0,1,2,1,1,0,0,0


In [23]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
text_features = vectorizer.fit_transform(text_data)
pd.DataFrame(text_features.toarray(), columns=vectorizer.get_feature_names_out())

Unnamed: 0,after,against,battle,day,evil,for,good,is,monday,of,the,today
0,0.0,0.0,0.465156,0.376584,0.0,0.376584,0.376584,0.376584,0.0,0.0,0.0,0.465156
1,0.0,0.498197,0.392784,0.0,0.498197,0.0,0.317993,0.0,0.0,0.498197,0.0,0.0
2,0.473226,0.0,0.0,0.302054,0.0,0.302054,0.0,0.302054,0.373097,0.0,0.473226,0.373097
3,0.0,0.0,0.0,0.342479,0.0,0.342479,0.684959,0.342479,0.42303,0.0,0.0,0.0


Un aspecto importante del enfoque TF-IDF es que asigna puntuaciones bajas a las palabras que son abundantes o raras en los datos de texto, ya que asume que son menos importantes a la hora de encontrar patrones en los datos. Esto suele ser útil para construir modelos eficientes, ya que las palabras comunes como "el", "es", "son", "de" y las palabras raras suelen ser de poca o ninguna ayuda en el reconocimiento de patrones en tiempo real en datos de texto. 

El resultado muestra que los datos de texto se vectorizan según los valores TF-IDF de las palabras y pueden introducirse en algoritmos de aprendizaje. La desventaja del método TD-IDF es que no tiene en cuenta las palabras que comparten significados similares, como ocurre con la incrustación de palabras.

### Sumary || Resumen

La ingeniería de características consiste en convertir los datos brutos en características de aprendizaje automático. Los procesos habituales de ingeniería de características incluyen el escalado de datos numéricos, la codificación de etiquetas o de un solo punto de datos categóricos, la vectorización de datos de texto, la derivación de nuevas características y la gestión de datos que faltan. Una ingeniería de características adecuada ayuda a que los datos brutos sean adecuados para su incorporación a los modelos de aprendizaje automático y mejora el rendimiento de dichos modelos.