## Selección de Características

***
BASADO EN: https://www.kaggle.com/code/mojtylor/feature-selection-for-beginners
***

Métodos de selección de características:

Veremos 3 técnicas de selección de características que son fáciles de usar y también dan buenos resultados.
1. Selección univariada
2. Importancia de las características
3. Matriz de correlación con mapa de calor

### **1. Selección Univariante**

Las pruebas estadísticas se pueden utilizar para seleccionar aquellas características que tienen la relación más fuerte con la variable de salida.

La biblioteca scikit-learn proporciona la clase SelectKBest que se puede usar con un conjunto de diferentes pruebas estadísticas para seleccionar una cantidad específica de funciones.

El siguiente ejemplo utiliza la prueba estadística chi-cuadrado (chi²) para características no negativas, y busca seleccionar 10 de las mejores características del conjunto de datos de predicción de rango de precios móviles.

In [2]:
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
data = pd.read_csv("train.csv")
X = data.iloc[:,0:20]  #independent columns
y = data.iloc[:,-1]    #target column i.e price range


In [3]:
data.head()

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range
0,842,0,2.2,0,1,0,7,0.6,188,2,...,20,756,2549,9,7,19,0,0,1,1
1,1021,1,0.5,1,0,1,53,0.7,136,3,...,905,1988,2631,17,3,7,1,1,0,2
2,563,1,0.5,1,2,1,41,0.9,145,5,...,1263,1716,2603,11,2,9,1,1,0,2
3,615,1,2.5,0,0,0,10,0.8,131,6,...,1216,1786,2769,16,8,11,1,0,0,2
4,1821,1,1.2,0,13,1,44,0.6,141,2,...,1208,1212,1411,8,2,15,1,1,0,1


In [4]:
data.shape

(2000, 21)

In [5]:
# apply SelectKBest class to extract top 10 best features
bestfeatures = SelectKBest(score_func=chi2 , k=10)
fit = bestfeatures.fit(X, y )

In [6]:
dfscores = pd.DataFrame(fit.scores_)
dfcolumns = pd.DataFrame(X.columns)

In [7]:
# concatenate two dataframes for better visualizaton
featureScores = pd.concat([dfcolumns , dfscores] ,axis=1)
featureScores.columns = ['Specs','Score']  #naming the dataframe columns

In [8]:
featureScores

Unnamed: 0,Specs,Score
0,battery_power,14129.866576
1,blue,0.723232
2,clock_speed,0.648366
3,dual_sim,0.631011
4,fc,10.135166
5,four_g,1.521572
6,int_memory,89.839124
7,m_dep,0.74582
8,mobile_wt,95.972863
9,n_cores,9.097556


In [9]:
featureScores.nlargest(10 , 'Score')

Unnamed: 0,Specs,Score
13,ram,931267.519053
11,px_height,17363.569536
0,battery_power,14129.866576
12,px_width,9810.58675
8,mobile_wt,95.972863
6,int_memory,89.839124
15,sc_w,16.480319
16,talk_time,13.2364
4,fc,10.135166
14,sc_h,9.614878



### **2. Importancia de las características**
Puede obtener la importancia de cada característica de su conjunto de datos utilizando la propiedad de importancia de la característica del modelo.

La importancia le da una puntuación para cada característica de sus datos, cuanto mayor sea la puntuación, más importante o relevante es la característica para su variable de salida.

La importancia de las características es una clase incorporada que viene con los clasificadores basados en árboles. Usaremos el clasificador de árboles extra para extraer las 10 características principales para el conjunto de datos.

In [10]:
from sklearn.ensemble import ExtraTreesClassifier
import matplotlib.pyplot as plt
model = ExtraTreesClassifier()
model.fit(X,y)

In [None]:
print(model.feature_importances_) #use inbuilt class feature_importances of tree based classifiers

In [None]:
#plot graph of feature importances for better visualization
feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(10).plot(kind='barh')
plt.show()

### **3.Matriz de correlación con mapa de calor**
La correlación establece cómo se relacionan las características entre sí o con la variable de destino.

La correlación puede ser positiva (el aumento de un valor de la función aumenta el valor de la variable objetivo) o negativa (el aumento de un valor de la función, disminuye el valor de la variable objetivo)

El mapa de calor facilita la identificación de las características que están más relacionadas con la variable de destino. Trazaremos un mapa de calor de las características correlacionadas utilizando la biblioteca Seaborn.

In [None]:
import seaborn as sns
#get correlations of each features in dataset
corrmat = data.corr()
top_corr_features = corrmat.index
plt.figure(figsize=(20,20))
#plot heat map
g=sns.heatmap(data[top_corr_features].corr(),annot=True,cmap="RdYlGn")

***
EJERCICIO: use el siguiente código para implementar el METODO DE FILTRO, con el fin de seleccionar las mejores características.
***

In [None]:

def handling_correlation(df,threshold=0.8):

    # creating set to hold the correlated features

    corr_features = set()

    # create the correlation matrix (default to pearson)

    corr_matrix = df.corr()

    #code for selecting all correleated features

    for i in range(len(corr_matrix .columns)):

        for j in range(i):

            if abs(corr_matrix.iloc[i, j]) >threshold:

                colname = corr_matrix.columns[i]

                corr_features.add(colname)

    return list(corr_features)