In [None]:
### 2. **Selección de Características**
   - **Utilidad:** Este grupo de métodos se utiliza para seleccionar un subconjunto de características relevantes que pueden mejorar el rendimiento y la interpretabilidad del modelo al reducir la dimensionalidad.
   - **Funciones comunes:**
     - **SelectKBest:** Seleccionar las mejores características basadas en una función de puntuación.
     - **RFE (Recursive Feature Elimination):** Selección recursiva de características para eliminar las menos importantes.
     - **PCA (Principal Component Analysis):** Reducción de dimensionalidad utilizando componentes principales.
     - **VarianceThreshold:** Seleccionar características basadas en un umbral de varianza.

In [None]:
## Carga de datos y preparación
Importamos el dataset Iris y las bibliotecas necesarias. X contiene las características y y las etiquetas

In [5]:
from sklearn.datasets import load_iris
import pandas as pd

# Load the dataset
data = load_iris()
X = data.data
y = data.target

In [None]:
## SelectKBest
Seleccionamos las 2 mejores características según la prueba chi-cuadrado.

In [6]:
from sklearn.feature_selection import SelectKBest, chi2

# Initialize SelectKBest to select the top 2 features
selector = SelectKBest(score_func=chi2, k=2)

# Fit and transform the data
X_new = selector.fit_transform(X, y)

# Create a DataFrame for better visualization
df_new = pd.DataFrame(X_new, columns=['Feature1', 'Feature2'])

print("SelectKBest:")
print(df_new.head())


SelectKBest:
   Feature1  Feature2
0       1.4       0.2
1       1.4       0.2
2       1.3       0.2
3       1.5       0.2
4       1.4       0.2


In [None]:
## RFE (Recursive Feature Elimination)
Eliminación recursiva de características para seleccionar las 2 mejores características utilizando regresión logística.

In [7]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# Initialize the model
model = LogisticRegression(max_iter=200)

# Initialize RFE to select the top 2 features
rfe = RFE(estimator=model, n_features_to_select=2)

# Fit and transform the data
X_rfe = rfe.fit_transform(X, y)

# Create a DataFrame for better visualization
df_rfe = pd.DataFrame(X_rfe, columns=['Feature1', 'Feature2'])

print("RFE:")
print(df_rfe.head())

RFE:
   Feature1  Feature2
0       1.4       0.2
1       1.4       0.2
2       1.3       0.2
3       1.5       0.2
4       1.4       0.2


In [None]:
## PCA (Principal Component Analysis)
Reducción de dimensionalidad utilizando análisis de componentes principales para obtener 2 componentes principales.

In [3]:
from sklearn.decomposition import PCA

# Initialize PCA to reduce to 2 components
pca = PCA(n_components=2)

# Fit and transform the data
X_pca = pca.fit_transform(X)

# Create a DataFrame for better visualization
df_pca = pd.DataFrame(X_pca, columns=['Principal Component 1', 'Principal Component 2'])

print("PCA:")
print(df_pca.head())

PCA:
   Principal Component 1  Principal Component 2
0              -2.684126               0.319397
1              -2.714142              -0.177001
2              -2.888991              -0.144949
3              -2.745343              -0.318299
4              -2.728717               0.326755


## VarianceThreshold
Seleccionamos características según un umbral de varianza de 0.2.

In [4]:
from sklearn.feature_selection import VarianceThreshold

# Initialize VarianceThreshold with a threshold of 0.2
selector = VarianceThreshold(threshold=0.2)

# Fit and transform the data
X_variance = selector.fit_transform(X)

# Create a DataFrame for better visualization
df_variance = pd.DataFrame(X_variance, columns=['Feature1', 'Feature2', 'Feature3'])

print("VarianceThreshold:")
print(df_variance.head())

VarianceThreshold:
   Feature1  Feature2  Feature3
0       5.1       1.4       0.2
1       4.9       1.4       0.2
2       4.7       1.3       0.2
3       4.6       1.5       0.2
4       5.0       1.4       0.2
