# Test de Chi-cuadrado (X-cuadrado) para selección de características

### Cargar librerías

In [1]:
import numpy as np
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.preprocessing import LabelEncoder


### Cargar datos

In [2]:
# Crearemos dos características categóricas y una variable objetivo binaria

X = np.array([['bajo','soltero'],
              ['medio','casado'],
              ['alto','soltero'],
              ['medio','divorciado'],
              ['bajo','casado'],
              ['alto','divorciado'],
              ['medio','soltero'],
              ['bajo','casado'],
              ['alto','soltero']])

# variable objetivo (target)
y = np.array([0,1,0,1,0,1,0,1,0])

In [3]:
# Codificar las características categóricas
label_encoder = LabelEncoder()
X_codificado = np.array([label_encoder.fit_transform(caracteristica) 
                         for caracteristica in X.T]).T

In [4]:
X_codificado

array([[1, 2],
       [2, 0],
       [0, 2],
       [2, 1],
       [1, 0],
       [0, 1],
       [2, 2],
       [1, 0],
       [0, 2]], dtype=int64)

### Aplicar Chi-cuadrado para selección de características

In [5]:
# Seleccionar las k mejores características
selector_chi2 = SelectKBest(chi2,k=1)
X_kMejores = selector_chi2.fit_transform(X_codificado,y)

print("Número original de características:",X_codificado.shape[1])
print("Número reducido de características:",X_kMejores.shape[1])

Número original de características: 2
Número reducido de características: 1


In [6]:
print(X_kMejores)

[[2]
 [0]
 [2]
 [1]
 [0]
 [1]
 [2]
 [0]
 [2]]


In [8]:
# Obtener los puntajes de las características
scores = selector_chi2.scores_

# Mostrar los puntajes
print("Puntajes de todas las características:", scores)

# Mostrar qué características fueron seleccionadas
print("Características seleccionadas:", selector_chi2.get_support())

Puntajes de todas las características: [0.45 2.42]
Características seleccionadas: [False  True]
