In [1]:
# Load Libraries
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import pandas as pd 

from sklearn.model_selection import train_test_split
from scipy import stats

from multiprocessing import cpu_count

# Eliminar Variables Constantes

Las variables constantes no contienen información útil cuando se intenta predecir o extraer patrones de los datos. Estas variables deben eliminarse para reducir los costes computacionales y de memoria, así como para ayudar al modelo a centrarse en las variables relevantes.

## Load Data

In [2]:
dat = pd.read_csv("../../datasets/i2.csv", sep = ";")
dat.head()

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant,airline
0,user5,01/11/2018,MAD,,online,,i2
1,user7,01/11/2018,DUB,147.5,online,38.0,i2
2,user4,02/11/2018,TFS,24.049999,online,19.0,i2
3,user8,29/10/2018,MAD,59.709999,online,8.0,i2
4,user7,01/11/2018,,37.299999,call center,4.0,i2


## Detectar Variables Constantes

Vamos a contar el número de valores únicos (distintos) de cada variable del conjunto de datos.

In [3]:
dat.apply(lambda x: len(x.unique()))

user               10
booking_date        6
origin_airport     53
price             391
sales channel       3
ant                97
airline             1
dtype: int64

airline solo tiene un valor. Esto significa que es una variable constante.

De forma más general, podemos detectar variables constantes en un conjunto de datos haciendo esto:

In [4]:
dat.columns.values

array(['user', 'booking_date', 'origin_airport', 'price', 'sales channel',
       'ant', 'airline'], dtype=object)

In [5]:
dat.apply(lambda x: len(x.unique())) == 1

user              False
booking_date      False
origin_airport    False
price             False
sales channel     False
ant               False
airline            True
dtype: bool

In [6]:
constant_variables = dat.columns.values[dat.apply(lambda x: len(x.unique())) == 1].tolist()
constant_variables

['airline']

## Eliminar Variables Constantes

Utilicemos la lista calculada anteriormente con nombres de columnas constantes para eliminar estas variables de nuestro conjunto de datos.

In [7]:
new_dat = dat.drop(constant_variables, axis = 1)
new_dat

Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant
0,user5,01/11/2018,MAD,,online,
1,user7,01/11/2018,DUB,147.500000,online,38.0
2,user4,02/11/2018,TFS,24.049999,online,19.0
3,user8,29/10/2018,MAD,59.709999,online,8.0
4,user7,01/11/2018,,37.299999,call center,4.0
...,...,...,...,...,...,...
995,user2,01/11/2018,JMK,,online,29.0
996,user10,01/11/2018,SVQ,,online,39.0
997,user4,30/10/2018,MAD,,online,5.0
998,user10,02/11/2018,CDG,,online,4.0


## Definir Función

Vamos a crear nuestra propia función personalizada para eliminar variables constantes.

In [12]:
def remove_constant(X):
    constant_variables = X.columns.values[X.apply(lambda x: len(x.unique())) == 1].tolist()
    X = X.drop(constant_variables, axis = 1)
    print('Variables ' + str(constant_variables) + ' have been removed from dataset.')
    return X;
                                    
                                                                                        

In [13]:
new_dat = remove_constant(dat)
new_dat.head()

Variables ['airline'] have been removed from dataset.


Unnamed: 0,user,booking_date,origin_airport,price,sales channel,ant
0,user5,01/11/2018,MAD,,online,
1,user7,01/11/2018,DUB,147.5,online,38.0
2,user4,02/11/2018,TFS,24.049999,online,19.0
3,user8,29/10/2018,MAD,59.709999,online,8.0
4,user7,01/11/2018,,37.299999,call center,4.0
