# PROCESAMIENTO DE DATOS CATEGÓRICOS

In [None]:
# Importar bibliotecas
import pandas as pd

# Cargar el DataSet
path_file = r'../DataSet/cars.csv'
df = pd.read_csv(path_file)
df.head()

In [None]:
# Visualizando el tipo de dato de cada columna
df.dtypes

In [19]:
# Datos únicos por columna
unique_engine_types = sorted(df['engine_type'].unique())
unique_year_produced = sorted(df['year_produced'].unique())
print(f'{unique_engine_types} \n {unique_year_produced}')

# Si se requiere un conteo de valores únicos, cambiar unique() por nunique() y retirar el método sorted()

['diesel', 'electric', 'gasoline'] 
 [1942, 1950, 1956, 1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019]


En **Pandas** se puede usar la función `get_dummies` pero es importante tener presente que, esta función realmente aplica el método **One-hot**.
En el siguiente ejemplo, se usará la columna "engine_type" que contiene 3 categorías, por ende, se crearán 3 columnas y cada fila será un vector con tres componentes, en donde el valor de 1 identifica la categoría que le corresponde.

Para mas información, consultar: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [None]:
# Usando la función get_dummies
pd.get_dummies(df['engine_type'])

Usando la biblioteca **Skit-lear**, sería de la siguiente forma:
* El argumento `handle_unknown='ignore'` lo que hace es asignar un vector de ceros cuando lleguen cateogorías no identificadas.

Para mas información, consultar: https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features

In [8]:
# Importar la biblioteca
import sklearn.preprocessing as preprocessing

# Crear un encoder para codificar las variables categóricas
encoder = preprocessing.OneHotEncoder(handle_unknown='ignore')

# Ajustar el encoder a las categorías del DataSet
encoder.fit(df[['engine_type']].values)

In [9]:
# Transformando las cateogorías
encoder.transform([['gasoline'], ['diesel'], ['aceite']]).toarray()

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])

También es posible y viable usar el método **One-hot** para variables numéricas, por ejemplo:

In [20]:
encoder.fit(df[['year_produced']].values)
encoder.transform([[2016],[2009],[90]]).toarray()

# Como no existe el año 90, entonces genera un vector de ceros.

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])