# Procesamiento del conjunto de datos

En el fichero Jupyter anterior hemos visto, de manera superficial, las diferentes distribuciones y relaciones que existen en el conjunto de datos que registra informacion de las diferentes familias de champiñones. 

Una vez analizado el conjunto de datos inicial, podemos preparar el segundo conjunto de datos para la posterior modelización del dataset. En este notebook, nos encargaremos de preparar estos datos para darselos al modelo final.

# Importar las librerías necesarias

La siguiente celda reuna las importaciones de todas las librerías, clases y métodos que se utilizan en este Jupyter Notebook.

In [1]:
# Librerías de análisis y manipulación de datos
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Librerías de visualización de datos
import matplotlib.pyplot as plt
import seaborn as sns

# Otros
import os
import json
import warnings

warnings.filterwarnings(action = "ignore")

---

<br>
<br>

# Cargando el conjunto de datos

El conjunto de datos se divide, en este caso, en dos ficheros .csv diferentes:

* **primary_data.csv** . Contiene información sobre cada una de las especies de champiñones sobre la que se tiene información.
* **secondary_data.csv** . Contiene 61069 registros de hipotéticos champiñones, registrando un total de 353 instancias para cada una de las 173 especies que se registran en el fichero "primary_data.csv".

Como se ha mencionado antes, voy a cargar directamente el segundo dataset, y lo procesaré teniendo en mente la modelización del conjunto de datos.

In [2]:
## Cargo el conjunto de datos del fichero "secondary_data.csv" en memoria

# Ruta del fichero "primary_data.csv"
secondary_data_path = "../data/secondary_data.csv"

# Defino un objeto DataFrame que cargue en memoria el fichero .csv
secondary_data_df = pd.read_csv(secondary_data_path, sep= ";", low_memory = False)

# 10 primeros registros del DataFrame
secondary_data_df.head(10)

Unnamed: 0,class,cap-diameter,cap-shape,cap-surface,cap-color,does-bruise-or-bleed,gill-attachment,gill-spacing,gill-color,stem-height,...,stem-root,stem-surface,stem-color,veil-type,veil-color,has-ring,ring-type,spore-print-color,habitat,season
0,p,15.26,x,g,o,f,e,,w,16.95,...,s,y,w,u,w,t,g,,d,w
1,p,16.6,x,g,o,f,e,,w,17.99,...,s,y,w,u,w,t,g,,d,u
2,p,14.07,x,g,o,f,e,,w,17.8,...,s,y,w,u,w,t,g,,d,w
3,p,14.17,f,h,e,f,e,,w,15.77,...,s,y,w,u,w,t,p,,d,w
4,p,14.64,x,h,o,f,e,,w,16.53,...,s,y,w,u,w,t,p,,d,w
5,p,15.34,x,g,o,f,e,,w,17.84,...,s,y,w,u,w,t,p,,d,u
6,p,14.85,f,h,o,f,e,,w,17.71,...,s,y,w,u,w,t,g,,d,w
7,p,14.86,x,h,e,f,e,,w,17.03,...,s,y,w,u,w,t,p,,d,u
8,p,12.85,f,g,o,f,e,,w,17.27,...,s,y,w,u,w,t,p,,d,a
9,p,13.55,f,g,e,f,e,,w,16.04,...,s,y,w,u,w,t,p,,d,w


# Analizando el conjunto de datos

En las siguientes celdas trato de consultar información superficial del conjunto de datos, como son los tipos de datos para cada característica, y el registro de nulos.

In [3]:
secondary_data_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61069 entries, 0 to 61068
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   class                 61069 non-null  object 
 1   cap-diameter          61069 non-null  float64
 2   cap-shape             61069 non-null  object 
 3   cap-surface           46949 non-null  object 
 4   cap-color             61069 non-null  object 
 5   does-bruise-or-bleed  61069 non-null  object 
 6   gill-attachment       51185 non-null  object 
 7   gill-spacing          36006 non-null  object 
 8   gill-color            61069 non-null  object 
 9   stem-height           61069 non-null  float64
 10  stem-width            61069 non-null  float64
 11  stem-root             9531 non-null   object 
 12  stem-surface          22945 non-null  object 
 13  stem-color            61069 non-null  object 
 14  veil-type             3177 non-null   object 
 15  veil-color         

In [4]:
null_counter = secondary_data_df.isna().sum()
secondary_data_df_columns = secondary_data_df.columns

for column in secondary_data_df_columns:
    if secondary_data_df[column].isna().sum() == 0:
        continue
    nulls_on_column = secondary_data_df[column].isna().sum()
    print(f"Se registran {nulls_on_column} nulos para la columna '{column}' ({round(nulls_on_column/len(secondary_data_df)*100, 2)}% del total de especies)")

Se registran 14120 nulos para la columna 'cap-surface' (23.12% del total de especies)
Se registran 9884 nulos para la columna 'gill-attachment' (16.18% del total de especies)
Se registran 25063 nulos para la columna 'gill-spacing' (41.04% del total de especies)
Se registran 51538 nulos para la columna 'stem-root' (84.39% del total de especies)
Se registran 38124 nulos para la columna 'stem-surface' (62.43% del total de especies)
Se registran 57892 nulos para la columna 'veil-type' (94.8% del total de especies)
Se registran 53656 nulos para la columna 'veil-color' (87.86% del total de especies)
Se registran 2471 nulos para la columna 'ring-type' (4.05% del total de especies)
Se registran 54715 nulos para la columna 'spore-print-color' (89.6% del total de especies)


Si revisamos esta proporción de nulos, y la comparamos con el conjunto de datos del anterior fichero Jupyter, veremos que este dataset cuenta exactamente con la misma proporción de nulos. 

Teniendo esto en cuenta, se eliminarán estas características de este dataset también, puesto que al tratarse mayoritariamente de variables categóricas nominales, puede que procesos de imputación por RandomForest no sean los más adecuados.


***UPDATE***. A favor del número de instancias con las que cuenta el dataset, voy a mantener la columna "ring-type", pues es probable que aporte información útil al modelo al momento de clasificar las diferentes instancias.

In [5]:
# Elimino las columnas con registros nulos
ring_type_col = secondary_data_df['ring-type']
secondary_data_df.dropna(axis = 1, how = "any", inplace = True)

# Reviso nuevamente el registro de nulos para cada columna
secondary_data_df.isna().sum()

class                   0
cap-diameter            0
cap-shape               0
cap-color               0
does-bruise-or-bleed    0
gill-color              0
stem-height             0
stem-width              0
stem-color              0
has-ring                0
habitat                 0
season                  0
dtype: int64

In [6]:
# Agrego la columna "ring_type" al dataset
secondary_data_df['ring-type'] = ring_type_col

# Elimino aquellas instancias que registren nulos para esta característica
secondary_data_df.dropna(inplace = True)

# Reviso el registro de nulos en el dataframe
secondary_data_df.isna().sum()

class                   0
cap-diameter            0
cap-shape               0
cap-color               0
does-bruise-or-bleed    0
gill-color              0
stem-height             0
stem-width              0
stem-color              0
has-ring                0
habitat                 0
season                  0
ring-type               0
dtype: int64

In [7]:
# Consulto nuevamente el método .info()
secondary_data_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 58598 entries, 0 to 61068
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   class                 58598 non-null  object 
 1   cap-diameter          58598 non-null  float64
 2   cap-shape             58598 non-null  object 
 3   cap-color             58598 non-null  object 
 4   does-bruise-or-bleed  58598 non-null  object 
 5   gill-color            58598 non-null  object 
 6   stem-height           58598 non-null  float64
 7   stem-width            58598 non-null  float64
 8   stem-color            58598 non-null  object 
 9   has-ring              58598 non-null  object 
 10  habitat               58598 non-null  object 
 11  season                58598 non-null  object 
 12  ring-type             58598 non-null  object 
dtypes: float64(3), object(10)
memory usage: 6.3+ MB


---

<br>
<br>

## Procesamiento del dataset

El procesamiento a llevar a cabo es identico al que se realizo en el anterior fichero Jupyter, donde, para aquellas variables categoricas nominales, se asignaba una codificacion OneHot.
Por otro lado, las variables numericas seran estandarizadas a valores comprendidos en el rango [0, 1].

In [8]:
secondary_data_df.head()

Unnamed: 0,class,cap-diameter,cap-shape,cap-color,does-bruise-or-bleed,gill-color,stem-height,stem-width,stem-color,has-ring,habitat,season,ring-type
0,p,15.26,x,o,f,w,16.95,17.09,w,t,d,w,g
1,p,16.6,x,o,f,w,17.99,18.19,w,t,d,u,g
2,p,14.07,x,o,f,w,17.8,17.74,w,t,d,w,g
3,p,14.17,f,e,f,w,15.77,15.98,w,t,d,w,p
4,p,14.64,x,o,f,w,16.53,17.2,w,t,d,w,p


### Procesamiento de variables numericas

Como se ha dicho, las variables numericas seran procesadas con la clase MinMaxScaler de Scikit Learn.

In [9]:
## Instancio un objeto de la clase MinMaxScaler
scaler = MinMaxScaler()

# Estandarizo los valores de las variables numericas
secondary_data_df['cap-diameter'] = scaler.fit_transform(np.array(secondary_data_df['cap-diameter']).reshape(-1, 1))
secondary_data_df['stem-height'] = scaler.fit_transform(np.array(secondary_data_df['stem-height']).reshape(-1, 1))
secondary_data_df['stem-width'] = scaler.fit_transform(np.array(secondary_data_df['stem-width']).reshape(-1, 1))

In [10]:
secondary_data_df.head()

Unnamed: 0,class,cap-diameter,cap-shape,cap-color,does-bruise-or-bleed,gill-color,stem-height,stem-width,stem-color,has-ring,habitat,season,ring-type
0,p,0.240155,x,o,f,w,0.499705,0.164469,w,t,d,w,g
1,p,0.261782,x,o,f,w,0.530366,0.175055,w,t,d,u,g
2,p,0.220949,x,o,f,w,0.524764,0.170725,w,t,d,w,g
3,p,0.222563,f,e,f,w,0.464917,0.153787,w,t,d,w,p
4,p,0.230148,x,o,f,w,0.487323,0.165528,w,t,d,w,p


### Procesamiento de variables categoricas nominales

Como se ha dicho, las variables categoricas nominales seran codificadas como OneHot, siguiendio la logica de procesamiento del fichero Jupyter anterior. 

In [11]:
def process_categorical_variable(dataset, column):
    """
    Función auxiliar que se encarga de procesar una variable categórica (almacenada como string en formato de lista Python)
    dentro del dataset, y generar nuevas columnas dummy con codificación One Hot.

    Args:
        dataset (pd.DataFrame): Dataframe con el conjunto de datos.
        column (str): Nombre de la columna a procesar que contiene listas como strings de formato de lista Python.

    Returns:
        pd.DataFrame: Dataframe con las nuevas columnas dummy, con la columna original eliminada.
    """

    # Extraigo los valores únicos y los convierto correctamente desde su formato de string
    unique_values = set()
    for row in dataset[column].values:
        unique_values.update(row)
       
    # Proceso el conjunto de valores unicos
    unique_values = [_ for _ in unique_values]
    
    # Creo columnas dummy para cada valor único (menos uno para evitar la colinealidad)
    for value in unique_values[:]:  # USAMOS TODO EL ESPACIO DE POSIBILIDADES; ESTO DEBERIA SER MODIFICADO AL MODELIZAR EL DATASET
        dataset[f"{column}_{value}"] = dataset[column].apply(lambda x: 1 if value in x else 0)

    # Eliminar la columna original si así se desea
    dataset.drop(column, axis=1, inplace=True)

    return dataset

In [12]:
secondary_data_df = process_categorical_variable(dataset = secondary_data_df,
                                               column = "cap-shape")
secondary_data_df = process_categorical_variable(dataset = secondary_data_df,
                                               column = "cap-color")
secondary_data_df = process_categorical_variable(dataset = secondary_data_df,
                                               column = "does-bruise-or-bleed")
secondary_data_df = process_categorical_variable(dataset = secondary_data_df,
                                               column = "gill-color")
secondary_data_df = process_categorical_variable(dataset = secondary_data_df,
                                               column = "stem-color")
secondary_data_df = process_categorical_variable(dataset = secondary_data_df,
                                               column = "has-ring")
secondary_data_df = process_categorical_variable(dataset = secondary_data_df,
                                               column = "habitat")
secondary_data_df = process_categorical_variable(dataset = secondary_data_df,
                                               column = "season")
secondary_data_df = process_categorical_variable(dataset = secondary_data_df,
                                               column = "ring-type")

In [13]:
# Primeros 10 registros del dataframe
secondary_data_df.head(10)

Unnamed: 0,class,cap-diameter,stem-height,stem-width,cap-shape_o,cap-shape_p,cap-shape_s,cap-shape_b,cap-shape_c,cap-shape_x,...,season_u,season_w,ring-type_p,ring-type_l,ring-type_r,ring-type_g,ring-type_m,ring-type_e,ring-type_f,ring-type_z
0,p,0.240155,0.499705,0.164469,0,0,0,0,0,1,...,0,1,0,0,0,1,0,0,0,0
1,p,0.261782,0.530366,0.175055,0,0,0,0,0,1,...,1,0,0,0,0,1,0,0,0,0
2,p,0.220949,0.524764,0.170725,0,0,0,0,0,1,...,0,1,0,0,0,1,0,0,0,0
3,p,0.222563,0.464917,0.153787,0,0,0,0,0,0,...,0,1,1,0,0,0,0,0,0,0
4,p,0.230148,0.487323,0.165528,0,0,0,0,0,1,...,0,1,1,0,0,0,0,0,0,0
5,p,0.241446,0.525943,0.18083,0,0,0,0,0,1,...,1,0,1,0,0,0,0,0,0,0
6,p,0.233538,0.522111,0.162545,0,0,0,0,0,0,...,0,1,0,0,0,1,0,0,0,0
7,p,0.233699,0.502064,0.167838,0,0,0,0,0,1,...,1,0,1,0,0,0,0,0,0,0
8,p,0.201259,0.509139,0.179867,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
9,p,0.212556,0.472877,0.162448,0,0,0,0,0,0,...,0,1,1,0,0,0,0,0,0,0


Ya contamos con el dataset casi listo para el entrenamiento del modelo. No obstante, la variable dependiente aun conserva registros de tipo categorico nominal. Es necesario procesar estos registros como ultimo paso en el procesamiento del conjunto de datos.

In [14]:
secondary_data_df['class'].unique()

array(['p', 'e'], dtype=object)

La variable dependiente registra valores dentro de un conjunto de dos posibilidades:
* p ==> La instancia corresponde a un sujeto venenoso.
* e ==> La instancia corresponde a un sujeto comestible.

Siguiendo las practicas estandarizadas de Machine Learning, voy a asignar con un valor positivo (1) aquellas instancias de sujetos venenosos.

In [15]:
# Proceso la variable objetivo
secondary_data_df['class'] = [1 if _ == 'p' else 0 for _ in secondary_data_df['class']]

In [16]:
# Primeros 10 registros del dataframe
secondary_data_df.head(10)

Unnamed: 0,class,cap-diameter,stem-height,stem-width,cap-shape_o,cap-shape_p,cap-shape_s,cap-shape_b,cap-shape_c,cap-shape_x,...,season_u,season_w,ring-type_p,ring-type_l,ring-type_r,ring-type_g,ring-type_m,ring-type_e,ring-type_f,ring-type_z
0,1,0.240155,0.499705,0.164469,0,0,0,0,0,1,...,0,1,0,0,0,1,0,0,0,0
1,1,0.261782,0.530366,0.175055,0,0,0,0,0,1,...,1,0,0,0,0,1,0,0,0,0
2,1,0.220949,0.524764,0.170725,0,0,0,0,0,1,...,0,1,0,0,0,1,0,0,0,0
3,1,0.222563,0.464917,0.153787,0,0,0,0,0,0,...,0,1,1,0,0,0,0,0,0,0
4,1,0.230148,0.487323,0.165528,0,0,0,0,0,1,...,0,1,1,0,0,0,0,0,0,0
5,1,0.241446,0.525943,0.18083,0,0,0,0,0,1,...,1,0,1,0,0,0,0,0,0,0
6,1,0.233538,0.522111,0.162545,0,0,0,0,0,0,...,0,1,0,0,0,1,0,0,0,0
7,1,0.233699,0.502064,0.167838,0,0,0,0,0,1,...,1,0,1,0,0,0,0,0,0,0
8,1,0.201259,0.509139,0.179867,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
9,1,0.212556,0.472877,0.162448,0,0,0,0,0,0,...,0,1,1,0,0,0,0,0,0,0


---

<br>
<br>

## Almaceno el conjunto de datos procesado

Para llevar a cabo la modelizacion del dataset en otro fichero Jupyter, voy a conservar el dataset procesado en un nuevo fichero .csv, que alojare en directorio **data/**.

In [18]:
# Ruta donde almaceno el dataset
processed_data_path = "../data/processed/"

if not os.path.exists(processed_data_path):
    os.mkdir(processed_data_path)

secondary_data_df.to_csv(os.path.join(processed_data_path, "secondary_data_processed.csv"), index = False)
print('CONJUNTO DE DATOS GUARDADO CORRECTAMENTE.')

CONJUNTO DE DATOS GUARDADO CORRECTAMENTE.
