# Práctica 2: Preprocesado básico de datos

## Aprendizaje Automático I

En muchos problemas de Aprendizaje Automático es necesario realizar un procesado de los datos antes de aplicar los métodos de aprendizaje. Esta fase se denomina como Ingeniería de Datos y es en si misma una disciplina. Aunque será cubierta con profundidad en la asignatura Análisis Exploratorio de Datos y Visualización, hay procesos muy sencillos como dividir los datos en un conjunto de entrenamiento y otro para prueba, convertir un dato simbólico en uno numérico, o escalar los valores numéricos de un conjunto de datos a un determinado rango. Estas serán las tareas que se realizarán en esta práctica.

## Valores perdidos

En determinados problems puede ocurrir que no se disponga de todos los datos porque algunos no se hayan podido obtener, dando lugar a lo que se conoce como valores perdidos. Existen diferentes técnicas para tratarlos pero si el número no es muy alto comparado, una solución muy sencilla es eliminarlos. Hay otras técnicas denominadas de imputación cuyo objetivo es intentar estimar el valor perdido pero esta fuera del ámbito de esta asignatura.

Pandas permite la detección de los valores perdidos de forma muy sencilla ya que se detectan con la función isna(). Devuelve un dataframe con las posiciones perdidas a True y el resto a False. En el caso de pasarle una columna, devuelve una serie.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('data/iris-small-perdidos.csv')

In [3]:
df.head(10)

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,,Iris-setosa
2,4.7,3.2,,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,,1.5,0.1,Iris-setosa


In [4]:
print(df["class"].unique())

['Iris-setosa' 'Iris-versicolor' 'Iris-virginica']


Devuelve un dataframe

In [5]:
perdidos = df.isna() # retorna um DataFrame con True para valores NaN
print(perdidos)

    sepal length  sepal width  petal length  petal width  class
0          False        False         False        False  False
1          False        False         False         True  False
2          False        False          True        False  False
3          False        False         False        False  False
4          False        False         False        False  False
5           True        False         False        False  False
6          False        False          True        False  False
7          False        False         False        False  False
8          False        False         False        False  False
9          False         True         False        False  False
10         False        False         False        False  False
11         False        False         False        False  False
12          True        False         False        False  False
13         False         True          True        False  False
14         False        False         Fa

Devuelve una serie

In [6]:
perdidos = df['sepal length'].isna()
print(perdidos)

0     False
1     False
2     False
3     False
4     False
5      True
6     False
7     False
8     False
9     False
10    False
11    False
12     True
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40     True
41    False
42    False
43    False
44    False
45    False
46    False
47    False
48    False
49    False
50    False
51    False
52    False
53    False
54    False
55    False
56    False
57    False
58    False
59    False
Name: sepal length, dtype: bool


#### Ejercicio propuesto para hacer en clase

Contar el número de valores perdidos para cada una de las variables

Posible solución:

In [7]:
variables = df.columns
for variable in variables:
    perdidos = df[variable].isna()
    longitud = len(df[variable])
    # Las series se pueden tratar como arrays de numpy (que en el fondo lo son)
    print(f'Valores perdidos en variable {variable}: {np.sum(perdidos)}')
    print(f'Porcentaje de valores perdidos en variable {variable}: {np.mean(perdidos)*100:.2f}%')

Valores perdidos en variable sepal length: 3
Porcentaje de valores perdidos en variable sepal length: 5.00%
Valores perdidos en variable sepal width: 5
Porcentaje de valores perdidos en variable sepal width: 8.33%
Valores perdidos en variable petal length: 6
Porcentaje de valores perdidos en variable petal length: 10.00%
Valores perdidos en variable petal width: 5
Porcentaje de valores perdidos en variable petal width: 8.33%
Valores perdidos en variable class: 0
Porcentaje de valores perdidos en variable class: 0.00%


No esta mal, no es un desastre, cuando tenemos pocos valores perdidos lo normal es quitarlos

In [8]:
# quitar filas con valores perdidos
df = df.dropna()
df.head(10)

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
10,5.4,3.7,1.5,0.2,Iris-setosa
11,4.8,3.4,1.6,0.2,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
16,5.4,3.9,1.3,0.4,Iris-setosa
17,5.1,3.5,1.4,0.3,Iris-setosa


In [None]:
#Utilizando los datos del archivo iris-perdidos.csv, sustituir para cada variable los
# valores perdidos por el promedio de los valores de dicha variable

df = pd.read_csv('data/iris-small-perdidos.csv')

print(df.head(10))

variables = df.columns

for variable in variables[:-1]:

    media = np.mean(df[variable])
    df[variable] = df[variable].fillna(media)

print(df.head(10))

   sepal length  sepal width  petal length  petal width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          NaN  Iris-setosa
2           4.7          3.2           NaN          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa
5           NaN          3.9           1.7          0.4  Iris-setosa
6           4.6          3.4           NaN          0.3  Iris-setosa
7           5.0          3.4           1.5          0.2  Iris-setosa
8           4.4          2.9           1.4          0.2  Iris-setosa
9           4.9          NaN           1.5          0.1  Iris-setosa
   sepal length  sepal width  petal length  petal width        class
0      5.100000     3.500000      1.400000     0.200000  Iris-setosa
1      4.900000     3.000000      1.400000     1.221818  Iris-setosa
2      4.700000     3.200000      

## Normalización de rangos

En algunos casos los datos poseen rangos muy diferentes para las diferentes variables que se consideran y para determinados modelos esto puede dar lugar a un rendimiento muy bajo de los mismos. Por ejemplo los modelos basados en distancias como el vecino más próximo o el centroide más próximo se ven muy afectados si todas las variables no tienen un rango similar. Otro caso son la redes neuronales o las máquinas de vectores soporte.

La librería sklearn dispone de un modulo de preprocesado que incluye la normalización de los rangos.

Explicar que la función describe muestra algunos estadísticos básicos de las variables numéricas.

In [10]:
df = pd.read_csv('data/iris-small.csv')
df.describe()

Unnamed: 0,sepal length,sepal width,petal length,petal width
count,60.0,60.0,60.0,60.0
mean,5.856667,3.053333,3.781667,1.201667
std,0.865804,0.494192,1.826499,0.776453
min,4.3,2.0,1.1,0.1
25%,5.1,2.775,1.5,0.3
50%,5.8,3.0,4.45,1.4
75%,6.5,3.325,5.1,1.8
max,7.7,4.4,6.9,2.5


Numpy posee método para obtener el máximo y mínimo de un array de forma global si no se indica el eje, por columnas si el eje es el 0 o po r filas si el eje es el 1

#### Ejercicio propuesto para hacer en clase

Implementar una función que acepte un array unidimensional (vector) numpy y escale los valores entre 0 y 1. Utilizar las funciones max y min de numpy.

Posible solución:

In [11]:
def normaliza(vector):
    maximo = np.max(vector)
    minimo = np.min(vector)

    resultado = (vector - minimo) / (maximo - minimo)

    return resultado

In [12]:
v = np.random.randint(20, size=10)
print(v)
res = normaliza(v)
print(res)

[16 15  1 12  3  1  6  3 11  4]
[1.         0.93333333 0.         0.73333333 0.13333333 0.
 0.33333333 0.13333333 0.66666667 0.2       ]


Sklearn incluye en el módulo preprocessing la clase MinMaxScaler que realiza un escalado lineal de las variables entre un valor mínimo y máximo. Por defecto esos valores están entre 0 y 1. La clase devuelve un array numpy aunque puede aceptar dataframes de pandas.

La API de sklearn para obtener los parámetros de la mayoría de los modelos y métodos que incluye se basa en llamar al método fit con el que se ajustan los parámetros del modelo. Luego mediante el método transform se aplica el modelo. Si se desea realizar los dos pasos a la vez se puede utilizar el método fit_transform.

In [None]:
!pip install scikit-learn

In [13]:
from sklearn.preprocessing import MinMaxScaler

In [14]:
datos = df.values
variables = datos[:,:-1]
variables

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3.0, 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5.0, 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5.0, 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3.0, 1.4, 0.1],
       [4.3, 3.0, 1.1, 0.1],
       [5.8, 4.0, 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [7.0, 3.2, 4.7, 1.4],
       [6.4, 3.2, 4.5, 1.5],
       [6.9, 3.1, 4.9, 1.5],
       [5.5, 2.3, 4.0, 1.3],
       [6.5, 2.8, 4.6, 1.5],
       [5.7, 2.8, 4.5, 1.3],
       [6.3, 3.3, 4.7, 1.6],
       [4.9, 2.4, 3.3, 1.0],
       [6.6, 2.9, 4.6, 1.3],
       [5.2, 2.7, 3.9, 1.4],
       [5.0, 2.0, 3.5, 1.0],
       [5.9, 3.0, 4.2, 1.5],
       [6.0, 2.2, 4.0, 1.0],
       [6.1, 2.9, 4.7, 1.4],
       [5.6, 2

In [15]:
normalizador = MinMaxScaler()
normalizador.fit(variables)
res = normalizador.transform(variables)
res

array([[0.23529412, 0.625     , 0.05172414, 0.04166667],
       [0.17647059, 0.41666667, 0.05172414, 0.04166667],
       [0.11764706, 0.5       , 0.03448276, 0.04166667],
       [0.08823529, 0.45833333, 0.06896552, 0.04166667],
       [0.20588235, 0.66666667, 0.05172414, 0.04166667],
       [0.32352941, 0.79166667, 0.10344828, 0.125     ],
       [0.08823529, 0.58333333, 0.05172414, 0.08333333],
       [0.20588235, 0.58333333, 0.06896552, 0.04166667],
       [0.02941176, 0.375     , 0.05172414, 0.04166667],
       [0.17647059, 0.45833333, 0.06896552, 0.        ],
       [0.32352941, 0.70833333, 0.06896552, 0.04166667],
       [0.14705882, 0.58333333, 0.0862069 , 0.04166667],
       [0.14705882, 0.41666667, 0.05172414, 0.        ],
       [0.        , 0.41666667, 0.        , 0.        ],
       [0.44117647, 0.83333333, 0.01724138, 0.04166667],
       [0.41176471, 1.        , 0.06896552, 0.125     ],
       [0.32352941, 0.79166667, 0.03448276, 0.125     ],
       [0.23529412, 0.625     ,

In [16]:
print(np.max(res,axis=0))
print(np.min(res,axis=0))

[1. 1. 1. 1.]
[0. 0. 0. 0.]


Cambiar los límites para escalar y utilizar fit_transform

In [18]:
normalizador = MinMaxScaler((-10,10))
res = normalizador.fit_transform(variables)
res

array([[ -5.29411765,   2.5       ,  -8.96551724,  -9.16666667],
       [ -6.47058824,  -1.66666667,  -8.96551724,  -9.16666667],
       [ -7.64705882,   0.        ,  -9.31034483,  -9.16666667],
       [ -8.23529412,  -0.83333333,  -8.62068966,  -9.16666667],
       [ -5.88235294,   3.33333333,  -8.96551724,  -9.16666667],
       [ -3.52941176,   5.83333333,  -7.93103448,  -7.5       ],
       [ -8.23529412,   1.66666667,  -8.96551724,  -8.33333333],
       [ -5.88235294,   1.66666667,  -8.62068966,  -9.16666667],
       [ -9.41176471,  -2.5       ,  -8.96551724,  -9.16666667],
       [ -6.47058824,  -0.83333333,  -8.62068966, -10.        ],
       [ -3.52941176,   4.16666667,  -8.62068966,  -9.16666667],
       [ -7.05882353,   1.66666667,  -8.27586207,  -9.16666667],
       [ -7.05882353,  -1.66666667,  -8.96551724, -10.        ],
       [-10.        ,  -1.66666667, -10.        , -10.        ],
       [ -1.17647059,   6.66666667,  -9.65517241,  -9.16666667],
       [ -1.76470588,  10

In [19]:
print(np.amax(res,axis=0)) # equivalente a np.max(res,axis=0)
print(np.amin(res,axis=0)) # equivalente a np.min(res,axis=0)

[10. 10. 10. 10.]
[-10. -10. -10. -10.]


## Dividir entre train y test

Los modelos una vez entrenados y puestos en funcionamiento van a utilizar como entrada, información que no se utilizó en el proceso de entrenamiento. Sin embargo es necesario tener una aproximación al rendimiento del método una vez entrenado y antes de ser puesto en producción. Para simular esta situación, el conjunto de datos disponible se divide en dos subconjuntos. Una parte se utiliza para entrenar el modelo y otra para estimar cómo sería el rendimiento en caso de ser puesto en producción, ya que estos últimos datos no se utilzaron en el entrenamiento.

Dividir el conjunto iris en 40 para entrenamiento y 20 para test.

In [None]:
# número de muestras de iris
print(f'Número de muestras: {len(df)}')

In [None]:
train = df.iloc[:40,:] # forma arcaica de hacerlo (No recomendado)
test = df.iloc[40:,:]

In [None]:
print(train)

In [None]:
print(test)

El conjunto de train no tiene iris-virginica y el de test no tiene iris-setosa ni iris-versicolor por lo tanto el modelo no es capaz de aprender todas las clases.

La solución es mezclar aleatoriamente las muestras y luego tomar las 100 y las 50. 

Existen diferentes opciones para hacerlo. Si se tiene un dataframe de pandas, se dispone de la función sample que devuelve una muestra aleatoria del dataframe indicando que número de elementos o que fracción de los mismos se desea extraer. Si la fracción es 1, se obtiene el mismo dataframe reordenado aleatoriamente.

La librería sklearn dispone del módulo model_selection que implementa la función train_test_split que realiza permite dividir un conjunto de datos en dos (train y test) indicando la proporción o número de muestras de cada uno. Además incluye otros argumentos como la semilla del generador de números aleatorios o la opción de estratificar (mantener la proporción de muestras por cada clase) el resultado. También permite indicar si se mezclan antes de la división o no (shuffle)

Esta función puede aceptar tanto un dataframe o un array de numpy. También permite pasarle varios argumentos, haciendo la misma división en todos.

Explicar el uso de random_state para generar siempre la misma partición. Muy importante para comparar resultados de diferentes modelos para no se vean afectados por las muestras de las particiones y todos los modelos para comparar utilicen siempre el mismo conjunto de datos tanto para entrenar como testear.

In [27]:
from sklearn.model_selection import train_test_split

In [35]:
x = np.random.randint(20, size=10)
y = np.random.randint(200, 250, size=10)
z = np.random.random(size=10)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
print(x_train)
print(x_test)

[16  9 19  3  0  9  3 15]
[ 1 18]


Probar a ejecutar varias veces sin fijar el valor de random_state y fijándolo.

In [32]:
df_train, df_test = train_test_split(df, test_size=0.2, shuffle=True, random_state=2025)
df_test

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
52,6.8,3.0,5.5,2.1,Iris-virginica
38,6.2,2.2,4.5,1.5,Iris-versicolor
2,4.7,3.2,3.864815,0.2,Iris-setosa
39,5.6,2.5,3.9,1.1,Iris-versicolor
58,7.7,2.6,6.9,2.3,Iris-virginica
47,7.3,2.9,6.3,1.8,Iris-virginica
6,4.6,3.4,3.864815,0.3,Iris-setosa
34,5.6,3.036364,3.6,1.3,Iris-versicolor
8,4.4,2.9,1.4,0.2,Iris-setosa
48,6.7,2.5,5.8,1.8,Iris-virginica


Crear conjunto de datos muy desbalanceado para explicar la estratificación.

In [37]:
x = np.random.randint(100,size=(100,4))
y = np.concatenate([np.zeros(90), np.ones(10)])

In [38]:
y

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

Sin estratificación la muestra minoritaria puede que no esté bien representada en train y test

In [39]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5)
print(y_train)
print(y_test)

[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 1. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.
 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0.
 0. 0.]


In [40]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5, stratify=y)
print(y_train)
print(y_test)

[0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 1. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.
 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0.
 0. 0.]


## Convertir de valores simbólicos a numéricos

Algunos modelos no admiten valores simbólicos y por tanto se deben convertir en numéricos. Una posibilidad es asignar un entero a cada valor simbólico existente.

La aproximación más sencilla es utilizar un diccionario de Python para realizar la conversión.

Posible solución

In [None]:
dic = {'Iris-setosa': 0, 'Iris-versicolor': 1, 'Iris-virginica': 2} # diccionario para mapear las clases
for i in range(len(df)): # transformamos las clases a valores numéricos
    df.loc[i,'class'] = dic[df.iloc[i]['class']]

Cuando el número de valores diferentes es muy grande puede ser un poco engorroso crear el diccionario de forma manual. Por eso sklearn posee una clase que realiza la función de conversión. La clase es LabelEncoder y la interfaz es similar a la de MinMaxScaler con funciones, fit, transform y fit_transform.

In [41]:
from sklearn.preprocessing import LabelEncoder

In [42]:
df = pd.read_csv('data/iris-small.csv')

In [43]:
conversor = LabelEncoder()
conversor.fit(df['class'])
res = conversor.transform(df['class'])
res

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

## Ejercicio

In [45]:
import numpy as np

class SymbolicToNumeric:
    def __init__(self):
        self.mapping = {}
        self.reverse_mapping = {}

    def convertir(self, array):
        """Convierte valores simbólicos a numéricos."""
        unique_values = np.unique(array)
        for idx, val in enumerate(unique_values):
            if val not in self.mapping:
                self.mapping[val] = idx
                self.reverse_mapping[idx] = val
        
        return np.array([self.mapping[val] for val in array])

    def convertir_inversa(self, array):
        """Convierte valores numéricos a simbólicos."""
        return np.array([self.reverse_mapping[val] for val in array])

# Ejemplo de uso
data = np.array(['rojo', 'verde', 'azul', 'rojo', 'azul', 'verde', 'rojo'])
print("Datos simbólicos:", data)
converter = SymbolicToNumeric()
numeric_data = converter.convertir(data)
print("Datos numéricos:", numeric_data)

symbolic_data = converter.convertir_inversa(numeric_data)
print("Datos simbólicos:", symbolic_data)


Datos simbólicos: ['rojo' 'verde' 'azul' 'rojo' 'azul' 'verde' 'rojo']
Datos numéricos: [1 2 0 1 0 2 1]
Datos simbólicos: ['rojo' 'verde' 'azul' 'rojo' 'azul' 'verde' 'rojo']
