# Selección de instancias

La selección de instancias es otra forma de reducir los datos. En vez de reducir las características (columnas), en este caso, intentamos reducir el número de ejemplos (filas) sin perder información, por ejemplo, eliminando ejemplos duplicados o muy similares.

**Lectura**: [Instance Selection: The myth behind Data Sampling](https://towardsdatascience.com/instance-selection-the-myth-behind-data-sampling-d3556ea2e37d)

Los algoritmos de clustering que se estudiarán en otros cursos pueden ser utilizados para elegir algunos ejemplos representativos de nuestro conjunto de datos. Como ejemplo, aqui usaremos el método *Condensed Nearest Neighbour* que es adecuado para problemas de clasificación.

In [4]:
# Importar los paquetes que usaremos
import pandas as pd
import numpy as np
from sklearn import datasets

# Cargar el conjunto de datos
dataset = datasets.fetch_openml(name='balance-scale', version=2, as_frame=True)
tabla = dataset.frame
tabla

Unnamed: 0,left-weight,left-distance,right-weight,right-distance,binaryClass
0,1.0,1.0,1.0,1.0,N
1,1.0,1.0,1.0,2.0,N
2,1.0,1.0,1.0,3.0,N
3,1.0,1.0,1.0,4.0,N
4,1.0,1.0,1.0,5.0,N
...,...,...,...,...,...
620,5.0,5.0,5.0,1.0,P
621,5.0,5.0,5.0,2.0,P
622,5.0,5.0,5.0,3.0,P
623,5.0,5.0,5.0,4.0,P


In [5]:
tabla.describe()

Unnamed: 0,left-weight,left-distance,right-weight,right-distance
count,625.0,625.0,625.0,625.0
mean,3.0,3.0,3.0,3.0
std,1.415346,1.415346,1.415346,1.415346
min,1.0,1.0,1.0,1.0
25%,2.0,2.0,2.0,2.0
50%,3.0,3.0,3.0,3.0
75%,4.0,4.0,4.0,4.0
max,5.0,5.0,5.0,5.0


Aplicamos *Condensed Nearest Neighbour*:

In [6]:
from imblearn.under_sampling import CondensedNearestNeighbour
X = dataset.data
y = dataset.target
cnn = CondensedNearestNeighbour()
X_resampled, y_resampled = cnn.fit_resample(X, y)
tabla_reducida = X_resampled.join(y_resampled)
tabla_reducida

Unnamed: 0,left-weight,left-distance,right-weight,right-distance,binaryClass
0,3.0,3.0,5.0,5.0,N
1,1.0,1.0,1.0,1.0,N
2,1.0,1.0,1.0,3.0,N
3,1.0,1.0,3.0,1.0,N
4,1.0,2.0,1.0,2.0,N
...,...,...,...,...,...
379,5.0,5.0,4.0,5.0,P
380,5.0,5.0,5.0,1.0,P
381,5.0,5.0,5.0,2.0,P
382,5.0,5.0,5.0,3.0,P


In [7]:
tabla_reducida.describe()

Unnamed: 0,left-weight,left-distance,right-weight,right-distance
count,384.0,384.0,384.0,384.0
mean,3.40625,3.393229,2.5625,2.580729
std,1.319293,1.3262,1.365846,1.368708
min,1.0,1.0,1.0,1.0
25%,2.0,2.0,1.0,1.0
50%,4.0,4.0,2.0,2.0
75%,5.0,5.0,4.0,4.0
max,5.0,5.0,5.0,5.0


Vemos como la tabla se ha reducido entorno a un 40% manteniendo una distribución estadística similar a la original.

Opcional, ver este ejemplo con ilustración gráfica: [Condensed nearest-neighbour](http://glemaitre.github.io/imbalanced-learn/auto_examples/under-sampling/plot_condensed_nearest_neighbour.html)

**Ejercicio**: aplicar sobre otro conjunto de datos.