# Guia de Ejercicios
## Ejercicio 1: Operaciones Matriciales
Dada una matriz en formato numpy array, donde cada fila de la matriz representa un vector matemático:

In [2]:
import numpy as np

In [194]:
m = np.random.randint(low=0, high=10, size=(3,3))
m

array([[5, 9, 6],
       [4, 7, 9],
       [7, 2, 1]])

### L0: número de elementos diferentes a cero en el vector.

In [195]:
np.sum(m > 0, axis=1)

array([3, 3, 3])

### L1 and L2

![Lp.svg](attachment:Lp.svg)

In [196]:
def lp_norm(m, p=1):
    abs_m = np.abs(m)
    return np.sum(abs_m ** p, axis=1)**(1/p)

In [197]:
l1 = lp_norm(m, p=1)
print(l1)

[20. 20. 10.]


In [198]:
l2 = lp_norm(m, p=2)
print(l2)

[11.91637529 12.08304597  7.34846923]


### L-infinite

![L-inf.svg](attachment:L-inf.svg)

In [199]:
np.max(m, axis=1)

array([9, 9, 7])

## Ejercicio 2: Sorting
Dada una matriz en formato numpy array, donde cada fila de la matriz representa un vector matemático, se requiere computar la norma l2 de cada vector. Una vez obtenida la norma, se debe ordenar las mísmas de mayor a menor. Finalmente, obtener la matriz original ordenada por fila según la norma l2.

Todas las operaciones debe ser vectorizadas.

In [200]:
m

array([[5, 9, 6],
       [4, 7, 9],
       [7, 2, 1]])

In [201]:
l2 = lp_norm(m, p=2)
l2

array([11.91637529, 12.08304597,  7.34846923])

In [202]:
# ordenando los indexes de L2 de mayor a menor
arg_sort = np.argsort(l2 * -1)

In [203]:
m[arg_sort, :]

array([[4, 7, 9],
       [5, 9, 6],
       [7, 2, 1]])

## Ejecicio 3: Indexing
El objetivo es construir un índice para identificadores de usuarios, es decir id2idx e idx2id. Para ello crear una clase, donde el índice se genere en el constructor. Armar métodos get_users_id y get_users_idx.

- Identificadores de usuarios : users_id = [15, 12, 14, 10, 1, 2, 1]
- Índice de usuarios : users_id = [0, 1, 2, 3, 4, 5, 4]

```
id2idx =  [-1     4     5    -1    -1    -1     -1    -1    -1    -1     3     -1      1    -1     2     0]
          [ 0     1     2     3     4     5      6     7     8     9    10     11     12    13    14    15]

id2idx[15] -> 0 ; id2idx[12] -> 1 ; id2idx[3] -> -1
idx2id[0] -> 15 ; idx2id[4] -> 1
```

In [204]:
users_id = [15, 12, 14, 10, 1, 2, 1]
users_idx = [0, 1, 2, 3, 4, 5, 4]

In [205]:
class Indexer(object):
    def __init__(self, ids):
        ids = np.unique(ids)
        id2idx = np.ones(ids.max() + 1, dtype=np.int64) * -1
        id2idx[ids] = np.arange(ids.size)
        self.id2idx = id2idx
        self.idx2id = ids

    def get_users_idx(self, ids):
        ids = self.id2idx[ids]
        return ids, ids != -1

    def get_users_id(self, idxs):
        return self.idx2id[idxs]

In [206]:
x = Indexer([15, 12, 14, 10, 1, 2, 1])

In [207]:
x.get_users_idx([15, 12, 14, 10, 1, 2, 1])

(array([5, 3, 4, 2, 0, 1, 0]),
 array([ True,  True,  True,  True,  True,  True,  True]))

In [208]:
x.get_users_id([0, 1, 2, 3, 4, 5, 4])

array([ 1,  2, 10, 12, 14, 15, 14])

## Ejercicio 4: Precision, Recall, Accuracy
En los problemas de clasificación, se cuenta con dos arreglos, la verdad (ground truth) y la predicción (prediction). Cada elemento de los arreglos puede tomar dos valores: True (representado por 1) y False (representado por 0). Por lo tanto, se pueden definir cuatro variables:

- True Positive (TP): la verdad es 1 y la predicción es 1.
- True Negative (TN): la verdad es 0 y la predicción es 0.
- False Negative (FN): la verdad es 1 y la predicción es 0.
- False Positive (FP): la verdad es 0 y la predicción es 1.

A partir de esas cuatro variables, se definen las siguientes métricas:

- Precision = TP / (TP + FP)
- Recall = TP / (TP + FN)
- Accuracy = (TP + TN) / (TP + TN + FP + FN)

Para los siguientes arreglos, representando la verdad y la predicción, calcular las métricas anteriores con operaciones vectorizadas en NumPy.

- truth = [1,1,0,1,1,1,0,0,0,1]
- prediction = [1,1,1,1,0,0,1,1,0,0]

In [209]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

In [210]:
TP_mask = (truth == 1) & (prediction == 1)
FP_mask = (truth == 0) & (prediction == 1)
FN_mask = (truth == 1) & (prediction == 0)
TN_mask = (truth == 0) & (prediction == 1)

In [211]:
TP = TP_mask.sum()
FP = FP_mask.sum()
FN = FN_mask.sum()
TN = TN_mask.sum()

In [212]:
Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
Accuracy = (TP + TN) / (TP + TN + FP + FN)

## Ejercicio 5: Average Query Precision 

En information retrieval o search engines, en general contamos con queries “q” y para cada “q” una lista de documentos que son verdaderamente relevantes. Para evaluar un search engine, es común utilizar la métrica average query precision. Tomando de referencia el siguiente ejemplo, calcular la métrica con NumPy utilizando operaciones vectorizadas.

`
q_id =             [1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4]
predicted_rank =   [0, 1, 2, 3, 0, 1, 2, 0, 1, 2, 3, 4, 0, 1, 2, 3]
truth_relevance =  [T, F, T, F, T, T, T, F, F, F, F, F, T, F, F, T] 
`

- Precision para q_id 1 = 2 / 4
- Precision para q_id 2 = 3 / 3
- Precision para q_id 3 = 0 / 5
- Precision para q_id 4 = 2 / 4

*average query precision* = ((2/4) + (3/3) + (0/5) + (2/4)) / 4

In [3]:
T = 1
F = 0
truth_relevance =  [T, F, T, F, T, T, T, F, F, F, F, F, T, F, F, T] 
truth_relevance = np.array(truth_relevance)
true_relevance_mask = (truth_relevance == 1)
true_relevance_mask

array([ True, False,  True, False,  True,  True,  True, False, False,
       False, False, False,  True, False, False,  True])

In [4]:
q_ids = [1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4]
query_ids = np.array(q_ids)
filtered_query_id = query_ids[true_relevance_mask]
filtered_query_id

array([1, 1, 2, 2, 2, 4, 4])

In [5]:
filtered_true_relevance_count = np.bincount(filtered_query_id)
filtered_true_relevance_count

array([0, 2, 3, 0, 2])

In [6]:
# contar queries con 0 en queries sin documentos relevantes
unique_query_ids = np.unique(query_ids)
print(unique_query_ids)
non_zero_count_idxs = np.where(filtered_true_relevance_count > 0)
print(non_zero_count_idxs)
true_relevance_count = np.zeros(unique_query_ids.max() + 1)
print(true_relevance_count)

[1 2 3 4]
(array([1, 2, 4]),)
[0. 0. 0. 0. 0.]


In [7]:
true_relevance_count[non_zero_count_idxs] = filtered_true_relevance_count[non_zero_count_idxs]
true_relevance_count

array([0., 2., 3., 0., 2.])

In [8]:
true_relevance_count_by_query = true_relevance_count[unique_query_ids]
true_relevance_count_by_query # = filtered_true_relevance_count

array([2., 3., 0., 2.])

In [219]:
fetched_documents_count = np.bincount(query_ids)[unique_query_ids]
fetched_documents_count

array([4, 3, 5, 4])

In [220]:
precision_by_query = true_relevance_count_by_query / fetched_documents_count
precision_by_query

array([0.5, 1. , 0. , 0.5])

In [221]:
np.mean(precision_by_query)

0.5

## Ejecicio 6: Distancia a Centroides

Dada una nube de puntos X y centroides C, obtener la distancia entre cada vector X y los centroides utilizando operaciones vectorizadas y broadcasting en NumPy. Utilizar como referencia los siguientes valores:

`X = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
C = [[1, 0, 0], [0, 1, 1]] ` 

In [222]:
X = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
x = np.array(X)
C = [[1, 0, 0], [0, 1, 1]]   
c = np.array(C)

In [223]:
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [224]:
c

array([[1, 0, 0],
       [0, 1, 1]])

In [225]:
c - x

ValueError: operands could not be broadcast together with shapes (2,3) (3,3) 

In [226]:
c[:,np.newaxis] - x

array([[[ 0, -2, -3],
        [-3, -5, -6],
        [-6, -8, -9]],

       [[-1, -1, -2],
        [-4, -4, -5],
        [-7, -7, -8]]])

De acá sale cómo sacar la distancia de un centroide: https://www.datasciencecentral.com/steps-to-calculate-centroids-in-cluster-using-k-means-clustering/

In [14]:
def get_centroid_distances(c, x):
    c_temp = c[:,np.newaxis]
    # get distance to X points
    substraction = c_temp - x
    sum_of_squares = np.sum((substraction) ** 2, axis=2)
    return np.sqrt(sum_of_squares)

In [228]:
C = [[1, 0, 0], [0, 1, 1]]  
X = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
x = np.array(X) 
c = np.array(C)
get_centroid_distances(c, x)

array([[ 3.60555128,  8.36660027, 13.45362405],
       [ 2.44948974,  7.54983444, 12.72792206]])

# Ejecicio 7: Etiquetar Cluster

Obtener para cada fila en X, el índice de la fila en C con distancia euclídea más pequeña. Es decir, para cada fila en X, determinar a qué cluster pertenece en C. Hint: usar np.argmin.

In [229]:
C = [[1, 0, 0], [0, 1, 1]]  
X = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
x = np.array(X) 
c = np.array(C)

In [230]:
distances = get_centroid_distances(c, x)
distances

array([[ 3.60555128,  8.36660027, 13.45362405],
       [ 2.44948974,  7.54983444, 12.72792206]])

In [236]:
# The numpy.argmin() method returns indices of the 
# min element of the array in a particular axis. 
np.argmin(distances, axis=1)

array([0, 0])

In [238]:
# cambio el axis para que devuelva el min ID de cada elem de X
np.argmin(distances, axis=0)

array([1, 1, 1])

# Ejercicio 8: Implementación Básica de K-means

K-means es uno de los algoritmos más básicos en Machine Learning no supervisado. Es un algoritmo de clusterización, que agrupa datos que comparten características similares. Recordemos que entendemos datos como n realizaciones del vector aleatorio X.

El algoritmo funciona de la siguiente manera:

1. El usuario selecciona la cantidad de clusters a crear n.
2. Se seleccionan n elementos aleatorios de X como posiciones iniciales del los centroides C.
3. Se calcula la distancia entre todos los puntos en X y todos los puntos en C.
4. Para cada punto en X se selecciona el centroide más cercano de C.
5. Se recalculan los centroides C a partir de usar las filas de X que pertenecen a cada centroide.
6. Se itera entre 3 y 5 una cantidad fija de veces o hasta que la posición de los centroides no cambie dada una tolerancia.

Se debe por lo tanto implementar la función k_means(X, n) de manera tal que, al finalizar, devuelva la posición de los centroides y a qué cluster pertenece cada fila de X.

Hint: para (2) utilizar funciones de np.random, para (3) y (4) usar los ejercicios anteriores, para (5) es válido utilizar un for. Iterar 10 veces entre (3) y (5).

In [9]:
X = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
x = np.array(X)

In [10]:
# El usuario selecciona la cantidad de clusters a crear n.

n = 4

In [11]:
# Se seleccionan n elementos aleatorios de X como 
# posiciones iniciales del los centroides C.

random_x_elements = np.random.randint(0,x.shape[0],n)
centroids = x[random_x_elements]

In [12]:
centroids
# centroids = np.array([[7, 8, 9],
#        [4, 5, 6],
#        [4, 5, 6],
#        [7, 8, 9]])
# centroids

array([[7, 8, 9],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [15]:
# Se calcula la distancia entre todos los puntos en X y todos 
# los puntos en C.

distances = get_centroid_distances(centroids, x)
distances

array([[10.39230485,  5.19615242,  0.        ],
       [ 5.19615242,  0.        ,  5.19615242],
       [ 0.        ,  5.19615242, 10.39230485],
       [ 5.19615242,  0.        ,  5.19615242]])

In [317]:
# Para cada punto en X se selecciona el centroide más cercano de C.

min_distances = np.argmin(distances, axis=0)
min_distances

array([0, 0, 1, 1, 1, 3])

In [294]:
# Se recalculan los centroides C a partir de usar las filas de X 
# que pertenecen a cada centroide.

for i, centroid in enumerate(centroids):
    print("old centroid:", centroid)
    new_centroid = np.mean(x[min_distances == i,:], axis=0)
    print("new centroid:", new_centroid)
    centroids[i] = new_centroid

old centroid: [7 8 9]
new centroid: [7. 8. 9.]
old centroid: [4 5 6]
new centroid: [2.5 3.5 4.5]
old centroid: [4 5 6]
new centroid: [nan nan nan]
old centroid: [7 8 9]
new centroid: [nan nan nan]


In [16]:
def k_means_loop(x, centroids):
    # Se calcula la distancia entre todos los puntos en X y todos 
    # los puntos en C.

    distances = get_centroid_distances(centroids, x)
    distances
    # Para cada punto en X se selecciona el centroide más cercano de C.

    min_distances = np.argmin(distances, axis=0)
    min_distances

    # Se recalculan los centroides C a partir de usar las filas de X 
    # que pertenecen a cada centroide.

    for i, centroid in enumerate(centroids):
        print("old centroid:", centroid)
        new_centroid = np.mean(x[min_distances == i,:], axis=0)
        print("new centroid:", new_centroid)
        centroids[i] = new_centroid
    
    return centroids, min_distances

In [17]:
for i in range(10):
    centroids, min_distances = k_means_loop(x, centroids)

old centroid: [7 8 9]
new centroid: [7. 8. 9.]
old centroid: [4 5 6]
new centroid: [4. 5. 6.]
old centroid: [1 2 3]
new centroid: [1. 2. 3.]
old centroid: [4 5 6]
new centroid: [nan nan nan]
old centroid: [7 8 9]
new centroid: [7. 8. 9.]
old centroid: [4 5 6]
new centroid: [4. 5. 6.]
old centroid: [1 2 3]
new centroid: [1. 2. 3.]
old centroid: [-9223372036854775808 -9223372036854775808 -9223372036854775808]
new centroid: [nan nan nan]
old centroid: [7 8 9]
new centroid: [7. 8. 9.]
old centroid: [4 5 6]
new centroid: [4. 5. 6.]
old centroid: [1 2 3]
new centroid: [1. 2. 3.]
old centroid: [-9223372036854775808 -9223372036854775808 -9223372036854775808]
new centroid: [nan nan nan]
old centroid: [7 8 9]
new centroid: [7. 8. 9.]
old centroid: [4 5 6]
new centroid: [4. 5. 6.]
old centroid: [1 2 3]
new centroid: [1. 2. 3.]
old centroid: [-9223372036854775808 -9223372036854775808 -9223372036854775808]
new centroid: [nan nan nan]
old centroid: [7 8 9]
new centroid: [7. 8. 9.]
old centroid: [4 5

  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = um.true_divide(


In [18]:
print(x)
print(centroids)
print(min_distances)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[                   7                    8                    9]
 [                   4                    5                    6]
 [                   1                    2                    3]
 [-9223372036854775808 -9223372036854775808 -9223372036854775808]]
[2 1 0]


In [311]:
x = np.arange(1,13)
x = x.reshape((6,2))

array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8],
       [ 9, 10],
       [11, 12]])

# Ejercicio 9: Computar Métricas con __call__ 

En problemas de machine learning, es muy común que para cada predicción que obtenemos en nuestro dataset de verificacion y evaluacion, almacenemos en arreglos de numpy el resultado de dicha predicción, junto con el valor verdadero y parámetros auxiliares (como el ranking de la predicción y el query id).

Luego de obtener todas las predicciones, podemos utilizar la información almacenada en los arreglos de numpy, para calcular todas las métricas que queremos medir en nuestro sistema.

Una buena práctica para implementar esto en Python, es crear clases que hereden de una clase Metric “base” y que cada métrica implemente el método __call__.

Utilizar herencia, operador __call__ y kwargs, para escribir un programa que permita calcular todas las métricas de los ejercicios anteriores mediante un for.

In [None]:
class IterateMetrics(object):
    def __init__(self, **kwargs):
        self.data = kwargs
        self.metrics = {}

    def get_metrics(self):
        metrics_options = [Precision, Recall, Accuracy, QueryMeanPrecision]
        for metric in metrics_options:
            aux = metric(**self.data)
            self.metrics[metric.__name__] = aux()
        return self.metrics

In [None]:
class Metric:
    def __init__(self, **kwargs):
        self.data = kwargs
        self.metrics = {}
    
    def __call__(self):

class B(Metric):
    pass