## Operaciones matriciales

In [1]:
# Cargo el módulo de numpy
#-------------------------
import numpy as np

In [2]:
# Armo mi matriz de prueba
#-------------------------
mat=np.array([[1,2],[3,4],[0,1]], dtype=np.float64)
#print(mat)

### Ejercicio 1: Definición de normas

Trabajando siempre en modo vectorizado

In [3]:
# Defino las normas
#------------------
def norm_l0(m):
    mask = m > 0
    return np.sum(mask,axis=1) # Cuenta de valores mayores a cero

def norm_l1(m):
    abs_m=np.abs(m)
    return np.sum(abs_m,axis=1) # Suma por filas (con axis=0 sería por columnas)

def norm_l2(m):
    sqr_m=np.square(m)
    return np.sqrt(np.sum(sqr_m,axis=1))

def norm_inf(m):
    return np.max(m, axis=1)

In [4]:
norm0=norm_l0(mat)
print('Norma 0: {}'.format(norm0))

norm1=norm_l1(mat)
print('Norma 1: {}'.format(norm1))

norm2=norm_l2(mat)
print('Norma 2: {}'.format(norm2))

norminf=norm_inf(mat)
print('Norma infinito: {}'.format(norminf))

Norma 0: [2 2 1]
Norma 1: [3. 7. 1.]
Norma 2: [2.23606798 5.         1.        ]
Norma infinito: [2. 4. 1.]


##### Definimos los tests de prueba

Definición de la clase

In [17]:
from unittest import TestCase
import numpy as np
import math

#from clase_1.norm import norm_l0

class NormTestCase(TestCase):

    def test_norm_l0(self):
        a = np.array([[1,2,3,4],[5,6,7,8]])
        expected = np.array([4, 4])
        result = norm_l0(a)
        # Estas dos que siguen se utilizan más que nada cuando se verifica por arrays de un solo elemento
        #self.assertTrue(expected, result)
        #self.assertEqual(expected, result)
        # En caso contrario (como este) utilizamos la función de testing de Numpy
        np.testing.assert_equal(expected, result)
        
        a = np.array([[1, 0, 0, 4], [5, 6, 0, 8]])
        expected = np.array([2, 3])
        result = norm_l0(a)
        np.testing.assert_equal(expected, result)
        
    def test_norm_l1(self):
        a = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
        expected = np.array([10, 26])
        result = norm_l1(a)
        np.testing.assert_equal(expected, result)
        
        a = np.array([[-1, -2, -3, -4], [-5, -6, -7, -8]])
        expected = np.array([10, 26])
        result = norm_l1(a)
        np.testing.assert_equal(expected, result)
        
    def test_norm_l2(self):
        a = np.array([[1, 2], [3, 4]])
        expected = np.array([math.sqrt(5), math.sqrt(25)])
        result = norm_l2(a)
        np.testing.assert_allclose(expected, result)
        
    def test_norm_inf(self):
        a = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
        expected = np.array([4, 8])
        result = norm_inf(a)
        np.testing.assert_equal(expected, result)

In [18]:
# Creamos un objeto de prueba y corremos los tests
#=================================================

test_obj = NormTestCase()

test_obj.test_norm_l0()
test_obj.test_norm_l1()
test_obj.test_norm_l2()
test_obj.test_norm_inf()

### Ejercicio 2: Sorting

Ordenar según la norma dos obtenida en el ejercicio anterior

In [21]:
# Sorting: Ordenamos segun la norma 2
def ordenar_por_norma_l2(mat):
    norm2=norm_l2(mat)
    id_ord = np.argsort(norm2*-1) # ordena y devuelve los índices de los valores ordenados
    # El *-1 invierte el orden dado que argsort devuelve de menor a mayor y queremos de mayor a menor
    print(id_ord)
    return mat[id_ord, :]

a = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])

mat_ord = ordenar_por_norma_l2(a)
print(mat_ord)

[1 0]
[[5 6 7 8]
 [1 2 3 4]]


#### Definimos los tests de prueba

In [22]:
from unittest import TestCase
import numpy as np

class SortTestCase(TestCase):
    def test_sorting_by_norm_l2(self):
        a = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
        sorted_a = ordenar_por_norma_l2(a)
        np.testing.assert_equal(np.array([[5, 6, 7, 8], [1, 2, 3, 4]]), sorted_a)
        
        a = np.array([[1, 2, 3, 4], [10, 11, 12, 13], [5, 6, 7, 8]])
        sorted_a = ordenar_por_norma_l2(a)
        np.testing.assert_equal(np.array([[10, 11, 12, 13], [5, 6, 7, 8], [1, 2, 3, 4]]), sorted_a)

In [23]:
# Creamos un objeto de prueba y corremos los tests
#=================================================
test_obj = SortTestCase()

test_obj.test_sorting_by_norm_l2()

[1 0]
[1 2 0]


### Ejercicio 3: Indexing

Construir un índice para identificadores de usuarios

In [4]:
# DUDA1: No me parece igual lo que devuelve id2idx en este programa que en las diapositivas.
# En las diapositivas parece que devuelve un vector del tamaño de idx máximo con las posiciones dentro del vector de ids para cada id

import numpy as np

class Indexer(object):
        
    # Constructor
    def __init__(self, ids):
        # Obtenemos los elementos únicos de un array (por si se repiten?) ordenados
        unique_ids = np.unique(ids)
        # Generamos un vector con el tamaño del id de usuario más grande todo con valores -1
        id2idx = np.ones(unique_ids.max() + 1, dtype=np.int64) * -1
        # np.arange es equivalente a linspace en Matlab. Devuelve un vector de valores equiespaciados
        id2idx[unique_ids] = np.arange(unique_ids.size)
        # Ya creados los dos quedan como parámetros del objeto
        self.id2idx = id2idx
        self.idx2id = unique_ids
        
    # Obtener los índices a partir de las ocurrencias
    def get_idxs(self, ids):
        ids = self.id2idx[ids]
        return ids, ids !=-1 # Devuelve los que no sean -1
        
    # Obtener las ocurrencias a partir de los índices
    def get_ids(self, idxs):
        return self.idx2id[idxs]

In [12]:
# Verificamos...
#===============
a = np.array([1, 13, 14, 15, 2, 16, 8], dtype=np.int64)

indexador = Indexer(a)

print(indexador.id2idx)
print(indexador.idx2id)

idxs, valid_idxs = indexador.get_idxs(np.array([11]))
print(valid_idxs)

print(indexador.get_ids(np.array([0,6])))


Hola:7
[-1  0  1 -1 -1 -1 -1 -1  2 -1 -1 -1 -1  3  4  5  6]
[ 1  2  8 13 14 15 16]
[False]
[ 1 16]


#### Definimos los test de prueba

In [26]:
from unittest import TestCase
import numpy as np

class IndexerTestCase(TestCase):
    def test_indexer(self):
        a = np.array([10, 13, 14, 15], dtype=np.int64)
        indexer = Indexer(a)
    
        idxs, valid_idxs = indexer.get_idxs(np.array([13, 10]))
        np.testing.assert_equal(np.array([True, True]), valid_idxs)
        
        ids = indexer.get_ids(idxs)
        np.testing.assert_equal(np.array([13, 10]), ids)
    
        idxs, valid_idxs = indexer.get_idxs(np.array([13, 1, 2, 15]))
        np.testing.assert_equal(np.array([True, False, False, True]), valid_idxs)
        
        ids = indexer.get_ids(idxs[valid_idxs])
        np.testing.assert_equal(np.array([13, 15]), ids)

In [27]:
# Creamos un objeto de prueba y corremos los tests
#=================================================
test_obj = IndexerTestCase()

test_obj.test_indexer()

### Ejercicio 4: Precision, Recall & Accuracy

In [14]:
# DUDA1: No entiendo de qué está heredando... (BaseMetric)
# DUDA2: Tampoco entiendo el sentido de usar el método __call__ acá

class Precision(BaseMetric):
    def __call__(self, prediction, truth):
        
        # Encontramos los True Positive
        true_pos_mask = (prediction == 1) & (truth == 1)
        true_pos = true_pos_mask.sum()
        
        # Encontramos los False Positive
        false_pos_mask = (prediction == 1) & (truth == 0)
        false_pos = false_pos_mask.sum()
        
        return true_pos / (true_pos + false_pos)
        
class Recall (BaseMetric):
    def __call__(self, prediction, truth):
        
        # Encontramos los True Positive
        true_pos_mask = (prediction == 1) & (truth == 1)
        true_pos = true_pos_mask.sum()
        
        # Encontramos los False Negative
        false_neg_mask = (prediction == 0) & (truth == 1)
        false_neg = false_neg_mask.sum()
        
        return true_pos / (true_pos + false_neg)
        
class Accuracy (BaseMetric):
    def __call__(self, prediction, truth):
        
        # Encontramos los True Positive
        true_pos_mask = (prediction == 1) & (truth == 1)
        true_pos = true_pos_mask.sum()
        
        # Encontramos los False Positive
        false_pos_mask = (prediction == 1) & (truth == 0)
        false_pos = false_pos_mask.sum()
        
        # Encontramos los True Negative
        true_neg_mask = (prediction == 0) & (truth == 0)
        true_neg = true_neg_mask.sum() 
    
        # Encontramos los False Negative
        false_pos_mask = (prediction == 0) & (truth == 1)
        false_pos = false_neg_mask.sum()
    
        return (true_pos + true_neg) / (true_pos + true_neg + false_pos + false_neg)

NameError: name 'BaseMetric' is not defined

### Ejercicio 5: Average query precision

In [15]:
# Menos mal que esto ya estaba hecho... =) Igual se entiende el concepto. Es como las métricas anteriores pero para queries.
# Sigue heredando de BaseMetric....que no se qué es.

# DUDA: En la métrica final no faltaría sumar todo el vector y dividir por len(true_relevance_count_by_query)?

class QueryMeanPrecision(BaseMetric):
    def __call__(self, predicted_rank, truth_relevance, query_ids):

        # Obtenemos la cuenta de consultas con al menos un documento relevante
        true_relevance_mask = (truth_relevance == 1)       # Obtengo la máscara de queries que fueron relevantes
        filtered_query_id = query_ids[true_relevance_mask] # Obtengo los Ids de las queries que fueron relevantes
        filtered_true_relevance_count = np.bincount(filtered_query_id) # en las queries con relevance, cuento
        
        # Completamos la cuenta de consultas con ceros en las consultas sin documentos relevantes
        unique_query_ids = np.unique(query_ids)            # Me quedo con ids únicos y ordenados
        non_zero_count_idxs = np.where(filtered_true_relevance_count > 0)  # Me fijo los Ids que tuvieron algún query relevante
        true_relevance_count = np.zeros(unique_query_ids.max() + 1)
        true_relevance_count[non_zero_count_idxs] = filtered_true_relevance_count[non_zero_count_idxs]
        
        # Obtenemos la cuenta solo para las consultas existentes
        true_relevance_count_by_query = true_relevance_count[unique_query_ids]
        
        # Obtenemos la cuenta para los documentos adquiridos (traídos, fetched)
        fetched_documents_count = np.bincount(query_ids)[unique_query_ids]
        
        # Computamos la métrica
        precision_by_query = true_relevance_count_by_query / fetched_documents_count

NameError: name 'BaseMetric' is not defined

### Ejercicio 6: Average query precision at K

In [None]:
# DUDA: Siguiendo la métrica del ejercicio anterior creo que habría que simplemente dividir por k...no?

class QueryMeanPrecisionAtK(BaseMetric):
    def __call__(self, predicted_rank, truth_relevance, query_ids, k):

        # Obtenemos la cuenta de consultas con al menos un documento relevante
        true_relevance_mask = (truth_relevance == 1)       # Obtengo la máscara de queries que fueron relevantes
        filtered_query_id = query_ids[true_relevance_mask] # Obtengo los Ids de las queries que fueron relevantes
        filtered_true_relevance_count = np.bincount(filtered_query_id) # en las queries con relevance, cuento
        
        # Completamos la cuenta de consultas con ceros en las consultas sin documentos relevantes
        unique_query_ids = np.unique(query_ids)            # Me quedo con ids únicos y ordenados
        non_zero_count_idxs = np.where(filtered_true_relevance_count > 0)  # Me fijo los Ids que tuvieron algún query relevante
        true_relevance_count = np.zeros(unique_query_ids.max() + 1)
        true_relevance_count[non_zero_count_idxs] = filtered_true_relevance_count[non_zero_count_idxs]
        
        # Obtenemos la cuenta solo para las consultas existentes
        true_relevance_count_by_query = true_relevance_count[unique_query_ids]
        
        # Obtenemos la cuenta para los documentos adquiridos (traídos, fetched)
        fetched_documents_count = np.bincount(query_ids)[unique_query_ids]
        
        # Computamos la métrica
        precision_by_query = true_relevance_count_by_query / k

### Ejercicio 7: Computar todas las métricas con __call__

In [20]:
# Las métricas anteriores ya están definidas con __call__

def CalcularMetricas(prediction,thruth,*args):
    # Lo pienso para las métricas del ejercicio 4
    metricas={}
    idx=0
    for key in args:
        metrica = key() # Esto no es válido...pero no se me ocurre cómo hacer. Tendría que intanciar un objeto en función del key
        # Y si logro lo anterior entonces podría guardar los datos en un diccionario
        metricas [idx] = {key:metrica(prediction,thruth)}
    return metricas

truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

CalcularMetricas("Precision","Recall","Accuracy") # Acá uso *args en lugar de **kwargs

# Acá claramente estoy interpretando algo mal. Se que el método call permite llamar como si fuera función (es decir 
# simplemente pasando los argumentos como función). Usar **kwargs (en lugar de *args como puse acá) tiene que ver con llamar
# a una función con número de parámetros indefinido, pero además pasándole valor y nombre (keyword), lo cual es útil para llamar
# a funciones con argumentos variables. Pero no logro ver cómo juntar esto para las clases predefinidas...

TypeError: 'str' object is not callable

### Ejercicio 8: Transformar un dataset a numpy estructurado con singleton

In [None]:
# En este hago agua mal....no se ni por dónde empezar...