### Ejercicios Clase 2

In [5]:
# Cargo el módulo de numpy
#-------------------------
import numpy as np

### Ejercicio 1 : Expansión de matrices (distancias)

In [6]:
# Armo las matrices de prueba (una de 3x3 y otra de 2x3)
# La idea es encontrar la distancia entre cada fila de X y cada fila de C
#------------------------------------------------------------------------
X=np.array([[1,2,3],[3,5,6],[7,8,9]], dtype=np.float64)
C=np.array([[1,0,0],[0,1,1]], dtype=np.float64)

In [7]:
# Expandimos (agregamos una dimensión)
expanded_C=C[:,None]
print(expanded_C)
# Operamos con X por broadcasting
distances=np.sqrt(np.sum((expanded_C-X)**2,axis=2))
print(distances)

[[[1. 0. 0.]]

 [[0. 1. 1.]]]
[[ 3.60555128  8.06225775 13.45362405]
 [ 2.44948974  7.07106781 12.72792206]]


### Ejercicio2: Agrupar por distancias más pequeñas

In [8]:
# Podemos pensar el parámetro axis como la dimensión que queremos comprimir (en este caso la filas, por eso va 0)
#----------------------------------------------------------------------------------------------------------------
indexes = np.argmin(distances,axis=0)
print(indexes)

[1 1 1]


### Ejercicio 3: K-means

In [11]:
MAX_ITERATIONS = 10

# Función que realiza prepara los datos e itera llamando a k_means_loop (la que hace las cuentas)
#------------------------------------------------------------------------------------------------
def k_means(X, n_clusters):
    centroids = np.eye(n_clusters, X.shape[1])
    print(centroids)
    for i in range(MAX_ITERATIONS):
        print("Iteration # {}".format(i))
        centroids, cluster_ids = k_means_loop(X, centroids)
        print(centroids)
    return centroids, cluster_ids

# En este loop que realiza los cálculos
def k_means_loop(X, centroids):
    # find labels for rows in X based in centroids values
    expanded_centroids = centroids[:, None]
    distances = np.sqrt(np.sum((expanded_centroids - X) ** 2, axis=2))  # Calculo las distancias (norma 2) de los centroides a cada vector de X
    arg_min = np.argmin(distances, axis=0) # Devuelve los índices de los vectores con menor distancia a los centroides
    
    # Recalcular los centroides
    for i in range(centroids.shape[0]):
        centroids[i] = np.mean(X[arg_min == i, :], axis=0)
    
    return centroids, arg_min

In [14]:
n_clusters = 2

centroids,cluster_ids = k_means(X,n_clusters)

print(centroids)
print(cluster_ids)

[[1. 2. 3.]
 [3. 5. 6.]
 [7. 8. 9.]]
[[1. 0. 0.]
 [0. 1. 0.]]
Iteration # 0
[[       nan        nan        nan]
 [3.66666667 5.         6.        ]]
Iteration # 1
[[3.66666667 5.         6.        ]
 [       nan        nan        nan]]
Iteration # 2
[[       nan        nan        nan]
 [3.66666667 5.         6.        ]]
Iteration # 3
[[3.66666667 5.         6.        ]
 [       nan        nan        nan]]
Iteration # 4
[[       nan        nan        nan]
 [3.66666667 5.         6.        ]]
Iteration # 5
[[3.66666667 5.         6.        ]
 [       nan        nan        nan]]
Iteration # 6
[[       nan        nan        nan]
 [3.66666667 5.         6.        ]]
Iteration # 7
[[3.66666667 5.         6.        ]
 [       nan        nan        nan]]
Iteration # 8
[[       nan        nan        nan]
 [3.66666667 5.         6.        ]]
Iteration # 9
[[3.66666667 5.         6.        ]
 [       nan        nan        nan]]
[[3.66666667 5.         6.        ]
 [       nan        nan        n

### Ejercicio 4: Datasets sintéticos

In [21]:
centroids = np.array([[1,0,0,0],[0,1,0,0]],dtype=np.float32)

def syntheticdataset(centroids,n_samples,inv_overlap):
    # Agrego solape
    centroids = centroids*inv_overlap
    # Generamos más centroides
    nube = np.repeat(centroids,n_samples/2,axis=0)
    # Agrego ruido (de dimensión n_samples x 4)
    nube = nube + np.random.normal(loc=0, scale=1, size=(n_samples,4))
    
    # Armo el array indicando a qué clúster pertenecen
    cluster_ids = np.array([[0],[1]])
    cluster_ids = np.repeat(cluster_ids, n_samples / 2, axis=0)
    
    return nube, cluster_ids
    
syntheticdataset(centroids,10,1)

(array([[ 2.07906012,  1.17819501,  0.00386533, -0.74700215],
        [ 0.56394876,  2.13787848,  0.04382613,  0.48808554],
        [ 1.30852153, -1.07009345,  0.21217501,  1.80782957],
        [ 0.51252765, -0.21072129, -0.78948025, -0.15771401],
        [ 0.13893462,  1.2861342 , -0.32596392,  1.45601399],
        [ 0.46429145,  2.42248637, -0.386016  ,  2.85565452],
        [ 0.38186149,  1.87640091, -1.22741235, -0.31111269],
        [-0.37609807,  2.0982526 , -0.91535393,  0.51788962],
        [ 0.86158504,  1.17142685,  1.0308557 , -0.70720813],
        [ 0.59706476,  1.69801389, -0.35155595,  1.86663905]]),
 array([[0],
        [0],
        [0],
        [0],
        [0],
        [1],
        [1],
        [1],
        [1],
        [1]]))

In [19]:
centroids = np.array([[1,0,0,0],[0,1,0,0]])
np.repeat(centroids,4,axis=0)

array([[1, 0, 0, 0],
       [1, 0, 0, 0],
       [1, 0, 0, 0],
       [1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 1, 0, 0],
       [0, 1, 0, 0],
       [0, 1, 0, 0]])

### Ejercicio 5: Generación de una variable aleatoria

Se busca generar una variable aleatoria con distribución exponencial. Se generará a partir de una variable aleatoria con distribución uniforme. Para hacerlo se utilizará el método de inversa generalizada.

In [22]:
# Definimos una variable aleatoria exponencial
def random_exp_variable(lambda_p,n):
    U = np.random.uniform(low=0.0,high=1.0,size=n)
    X=(-1/lambda_p)* np.log(1-U)  # Inversa generalizada de la función exponencial: lambda*e^(-lambda*x)
    return(X)

In [35]:
# Lo constatamos
X=random_exp_variable(1,100)
hist,bins = np.histogram(X,20)
print(hist)

[18 19 13 10 11  4  6  2  5  1  4  1  1  0  0  1  0  1  1  2]


### Ejercicio 6: Inversa Generalizada

Variable aleatoria con fX(x)=3x^2 \\

Entonces FX(x)= x^3  \\

Por lo que la inversa: X=U^(1/3)

In [44]:
n=100
U = np.random.uniform(low=0.0,high=1.0,size=n)
X= np.cbrt(U)
hist,bins = np.histogram(X,10)
print(hist)

[ 1  2  2  5  9  8 15 17 14 27]


### Ejercicio 7: Normalización de datos (z-score)

Ingeniería de features I

Normalización de datos:

- 1: Restar media
- 2: Dividir por desvío de los datos

In [51]:
# Debe recibir los datos organizados en columnas
def normalizar_datos(X):
    X = X-np.mean(X,axis=0)/np.std(X,axis=0)
    return(X)

In [54]:
X_norm = normalizar_datos(X)

### Ejercicio 8: Reducción de datos (en base al desvío)

PCA: Principal component Analisis (Reducción de la dimensión del dataset)

X es de nxn

- Paso 1: X-mean(X)
- Paso 2: Matriz de covarianza de la traspuesta --> np.cov(X^t)
- Paso 3: Calculamos autovalores y autovectores --> np.linalg.eig
- Paso 4: Ordenamos autovectores según autovalores descendente
- Paso 5: Proyectar el dataset sobre los autovalores más relevantes (d)
          PCA = (X-mean(X)) V[:,:d]


In [46]:
# Hacemos la PCA casera
def PCA_casera(X):
    # Paso 1
    X_mean = X-np.mean(X,axis=0) # Unicamente centrados, por eso no uso la f anterior
    # Paso 2
    X_cov = np.cov(np.transpose(X_mean)) # Vale X_mean.T
    # Paso 3
    w, v = np.linalg.eig(X_cov)
    # Paso 4
    id_ord = np.argsort(w)[::-1] # Lo último entre corchetes lo invierte
    mat_ord=v[id_ord]
    # w=w[idx]
    # v=v[:,idx]
    # Paso 5
    PCA = np.matmul(X_mean,v[:,:2])
    return(w,v)

In [55]:
x = np.array([ [0.4, 4800, 5.5], [0.7, 12104, 5.2], [1, 12500, 5.5], [1.5, 7002, 4.0] ])

w,v = PCA_casera(x)

print('Autovalores: {} \r\n Autovectores: {}'.format(w,v))

Autovalores: [1.44918704e+07 2.66533903e-02 6.61536528e-01] 
 Autovectores: [[ 1.45000829e-05 -8.36815592e-01  5.47484854e-01]
 [ 9.99999999e-01  4.04490748e-05  3.53403998e-05]
 [ 5.17186534e-05 -5.47484852e-01 -8.36815591e-01]]


In [71]:
# Ahora comparamos contra la función embebida de PCA
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

pca = PCA(n_components=3)
x_std = StandardScaler(with_std=False).fit_transform(x)
pca.fit_transform(x_std)

ModuleNotFoundError: No module named 'sklearn'

### Ejercicio 9: Remover NaNs (versión hardcore)

A lo guapo le sacamos filas y  columnas donde aparezcan NaNs

In [119]:
# Armamos el dataset con NaNs
dataset = np.array([ [0.4, 4800, np.nan], [0.7, 12104, 5.2], [np.nan, 12500, 5.5], [1.5, 7002, 4.0] ])
print(dataset)

[[4.0000e-01 4.8000e+03        nan]
 [7.0000e-01 1.2104e+04 5.2000e+00]
 [       nan 1.2500e+04 5.5000e+00]
 [1.5000e+00 7.0020e+03 4.0000e+00]]


In [101]:
# dim = 0: Elimina filas con NaNs
# dim = 1: Elimina columnas con NaNs
def nans_hard_removal(dataset,dim):
    nans_mask = np.isnan(dataset) # Armo una matriz lógica con NaNs
    inv_dim = 1-dim  # Invierto la dimensión por cómo está definido lo que hace la función
    nans_ids = np.any(nans_mask,axis=inv_dim) # Obtengo los índices por filas o columnas
    if inv_dim == 0:
        dataset = dataset[:,~nans_ids] # Indexo por el negado de nans_ids
    else:
        dataset = dataset[~nans_ids,:] # Indexo por el negado de nans_ids
    return dataset    

In [103]:
clean_dataset = nans_hard_removal(dataset,0)

print(clean_dataset)

[[7.0000e-01 1.2104e+04 5.2000e+00]
 [1.5000e+00 7.0020e+03 4.0000e+00]]


### Ejercicio 10: Remoción suave de NaNs (reemplaza por el promedo de la fila/columna) 

In [173]:
# dim = 0: Reemplaza NaNs con promedio de filas
# dim = 1: Reemplaza NaNs con promedio de columnas
def nans_soft_removal(data_set,dim):
    rows,cols = np.where(np.isnan(data_set)) # Verifico donde hay NaNs
    if dim==0:
        cols_ids=np.arange(dataset.shape[1])
        id_col = 0
        for row in rows:
            col = cols[id_col]
            data_set[row,col] = np.mean(data_set[row,cols_ids!=col])
            id_col = id_col+1
    else:
        rows_ids=np.arange(dataset.shape[0])
        id_row = 0
        for col in cols:
            row = rows[id_row]
            data_set[row,col] = np.mean(data_set[rows_ids!=row,col])
            id_row = id_row+1
    return data_set

In [176]:
dataset = np.array([ [0.4, 4800, np.nan], [0.7, 12104, 5.2], [np.nan, 12500, 5.5], [1.5, 7002, 4.0] ])

clean_dataset = nans_soft_removal(dataset,1)
print(clean_dataset)

# DUDA: Esto pisa el dataset. Tendría que hacer una copìa interna en la función para que no pase no?

[[4.00000000e-01 4.80000000e+03 4.90000000e+00]
 [7.00000000e-01 1.21040000e+04 5.20000000e+00]
 [8.66666667e-01 1.25000000e+04 5.50000000e+00]
 [1.50000000e+00 7.00200000e+03 4.00000000e+00]]


### Ejercicio 11: Training, Validation, Testing datasets

In [220]:
def split_datasets (orig_ds):
    n = orig_ds.shape[0]
    random_ids = np.random.permutation(n)
    idx_70 = np.uint(n*0.7)
    training_ds = orig_ds[random_ids[0:idx_70]]
    idx_90 = np.uint(n*0.9)
    validation_ds = orig_ds[random_ids[idx_70:idx_90]]
    testing_ds = orig_ds[random_ids[idx_90:n]]
    
    return (training_ds,validation_ds,testing_ds)

In [221]:
x = np.array([ [4, 8, 5], [7, 2, 2], [1, 5, 5], [5, 0, 4], [3, 2, 1], [1, 2, 3], [9, 7, 1], [3, 2, 1], [2, 7, 8], [33, 12, 1] ])
print(x)

training_ds, validation_ds, testing_ds = split_datasets(x)
print('training:{} \n validation:{} \n testing:{}'.format(training_ds,validation_ds,testing_ds))

[[ 4  8  5]
 [ 7  2  2]
 [ 1  5  5]
 [ 5  0  4]
 [ 3  2  1]
 [ 1  2  3]
 [ 9  7  1]
 [ 3  2  1]
 [ 2  7  8]
 [33 12  1]]
training:[[3 2 1]
 [7 2 2]
 [9 7 1]
 [3 2 1]
 [4 8 5]
 [2 7 8]
 [1 5 5]] 
 validation:[[33 12  1]
 [ 5  0  4]] 
 testing:[[1 2 3]]


### Ejercicio 12: Integrador Clases 1 y 2