# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**:

In [20]:
import numpy as np
import pandas as pd

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [12]:
matriz_numpy = np.random.randint(-10, 10, size=(4, 4))#creamos una matriz
matriz_numpy[0,0] = 0

print(matriz_numpy)

#l0: número de elementos diferentes a cero en el vector:
L0 = np.count_nonzero(matriz_numpy, axis = 1)
print("L0: ", L0)

#l1: suma de los valores absolutos de sus elementos:
L1 = np.sum(np.absolute(matriz_numpy), axis = 1)
print("L1: ", L1)

#l2: raíz cuadrada de la suma de los modulos al cuadrados de sus elementos:
L2 = np.sqrt(np.sum(np.absolute(matriz_numpy)**2, axis = 1))
print("L2: ", L2)

#l-infinito:  valor absoluto del elemento más grande en el vector:
L_infinito = np.max(np.absolute(matriz_numpy), axis = 1)
print("L-infinito: ", L_infinito)

[[  0  -9  -2  -8]
 [  5  -3   0  -1]
 [-10   1   1  -3]
 [  5   9  -9  -2]]
L0:  [3 3 4 4]
L1:  [19  9 15 25]
L2:  [12.20655562  5.91607978 10.53565375 13.82027496]
L-infinito:  [ 9  5 10  9]


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [46]:
truth = np.array(     [1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

In [47]:

#tenemos listas y necesitamos arrays:
truth_Array = np.array(truth)
prediction_Array = np.array(prediction)

#creamos un nuevo array a partir de truth_Array, pero solo con los valores que cumplan la condicion:
TP =  truth_Array[(truth_Array == 1) & (truth_Array == prediction_Array)]
#lo mismo que arriba, pero como ,lo hacemos a partir de truth_Array = 0, vamos a crear un nuevo array lleno de 1 donde se cumpla la condicion:
TN = np.full(len(truth_Array[(truth_Array == 0) & (truth_Array == prediction_Array)]), 1)
FN = truth_Array[(truth_Array == 1) & (prediction_Array == 0)]
FP = np.full(len(truth_Array[(truth_Array == 0) & (prediction_Array == 1)]), 1)
print("TP: ", TP)
print("FP: ", FP)
print("TN: ", TN)
print("FN: ", FN)

Precision = TP.sum()/(TP.sum() + FP.sum())
print("Precision: ", Precision)
Recall = TP.sum()/(TP.sum() + FN.sum())
print("Recall: ", Recall)
Accuracy = (TP.sum() + TN.sum())/(TP.sum() + TN.sum() + FP.sum() + FN.sum())
print("Accuracy: ", Accuracy)

TP:  [1 1 1]
FP:  [1 1 1]
TN:  [1]
FN:  [1 1 1]
Precision:  0.5
Recall:  0.5
Accuracy:  0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [44]:
from utils.data_generation import generate_dataset

def split(X_input,Y_input,train_size=0.7,val_size=0.15,test_size=0.15,random_state=42,shuffle=True):
    

    #si no juntamos x e y al dividir vectores de x no corresponderan a valores de y.
    #juntamos x e y, y lo hacemos en numpy para ya tenerlo listo para operaciones vectorizadas:
    datos_combinados = np.column_stack((X_input, Y_input))

    #mezclamos los datos:
    #shuffle baraja la matriz a lo largo del primer eje de una matriz multidimensional, o sea, por ej, pone la fila 1 en la 100 y la 100 en la 23, o como sea que toque, no cambia las columnas de lugar.
    if shuffle == True:
        np.random.shuffle(datos_combinados)


    #calculamos el numero total de filas porque vamos a separar los 3 subsets en filas:
    filas = len(datos_combinados)

    #subdividimos los datasets:
    train_data = datos_combinados[:int(train_size*filas), :]
    #print(int(train_size*total_Datos))
    val_data = datos_combinados[int(train_size*filas):int(train_size*filas)+int(val_size*filas), :]
    #print(int(val_size*total_Datos))
    test_data = datos_combinados[int(train_size*filas)+int(val_size*filas):, :]

    #necesitaremos saber cuantas columnas tiene el array para dividir en X e Y:
    columnas = datos_combinados.shape[1]
    #print("cantidad de columnas: ", columnas)

    # Separamos de nuevo X e Y
    #ultimo indice es columnas - 1
    X_train = train_data[:, :columnas - 1]
    Y_train = train_data[:, columnas - 1]
    X_val = val_data[:, :columnas - 1]
    Y_val = val_data[:, columnas - 1]
    X_test = test_data[:, :columnas - 1]
    Y_test =test_data[:, columnas - 1]


    return X_train, X_val, X_test, Y_train, Y_val, Y_test


dataset = generate_dataset()
Y = dataset.target
X = dataset.drop(['target'], axis = 1) 

X_train, X_val, X_test, Y_train, Y_val, Y_test = split(X, Y)
