# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**:Tatiana Arenas Suárez

In [15]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [16]:
def normasVectores(p,a):

  if p == 0:
    L = np.count_nonzero(a)
  elif p != 0:   
    L = (np.sum((np.absolute(a))**p))**(1/p)
  else:
    L = np.max(np.absolute(a))
  return print(p, L)

In [17]:
A = np.array([[-2,-4,2],[-2,1,2],[4,2,5]])

In [18]:
normas_A = np.apply_along_axis(lambda x: normasVectores(14,A),1,A)

14 5.030204283689044
14 5.030204283689044
14 5.030204283689044


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [19]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

# Calculemos las 4 variables
TP = np.sum((truth == 1) & (prediction == 1))
TN = np.sum((truth == 0) & (prediction == 0))
FP = np.sum((truth == 0) & (prediction == 1))
FN = np.sum((truth == 1) & (prediction == 0))

# Calculemos las métricas
precision = TP / (TP + FP)
recall = TP / (TP + FN)
accuracy = (TP + TN) / (TP + TN +FP +FN)

print("La precisión del modelo es :", precision)
print("El recall del modelo es:", recall)
print("El accuracy del modelo es:", accuracy)


La precisión del modelo es : 0.5
El recall del modelo es: 0.5
El accuracy del modelo es: 0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [20]:
def split(X_input,
          Y_input,
          train_size=0.7,
          val_size=0.15,
          test_size=0.15,
          random_state=42,
          shuffle=True):
    
    if random_state is not None:
        np.random.seed(random_state)

    if shuffle:
        # Combinamos los datos
        data = np.column_stack((X_input, Y_input))
        
        # Calculamos el número de parejas (X,Y)
        total_rows = data.shape[0]
        
        # Re-ordenamos las parejas de manera aleatoria
        np.random.shuffle(data)
        
        # Calculamos el tamaño de cada conjunto en función de los porcentajes
        train_num = int(total_rows * train_size)
        val_num = int(total_rows * val_size)
        
        # Dividimos los datos en 3 conjuntos: train, validation, test
        X_train, Y_train = data[:train_num, :-1], data[:train_num, -1]
        X_val, Y_val = data[train_num:(train_num + val_num), :-1], data[train_num:(train_num + val_num), -1]
        X_test, Y_test = data[(train_num + val_num):, :-1], data[(train_num + val_num):, -1]

    else:
        # Dividamos los datos en conjuntos sin aleatoriedad
        X_train = X_input[:int(len(X_input) * train_size)]
        Y_train = Y_input[:int(len(Y_input) * train_size)]
        X_val = X_input[int(len(X_input) * train_size):int(len(X_input) * (train_size + val_size))]
        Y_val = Y_input[int(len(Y_input) * train_size):int(len(Y_input) * (train_size + val_size))]
        X_test = X_input[int(len(X_input) * (train_size + val_size)):]
        Y_test = Y_input[int(len(Y_input) * (train_size + val_size)):]
    
    #return NotImplementedError
    return X_train, Y_train, X_val, Y_val, X_test, Y_test

In [21]:
X = np.array([1,2,3,4,5,6,7,8,9,10])
Y = np.array([2,4,6,8,10,12,14,16,18,20])

split(X,
          Y,
          train_size=0.7,
          val_size=0.15,
          test_size=0.15,
          random_state=42,
          shuffle=False)

(array([1, 2, 3, 4, 5, 6, 7]),
 array([ 2,  4,  6,  8, 10, 12, 14]),
 array([8]),
 array([16]),
 array([ 9, 10]),
 array([18, 20]))