# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**: Joel Spak

In [1]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [7]:
matriz = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12],
                   [13, 14, 15, 16]])

n_l0 = np.count_nonzero(matriz)
print("Norma L0:", n_l0)

n_l1 = np.sum(np.abs(matriz))
print("Norma L1:", n_l1)

n_l2 = np.linalg.norm(matriz)
print("Norma L2:", n_l2)

n_linf = np.max(np.abs(matriz))
print("Norma L∞:", n_linf)

Norma L0: 16
Norma L1: 136
Norma L2: 38.67815921162743
Norma L∞: 16


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [8]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

tp = np.sum((truth == 1) & (prediction == 1))
tn = np.sum((truth == 0) & (prediction == 0))
fp = np.sum((truth == 0) & (prediction == 1))
fn = np.sum((truth == 1) & (prediction == 0))

precision = tp/(tp+fp)
recall = tp/(tp+fn)
accuracy=(tp+fn)/(tp+tn+fp+fn)

print("Precisión:", precision)
print("Recall:", recall)
print("Accuracy:", accuracy)

Precisión: 0.5
Recall: 0.5
Accuracy: 0.6


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [13]:
def split(X_input,
          Y_input,
          train_size=0.7,
          val_size=0.15,
          test_size=0.15,
          random_state=42,
          shuffle=True):
      
      # chequeo que sumen 1 los sizes
      if train_size + val_size + test_size != 1.0:
        raise ValueError("Las proporciones de división deben sumar 1.0")
    
      largo_total = X_input.shape[0]
    
      if shuffle:
            np.random.seed(random_state)
            indices = np.random.permutation(largo_total)
      else:
            indices = np.arange(largo_total)
      
      train_end = int(train_size * largo_total)
      val_end = train_end + int(val_size * largo_total)
      
      X_train = X_input[indices[:train_end]]
      Y_train = Y_input[indices[:train_end]]
      
      X_val = X_input[indices[train_end:val_end]]
      Y_val = Y_input[indices[train_end:val_end]]
      
      X_test = X_input[indices[val_end:]]
      Y_test = Y_input[indices[val_end:]]
      
      return X_train, Y_train, X_val, Y_val, X_test, Y_test


X=np.array([1,2,3,4,5,6,7,8,9,10])
y=np.array([7,8,9,10,11,12,13,14,15,16])

split(X,y,0.8,0.1,0.1,shuffle=False)

(array([1, 2, 3, 4, 5, 6, 7, 8]),
 array([ 7,  8,  9, 10, 11, 12, 13, 14]),
 array([9]),
 array([15]),
 array([10]),
 array([16]))

In [14]:
split(X,y,0.8,0.1,0.1,shuffle=True)

(array([ 9,  2,  6,  1,  8,  3, 10,  5]),
 array([15,  8, 12,  7, 14,  9, 16, 11]),
 array([4]),
 array([10]),
 array([7]),
 array([13]))