# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**:

In [1]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [14]:
# Ya que se solicita la solución para cualquier matriz dada, procedo a escribir una función que resuelva el ejercicio:
def calculate_norms(matrix):
  l0 = np.sum(matrix, axis=1)
  l1 = np.sum(np.abs(matrix),axis=1)
  l2 = np.sqrt(np.sum(matrix**2,axis=1))
  linf = np.max(np.abs(matrix),axis=1)
  return l0, l1, l2, linf

# Test code
m = np.array([[-1, 2, 3],[4, -5,6],[7, 8,-9]])
l0, l1, l2, linf = calculate_norms(m)
print(f"{m}\nl0: {l0}, l1: {l1}\nl2: {l2}\nlinf: {linf}")

[[-1  2  3]
 [ 4 -5  6]
 [ 7  8 -9]]
l0: [4 5 6], l1: [ 6 15 24]
l2: [ 3.74165739  8.77496439 13.92838828]
linf: [3 6 9]


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)

Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [16]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

# Primero filtramos las distintas categorias y las contamos en variables:
TP = np.sum((truth==1) & (prediction == 1))
TN = np.sum((truth==0) & (prediction == 0))
FP = np.sum((truth==0) & (prediction == 1))
FN = np.sum((truth==1) & (prediction == 0))

# Calculamos las tres métricas
precision = TP/(TP+FP)
recall = TP/(TP+FN)
accuracy = (TP + TN)/(TP + TN + FP + FN)

# Mostramos resultados
print(f"TP: {TP}, TN: {TN}, FP: {FP}, FN: {FN}")
print(f"Precision: {TP}/({TP}+{FP})={precision}")
print(f"Recall: {TP}/({TP}+{FN}) = {recall}")
print(f"Accuracy: ({TP}+{TN})/{TP+TN+FP+FN} = {accuracy}")



TP: 3, TN: 1, FP: 3, FN: 3
Precision: 3/(3+3)=0.5
Recall: 3/(3+3) = 0.5
Accuracy: (3+1)/10 = 0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints:

* Usar Indexing y slicing
* Usar np.random.[...]

In [19]:
def split(X_input,
          Y_input,
          train_size=0.7,
          val_size=0.15,
          test_size=0.15,
          random_state=42,
          shuffle=True):

  # Chequeamos que las particiones deseadas den 1 en total:
  assert(train_size + val_size + test_size) == 1, "La suma de los porcentajes debe ser 1"

  if(shuffle):
    idx = np.random.permutation(len(X_input))
    X_input = X_input[idx]
    Y_input = Y_input[idx]

  # Nos quedamos con los tamaños de cada subset de datos (para luego usar en el slicing):
  train_size *= len(X_input)
  test_size *= len(X_input)

  #Usamos slicing para dividir los datos:
  X_train = X_input[:train_size]
  y_train = Y_input[:train_size]

  X_test = X_input[train_size:train_size + test_size]
  y_test = Y_input[train_size:train_size + test_size]

  X_val = X_input[train_size + test_size:]
  y_val = Y_input[train_size + test_size:]

  # Devolvemos todos los valores calculados
  return (X_train, Y_train, X_test, Y_test, X_val, Y_val)